不孕不育检查

首页 » 常识 » 常识 » 深度学习资讯选择性注意力在强化学习中的应
TUhjnbcbe - 2023/6/15 21:47:00
规范化治疗白癜风 http://m.39.net/disease/a_6195089.html

非注意盲视(InattentionalBlindness)是一种心理现象:在人们聚焦于某项任务时,他们会忽视与之无关的细节,这就是选择性注意力(SelectiveAttention)的结果。

这种选择性注意力使人能够专注于外界的重要信息,而不会分心于无关紧要的细节。人们相信,这种选择性注意力机制使人能够将广泛的感官信息浓缩为一种足够简洁的形式,用于未来的决策。

尽管这看似是一种局限性,但对于希望模仿生物有机体的成功和效率的机器学习系统而言,在自然界中观察到的这种“瓶颈”往往能为设计带来启发。例如,虽然深度强化学习(RL)文献中提出的大多数方法均允许智能体(Agent)访问整个视觉输入,甚至包括用于预测视觉输入未来序列的模块,但是否能通过注意力约束减少智能体对视觉输入的访问,提升智能体的性能?

在我们最近发布的GECCO论文“可自解释智能体的神经进化”(AttentionAgent)中,我们研究了含有自注意力Bottleneck的智能体的特性。研究结果表明,与传统方法相比,这些模型不仅能够用传统模型千分之一的参数量,基于像素级别的输入,来解决具有挑战性的视觉任务,而且得益于其可以“忽略混淆性细节”的能力,在面对未见过的任务修改时,模型的泛化能力也更加出色。

此外,通过观察智能体的注意力集中在哪些方面,也为决策的产生过程提供了视觉上的可解释性。

具有人工注意力的智能体

尽管有一些工作探讨了稀疏性等约束在实际塑造强化学习智能体的能力中所发挥的作用,但AttentionAgent另辟蹊径,从与非注意盲视有关的概念中汲取灵感,即当大脑参与需要付出努力的任务时,它的大部分注意力仅集中在与任务相关的元素上,暂时对其他信号视而不见。

为了实现这一点,我们将输入图像分割成几个区块,然后依靠修改后的自注意力架构来模拟区块之间的投票,从而选出一个被认为重要的子集。在每个时间步中选择相关的区块,并且一旦确定,AttentionAgent便仅基于这些区块进行决策,而忽略其余区块。

除了从视觉输入中提取关键因素之外,能够在这些因素随时间变化时将它们进行关联也同样至关重要。例如,棒球比赛中的击球手必须利用视觉信号来连续跟踪棒球的位置,以预测能够击打到球的位置。AttentionAgent则会利用长短期记忆(LSTM)模型,从重要的区块中截取信息,并在每个时间步生成一个操作。LSTM会跟踪输入序列的变化,因此可以利用这些信息来跟踪关键因素随时间的演变情况。

通常采用反向传播来优化神经网络。然而,由于AttentionAgent包含用于生成重要区块的不可微的运算(例如排序和切片),因此将此类技术应用于训练并非易事。因此,我们转而采用无导数优化算法来克服这个困难。

我们的方法概述以及AttentionAgent中的数据处理流程说明。上排:输入转换-滑动窗口将输入图像分割成较小的区块,然后将其“展平”以备将来处理。中间:区块选举-修改后的自注意力模块在区块之间进行投票,以生成区块重要性向量。下排:动作生成-AttentionAgent挑选最重要的区块,提取相应的特征,并根据它们做出决策。

泛化到未见过的环境修改

我们证明AttentionAgent学会了

1
查看完整版本: 深度学习资讯选择性注意力在强化学习中的应