Skip to content

Commit

Permalink
docs: 15.6 TD误差/多巴胺对应
Browse files Browse the repository at this point in the history
  • Loading branch information
qiwihui committed Dec 29, 2019
1 parent fd1f919 commit fdb02bc
Show file tree
Hide file tree
Showing 2 changed files with 137 additions and 0 deletions.
Binary file added source/partIII/chapter15/images/figure-15.4.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
137 changes: 137 additions & 0 deletions source/partIII/chapter15/neuroscience.rst
Original file line number Diff line number Diff line change
Expand Up @@ -356,3 +356,140 @@ Schultz的小组进行了许多涉及SNpc和VT多巴胺神经元的其他研究
Science, vol. 275, issue 5306, pages 1593-1598, March 14, 1997.
经AAAS许可转载。


15.6 TD误差/多巴胺对应
----------------------------

这一节解释TD误差 :math:`\delta` 与实验中观察到的多巴胺神经元的相位反应之间的联系。
我们观察在学习的过程中如何变化,如上文中提到的任务一样,一只猴子首先看到指令提示,
然后在一个固定的时间之后必须正确地响应一个触发提示以获得收益。
我们采用种这个任务的简化理想版本,但是我们会更深入地研究细节,
因为我们想要强调TD误差与多巴胺神经元活动对应关系的理论基础。

第一个最基本的简化假设是智能体已经学习了获得收益的动作。接下来它的任务就是根据它经历的状态序列学习对于未来收益的准确预测。
这就是一个预测任务了,或者从更技术化的角度描述,是一个策略评估任务:针对一个固定的策略学习价值函数(4.1节和6.1节)。
要学习的价值函数对每一个状态分配一个值,这个值预测了如果智能体根据给定的策略选择动作则接下来状态的回报值,
这个回报值是所有未来收益的(可能是带折扣的)总和。
这对于猴子的情境来说是不实际的因为猴子很可能在学习正确行动的同时学习到了这些预测
(就像强化学习算法同时学习策略和价值函数,例如“行动器-评判器”算法),但是这个情境相比同时学习策略和价值函数更易于描述。

现在试想智能体的经验可以被分为多个试验,在每个试验中相同的状态序列重复出现,但在每个时刻的状态都不相同。
进一步设想被预测的收益仅限于一次试验,这使我们的每次试验类似于强化学习的一幕,正如我们之前所定义的。
在现实中,被预测的回报值不仅限于单个试验,且两个试验之间的时间间隔是决定动物学习到什么的重要影响因素。
这对于时序差分学习来说同样是真实的,但是在这里我们假设回报值不会随着多个试验逐渐积累。
在这种情况下,如 Schultz和他的同事们做的,一次实验中的一个试验等价于强化学习的一幕
(尽管在这个讨论中,我们用术语“试验”而不是“幕”来更好地与实验相联系)。

通常,我们同样需要对状态怎样被表示为学习算法的输入做出假设,这是一个影响TD误差与多巴胺神经元的活动联系有多紧密的假设。
我们稍后讨论这个问题,但是我们现在假设与 Montague相同的CSC表示,在实验中的每一个时刻,访问过的每一个状态都有一个单独的内部刺激。
这使得整个过程被简化到本书第I部分讨论的表格型的情况。
最终,我们假设智能体使用TD(0)来学习一个价值函数 :math:`V`,将其存储在一个所有状态初始值为零的查询表中。
我们同样假设这是一个确定的任务且折扣因子 :math:`\gamma` 非常接近于1,以至于我们可以忽略它。

图15.4展示了在这个策略评估任务中几个学习阶段中的 :math:`R`、:math:`V` 和 :math:`\delta` 的时间过程。
时间轴表示在一个试验中一系列状态被访问的时间区间(为了表达清楚,我们没有展示单独状态)。
除了在智能体到达收益状态外收益信号在整个试验中始终为零,如图中时间线右末端所示,收益信号成为一个正数,如 :math:`R^{\star}`。
时序差分学习的目标是预测在试验中访问过的每一个状态的回报值,
在没有折扣的情况下并且假设预测值被限制为针对单独试验,对于每个状态就是 :math:`R^{\star}`。

.. figure:: images/figure-15.4.png

**图15.4** 时序差分学习中的TD误差 :math:`\delta` 的表现与多巴胺神经元相位活动特征完全一致。
(这里的TD误差 :math:`\delta` 指的是 :math:`t` 时刻的误差::math:`\delta_{t-1}`)。
一个状态序列,通常情况下表示预测线索到收益之间的间隔,后面是非零收益R学习早期:初始化价值函数V和δ,一开始初始化为 :math:`R^{\star}`。
学习完成:价值函数精确地预测未来收益,在早期的预测状态,:math:`\delta` 是正值,在非零收益时 :math:`\delta=0`。
省略 :math:`R`:当省略预测收益时,:math:`\delta` 是负值。文中有这一现象的完整解释。

在得到真实收益的每个状态之前是一系列的收益预测状态,*最早收益预测状态* 被展示在时间线的最左端。
这个状态就像是接近试验开始时的状态,例如在上文中描述的 Schultz的猴子实验中的指令线索状态。
这是在试验中可以用来可靠预测试验收益的首个状态(当然,在现实中,在先前试验中访问过的状态可能是更早的收益预测状态,但是我们限制预测针地单独的试验,它们不能作为这个试验的收益的预测。
在下面我们给出一个更加令人满意的,尽管更抽象的,对于最早收益预测状态的描述)。
一个试验中的 *最近收益预测状态* 是指试验中收益状态的前一个状态。这个状态被表示为图15.4中时间线上最右端的状态。
注意一个试验的收益状态不能预测该试验的回报值:这个状态的值将被用来预测接下来所有试验的累积回报值,在当前分幕式的框架里我们假设这个回报值是零。

图15.4展示了 :math:`V` 和 :math:`\delta` 的首次试验的时间过程,在图中被标记为“学习早期”。
因为除了到达收益状态时的收益以外,试验中的所有信号都是零,且所有 :math:`V` 值都是零,
TD误差在它在收益状态变为 :math:`R^{\star}` 前都是零。
这个结果是由于 :math:`\delta_{t-1}=R_{t}+V_{t}-V_{t-1}=R_{t}+0-0=R_{t}`,
这个值在获得收益变为 :math:`R^{\star}` 前都是零。
在这里 :math:`V_t` 和 :math:`V_{t-1}`是在试验中时刻 :math:`t` 和 :math:`t-1` 访问状态的预测价值。
在这个学习阶段中的TD误差与多巴胺神经元对一个不可预知的收益的响应类似,例如在训练起始时的一滴苹果汁。

在首个试验和所有接下来的试验中,TD(0)更新发生在第6章中描述的每次状态转移中。
这样会随着收益状态的价值更新的反向传递,不断地增加收益预测状态的价值,直到收到正确的回报预测。
在这种情况下(假设没有折扣),正确的预测值对于所有收益预测状态都等于 :math:`R^{\star}`。
这可以在图15.4看出,在V的标有“学习完成”的图中,从最早到最晚的收益预测状态的价值都等于 :math:`R^{\star}`。
在最早收益预测状态前的状态的价值都很小(在图15.4中显示为0),因为它们不是收益的可靠预测者。

当学习完成时,也即当V达到正确的值时,因为预测现在是准确的,所以从任意收益预测状态出发的转移所关联的TD误差都是零,
这是因为对一个从收益预测状态到另一个收益预测状态的转移来说,
我们有 :math:`\delta_{t-1}=R_{t}+V_{t}-V_{t-1}=0+R^{\star}-R^{\star}=0`。
且对于最新的收益预测状态到收益状态来说,
我们有 :math:`\delta_{t-1}=R_{t}+V_{t}-V_{t-1}=R^{\star}+0-R^{\star}=0`。
在另一方面,从任意状态到最早收益预测状态转移的TD误差都是正的,这是由这个状态的低值与接下来收益预测状态的高值的不匹配造成的。
实际上,如果在最早收益预测状态前的状态价值为零,则在转移到最早收益预测状态后,
我们有 :math:`\delta_{t-1}=R_{t}+V_{t}-V_{t-1}=0+R^{\star}-0=R^{\star}`。
图15.4中的的“学习完成”图在最早收益预测状态为正值,在其他地方为零。

转移到最早收益预测状态时的正的TD误差类似于多巴胺对最早刺激的持续性反应,用以预测收益。
同样道理,当学习完成时,从最新的收益预测状态到收益状态的转移产生一个值为零的TD误差,因为最新收益预测状态的值是正确的,抵销了收益。
这与相比一个不可预测的收益,对一个完全可预测的收益,更少的多巴胺神经元产生相位响应的观察是相符的。

在学习后,如果收益突然被取消了,那么TD误差在收益的通常时间都是负的,
因为最新收益预测状态的值太大了::math:`\delta_{t-1}=R_{t}+V_{t}-V_{t-1}=0+0-R^{\star}=-R^{\star}`,
正如图15.4中所示的标有“省略 :math:`R`”的 :math:`\delta` 图所示。
这就像在 Schultz et al.(1993)实验和图15.3中的多巴胺神经元行为,其在一个预测的收益被取消时会降低到基线以下。

需要更多地注意 *最早收益预测状态* 的概念。
在上文所提到的情境中,由于整个实验经历是被分为多次试验的,且我们假设预测被限制于单次试验,则最早收益预测状态总是试验中的第一个状态。
明显这不符合真实情况。一种考虑最早收益预测状态的更一般的方式是,认为它是一个不可预知的收益预估器,且可能有非常多这样的状态。
在动物的生活中,很多不同的状态都在最早收益预测状态之前。
然而,由于这些状态通常跟随着不能预测收益的其他状态,因此它们的收益的预测力,也就是说,它们的值,很低。
一个TD算法,如果在动物的一生中始终运行,也会更新这些状态的价值,但是这些更新并不会一直累积,
因为根据假设,这些状态中没有一个能保证出现在最早收益预测状态之前。
如果它们中的任意一个能够保证,它们也会是收益预测状态。
这也许解释了为什么经过过度训练,在试验中多巴胺的反应甚至降低到了最早的收益预测刺激水平。
经过过度训练,可以预料,就算是以前不能预测的状态都会被某些与更早的状态联系起来的刺激预测出来:
在实验任务的内部和外部,动物与环境的相互作用将变成平常的、完全可预测的事情。
但是,当我们通过引入新的任务来打破这个常规时我们会观察到TD误差重新出现了,正如在多巴胺神经元活动中观察到的那样。

上面描述的例子解释了为什么当动物学习与我们例子中的理想化的任务类似的任务时,TD误差与多巴胺神经元的相位活动有着共同的关键特征。
但是并非多巴胺神经元的相位活动的所有性质都能与 :math:`\delta` 的性质完美对应起来。
最令人不安的一个差异是,当收益比预期提前发生时会发生什么。
我们观察到一个预期收益的省略会在收益预期的时间产生一个负的预测误差,这与多巴胺神经元降至基线以下相对应。
如果收益在预期之后到达它就是非预期收益并产生一个正的预测误差。这在TD误差和多巴胺神经元反应中同时发生。
但是如果收益提前于预期发生,则多巴胺神经元与TD误差的反应不同──至少在 Montague et al.(1996)使用的CSC表示与我们的例子中不同。
多巴胺神经元会对提前的收益进行反应,反应与正的TD误差一致,因为收益没有被预测会在那时发生。
然而,在后面预期收益出现却没有出现的时刻,TD误差将为负,
但多巴胺神经元的反应却并没有像负的TD误差的那样降到基线以下(Hollerman和 Schultz,198)。
在动物的大脑中发生了相比于简单的用CSC表示的TD学习更加复杂的事情。

一些TD误差与多巴胺神经元行为的不匹配可以通过选择对时序差分算法合适的参数并利用除CSC表示外的其他刺激表示来解决。
例如,为了解决刚才提到的提前收益不匹配的问题,Suri和 Schultz(199)提出了一种CSC的表示,
在这种表示中由较早刺激产生的内部信号序列被出现的收益取消。
另一个由Daw、 Courville Touretzky(2006)提出的解决方法
是大脑的TD系统使用在感觉皮层进行的统计建模所产生的表示,而不是基于原始感官输入的简单表示。
Ludvig、 Sutton和 Kehoe2008)发现采用微刺激表示的TD学习比CSC表示更能在收益早期和其他情形下模拟多巴胺神经元的行为(见图14.1)。
Pan、 Schmidt、 Wickens和 Hyland(205)发现即使使用CSC表示,
延迟的资格迹可以改善TD误差与多巴胺神经元活动的某些方面的匹配情况。
一般来说,TD误差的许多行为细节取决于资格迹、折扣和刺激表示之间微妙的相互作用。
这些发现在不否定多巴胺神经元的相位行为被TD误差信号很好地表征的核心结论下细化了收益预测误差在另一方面,
在TD理论和实验数据之间有一些不能通过选择参数和刺激表示轻易假说。

在另一方面,在TD理论和实验数据之间有一些不能通过选择参数和刺激表示轻易解决的差异
(我们将在章末参考文献和历史评注的部分介绍某些差异),随着神经科学家进行更多细化的实验,更多的差异会被发现。
但是收益预测误差假说作为提升我们对于大脑收益系统理解的催化剂已经表现得非常有效。
人们设计了复杂的实验来证明或否定通过假设获得的预测,实验的结果也反过来优化并细化了TD误差/多巴胺假设。

一个明显的发展方向是,与多巴胺系统的性质如此契合的强化学习算法和理论完全是从一个计算的视角开发的,
没有考虑到任何多巴胺神经元的相关信息──注意,TD学习和它与最优化控制及动态规划的联系
是在任何揭示类似TD的多巴胺神经元行为本质的实验进行前很多年提出的。
这些意外的对应关系,尽管还并不完美,却也说明了TD误差和多巴胺的相似之处抓住了大脑收益过程的某些关键环节。

除了解释了多巴胺神经元相位行为的很多特征外,收益预测误差假说将神经科学与强化学习的其他方面联系起来,
特别地,与采用TD误差作为强化信号的学习算法联系起来。
神经科学仍然距离完全理解神经回路、分子机制和多巴胺神经元的相位活动的功能十分遥远,
但是支持收益预测误差假说的证据和支持多巴胺相位反应是用于学习强化信号的证据,
暗示了大脑可能实施类似的“行动器-评判器”算法,在其中TD误差起着至关重要的作用。
其他的强化学习算法也是可行的候选,但是“行动器-评判器”算法特别符合哺乳动物的大脑解剖学和生理学,我们在下面两节中进行阐述。

0 comments on commit fdb02bc

Please sign in to comment.