Skip to content

Commit

Permalink
docs: 15.9 享乐主义神经元
Browse files Browse the repository at this point in the history
  • Loading branch information
qiwihui committed Dec 30, 2019
1 parent 97b0b62 commit b609941
Showing 1 changed file with 50 additions and 0 deletions.
50 changes: 50 additions & 0 deletions source/partIII/chapter15/neuroscience.rst
Original file line number Diff line number Diff line change
Expand Up @@ -728,3 +728,53 @@ STDP的发现引导神经科学家去研究一种可能的STDP的三因素形式
但是STDP的发现和越来越多的基于收益调制的STDP的证据说明 Klopf的想法并不太离谱。
我们接下来将讨论 Klopf的享乐主义神经元假说。


15.9 享乐主义神经元
-----------------------

在享乐主义神经元假说中,Klopf(1972,192)猜测,每一个独立的神经元会寻求将作为奖励的突触输入与作为惩罚的突触输入之间的差异最大化,
这种最大化是通过调整它们的突触功效来实现的,调整过程基于它们自己的动作电位所产生的奖励或惩罚的结果。
换言之,如同可以训练动物来完成工具性条件反射任务一样,单个神经元用基于条件性反应的强化信号来训练。
他的假说包括这样的思想:奖励或者惩罚通过相同的突触被输入到神经元,并且会激发或者抑制神经元的尖峰产生活动
(如果 Klopf知道我们今天对神经调节系统的了解,他可能会将强化作用分配给神经调节输入,但是他尝试避免任何中心化的训练信息来源)。
过去的突触前与突触后活动的突触局部迹在 Klopf的假说中,是决定突触是否 *具备资格* (就是他引入的“资格”一词)可以对之后的奖励或者惩罚进行修改的关键。
他猜测,这些迹是由每个突触局部的分子机制实现的,因而与突触前与突触后神经元的电生理活动是不同的。
在本章后面的参考文献和历史评注部分我们给出了一些其他人的 Klopf推断突触功效通过如下的方式变化:当一个神经元发射出一个动作电位时,它类似的想法。

Klopf推断突触功效通过如下的方式变化:当一个神经元发射出一个动作电位时,
它的所有促进这个动作电位的突触会变得有资格来经历其功效的变化。
如果一个动作电位在奖励值提升的一个适当的时间内被触发,那么所有 *有资格* 的突触的功效都会提升。
对应地,如果一个动作电位在惩罚值提升的一个适当时间内被触发,那么所有有资格的突触功效都会下降。
这是通过在突触那里触发资格迹来实现的,这种触发只在突触前与突触后的活动碰巧一致的时候才会发生
(或者更确切地说,是在突触前活动和该突触前活动所参与引发的突触后活动同时出现的时候才会发生)。
这实际上就是我们在前一节描述的行动器单元的三因素学习规则。

Klopf理论中资格迹的形状与时间因素反映了神经元所处的许多反馈回路的持续时间,
其中的一些完全位于机体的大脑和身体内,而另一些则通过运动与感知系统延伸到机体外部的环境中。
他的想法是资格迹的形状是神经元所处的反馈回路的持续时间的直方图。
资格迹的高峰会出现在神经元参与的最常见的反馈回路发生的持续时间内本书中的算法使用的资格迹是 Klopf原始想法的一个简化版本,
通过由参数 :math:`\lambda` 和 :math:`\gamma` 控制的指数(或者说几何)下降的函数实现。
这简化了仿真模拟与理论,但是我们认为这些简单的资格迹是 Klopf原始的迹概念的一个代替,
后者在完善功劳分配过程的复杂强化学习系统中可能拥有计算优势。

Klopf的享乐主义神经元假说并不像它最初出现时那样,似乎不合情理。
*大肠杆菌* 是一个已经被充分研究的单细胞的例子,它会寻求某些特定刺激但同时避免其他刺激。
这个单细胞机体的移动动作会受到其环境的化学刺激的影响,这种行为被称为趋化性。
它通过附着于表面的称为鞭毛的毛状结构的旋转在液体环境中游泳(是的,它旋转它们)。
细菌环境中的分子会与其表面上的受体结合。结合事件调节细菌逆转鞭毛旋转的概率。
每一次逆转会使得细菌进行翻滚并朝向一个随机的新方向。
一点点的化学记忆与计算使得鞭毛逆转的频率在细菌游向高浓度的、它需要的分子(引诱剂)时会减少,在游向高浓度的、对它有害的分子(驱逐剂)时会增加。
结果便是细菌趋向于游向引诱剂且排斥游向驱逐剂。

刚刚描述的趋化行为被称为调转运动。这是一种试错行为,尽管可能这并不涉及学习:
细菌需要一点点短期记忆来检测分子浓度的梯度,但是很有可能是它并不保有长期记忆。
人工智能先驱奥利弗·塞尔弗里奇称这个策略为“跑动与旋转”,指出其实用的基本的适应性策略:
“如果事情变好则保持同样的方式,否则四处游走”(Selfridge,1978,1984)。
同样,可以想象一个神经元在其嵌入的反馈回路的复杂集合组成的媒介中“游泳”(当然不是字面意思),尝试获取一种输入信号并避免其他的。
然而,与细菌不同,神经元的突触强度保持了之前试错行为的信息。如果这种对神经元(或是一类神经元)的看法是可信的,
那么这个神经元与环境交互的整个闭环性质对于理解其行为是十分重要的,其中神经元的环境由其余的动物以及所交互的环境组成。

Klopf的享乐主义神经元假说超出了单个神经元是强化学习智能体的观点。
他认为智能的许多方面可以被理解为是具有自私享乐主义的神经元群体的集体行为的结果,
这些神经元在构成动物神经系统的巨大的社会和经济系中相互作用。
无论这个观点对神经系统是否有用,强化学习智能体的集体行为对神经科学是有影响的。接下来我们讨论这个问题。

0 comments on commit b609941

Please sign in to comment.