Skip to content

Commit

Permalink
docs: 第12章 资格迹 简介
Browse files Browse the repository at this point in the history
  • Loading branch information
qiwihui committed Jun 20, 2019
1 parent b0ff77e commit 65f631a
Showing 1 changed file with 36 additions and 0 deletions.
36 changes: 36 additions & 0 deletions source/partII/chapter12/eligibility_traces.rst
Original file line number Diff line number Diff line change
@@ -1,2 +1,38 @@
第12章 资格迹(Eligibility Traces)
=========================================

资格迹是强化学习的基本机制之一。例如,在流行的TD(:math:`\lambda`)算法中,:math:`\lambda` 指的是使用资格迹。
几乎任何时序差分(TD)方法,例如Q-learning或Sarsa,都可以与资格迹相结合,以获得可以更有效地学习的更通用的方法。

资格迹统一并泛化了TD和蒙特卡罗方法。当TD方法用资格迹进行增强时,它们会产生一系列方法,
这些方法跨越一端具有蒙特卡罗方法(:math:`\lambda=1`)的光谱,而另一端(:math:`\lambda=0`)具有一步法TD方法。
介于两者之间的中间方法通常比任何一种极端方法都要好。
资格迹还提供了一种在线实施蒙特卡罗方法以及在没有事件的情况下继续解决问题的方法。

当然,我们已经看到了统一TD和蒙特卡罗方法的一种方法:第7章的n步TD方法。
除此之外的资格迹提供了一种优雅的算法机制,具有显着的计算优势。
该机制是短期记忆向量,*资格迹* :math:`\mathbf{z}_{t} \in \mathbb{R}^{d}`,
其与长期权重向量 :math:`\mathbf{w}_{t} \in \mathbb{R}^{d}` 平行。
粗略的想法是,当 :math:`\mathbf{w}_{t}` 的一个分量参与产生估计值时,
:math:`\mathbf{z}_{t}` 的相应分量被提升然后开始逐渐消失。
如果在迹线回落到零之前发生非零TD误差,则将在 :math:`\mathbf{w}_{t}` 的该分量中进行学习。
迹线衰减参数 :math:`\lambda \in[0,1]` 确定迹线下降的速率。

与n步方法相比,资格迹的主要计算优势是仅需要单个迹线向量而不是最后n个特征向量的存储。
学习也会在时间内不断和均匀地发生,而不是被延迟,然后在回合结束时赶上。
此外,学习可以发生并且在遇到状态之后立即影响行为而不是延迟n步。

资格迹说明学习算法有时可以以不同的方式实现以获得计算优势。
许多算法最自然地被公式化并理解为基于在多个未来时间步骤之后遵循该状态的事件的状态值的更新。
例如,蒙特卡罗方法(第5章)基于所有未来奖励更新状态,n步TD方法(第7章)基于未来的n个奖励和状态n步骤进行更新。
基于对更新状态的期待,这些表述被称为 *前向视图*。前向视图实现起来总是有点复杂,因为更新取决于当时不可用的后续内容。
但是,正如我们在本章中所示,通常可以使用当前TD误差的算法实现几乎相同的更新(有时 *完全* 相同的更新),
使用资格迹向后查看最近访问的状态。这些查看和实现学习算法的替代方法称为 *后向视图*。
向后视图,前向视图和向后视图之间的转换以及它们之间的等同性,可以追溯到时序差分学习的引入,但自2014年以来变得更加强大和复杂。
在这里,我们展示了现代视图的基础知识。

像往常一样,首先我们充分发展状态值和预测的想法,然后将它们扩展到行动价值和控制。
我们首先为在策略案例开发它们,然后将它们扩展到离策略学习。
我们的处理特别关注线性函数近似的情况,其中具有资格迹的结果更强。
所有这些结果也适用于表格和状态聚合情况,因为这些是线性函数近似的特殊情况。

0 comments on commit 65f631a

Please sign in to comment.