diff --git a/source/partI/chapter8/images/example-8.4-prioritized-sweeping-on-mazes.png b/source/partI/chapter8/images/example-8.4-prioritized-sweeping-on-mazes.png new file mode 100644 index 0000000..08561e6 Binary files /dev/null and b/source/partI/chapter8/images/example-8.4-prioritized-sweeping-on-mazes.png differ diff --git a/source/partI/chapter8/images/example-8.5-prioritized-sweeping-for-rod-maneuvering.png b/source/partI/chapter8/images/example-8.5-prioritized-sweeping-for-rod-maneuvering.png new file mode 100644 index 0000000..12b5d40 Binary files /dev/null and b/source/partI/chapter8/images/example-8.5-prioritized-sweeping-for-rod-maneuvering.png differ diff --git a/source/partI/chapter8/planning_and_learning_with_tabular_methods.rst b/source/partI/chapter8/planning_and_learning_with_tabular_methods.rst index cd4b5b7..4792400 100644 --- a/source/partI/chapter8/planning_and_learning_with_tabular_methods.rst +++ b/source/partI/chapter8/planning_and_learning_with_tabular_methods.rst @@ -362,6 +362,46 @@ Dyna个体的整体架构,其中Dyna-Q算法就是一个例子,如图8.1所 如果 :math:`P>\theta`,则将 :math:`\overline{S}, \overline{A}` 插入 :math:`PQueue`,优先级为 :math:`P` +.. figure:: images/example-8.4-prioritized-sweeping-on-mazes.png + :width: 350px + :align: right + +**例8.4:迷宫优先扫描** 已发现优先扫描可显着提高在迷宫任务中找到最佳解决方案的速度,通常为5到10倍。 +右侧显示了典型示例。这些数据用于一系列与图8.2所示结构完全相同的迷宫任务,只是它们的网格分辨率不同。 +优先扫描比未优先的Dyna-Q保持了决定性的优势。两个系统在每次环境交互中最多进行 :math:`n=5` 次更新。 +改编自Peng和Williams(1993)。 + +将优先扫描扩展到随机环境是直截了当的。通过保持每个状态-动作对经历的次数和下一个状态的计数来维持该模型。 +然后很自然地更新每一对,而不是像我们迄今为止使用的样本更新,而是考虑到所有可能的下一个状态及其发生的概率,进行预期的更新。 + +.. admonition:: 例8.5 杆机动优先扫描 + :class: important + + .. figure:: images/example-8.5-prioritized-sweeping-for-rod-maneuvering.png + :width: 350px + :align: right + + 该任务的目的是在有限的矩形工作空间内围绕一些笨拙放置的障碍物操纵杆,以最少的步数到达目标位置。 + 杆可沿其长轴或垂直于该轴平移,或者可沿其中心的任一方向旋转。 + 每次运动的距离约为工作空间的1/20,旋转增量为10度。 + 解答(Translations)是确定性的,并量化为 :math:`20\times20` 个位置之一。 + 右图显示了从优先扫描发现的障碍和从开始到目标的最短解决方案。 + 这个问题是确定性的,但有四个动作和14,400个潜在状态(其中一些由于障碍而无法到达)。 + 这个问题可能太大,无法用非优先级方法解决。图重印自Moore和Atkeson(1993)。 + +优先扫描只是分配计算以提高规划效率的一种方式,可能不是最好的方法。 +优先扫描的限制之一是它使用 *预期的* 更新,这在随机环境中可能会浪费大量的计算在低概率转换上。 +正如我们在下一节中所示,尽管采样引入了方差,但在许多情况下,样本更新可以更接近真值函数,但计算量更少。 +样本更新可以获胜,因为它们将整体备份计算分解为更小的部分──与单个转换相对应的部分──然后使其能够更集中地关注在将产生最大影响的部分上。 +这个想法被认为是van Seijen和Sutton(2013)引入的“小备份”中的逻辑限制。 +这些是沿着单个转换的更新,例如样本更新,但是基于没有采样的转换概率,如预期的更新。 +通过选择进行小更新的顺序,可以大大提高规划效率,超越优先扫描的可能性。 + +我们在本章中建议,可以将所有类型的状态空间规划视为价值更新的序列,仅在更新类型,预期或样本,大或小以及更新的顺序方面有所不同。 +在本节中,我们强调了后向聚焦,但这只是一种策略。 +例如,另一种方法是关注于根据在当前策略下经常访问的状态可以轻松地达到的状态,这可被称为 *前向聚焦*。 +Peng和Williams(1993)以及Barto,Bradtke和Singh(1995)已经探索了前向聚焦不同版本,接下来几节中介绍的方法将其转化为极端形式。 + 8.5 预期与样本更新 ---------------------