docs: 8.12 本章总结

qiwihui · Apr 29, 2019 · 782292c · 782292c
1 parent 8d36998
commit 782292c
Showing 1 changed file with 27 additions and 2 deletions.
diff --git a/source/partI/chapter8/planning_and_learning_with_tabular_methods.rst b/source/partI/chapter8/planning_and_learning_with_tabular_methods.rst
@@ -19,11 +19,11 @@
 给定状态和动作，模型产生对结果下一状态和下一奖励的预测。
 如果模型是随机的，那么有几种可能的下一个状态和下一个奖励，每个都有一定的发生概率。
 一些模型描述了所有可能性及其概率；这些我们称之为 *分布模型*。
-其他模型只产生一种可能性，根据概率进行采样；这些我们称之为 *采样模型*。
+其他模型只产生一种可能性，根据概率进行采样；这些我们称之为 *样本模型*。
 例如，考虑对十几个骰子的总和进行建模。
 分布模型将产生所有可能的总和及其发生的概率，而样本模型将产生根据该概率分布绘制的单个总和。
 在动态规划中假设的模型──MDP动力学的估计 :math:`p\left(s^{\prime}, r | s, a\right)` ──是分布模型。
-第5章中二十一点示例中使用的模型是一个采样模型。分布模型比样本模型更强大，因为它们可以始终用于产生样本。
+第5章中二十一点示例中使用的模型是一个样本模型。分布模型比样本模型更强大，因为它们可以始终用于产生样本。
 但是，在许多应用中，获取样本模型比分布模型容易得多。十几个骰子就是一个简单的例子。
 编写一个计算机程序来模拟骰子滚动并返回总和是很容易的，但是找出所有可能的总和及其概率更难且更容易出错。
 
@@ -885,6 +885,31 @@ MCTS决策时规划取得的巨大成功深刻影响了人工智能，许多研
 8.12 本章总结
 ---------------
 
+规划需要环境模型。*分布模型* 包括下一个状态的概率和可能的行动的奖励；样本模型根据这些概率生成单个过渡和奖励。
+动态规划需要一个分布模型，因为它使用 *预期的更新*，这涉及计算所有可能的下一个状态和奖励的期望。
+另一方面，*样本模型* 是模拟与环境交互所需的，在此期间可以使用 *样本更新*，如许多强化学习算法所使用的那样。
+样本模型通常比分布模型更容易获得。
+
+我们提出了一个观点，强调规划最优行为和学习最优行为之间令人惊讶的密切关系。
+两者都涉及估计相同的价值函数，并且在两种情况下，在一系列小型备份操作中逐渐更新估计是很自然的。
+这使得简单地通过允许两者更新相同的估计价值函数来直接集成学习和规划过程。
+此外，任何学习方法都可以简单地通过将它们应用于模拟（模型生成）经验而不是真实经验来转换为规划方法。
+在这种情况下，学习和规划变得更加相似；它们可能是在两种不同经验来源上运行的相同算法。
+
+将增量规划方法与行动和模型学习相结合是很简单的。规划，行动和模型学习以循环方式相互作用（如8.2节第一个图所示），
+每个都产生了另一个需要改进的东西；他们之间不需要或禁止其他互动。最自然的方法是让所有过程异步并行地进行。
+如果过程必须共享计算资源，那么几乎可以任意处理除法──任何组织对于手头的任务最方便和最有效。
+
+在本章中，我们已经触及了状态空间规划方法中的许多变化维度。一个方面是更新大小的变化。
+更新越小，规划方法的增量就越多。最小的更新包括一步样本更新，如Dyna。另一个重要方面是更新的分布，即搜索聚焦。
+优先清扫的重点是最近价值发生变化的状态的前身。在策略轨迹采样侧重于个体在控制其环境时可能遇到的状态或状态-动作对。
+这可以允许计算跳过与预测或控制问题无关的状态空间的部分。实时动态规划是价值迭代的策略轨迹采样版本，
+说明了该策略相对于传统的基于扫描的策略迭代的一些优势。
+
+规划还可以从相关状态向前聚焦，例如在个体-环境交互期间实际遇到的状态。
+最重要的形式是在决策时进行规划，即作为行动选择过程的一部分。在人工智能中研究的经典启发式搜索就是一个例子。
+其他示例是推出算法和蒙特卡罗树搜索，它们受益于在线，增量，基于样本的价值评估和策略改进。
+
 
 8.13 第一部分总结：维度（Dimensions）
 ----------------------------------------