diff --git a/source/partII/chapter9.rst b/source/partII/chapter9.rst index 6084065..1bdcf99 100644 --- a/source/partII/chapter9.rst +++ b/source/partII/chapter9.rst @@ -52,8 +52,77 @@ n步TD更新为 :math:`S_{t} \mapsto G_{t:t+n}`。在DP(动态规划)中策 不能轻易处理这种非平稳性的方法不太适合强化学习。 -9.2 预测目标 ------------------- +9.2 预测目标(:math:`\overline{\mathrm{VE}}`) +---------------------------------------------- + +到目前为止,我们尚未指定明确的预测目标。在表格的情况下,不需要连续测量预测质量,因为学习价值函数可以精确地等于真值函数。 +此外,每个状态的学习价值都是分离的──一个状态的更新不受其他影响。 +但是通过真正的近似,一个状态的更新会影响许多其他状态,并且不可能使所有状态的值完全正确。 +假设我们有比权重更多的状态,所以使一个状态的估计更准确总是意味着让其他的不那么准确。 +我们有义务说出我们最关心的状态。 +我们必须指定状态分布 :math:`\mu(s)\geq 0,\sum_{s}\mu(s)=1`,表示我们关心每个状态 :math:`s` 中的错误的程度。 +通过状态 :math:`s` 中的误差,我们指的是近似值 :math:`\hat{v}(s, \mathbf{w})` 与 +真值 :math:`v_\pi(s)` 之间的差的平方。 +通过 :math:`\mu` 对状态空间加权,我们得到一个自然目标函数,*均方误差*,表示为 :math:`\overline{\mathrm{VE}}`: + +.. math:: + + \overline{\mathrm{VE}}(\mathbf{w}) \doteq \sum_{s \in \mathcal{S}} \mu(s)\left[v_{\pi}(s)-\hat{v}(s, \mathbf{w})\right]^{2} + \tag{9.1} + +该度量的平方根(根 :math:`\overline{\mathrm{VE}}`)粗略地衡量了近似值与真实值的差异,并且通常用于图中。 +通常 :math:`\mu(s)` 被选择为 :math:`s` 中花费的时间的一部分。 +在在策略训练中,这被称为 *在策略分布*;我们在本章中完全关注这个案例。 +在持续任务中,在策略分布是 math:`\pi` 下的固定分布。 + +.. admonition:: 回合任务中的在策略分布 + :class: note + + 在一个回合任务中,在策略分布略有不同,因为它取决于如何选择回合的初始状态。 + 设 ;math:`h(s)` 表示回合在每个状态 :math:`s` 中开始的概率, + :math:`\eta(s)` 表示在一个回合中状态 :math:`s` 中平均花费的时间步数。 + 如果回合以 :math:`s` 开头,或者如果从之前的状态 :math:`\overline{s}` 转换为 :math:`s`,则花费时间在状态 :math:`s` 中: + + .. math:: + + \eta(s)=h(s)+\sum_{\overline{s}} \eta(\overline{s}) \sum_{a} \pi(a | \overline{s}) p(s | \overline{s}, a), \text { 对所有 } s \in \mathcal{S} + \tag{9.2} + + 可以针对预期的访问次数 :math:`\eta(s)` 求解该方程组。 然后,在策略分布是每个状态所花费的时间的一小部分,标准化和为一: + + .. math:: + + \mu(s)=\frac{\eta(s)}{\sum_{s^{\prime}} \eta(s^{\prime})}, \quad \text { 对所有 } s \in \mathcal{S} + \tag{9.3} + + 这是没有折扣的自然选择。如果存在折扣(:math:`\gamma<1`),则应将其视为终止形式, + 这可以简单通过在(9.2)的第二项中包含因子 :math:`\gamma` 来完成。 + +这两种情况,即持续的和回合的,表现相似,但近似时必须在形式分析中单独处理, +正如我们将在本书的这一部分中反复看到的那样。这完成了学习目标的规范。 + +目前还不完全清楚 :math:`\overline{\mathrm{VE}}` 是加强学习的正确性能目标。 +请记住,我们的最终目的──我们学习价值函数的原因──是找到更好的策略。 +用于此目的的最佳价值函数不一定是最小化 :math:`\overline{\mathrm{VE}}` 的最佳值。 +然而,目前尚不清楚价值预测的更有用的替代目标是什么。目前,我们将专注于 :math:`\overline{\mathrm{VE}}`。 + +就 :math:`\overline{\mathrm{VE}}` 而言,理想的目标是找到一个 *全局最优值*, +一个权重向量 :math:`\mathbf{w}^{*}`,对于所有可能的 :math:`\mathbf{w}`, +:math:`\overline{\mathrm{VE}}(\mathbf{w}^{*})\leq\overline{\mathrm{VE}}(\mathbf{w})`。 +对于诸如线性函数近似器之类的简单函数逼近器,有时可以实现这一目标, +但对于诸如人工神经网络和决策树之类的复杂函数近似器来说很少是可能的。 +除此之外,复杂函数近似器可以寻求收敛到 *局部最优*,一个权重向量 :math:`\mathbf{w}`, +对于 :math:`\mathbf{w}^{*}` 的某些邻域中的所有 :math:`\mathbf{w}` 满足 +:math:`\overline{\mathrm{VE}}(\mathbf{w}^{*})\leq\overline{\mathrm{VE}}(\mathbf{w})`。 +虽然这种保证只是稍微让人放心,但对于非线性函数近似器来说,它通常是最好的,而且通常它就足够了。 +尽管如此,对于许多对强化学习感兴趣的情况,并不能保证收敛到最佳,甚至在最佳的有界距离内。 +事实上,有些方法可能会出现发散,其 :math:`\overline{\mathrm{VE}}` 极限趋于无穷。 + +在前两节中,我们概述了一个框架,用于将价值预测的各种强化学习方法与各种函数近似方法相结合,使用前者的更新为后者生成训练样本。 +我们还描述了这些方法可能希望最小化的 :math:`\overline{\mathrm{VE}}` 性能测量。 +可能的函数近似方法的范围太大以至于不能覆盖所有方法,并且无论如何对其中的大多数方法进行可靠的评估或推荐知之甚少。 +必要时,我们只考虑几种可能性。在本章的剩余部分,我们将重点放在基于梯度原理的函数近似方法,特别是线性梯度下降方法上。 +我们关注这些方法的部分原因是因为我们认为这些方法特别有前途,因为它们揭示了关键的理论问题,同时也因为它们很简单,而且我们的空间有限。 9.3 随机梯度和半梯度方法