docs: 2.7 上限置信区间动作选择

qiwihui · Mar 3, 2019 · 6d0bdc8 · 6d0bdc8
1 parent 997fe8c
commit 6d0bdc8
Show file tree

Hide file tree

Showing 2 changed files with 35 additions and 3 deletions.
diff --git a/source/partI/chapter2/images/figure-2.4.png b/source/partI/chapter2/images/figure-2.4.png
diff --git a/source/partI/chapter2/multi_arm_bandits.rst b/source/partI/chapter2/multi_arm_bandits.rst
@@ -334,7 +334,7 @@
 .. _figure_2.3:
 .. figure:: images/figure-2.3.png
 
-    **图2.2** 乐观的初始行动价值估计对10臂老虎机试验的影响。两种方法都使用恒定的步长参数，:math:`alpha=0.1`。
+    **图2.3** 乐观的初始行动价值估计对10臂老虎机试验的影响。两种方法都使用恒定的步长参数， :math:`alpha=0.1`。
 
 *练习2.6：神秘的尖峰* 图2.3所示的结果应该非常可靠，因为它们是超过2000个随机选择的10臂老虎机任务的平均值。
 那么，为什么乐观方法曲线的早期会出现振荡和峰值？换句话说，什么可能使这种方法在特定的早期步骤中表现得更好或更差？
@@ -358,14 +358,46 @@
 
 进行如（2.6）中的分析，以表明 :math:`Q_n` 是指数的新近加权平均值，*没有初始偏差*。
 
-2.7
-----
+2.7 上限置信区间动作选择
+------------------------
+
+探索是必要的，因为行动价值估计的准确性始终存在不确定性。贪婪的行为是目前看起来最好的行动，但其他一些行动可能实际上更好。
+:math:`\varepsilon` 贪婪行动选择迫使不贪婪的行动被尝试，而不是那些几乎贪婪或特别不确定的动作。
+最好根据它们实际上最优的潜力来选择非贪婪行动，同时考虑到它们的估计与最大值的接近程度以及这些估计中的不确定性。
+这样做的一种有效方法是根据选择行动
 
 .. math::
     :label: 2.10
 
     A_t \doteq \mathop{argmax} \limits_{a} \left[Q_t(a) + c \sqrt{\frac{\ln{t}}{N_t(a)}}\right]
 
+其中 :math:`\ln{t}` 表示t的自然对数（ :math:`e \approx 2.71828` 必须提高到等于t的数量），
+:math:`N_t(a)` 表示在时间t之前选择动作a的次数（（2.1）中的分母），数字 :math:`c>0` 控制探索的程度。
+如果 :math:`N_t(a)=0`，则a被认为是最大化动作。
+
+这种 *上限置信区间* （UCB）行动选择的想法是，平方根项是对一个值估计的不确定性或方差的度量。
+因此，最大化的数量是动作a的可能真实值的一种上限，其中c确定置信水平。
+每次选择a时，不确定性可能会降低： :math:`N_t(a)` 递增，并且，正如它在分母中出现的那样，不确定性项减少。
+另一方面，每次选择除a之外的动作时，t增加但 :math:`N_t(a)` 不增加；因为t出现在分子中，不确定性估计值会增加。
+使用自然对数意味着随着时间的推移，增加量会变小，但是是无限制；
+最终将选择所有操作，但是将随着时间的推移，具有较低值估计值或已经频繁选择的操作的选择频率会降低。
+
+10臂老虎机试验的UCB结果如图2.4所示。如本文所示，UCB通常表现良好，
+但比起 :math:`\varepsilon` 贪婪，UCB更难向本书其余部分所考虑的更为普遍的强化学习环境扩展。
+一个难点在于处理非平稳问题；比这些更复杂的方法将需要在2.5节中介绍。
+另一个难点是处理大的状态空间，特别是当使用本书第二部分中开发的函数逼近时。
+在这些更高级的设置中，UCB动作选择的想法通常是不实际的。
+
+.. _figure_2.4:
+.. figure:: images/figure-2.4.png
+
+    **图2.4** 10臂老虎机试验上UCB动作选择的平均表现。如图所示，除了在前 :math:`k` 个步骤中，
+    当它在尚未尝试的动作中随机选择时，UCB通常比 :math:`\varepsilon` 贪婪动作选择”更好。
+
+*练习2.8 USB尖峰* 在图2.4中，UCB算法在第11步显示出明显的性能峰值。为什么是这样？
+请注意，为了使您的答案完全令人满意，它必须解释为什么奖励在第11步增加以及为什么在随后的步骤中减少。
+提示：如果 :math:`c=1`，则尖峰不太突出。
+
 2.8
 ----