fix errors in chapter 16

zlotus · Aug 12, 2016 · e2491f6 · e2491f6
1 parent 288b8f3
commit e2491f6
Showing 1 changed file with 5 additions and 5 deletions.
diff --git a/chapter16.ipynb b/chapter16.ipynb
@@ -6,9 +6,9 @@
    "source": [
     "# 第十六讲：马尔可夫决策过程\n",
     "\n",
-    "# 第十三部分：增强学习及控制\n",
+    "# 第十三部分：强化学习及控制\n",
     "\n",
-    "接下来我们将要学习的是**增强学习（RL: Reinforcement Learning）**以及**自适应控制（Adaptive Control）**。\n",
+    "接下来我们将要学习的是**强化学习（RL: Reinforcement Learning）**以及**自适应控制（Adaptive Control）**。\n",
     "\n",
     "回顾前面学过的内容：\n",
     "\n",
@@ -17,9 +17,9 @@
     "\n",
     "但是在很多需要作出渐进决策及控制的问题中，我们很难提供这种明确的监督，去告诉算法什么是正确、什么是错误。比如我们建造了一个四腿机器人，然后尝试通过编程让它行走。从一开始我们就无法定义对于行走来说，什么是正确的动作。所以也就无法为算法提供一个明确的监督方案令其模仿了。\n",
     "\n",
-    "在增强学习中，我们只会给算法提供一个**奖励函数（reword function）**，这个函数会告诉算法在什么情况下是做的好，在什么情况下是做的不好，比如在四腿机器人的例子中，当机器人向前行走时奖励函数会给算法正面的反馈，而当机器人无故后退或翻倒时函数则会给算法负面的反馈。而学习算法的任务就是自主发现“通过做出怎样的动作才能获得更多的奖励”。\n",
+    "在强化学习中，我们只会给算法提供一个**奖励函数（reword function）**，这个函数会告诉算法在什么情况下是做的好，在什么情况下是做的不好，比如在四腿机器人的例子中，当机器人向前行走时奖励函数会给算法正面的反馈，而当机器人无故后退或翻倒时函数则会给算法负面的反馈。而学习算法的任务就是自主发现“通过做出怎样的动作才能获得更多的奖励”。\n",
     "\n",
-    "增强学习算法在直升机自动驾驶、机器人腿部移动、手机网络路由、市场策略选择、工厂控制、高效网页索引等领域都有非常成功的应用案例。而我们对增强学习算法的介绍将从**[马尔可夫决策过程](https://zh.wikipedia.org/wiki/%E9%A6%AC%E5%8F%AF%E5%A4%AB%E6%B1%BA%E7%AD%96%E9%81%8E%E7%A8%8B)（[MDP: Markov Decision Process](https://en.wikipedia.org/wiki/Markov_decision_process)）**开始，MDP将形式化RL算法经常遇到的问题。\n",
+    "强化学习算法在直升机自动驾驶、机器人腿部移动、手机网络路由、市场策略选择、工厂控制、高效网页索引等领域都有非常成功的应用案例。而我们对强化学习算法的介绍将从**[马尔可夫决策过程](https://zh.wikipedia.org/wiki/%E9%A6%AC%E5%8F%AF%E5%A4%AB%E6%B1%BA%E7%AD%96%E9%81%8E%E7%A8%8B)（[MDP: Markov Decision Process](https://en.wikipedia.org/wiki/Markov_decision_process)）**开始，MDP将形式化RL算法经常遇到的问题。\n",
     "\n",
     "## 1. 马尔可夫决策过程\n",
     "\n",
@@ -54,7 +54,7 @@
     "\n",
     "对于大多数情况，我们都使用较为简单的状态奖励函数$R(s)$，尽管更加一般化的状态-动作奖励函数$R(s,a)$也并没有增加什么计算难度。\n",
     "\n",
-    "在增强学习中，我们的目标是按照时间顺序依次选择动作，使得整个MDP获得的“总收益”最大：\n",
+    "在强化学习中，我们的目标是按照时间顺序依次选择动作，使得整个MDP获得的“总收益”最大：\n",
     "\n",
     "$$\n",
     "\\mathrm E\\left[R(s_0)+\\gamma R(s_1)+\\gamma^2R(s_2)+\\cdots\\right]\n",