Skip to content

Commit

Permalink
fix errors in chapter 16
Browse files Browse the repository at this point in the history
  • Loading branch information
zlotus committed Aug 12, 2016
1 parent 288b8f3 commit e2491f6
Showing 1 changed file with 5 additions and 5 deletions.
10 changes: 5 additions & 5 deletions chapter16.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -6,9 +6,9 @@
"source": [
"# 第十六讲:马尔可夫决策过程\n",
"\n",
"# 第十三部分:增强学习及控制\n",
"# 第十三部分:强化学习及控制\n",
"\n",
"接下来我们将要学习的是**增强学习(RL: Reinforcement Learning)**以及**自适应控制(Adaptive Control)**。\n",
"接下来我们将要学习的是**强化学习(RL: Reinforcement Learning)**以及**自适应控制(Adaptive Control)**。\n",
"\n",
"回顾前面学过的内容:\n",
"\n",
Expand All @@ -17,9 +17,9 @@
"\n",
"但是在很多需要作出渐进决策及控制的问题中,我们很难提供这种明确的监督,去告诉算法什么是正确、什么是错误。比如我们建造了一个四腿机器人,然后尝试通过编程让它行走。从一开始我们就无法定义对于行走来说,什么是正确的动作。所以也就无法为算法提供一个明确的监督方案令其模仿了。\n",
"\n",
"在增强学习中,我们只会给算法提供一个**奖励函数(reword function)**,这个函数会告诉算法在什么情况下是做的好,在什么情况下是做的不好,比如在四腿机器人的例子中,当机器人向前行走时奖励函数会给算法正面的反馈,而当机器人无故后退或翻倒时函数则会给算法负面的反馈。而学习算法的任务就是自主发现“通过做出怎样的动作才能获得更多的奖励”。\n",
"在强化学习中,我们只会给算法提供一个**奖励函数(reword function)**,这个函数会告诉算法在什么情况下是做的好,在什么情况下是做的不好,比如在四腿机器人的例子中,当机器人向前行走时奖励函数会给算法正面的反馈,而当机器人无故后退或翻倒时函数则会给算法负面的反馈。而学习算法的任务就是自主发现“通过做出怎样的动作才能获得更多的奖励”。\n",
"\n",
"增强学习算法在直升机自动驾驶、机器人腿部移动、手机网络路由、市场策略选择、工厂控制、高效网页索引等领域都有非常成功的应用案例。而我们对增强学习算法的介绍将从**[马尔可夫决策过程](https://zh.wikipedia.org/wiki/%E9%A6%AC%E5%8F%AF%E5%A4%AB%E6%B1%BA%E7%AD%96%E9%81%8E%E7%A8%8B)([MDP: Markov Decision Process](https://en.wikipedia.org/wiki/Markov_decision_process))**开始,MDP将形式化RL算法经常遇到的问题。\n",
"强化学习算法在直升机自动驾驶、机器人腿部移动、手机网络路由、市场策略选择、工厂控制、高效网页索引等领域都有非常成功的应用案例。而我们对强化学习算法的介绍将从**[马尔可夫决策过程](https://zh.wikipedia.org/wiki/%E9%A6%AC%E5%8F%AF%E5%A4%AB%E6%B1%BA%E7%AD%96%E9%81%8E%E7%A8%8B)([MDP: Markov Decision Process](https://en.wikipedia.org/wiki/Markov_decision_process))**开始,MDP将形式化RL算法经常遇到的问题。\n",
"\n",
"## 1. 马尔可夫决策过程\n",
"\n",
Expand Down Expand Up @@ -54,7 +54,7 @@
"\n",
"对于大多数情况,我们都使用较为简单的状态奖励函数$R(s)$,尽管更加一般化的状态-动作奖励函数$R(s,a)$也并没有增加什么计算难度。\n",
"\n",
"在增强学习中,我们的目标是按照时间顺序依次选择动作,使得整个MDP获得的“总收益”最大:\n",
"在强化学习中,我们的目标是按照时间顺序依次选择动作,使得整个MDP获得的“总收益”最大:\n",
"\n",
"$$\n",
"\\mathrm E\\left[R(s_0)+\\gamma R(s_1)+\\gamma^2R(s_2)+\\cdots\\right]\n",
Expand Down

0 comments on commit e2491f6

Please sign in to comment.