# 什么是动态规划(Dynamic Programming)?

动态（Dynamic）：问题的序列或是时序元素

规划（Programming）：优化一个方案，或是说优化一个策略。例如线性规划（linear programming）

- 一种解决复杂问题的方法

- 把大问题化解程子问题

    - 解决子问题
    
    - 把子问题的解决方案结合起来

# 动态规划的前提

动态规划对满足以下两点性质的问题是非常普适的方案：

- 最优子结构（optimal substructure）

    - 适用优化原则
    
    - 最优解可以被分解成子问题

- 子问题有重叠部分（overlapping subproblems）

    - 子问题会重复出现多次
    
    - 解能够被缓存并再次利用

- 马尔科夫决策过程满足了以上两点性质

    - 贝尔曼方程给出了递归分解
    
    - 价值函数储存并再次使用这些解

# 用动态规划来规划

- 动态规划的前提假设是我们有MDP的完全信息

- 它被用来给一个MDP做规划

- 对于预测问题：

    - 输入： MDP$<S,A,P,R,\gamma>$和策略$\pi$（或是MRP$<S,P^{\pi},R^{\pi},\gamma>$）
    
    - 输出： 价值函数$v_{\pi}$

- 对于控制问题：

    - 输入： MDP $<S,A,P,R,\gamma>$
    
    - 输出： 最优价值函数$v_{\ast}$和最优策略$\pi_{\ast}$

# 迭代策略评估（Iterative Policy Evaluation）

- 问题： 评估一个给定的策略$\pi$

- 方案： 贝尔曼期望备份的迭代应用

- $v_1 \rightarrow v_2 \rightarrow \ldots \rightarrow v_{\pi}$

- 使用同步备份（synchronous backups），

    - 在每次$（k+1）$迭代
    
    - 对所有状态$s \in S$
    
    - 根据$v_{k}(s')$来更新$v_{k+1}(s)$
    
    - $s'$是$s$的后继状态

- 在后面我们会提到异步备份（asynchronous backups）

- 后面会证明向$v_{\pi}$的收敛

<img src="files/figures/iterative_policy_evaluation.png" style="width: 300px;"/>

\begin{equation}
v_{k+1}(s) = \sum_{a \in A} \pi(a|s)(R_{s}^{a} + \gamma \sum_{s' \in S} P_{s s'}^{a} v_{k}(s')) \\
v^{k+1} = R^{\pi} + \gamma P^{\pi} v^{k}
\end{equation}

# 评估在小型Gridworld中的一个随机策略

<img src="files/figures/small_gridworld_1.png" style="width: 300px;"/>

- 无折扣的片段MDP（undiscounted episodic MDP），也就是$\gamma=1$

- 非终止状态 $1,\ldots,14$

- 一个终止状态（用两个带阴影的格子来表示）

- 越出格子的动作并不会改变状态

- 在没有达到终点前的奖励都是$-1$

- 智能体遵循均匀随机策略

\begin{equation}
\pi(n|\cdot) = \pi(e|\cdot) = \pi(s|\cdot) = \pi(w|\cdot) = 0.25
\end{equation}

<img src="files/figures/small_gridworld_2.png" style="width: 400px;"/>

<img src="files/figures/small_gridworld_3.png" style="width: 400px;"/>

# 怎样改进一个策略

- 给定一个策略$\pi$

    - 评估策略$\pi$
    
    \begin{equation}
    v_{\pi}(s) = E[R_{t+1} + \gamma R_{t+2} + \ldots | S_{t}=s]
    \end{equation}

    - 以$v_{\pi}$为基础通过贪心的动作选取来改进策略
    
    \begin{equation}
    \pi' = greedy(v_{\pi})
    \end{equation}

- 在小型Gridworld中改进过的策略是最优的，$\pi'=\pi^{\ast}$

- 在一般情况下，我们需要更多的迭代来做改进和评估

- 但这个策略迭代过程终究会收敛到$\pi_{\ast}$

# 策略迭代（Policy Iteration）

策略评估（policy evaluation）： 用迭代策略评估来估算$v_{\pi}$

策略改进（policy improvement）： 用贪心策略改进来生成$\pi' \geq \pi$

<img src="files/figures/policy_iteration_1.png" style="width: 300px;"/>

<img src="files/figures/policy_iteration_2.png" style="width: 200px;"/>

# 杰克的汽车租赁问题

- 状态： 两个地点，每个地点最多容纳20辆汽车

- 动作： 一个晚上可以在两个地点之间转移5辆汽车

- 奖励： 每辆出租的汽车都会带来$10的收益（汽车必须可用）

- 状态转移： 汽车的返还和申请都是随机的

    - 泊松分布，$n$返还/申请的概率是$\frac{\lambda^{n}}{n !}e^{-\lambda}$
    
    - 第一个地点： 平均申请=3，平均返还=3
    - 第二个地点： 平均申请=4，平均返还=2

# 杰克的汽车租赁问题中的策略迭代

<img src="files/figures/policy_iteration_in_jacks_car_rental.png" style="width: 500px;"/>

# 策略改进（Policy Improvement）

- 考虑一个确定性的策略，$a=\pi(s)$

- 我们可以通过贪心的动作选择（acting greedily）来改进这个策略

\begin{equation}
\pi'(s) = argmax_{a \in A} q_{\pi} (s, a)
\end{equation}

- 我们像这样在所有状态$s$上通过单步更新来改进价值函数，

\begin{equation}
q_{\pi}(s, \pi'(s)) = max_{a \in A} q_{\pi}(s, a) \geq q_{\pi} (s, \pi(s)) = v_{\pi}(s)
\end{equation}

- 我们用这种方法来改进价值函数，$v_{\pi'}(s) \geq v_{\pi}(s)$

\begin{align}
v_{\pi}(s) & \leq q_{\pi}(s, \pi'(s)) = E_{\pi'}[R_{t+1}+\gamma v_{\pi}(S_{t+1})|S_t=s] \\
& \leq E_{\pi'}[R_{t+1}+\gamma q_{\pi}(S_{t+1},\pi'(S_{t+1}))|S_t=s] \\
& \leq E_{\pi'}[R_{t+1}+\gamma R_{t+2}+\gamma^2 q_{\pi}(S_{t+2},\pi'(S_{t+2}))|S_t=s] \\
& \leq E_{\pi'}[R_{t+1}+\gamma R_{t+2}+\ldots|S_t=s]=v_{\pi'}(s)
\end{align}

- 当改进停止时，

\begin{equation}
q_{\pi}(s, \pi'(s)) = max_{a \in A} q_{\pi}(s, a) = q_{\pi}(s, \pi(s)) = v_{\pi}(s)
\end{equation}

- 这时贝尔曼最优方程满足以下条件

\begin{equation}
v_{\pi}(s) = max_{a \in A} q_{\pi} (s, a)
\end{equation}

- 因此$v_{\pi}(s) = v_{\ast}(s), \forall s \in S$

- 所以$\pi$就是一个最优策略

# 策略迭代的变体

- 那么我们要问策略迭代真的需要价值函数收敛到$v_{\pi}$吗？

- 或者说我们需要引入停止条件吗

    - 比如价值函数的$\epsilon$-收敛

- 或者说我们只是简单地在$k$次策略迭代评估后停止？

- 比如说在小型Gridworld中，当$k=3$时就已经足够我们取得最优策略了

- 那我们为什么不在每次策略评估后更新策略呢？也就是说我们在$k=1$时就停止

    - 这和价值迭代（value iteration）是等价的

# 广义策略迭代（Generalised Policy Iteration）

策略评估： 用任何策略评估算法来估计$v_{\pi}$

策略改进： 用任何策略改进算法来生成$\pi' \geq \pi$

<img src="files/figures/generalised_policy_iteration_1.png" style="width: 300px;"/>

<img src="files/figures/generalised_policy_iteration_2.png" style="width: 200px;"/>

# 最优原则（Principle of Optimality）

任何的最优策略都可以被分解成两个元素：

- 一个最优动作$A_{\ast}$

- 遵循基于后继状态$S'$的一个最优策略

我们说策略$\pi(a|s)$在状态$s$上取得了最优价值$v_{\pi}(s) = v_{\ast}(s)$当且仅当

- 对于任何从$s$可及的状态$s'$来说

- 如果$v_{\pi}(s')=v_{\ast}(s')$，我们可以说$\pi$取得了最优价值

# 初次编辑时间

2018年4月18日

# 参考文献

[1] http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/dyna.pdf