# 什么是动态规划(Dynamic Programming)?

动态（Dynamic）：问题的序列或是时序元素

规划（Programming）：优化一个方案，或是说优化一个策略。例如线性规划（linear programming）

- 一种解决复杂问题的方法

- 把大问题化解程子问题

    - 解决子问题
    
    - 把子问题的解决方案结合起来

# 动态规划的前提

动态规划对满足以下两点性质的问题是非常普适的方案：

- 最优子结构（optimal substructure）

    - 适用优化原则
    
    - 最优解可以被分解成子问题

- 子问题有重叠部分（overlapping subproblems）

    - 子问题会重复出现多次
    
    - 解能够被缓存并再次利用

- 马尔科夫决策过程满足了以上两点性质

    - 贝尔曼方程给出了递归分解
    
    - 价值函数储存并再次使用这些解

# 用动态规划来规划

- 动态规划的前提假设是我们有MDP的完全信息

- 它被用来给一个MDP做规划

- 对于预测问题：

    - 输入： MDP$<S,A,P,R,\gamma>$和策略$\pi$（或是MRP$<S,P^{\pi},R^{\pi},\gamma>$）
    
    - 输出： 价值函数$v_{\pi}$

- 对于控制问题：

    - 输入： MDP $<S,A,P,R,\gamma>$
    
    - 输出： 最优价值函数$v_{\ast}$和最优策略$\pi_{\ast}$

# 迭代策略评估（Iterative Policy Evaluation）

- 问题： 评估一个给定的策略$\pi$

- 方案： 贝尔曼期望备份的迭代应用

- $v_1 \rightarrow v_2 \rightarrow \ldots \rightarrow v_{\pi}$

- 使用同步备份（synchronous backups），

    - 在每次$（k+1）$迭代
    
    - 对所有状态$s \in S$
    
    - 根据$v_{k}(s')$来更新$v_{k+1}(s)$
    
    - $s'$是$s$的后继状态

- 在后面我们会提到异步备份（asynchronous backups）

- 后面会证明向$v_{\pi}$的收敛

<img src="files/figures/iterative_policy_evaluation.png" style="width: 300px;"/>

\begin{equation}
v_{k+1}(s) = \sum_{a \in A} \pi(a|s)(R_{s}^{a} + \gamma \sum_{s' \in S} P_{s s'}^{a} v_{k}(s')) \\
v^{k+1} = R^{\pi} + \gamma P^{\pi} v^{k}
\end{equation}

# 评估在小型Gridworld中的一个随机策略

<img src="files/figures/small_gridworld_1.png" style="width: 300px;"/>

- 无折扣的片段MDP（undiscounted episodic MDP），也就是$\gamma=1$

- 非终止状态 $1,\ldots,14$

- 一个终止状态（用两个带阴影的格子来表示）

- 越出格子的动作并不会改变状态

- 在没有达到终点前的奖励都是$-1$

- 智能体遵循均匀随机策略

\begin{equation}
\pi(n|\cdot) = \pi(e|\cdot) = \pi(s|\cdot) = \pi(w|\cdot) = 0.25
\end{equation}

<img src="files/figures/small_gridworld_2.png" style="width: 400px;"/>

<img src="files/figures/small_gridworld_3.png" style="width: 400px;"/>

# 怎样改进一个策略

- 给定一个策略$\pi$

    - 评估策略$\pi$
    
    \begin{equation}
    v_{\pi}(s) = E[R_{t+1} + \gamma R_{t+2} + \ldots | S_{t}=s]
    \end{equation}

    - 以$v_{\pi}$为基础通过贪心的动作选取来改进策略
    
    \begin{equation}
    \pi' = greedy(v_{\pi})
    \end{equation}

- 在小型Gridworld中改进过的策略是最优的，$\pi'=\pi^{\ast}$

- 在一般情况下，我们需要更多的迭代来做改进和评估

- 但这个策略迭代过程终究会收敛到$\pi_{\ast}$

# 策略迭代（Policy Iteration）

策略评估（policy evaluation）： 用迭代策略评估来估算$v_{\pi}$

策略改进（policy improvement）： 用贪心策略改进来生成$\pi' \geq \pi$

<img src="files/figures/policy_iteration_1.png" style="width: 300px;"/>

<img src="files/figures/policy_iteration_2.png" style="width: 200px;"/>

# 杰克的汽车租赁问题

- 状态： 两个地点，每个地点最多容纳20辆汽车

- 动作： 一个晚上可以在两个地点之间转移5辆汽车

- 奖励： 每辆出租的汽车都会带来$10的收益（汽车必须可用）

- 状态转移： 汽车的返还和申请都是随机的

    - 泊松分布，$n$返还/申请的概率是$\frac{\lambda^{n}}{n !}e^{-\lambda}$
    
    - 第一个地点： 平均申请=3，平均返还=3
    - 第二个地点： 平均申请=4，平均返还=2

# 杰克的汽车租赁问题中的策略迭代

<img src="files/figures/policy_iteration_in_jacks_car_rental.png" style="width: 500px;"/>

# 策略改进（Policy Improvement）

- 考虑一个确定性的策略，$a=\pi(s)$

- 我们可以通过贪心的动作选择（acting greedily）来改进这个策略

\begin{equation}
\pi'(s) = argmax_{a \in A} q_{\pi} (s, a)
\end{equation}

- 我们像这样在所有状态$s$上通过单步更新来改进价值函数，

\begin{equation}
q_{\pi}(s, \pi'(s)) = max_{a \in A} q_{\pi}(s, a) \geq q_{\pi} (s, \pi(s)) = v_{\pi}(s)
\end{equation}

- 我们用这种方法来改进价值函数，$v_{\pi'}(s) \geq v_{\pi}(s)$

\begin{align}
v_{\pi}(s) & \leq q_{\pi}(s, \pi'(s)) = E_{\pi'}[R_{t+1}+\gamma v_{\pi}(S_{t+1})|S_t=s] \\
& \leq E_{\pi'}[R_{t+1}+\gamma q_{\pi}(S_{t+1},\pi'(S_{t+1}))|S_t=s] \\
& \leq E_{\pi'}[R_{t+1}+\gamma R_{t+2}+\gamma^2 q_{\pi}(S_{t+2},\pi'(S_{t+2}))|S_t=s] \\
& \leq E_{\pi'}[R_{t+1}+\gamma R_{t+2}+\ldots|S_t=s]=v_{\pi'}(s)
\end{align}

- 当改进停止时，

\begin{equation}
q_{\pi}(s, \pi'(s)) = max_{a \in A} q_{\pi}(s, a) = q_{\pi}(s, \pi(s)) = v_{\pi}(s)
\end{equation}

- 这时贝尔曼最优方程满足以下条件

\begin{equation}
v_{\pi}(s) = max_{a \in A} q_{\pi} (s, a)
\end{equation}

- 因此$v_{\pi}(s) = v_{\ast}(s), \forall s \in S$

- 所以$\pi$就是一个最优策略

# 策略迭代的变体

- 那么我们要问策略迭代真的需要价值函数收敛到$v_{\pi}$吗？

- 或者说我们需要引入停止条件吗

    - 比如价值函数的$\epsilon$-收敛

- 或者说我们只是简单地在$k$次策略迭代评估后停止？

- 比如说在小型Gridworld中，当$k=3$时就已经足够我们取得最优策略了

- 那我们为什么不在每次策略评估后更新策略呢？也就是说我们在$k=1$时就停止

    - 这和价值迭代（value iteration）是等价的

# 广义策略迭代（Generalised Policy Iteration）

策略评估： 用任何策略评估算法来估计$v_{\pi}$

策略改进： 用任何策略改进算法来生成$\pi' \geq \pi$

<img src="files/figures/generalised_policy_iteration_1.png" style="width: 300px;"/>

<img src="files/figures/generalised_policy_iteration_2.png" style="width: 200px;"/>

# 最优原则（Principle of Optimality）

任何的最优策略都可以被分解成两个元素：

- 一个最优动作$A_{\ast}$

- 遵循基于后继状态$S'$的一个最优策略

我们说策略$\pi(a|s)$在状态$s$上取得了最优价值$v_{\pi}(s) = v_{\ast}(s)$当且仅当

- 对于任何从$s$可及的状态$s'$来说

- 如果$v_{\pi}(s')=v_{\ast}(s')$，我们可以说$\pi$取得了最优价值

# 确定性的价值迭代

- 如果我们知道了子问题的解$v_{\ast}(s')$

- 在这样的情况下$v_{\ast}(s)$的解就可以通过前瞻一步（one-step lookahead）来找到

\begin{equation}
v_{\ast}(s) \leftarrow max_{a \in A} R_s^a + \gamma \sum_{s' \in S} P_{s s'}^a v_{\ast}(s')
\end{equation}

- 价值迭代的思想就是迭代更新

- 直观的解释就是我们从最终的奖励开始反向推导

- 我们仍然需要使用循环随机的MDP

# 最短路径

<img src="files/figures/shortest_path.png" style="width: 500px;"/>

# 价值迭代（Value Iteration）

- 问题：寻找最优策略$\pi$

- 解：迭代应用贝尔曼最优备份

- $v_1 \rightarrow v_2 \rightarrow \ldots \rightarrow v_{\ast}$

- 使用同步备份（synchronous backups）

    - 在每次$k+1$迭代
    
    - 对所有状态$s \in S$
    
    - 根据$v_k(s')$来更新$v_{k+1}(s)$

- 向$v_{\ast}$收敛的证明会在后面给出

- 不同于策略迭代，价值迭代没有明确的策略

- 价值函数的中间结果也许并不对应任何策略

<img src="files/figures/value_iteration.png" style="width: 300px;"/>

\begin{equation}
v_{k+1}(s) = max_{a \in A} (R_s^a + \gamma \sum_{s' \in S} P_{s s'}^a v_k(s')) \\
v_{k+1} = max_{a \in A} R^a + \gamma P^a v_k
\end{equation}

# 同步动态规划算法（Synchronous Dynamic Programming Algorithms）

| 问题 | 贝尔曼方程 | 算法         
| :---: | :---: | :---:
| 预测 | 贝尔曼期望方程 | 迭代策略评估
| 控制 | 贝尔曼期望方程 + 贪心策略改进 | 策略迭代
| 控制 | 贝尔曼最优方程 | 价值迭代

- 算法是基于状态价值函数$v_{\pi}(s)$或$v_{\ast}(s)$

- 在$m$个动作和$n$个状态的情况下，每次迭代的计算复杂度是$O(m n^2)$

- 可以被用到动作价值函数$q_{\pi}(s, a)$和$q_{\ast}(s, a)$上

- 每次迭代的计算复杂度是$O(m^2 n^2)$

# 异步动态规划（Asynchronous Dynamic Programming）

- 到现在为止用到的动态规划方法都用了同步备份（synchronous backups）

- 也就是所有的状态备份都是平行的

- 异步动态规划在备份状态时，每个状态都是独立进行并且顺序是不定的

- 对每个选中的状态，我们都加以合适的备份

- 这样可以显著地减少计算量

- 如果所有状态都持续被选中就一定会收敛

异步动态规划中三个简单的思想：

- 原位动态规划（in-place dynamic programming）

- 优先扫描（prioritised sweeping）

- 实时动态规划（real-time dynamic programming）

# 原位动态规划（In-Place Dynamic Programming）

- 同步价值迭代储存了价值函数的两份备份

\begin{equation}
for \ \ all \ \ s \ \ in \ \ S \\
v_{new}(s) \leftarrow max_{a \in A} (R_s^a + \gamma \sum_{s' \in S} P_{s s'}^a v_{old}(s')) \\
v_{old} \leftarrow v_{new}
\end{equation}

- 原位价值迭代只储存价值函数的一份备份

\begin{equation}
for \ \ all \ \ s \ \ in \ \ S \\
v(s) \leftarrow max_{a \in A}(R_s^a + \gamma \sum_{s' \in S} P_{s s'}^a v(s'))
\end{equation}

# 优先扫描（Prioritised Sweeping）

- 用贝尔曼误差的大小引导状态选择，也就是

\begin{equation}
\lvert max_{a \in A}(R_s^a + \gamma \sum_{s' \in S} P_{s s'}^a v(s')) - v(s) \rvert
\end{equation}

- 用最大的剩余贝尔曼误差来备份状态

- 在每次备份后用贝尔曼误差来更新相关状态

- 需要反向动力学的知识（之前的状态）

- 可以用一个优先级序列来提高实施效率

# 实时动态规划（Real-Time Dynamic Programming）

- 思想： 只更新与智能体有关的状态

- 用智能体的经验来引导状态的选择

- 在每个步长后$S_t, A_t, R_{t+1}$

- 备份状态$S_t$

\begin{equation}
v(S_t) \leftarrow max_{a \in A}(R_{S_t}^a + \gamma \sum_{s' \in S} P_{S_t s'}^a v(s'))
\end{equation}

# 全宽备份（Full-Width Backups）

<img src="files/figures/full-width_backups.png" style="width: 300px;"/>

- 动态规划使用的是全宽备份（full-width backups）

- 对每次备份来说（同步或异步）

    - 每一个后继状态和动作都被考虑在内
    
    - 使用了MDP状态转移和奖励函数的知识

- 动态规划对中等规模的问题是有效的（百万级状态）

- 对于大规模的问题，动态规划受到贝尔曼维度诅咒（Bellman's curse of dimensionality）的影响

    - 状态数$n=\lvert S \rvert$根据状态变量数呈指数型增长

- 就算是一次备份也会非常昂贵

# 样本备份（Sample Backups）

<img src="files/figures/sample_backups.png" style="width: 100px;"/>

- 使用样本奖励和样本状态转移$<S,A,R,S'>$

- 而不是奖励函数$R$和状态转移动力方程$P$

- 优势：

    - 无模型（model-free）：不需要MDP的知识
    
    - 通过取样来克服维度诅咒（the curse of dimensionality）
    
    - 备份的代价是独立于$n=\lvert S \rvert$的常量

# 近似动态规划（Approximate Dynamic Programming）

- 近似价值函数

- 用一个函数逼近器（function approximator）$\hat{v}(s, \textbf{w})$

- 在$\hat{v}(\cdot, \textbf{w})$上应用动态规划

- 例如在每次迭代$k$都进行拟合值迭代（Fitted Value Iteration），

    - 样本状态$\tilde{S} \subseteq S$
    
    - 对每个状态$s \in \tilde{S}$我们都用贝尔曼最优方程来估计目标价值，
    
    \begin{equation}
    \tilde{v}_{k}(s) = max_{a \in A} (R_s^a + \gamma \sum_{s' \in S} P_{s s'}^a \hat{v}(s', \textbf{w}_k))
    \end{equation}

    - 用目标$\{<s, \tilde{v}_k(s)>\}$来训练下一个价值函数$\hat{v}(\cdot, \textbf{w}_{k+1})$

# 一些技术问题

- 我们怎样得知价值迭代收敛到了$v_{\ast}$？

- 或者说迭代策略评估收敛到了$v_{\pi}$？

- 还有就是策略迭代收敛到了$v_{\ast}$？

- 这个解是唯一的吗？

- 那这些算法的收敛速度又怎样呢？

- 这些问题都能被收缩映射理论（contraction mapping theorem）解决

# 价值函数空间

- 考虑价值函数的向量空间$\mathcal{V}$

- 这里有$\lvert \mathcal{S} \rvert$个维度

- 这个空间中的每个点都完全描述了一个价值函数$v(s)$

- 那么贝尔曼备份对空间中的这些点做了什么呢？

- 我们将会展示这使得价值函数更接近了

- 因此备份必须收敛到一个唯一解

# 价值函数$\infty$-范数（$\infty$-Norm）

- 我们将会用$\infty$-范数来测量状态价值函数$u$和$v$之间的距离

- 也就是状态价值间的最大差

\begin{equation}
\left\| u - v \right\|_{\infty} = max_{s \in S} \lvert u(s) - v(s) \rvert
\end{equation}

# 贝尔曼期望备份是一个收缩（Bellman Expectation Backup is a Contraction）

- 定义贝尔曼期望备份算子（Bellman expectation backup operator）$T^{\pi}$，

\begin{equation}
T^{\pi}(v) = \mathcal{R}^{\pi} + \gamma \mathcal{P}^{\pi} v
\end{equation}

- 这个算子是一个$\gamma$-收缩，也就是说它使得价值函数至少接近了$\gamma$，

\begin{align}
\left\| T^{\pi}(u) - T^{\pi}(v) \right\|_{\infty} & = \left\| (\mathcal{R}^{\pi}+\gamma \mathcal{P}^{\pi}u) - (\mathcal{R}^{\pi}+\gamma \mathcal{P}^{\pi} v) \right\|_{\infty} \\
& = \left\| \gamma \mathcal{P}^{\pi}(u-v) \right\|_{\infty} \\
& \leq \left\| \gamma \mathcal{P}^{\pi} \left\| u - v \right\|_{\infty} \right\|_{\infty} \\
& \leq \gamma \left\| u - v \right\|_{\infty}
\end{align}

# 收缩映射理论（Contraction Mapping Theorem）

对任何在一个算子$T(v)$下完整的（也就是闭合的）度量空间$\mathcal{V}$，在这里$T$是一个$\gamma$-收缩

- $T$收敛到唯一固定点

- 以一个线性的收敛速率（linear convergence rate）$\gamma$

# 策略评估和策略迭代的迭代收敛（Convergence of Iter. Policy Evaluation and Policy Iteration）

- 贝尔曼期望算子$T^{\pi}$有唯一固定点

- $v_{\pi}$是$T^{\pi}$（用贝尔曼期望方程得出）的一个固定点

- 通过收缩映射理论（contraction mapping theorem）

- 策略迭代评估收敛到$v_{\pi}$

- 策略迭代收敛到$v_{\ast}$

# 贝尔曼最优备份是一个收缩（Bellman Optimality Backup is a Contraction）

- 我们定义贝尔曼最优备份算子（Bellman optimality backup operator）$T^{\ast}$为,

\begin{equation}
T^{\ast}(v) = max_{a \in A} \mathcal{R}^a + \gamma \mathcal{P}^a v
\end{equation}

- 这个算子是一个$\gamma$-收缩，也就是说它使得价值函数至少接近了$\gamma$（证明与之前相似）

\begin{equation}
\left\| T^{\ast}(u) - T^{\ast}(v) \right\|_{\infty} \leq \gamma \left\| u - v \right\|_{\infty}
\end{equation}

# 价值迭代的收敛（Convergence of Value Iteration）

- 贝尔曼最优算子$T^{\ast}$有唯一固定点

- $v_{\ast}$是$T^{\ast}$（用贝尔曼最优方程）的一个固定点

- 以收缩映射理论（contraction mapping theorem）

- 价值迭代收敛到$v_{\ast}$

# 初次编辑时间

2018年4月18日

# 参考文献

[1] http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/dyna.pdf

[2] https://www.youtube.com/watch?v=Nd1-UUMVfz4