# MDP: markov decision process

## I. MDP
### I.1 定义MDP
1. **Markov property：**\
① 指给定当前状态，未来和过去的状态是独立的。\
② 在MDP中，'Markov'是指action outcome只取决于当前state，与前序states无关。$$\begin{align}
P(S_{t+1} = s^{'}|S_t=s_t,A_t=a_t, S_{t-1},A_{t-1},..., S_0) = P(S_{t+1} = s^{'}|S_t=s_t,A_t=a_t)\\
\\
\end{align}
$$
2. **MDP的定义：在完全可观察(fully observable)的、随机的环境中，transition model符合markovian的条件下，用additive and discounted rewards (utility)做序列决策的过程。** \
注意这个定义中的要素：\
① <font color=blue>**fully observable environment**</font>: 指transition function和reward function已知 \
② <font color=blue>**random environment**</font>: transition function有随机性 \
③ <font color=red>**markovian transition function**</font>: $T(s, a, s^{'})=P(s^{'}|s, a)$ \
④ <font color=blue>**additive rewards**</font>: utility可以用rewards的其他函数形式来定义。而additive utility的优点是简单，且满足preference-independent。</font> <font color=orange>[preference independent的说明详见最后的附录]</font> \
⑤ <font color=blue>**discounted utility function**</font>: 在value iteration和policy iteration的收敛性质中起到的关键作用。<font color=orange>[详见后文的收敛性分析]</font>

3. **用MDP分析问题所需的要素：**\
(1)状态 \
① 状态集$\mathcal{S}$，如果状态是离散且有限的，则$\mathcal{S}=\{s^{(1)},s^{(2)},...,s^{(K)} \}$。 \
② 一个起始状态$s_0$\
③ 一个或多个终止状态 \
(2)动作：$a\in \mathcal{A} $ \
(3)策略：$\pi$：$\pi(a|s)=P_{\pi}(a|s)=P_{\pi}(A=a|S=s)$ \
(4)回报 \
① 回报函数(reward function)：$R_t=R(s_t, a_t, s_{t+1})$ \
② 回报的折扣因子：$\gamma$ \
(5)状态转移函数(transition function)：$T(历史状态, a, 下一状态)$。<font color=blue>**马尔科夫条件下**</font>，状态转移函数可以表示为：$T(s_t, a_t, s_{t+1}) =P(s_{t+1}|s_t, a_t)$ \
<font color=orange>**图示: movements of an agent through a MDP:**</font> \
$$\begin{align} 
& s_0\overset{a_0}{\rightarrow} s_1\overset{a_1}{\rightarrow} s_2\overset{a_2}{\rightarrow} s_3\overset{a_3}{\rightarrow}...\\
& a_t\sim P(a_t|s_t)=\pi(s_t)\\ 
& s_t\sim P(s_t|s_{t-1}, a_{t-1})=T(s_{t-1}, a_{t-1}, s_t) \\
\\
\end{align}$$

4. 求解MDP问题的目标：求policy $\pi(s)$ \
① 策略的质量由该策略导致的一系列环境状态s对应的回报r折现得到的效用的期望值$E(U|\pi)$决定。（expected utility of the possible environment histories generated by that policy）$$\begin{align} 
E(U|\pi) & = E( {\textstyle \sum_{t=0}^{n}} R_t|\pi) \\
& = E( {\textstyle \sum_{t=0}^{n}} R(s_t, a_t, s_{t+1})|\pi) \\
& = E(R_0+\gamma R_1+\gamma ^2R_2+...+\gamma ^nR_n|\pi ) \\
\\
\end{align}$$
② 最优策略：
$$\begin{align} 
\pi ^*=\underset{\pi}{argmax}\ E(U|\pi) \\
\\
\end{align}$$

### I.2 决策时限和策略的稳定性
MDP问题考察的时间长度可能是finite horizon或者infinite horizon的，两种情况下最优决策会有所不同。 \
<font color=green>finite horizon的意思是说，有一个固定的时间长度n，在这个时间之后的rewards不影响utility。比如，下围棋约定只能各走20子，20子之后，就算胜负扭转也不计入结果。</font>
1. 在<font color=orange>**finite horizon**</font>条件下做决策: 最优决策是<font color=blue>**不稳定的(optimal policy is nonstationary)**</font>  \
· 含义：<font color=purple>如果决策时间长度是finite horizon的，那么最优策略不仅取决于状态s，还取决于剩余的time horizon。这里“不稳定”是指最优决策会受time horizon的变化而变化。</font> \
· 例子：当前状态离终点有两条路径，一条路径近但是路上有掉进坑(比如utility为$-100$的state)的风险；另一条路径远，但是路上没有掉进坑的风险。如果time horizon是无限的，那么最优选择是走原路。但如果time horizon短，没有足够时间走远路，那就只能冒风险走又掉进坑的可能性的那条路。\
<font color=red>注：要区分time horizon和agent的步数(number of timesteps)。infinite horizon并不意味着会走无限步。在infinite horizon条件下，agent一旦走到terminal state一样会停止，实际走的步数仍然是有限的。不过，如果$\gamma=1$，那么可能出现最优决策是不走向terminal state，此时实际步数是无限的。</font>

2. 在<font color=orange>**infinite horizon**</font>条件下做决策: 最优决策是<font color=blue>**稳定的(optimal policy is stationary)**</font> \
· 含义：<font color=purple>如果决策时间长度是infinite horizon的，那么最优action a只取决于当前状态s，与当前所处的time无关，也与起点时刻的state $s_0$无关。</font>这也意味着$\pi^*$与$s_0$无关。当然具体的action sequence和他们对应的实际得到的utility结果与起点时刻的state有关。 \
$$\pi^*=\pi^*_s,\ \forall s\in S$$
· 证明：<font color=blue>可以用bellman operator是contraction function的性质证明。参考后面的policy iteration的收敛性证明。</font> 

## II. Bellman equation
### II.1 概念符号
① 给定策略$\pi$，start state为s，start action为a，期望效用：
$$\begin{align} 
  Q^{\pi}(s, a) =E(U|\pi,s_0=s, a_0=a)  = E( {\textstyle \sum_{t=0}^{n}} \gamma ^tR_t|\pi,s_0=s, a_0=a)\\
\\
\end{align}$$
② 给定策略$\pi$，start state为s，期望效用：
$$\begin{align} 
V^{\pi}(s)=E(U|\pi,s_0=s)  = E_AQ^{\pi}(s, a)\\
\\
\end{align}$$
③ start state为s，start action为a，从下一步开始用最优策略达到的期望效用：
$$\begin{align} 
Q^{*}(s, a)=\underset{\pi}{max}\ Q^{\pi}(s, a)=\underset{\pi}{max}\ E(U|\pi, s_0=s, a_0=a)\\
\\
\end{align}$$
④ start state为s，用最优策略达到的期望效用：
$$\begin{align} 
V^*(s)=V^{\pi^*}(s)=\underset{\pi}{max}\ V^{\pi}(s)=\underset{\pi}{max}\ E(U|\pi,s_0=s)\\
\\
\end{align}$$
⑤ 最优策略：
$$
\pi^*=\underset{\pi}{argmax}\ V^{\pi}(s), \forall s\in \mathcal{S}
$$
注1：<font color=green>$\pi^*=\pi^*_s$表示start state为s时的整体策略，$\pi^*(s)$表示当前state是s，当前步的最优策略。
$$\begin{align} 
\pi^*(s)=\underset{a}{argmax}Q^{*}(s, a)\\
\end{align}$$</font> \
⑥ 相互关系 \
<font color=blue>$$\begin{matrix}
 Q^{\pi}(s, a) & \overset{\pi=\pi^*}{\rightarrow} & Q^{*}(s, a)\\
|& & |\\
 {\scriptsize E_{A\sim \pi}Q^{\pi}(s, a)}   &  & {\scriptsize E_{A\sim \pi^{*}}Q^{*}(s, a)}\\
|& & |\\
 V^{\pi}(s) & \overset{\pi=\pi^*}{\rightarrow} & V^{*}(s)
\end{matrix}$$</font>

### II.2 效用的迭代形式
#### II.2.1 Reward function和Utility
1. 已知(a, s)：此时只考虑下一状态的分布
$$
\begin{align}
E(R|a, s) & = E_{T}(R|s, a)   \\
& = E_{P(s^{'}|s, a)}(R|s, a)   \\
& = \sum_{s^{'}\in \mathcal{S}} P(s^{'}|s, a)R(s, a, s^{'})
\end{align}
$$
2. 已知(s)：此时同时考虑action的分布和下一状态的分布 
$$
\begin{align}
E(R|s) & = E_{a\sim A}[E(R|s, a)]   \\
& = E_{a\sim A}[\sum_{s^{'}\in \mathcal{S}} P(s^{'}|s, a)R(s, a, s^{'})] \\
& = \sum _{a\in \mathcal{A}}\pi (a|s)\sum_{s^{'}\in \mathcal{S}} P(s^{'}|s, a)R(s, a, s^{'})
\end{align} 
$$

3. 效用的迭代形式 \
(1)time horizon有限的条件下
$$
\begin{align}
U_t
& =R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+...+\gamma^{n} R_{t+n} \\
& =R_t+\gamma \left [ R_{t+1}+\gamma R_{t+2}+...+ \gamma^{n-1} R_{t+n} \right ] \\
& =R_t+\gamma U_{t+1}
\end{align} 
$$
(2)time horizon无限的条件下
$$
\begin{align}
U_t
& =R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+...+\gamma^{n} R_{t+n}+... \\
& =R_t+\gamma \left [ R_{t+1}+\gamma R_{t+2}+...+ \gamma^{n-1} R_{t+n}+...  \right ] \\
& =R_t+\gamma U_{t+1}
\end{align} 
$$

### II.3 贝尔曼期望方程 [以time horizon无限为条件]
<font color=red>**本质：time horizon无限的条件下，求Utility的期望值**</font>
#### II.3.1 性质
1. <font color=orange>**time horizon无限的条件下，期望效用与starting time无关。**</font>
$$
\color{orange}  {E(U_{t=i}|s) =E(U_{t=j}|s)=E(U|s) , 其中i\ne j}
$$
<font color=grey>证明：只要证明$E(U_{0}|s) =E(U_{t}|s)$即可 \
$$
\begin{align}
E(U_0|s)
& = E(R_0+\gamma R_{1}+\gamma^2 R_{2}+...+\gamma^{n} R_{n}+...|s) \\
& = \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'}) +\gamma E(U_1|s^{'}) \right ] \\
& = \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)R(s, a, s^{'}) +\gamma \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)E(U_1|s^{'})  \\
E(U_t|s)
& = E(R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+...+\gamma^{n} R_{t+n}+...|s) \\
& = \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma E(U_{t+1}|s^{'}) \right ] \\
& = \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)R(s, a, s^{'}) +\gamma \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)E(U_{t+1}|s^{'})  \\
\end{align} 
$$
上面两个式子中展开的第一项相同，同样的道理继续展开他们各自对应的$E(U_1|s^{'})$和$E(U_{t+1}|s^{'})$，在infinite horizon条件下，只要reward function、策略$\pi$和状态转移函数相同，那么后面所有展开的结果必然相同。</font>

#### II.3.2 状态价值函数和行为价值函数的贝尔曼方程形式
1. <font color=blue>**time horizon无限的条件下，求状态价值函数：** </font>
$$
\color{Blue}  {V^{\pi}(s)  = E(U|s) = \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma V^{\pi}(s^{'}) \right ]} 
$$
证明：\
(1)已知s，求效用的期望
$$
\begin{align}
E(U_0|s)
& = E(R_0+\gamma R_{1}+\gamma^2 R_{2}+...+\gamma^{n} R_{n}+...|s) \\
& = \sum_{a\in \mathcal{A}}\pi(a|s)E(R_0+\gamma R_{1}+\gamma^2 R_{2}+...+\gamma^{n} R_{n}+...|s,a)\\
& = \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)E(R_0+\gamma R_{1}+\gamma^2 R_{2}+...+\gamma^{n} R_{n}+...|s,a,s^{'})\\
& = \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma E\left ( R_1+\gamma R_{2}+...+\gamma^{n-1} R_{n}+...|s, a, s^{'} \right )  \right ] \\ 
& = \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma E(U_1|S_0=s, A_0=a, S_1=s^{'}) \right ] \\
& \because 马尔科夫条件和reward函数形式决定了U_1不受S_0和A_0取值的影响 \\
& = \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma E(U_1|s^{'}) \right ]
\end{align} 
$$
**(2)time horizon无限的条件下，状态价值函数的递归形式**
$$
\begin{align}
\because E(U_t|s) & =E(U|s), E(U_{t+1}|s^{'})=E(U|s^{'})\\
\therefore E(U|s) & = \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma E(U|s^{'}) \right ]\\
\therefore V^{\pi}(s) & = E(U|s) = \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma V^{\pi}(s^{'}) \right ]
\end{align}
$$

2. <font color=blue>**time horizon无限的条件下，求行为价值函数：** </font>
$$
\color{Blue} {
\begin{align}
Q^{\pi}(s,a)  = E(U|s,a) & = \sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma V^{\pi}(s^{'}) \right ] \\
& = \sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma \sum_{a^{'}\in \mathcal{A}}\pi(a^{'}|s^{'})Q^{\pi}(s^{'},a^{'}) \right ] 
\end{align}
}
$$
证明：\
(1)已知(s,a),求效用的期望
$$
\begin{align}
E(U_0|s,a)
& = E(R_0+\gamma R_{1}+\gamma^2 R_{2}+...+\gamma^{n} R_{n}+...|s,a) \\
& = \sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)E(R_0+\gamma R_{1}+\gamma^2 R_{2}+...+\gamma^{n} R_{n}+...|s,a,s^{'})\\
& = \sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma E\left ( R_1+\gamma R_{2}+...+\gamma^{n-1} R_{n}+...|s, a, s^{'} \right )  \right ] \\ 
& = \sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma E(U_1|s, a, s^{'}) \right ] \\
& = \sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma E(U_1|s^{'}) \right ]
\end{align}
$$
**(2)time horizon无限的条件下，行为价值函数的递归形式**
$$
\begin{align}
\because E(U_t|s,a) & = E(U|s,a), E(U_{t+1}|s^{'})=E(U|s^{'}) \\
\therefore E(U|s,a) & = \sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma E(U|s^{'}) \right ] \\
\therefore Q^{\pi}(s,a) & =E(U|s,a) =\sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma V^{\pi}(s^{'}) \right ]
\end{align}
$$
(3)转换成贝尔曼期望方程的形式：
$$
\begin{align}
Q^{\pi}(s,a) & = \sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma E(U|s^{'}) \right ] \\
& = \sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma \sum_{a^{'}\in \mathcal{A}}\pi(a^{'}|s^{'})E(U|s^{'},a^{'}) \right ] \\
& = \sum_{s^{'}\in \mathcal{S}}P(s^{'}|s, a)\left [ R(s, a, s^{'})+\gamma \sum_{a^{'}\in \mathcal{A}}\pi(a^{'}|s^{'})Q^{\pi}(s^{'},a^{'}) \right ] \\
\end{align}
$$

#### II.3.3 矩阵法求解贝尔曼方程
1. 假设一共有K种状态，每种状态的期望效用可以表示为：
$$
\begin{align}
V^{\pi}(s^{k}) & = \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s^{i}\in \mathcal{S}}P(s^{i}|s, a)\left [ R(s, a, s^{i})+\gamma V^{\pi}(s^{i}) \right ] \\
& = ER(s^{k}) + \gamma \sum _{s^{i}\in \mathcal{S}}P(s^{i}|s)V^{\pi }(s^{i}) \\
& k\in {1, 2, ..., K}
\end{align}
$$
2. 用线性方程组方法求解：\
上式可以展开为：
$$
\begin{align}
\begin{bmatrix}
V(s^{1}) \\
V(s^{2}) \\
... \\
V(s^{K})
\end{bmatrix}=E\begin{bmatrix}
r(s^{1}) \\
r(s^{2}) \\
... \\
r(s^{K})
\end{bmatrix} + \gamma \begin{bmatrix}
p(s^{1}|s^{1})  & p(s^{2}|s^{1}) & ... & p(s^{K}|s^{1})\\
p(s^{1}|s^{2})  & p(s^{2}|s^{2}) & ... & p(s^{K}|s^{2})\\
 ... &  &  & \\
p(s^{1}|s^{K})  & p(s^{2}|s^{K}) & ... & p(s^{K}|s^{K})\\
\end{bmatrix}\begin{bmatrix}
V(s^{1})\\
V(s^{2}) \\
... \\
V(s^{K})
\end{bmatrix}
\end{align}
$$
求解线性方程组：
$$
\begin{align}
\mathcal{V} & = \mathcal{R} +\gamma \mathcal{PV} \\
(\mathcal{I-\gamma P})\mathcal{V}& =\mathcal{R}\\
\mathcal{V} & = (\mathcal{I-\gamma P})^{-1}\mathcal{R}
\end{align}
$$

3. **解的性质**：<font color=blue>**根据线性方程组的特征，n个方程求n个未知数，解存在且唯一。**</font>

## III. 动态规划法解Bellman optimal equation
### III.1 value iteration
#### III.1.1 算法
<font color=red>**理解要点：要从数学优化方法的角度来理解value iteration，不要从每一步迭代找到局部最优的角度，因为value iteration每一步迭代得到的$V_{k}(s)$都不是真的state s的value，而是数学优化方法的中间结果。（这一点和policy iteration不同，后者每次policy evaluation的结果都有具体的$\pi$与之对应。）但迭代收敛后的$V^{*}$是真的最优state value。**</font>
1. **value iteration**: \
已知transition model $T(s,a,s^{'})$，rewards $R(s,a,s^{'})$，收敛精度$\epsilon$，discount $\gamma$ \
初始化$V_0(s)=0$ \
迭代: \
$$\begin{align} 
repeat:&&\\
&\delta=0 \ &\\
&for\ s\ in\ S:&\\
& \ \ \ \ \ \ \ \ V_{k+1}(s) \leftarrow \underset{a\in A}{max} \sum_{s^{'}}^{}T(s,a,s^{'})[R(s,a,s^{'})+\gamma V_k(s^{'})]\\
& \ \ \ \ \ \ \ \ if\ \delta < |V_{k+1}(s)-V_{k}(s)|,\ then \ \delta = |V_{k+1}(s)-V_{k}(s)|\\
until:&\delta<\epsilon\frac{(1-\gamma )}{\gamma}&
\end{align}$$
<font color=red>**注：**下标表示time horizon，不是迭代次数的index。迭代条件$\delta < |V_{k+1}(s)-V_{k}(s)|$虽然有下标，但是最终收敛的时候$V^*(s)=V_k(s), k\rightarrow \infty$，即在unlimited time horizon条件下，会收敛到$V^*(s)$。</font>
2. <font color=blue>**policy extraction**: 当算法收敛后，得到$V^*(s)$，再用下式得到最优策略$\pi^*(s)$\
$$\begin{align} 
\pi^*(s)& =\underset{a\in A}{argmax}Q^{*}(s, a)\\
& =\underset{a\in A}{argmax} \sum_{s^{'}}P(s^{'}|s, a)[R(s, a, s^{'})+\gamma V^*(s^{'})] 
\end{align}$$</font>
3. <font color=red>每次iteration</font>的复杂度：$O(|S|^2|A|)$ \
分析：每个for循环内部的一轮计算是$O(|S||A|)$，每次iteration要做$|S|$次for循环。所以每次iteration的复杂度是$O(|S|^2|A|)$

#### III.1.2 收敛性：value iteration会收敛到唯一最优解
<font color=green>思路：利用Bellman equation满足contraction定义的特征，再用contraction的性质得到收敛的结论</font>
1. <font color=blue>**contraction的定义和性质**</font> \
· **定义**：如果单变量函数f(x)满足:$$distance(f(a), f(b))\le \gamma * distance(a, b)，0\le \gamma<1$$则称f(x)是一个contraction。\
· **性质**：\
① <font color=brown>contraction最多只有一个固定的收敛点。序列: $x, f(x), f(f(x)), ...$会收敛到该点。</font> \
<font color=gray>简证：如果有两个的话，那么会向两个位置收敛，就无法满足distance缩小的条件了。</font>\
② <font color=brown>当$x=f(x)$时，就达到了收敛点。</font> \
· <font color=gray>eg: f(x)=x/2是contraction。当x=0时，收敛点是0，$x=0时，x=f(0)=0$。</font>

2. **证明1：以max norm为distance measure时，bellman operator是一个contraction。**\
分析：\
① max norm：将$V$看做有$|S|$个元素的vector，则其max norm可以表示为：$$\left \| V \right \|_{\infty} = \underset{s\in S}{max} |V(s)|$$
② Bellman update:$$\begin{align} 
& V_{k+1}(s) \leftarrow \underset{a\in A}{max} \sum_{s^{'}}^{}T(s,a,s^{'})[R(s,a,s^{'})+\gamma V_k(s^{'})]\\
& 取B(V(s))=\underset{a\in A}{max} \sum_{s^{'}}^{}T(s,a,s^{'})[R(s,a,s^{'})+\gamma V(s^{'})]\\
& B(V)=\begin{pmatrix}
B(V(s_1)) \\
B(V(s_2)) \\
... \\
B(V(s_m))
\end{pmatrix}, s\in S=\{s_1, s_2, ..., s_m\}  \\
& B称为Bellman\ operator \\
\end{align}$$
③ 定义Bellman operator: B(V) 
$$\begin{align} 
& 取B(V(s))=\underset{a\in A}{max} \sum_{s^{'}}^{}T(s,a,s^{'})[R(s,a,s^{'})+\gamma V(s^{'})], s\in S=\{s_1, s_2, ..., s_m\} \\
& B(V)=\begin{pmatrix}
B(V(s_1)) \\
B(V(s_2)) \\
... \\
B(V(s_m))
\end{pmatrix} =\begin{pmatrix}
\underset{a\in A}{max} \sum_{s^{'}}^{}T(s_1,a,s^{'})[R(s,a,s^{'})+\gamma V(s^{'})] \\
\underset{a\in A}{max} \sum_{s^{'}}^{}T(s_2,a,s^{'})[R(s,a,s^{'})+\gamma V(s^{'})] \\
... \\
\underset{a\in A}{max} \sum_{s^{'}}^{}T(s_m,a,s^{'})[R(s,a,s^{'})+\gamma V(s^{'})]
\end{pmatrix}
\end{align}$$
④ 需要证明：$$\left \| B(V)-B(\tilde V) \right \|_{\infty} \le \gamma \left \| V-\tilde V \right \| _{\infty}$$
<font color=green>思路：$$\begin{align} 
& \because \left \| B(V)-B(\tilde V) \right \|_{\infty}=\underset{s\in S}{max} \left | B(V(s))-B(\tilde V(s)) \right | \\
& \therefore 只要证明，对\forall s都有\left | B(V(s))-B(\tilde V(s)) \right |\le \gamma \left \| V-\tilde V \right \| _{\infty}即可 \\
\end{align}$$</font>

2. 证明1（续） \
⑤ 证明过程：\
利用任意不等式都有的性质：$$|max\ f(x)-max\ h(x)|\le max|f(x)-h(x)|$$
$$\begin{align} 
& |BV(s)-B\tilde V(s)| \\
& =\left|\underset{a\in A}{max} \sum_{s^{'}}^{}T(s,a,s^{'})[R(s,a,s^{'})+\gamma V(s^{'})]-\underset{a\in A}{max} \sum_{s^{'}}^{}T(s,a,s^{'})[R(s,a,s^{'})+\gamma \tilde V(s^{'})]\right|\\
& \le \underset{a\in A}{max}\left |\sum_{s^{'}}^{}T(s,a,s^{'})[R(s,a,s^{'})+\gamma V(s^{'})]-\sum_{s^{'}}^{}T(s,a,s^{'})[R(s,a,s^{'})+\gamma \tilde V(s^{'})]  \right | \\
& = \underset{a\in A}{max}\left |\gamma \sum_{s^{'}}^{}T(s,a,s^{'})V(s^{'}) - \gamma \sum_{s^{'}}^{}T(s,a,s^{'})\tilde V(s^{'})\right | \\
& = \gamma*\underset{a\in A}{max}\left |\sum_{s^{'}}^{}T(s,a,s^{'})[V(s^{'})-\tilde V(s^{'})]  \right | \\
& \le \gamma*\underset{a\in A}{max}\left |\sum_{s^{'}}^{}T(s,a,s^{'})\underset {s^{'}}{max}|V(s^{'})-\tilde V(s^{'})| \right | \\
& = \gamma*\underset {s^{'}}{max}\left | V(s^{'})-\tilde V(s^{'}) \right |=\gamma \left \| V-\tilde V \right \|_{\infty}
\end{align}$$

3. **证明2：value iteration会收敛到唯一最优解** \
证明：\
Bellman equation迭代的过程相当于iterated sequence：$x, f(x), f(f(x)), ...$。\
根据contraction的性质，iterated sequence会收敛到固定值，且当$x=f(x)$时到达该收敛点。\
因此，$B(V)$会收敛到唯一的固定值：$$B(V)=\begin{pmatrix}
B(V(s_1)) \\
B(V(s_2)) \\
... \\
B(V(s_m))
\end{pmatrix} \rightarrow \begin{pmatrix}
V^*(s_1) \\
V^*(s_2) \\
... \\
V^*(s_m)
\end{pmatrix}=V^* \\
且此时，V^*=B(V^*)=\begin{pmatrix}
B(V^*(s_1)) \\
B(V^*(s_2)) \\
... \\
B(V^*(s_m))
\end{pmatrix}$$

#### III.1.3 收敛速度：rate of convergence
1. <font color=blue>**value iteration converges exponentially fast.**</font> \
分析：$取error_k = \left \| B(V_{k})-B(V^*) \right \|_{\infty}$
$$\begin{align} 
\because \left \| B(V_{k+1})-B(V^*) \right \|_{\infty} & \le \gamma *\left \| V_{k+1}-V^* \right \|_{\infty} \\
& = \gamma *\left \| B(V_{k})-V^* \right \|_{\infty} 
\end{align}$$
$$\begin{align} 
\therefore \frac{\left \| B(V_{k+1})-B(V^*) \right \|_{\infty}}{\left \| B(V_{k})-B(V^*) \right \|_{\infty}}\le \gamma \\
\\
\end{align}$$
2. 要让收敛精度达到$\epsilon$，则需要的迭代条件是$\left \| V_{k+1}-V_k \right \|_{\infty} \le \epsilon (1-\gamma)/\gamma$。因为： \
$$if\ \left \| V_{k+1}-V_k \right \|_{\infty} \le \epsilon (1-\gamma)/\gamma,\ \ then\ \left \| V_{k+1}-V^* \right \|_{\infty} \le \epsilon$$
分析：(略)<font color=blue>[详见AI：a modern approach 4th ch17.2 page575] </font>

### III.2 policy iteration
出发点：策略的收敛通常比value收敛发生的早很多。而bellman equation本身的目标就是找到最优策略。因此一个思路是直接求策略，而不是先求optimal value再得到对应的策略。
#### III.1.1 算法
1. **思路**: <font color=green>每次迭代先做policy evaluation，再做policy improvement，直到policy evaluation得到的utility没有变化，也即utility收敛到了contraction的收敛点。此时policy extraction得到的就是最优策略。</font>\
① <font color=blue>**policy evaluation**</font>：给定策略$\pi_i$，对所有的states s计算value/utility:$$\begin{align} 
& 解线性方程组：V^{\pi_i}(s)=\sum_{s^{'}}^{}T(s,\pi_i(s),s^{'})[R(s,\pi_i(s),s^{'})+\gamma V^{\pi_i}(s^{'})] \\
& or\\
& 迭代至收敛：V^{\pi_i}(s)\leftarrow \sum_{s^{'}}^{}T(s,\pi_i(s),s^{'})[R(s,\pi_i(s),s^{'})+\gamma V^{\pi_i}(s^{'})]\\
\end{align}$$
<font color=red>注：迭代法的收敛条件不应该表达为$$V^{\pi_i}_{k+1}(s)\leftarrow \sum_{s^{'}}^{}T(s,\pi_i(s),s^{'})[R(s,\pi_i(s),s^{'})+\gamma V^{\pi_i}_{k}(s^{'})]$$
因为下标k表示action的time horizon，它只是在迭代没有收敛的阶段标记time horizon。而在unlimited time horizon的环境下，一旦收敛之后，time horizon的变化已经不会带来utility大小的改变。</font> \
② <font color=blue>**policy improvement/extraction**</font>：向前看一步，更新策略$$\begin{align} 
\pi_{i+1}(s) & \leftarrow \underset{a\in A}{argmax}Q^{\pi_i}(s, a)\\
& =\underset{a\in A}{argmax} \sum_{s^{'}}P(s^{'}|s, a)[R(s, a, s^{'})+\gamma V^{\pi_i}(s^{'})] 
\end{align}$$
2. **Q-value iteration算法**： \
已知transition model $T(s,a,s^{'})$，rewards $R(s,a,s^{'})$，收敛精度$\epsilon$，discount $\gamma$ \
初始化：$V_0^{\pi}(s)=0$，任意初始化$\pi_0$ \
迭代: \
$$\begin{align} 
repeat:&\\
& \#\ policy\ evaluation,解|S|个方程|S|个未知数的线性方程组 \\
&for\ s\ in\ S: \\
& \ \ \ \ \ \ \ \ V^{\pi}(s)=\sum_{s^{'}}^{}T(s,\pi(s),s^{'})[R(s,a,s^{'})+\gamma V^{\pi}(s^{'})] \\
& \#\ policy\ improvement/extraction \\
& for\ s\ in\ S: \\
& \ \ \ \ \ \ \ \ \pi_{i+1}(s) \leftarrow\underset{a\in A}{argmax} \sum_{s^{'}}P(s^{'}|s, a)[R(s, a, s^{'})+\gamma V^{\pi_i}(s^{'})]\\
until:&\  \pi\ stable\\
return:&\ \pi
\end{align}$$

3. 算法复杂度 \
· **policy evaluation** \
① 精确求解：直接求解线性方程组，那么正常情况下是$O(|S|^3)$。但如果利用状态转移函数的稀疏性，可以大幅降低复杂度。\
② 近似求解：用迭代法得到$V^{\pi}$的近似估计值
$$V^{\pi}(s)\leftarrow \sum_{s^{'}}^{}T(s,\pi(s),s^{'})[R(s,\pi(s),s^{'})+\gamma V^{\pi}(s^{'})]$$
单次迭代的复杂度是$O(|S|^2)$ \
· **policy improvement**: $O(|S|^2|A|)$ \
分析：每个for循环内部的一轮计算是$O(|S||A|)$，每次iteration要做$|S|$次for循环。所以每次iteration的复杂度是$O(|S|^2|A|)$ \
<font color=red>分析：直接看算法复杂度时，policy iteration的每次迭代复杂度是$O(|S|^2|A|)=O(|S|^2|A|)+O(|S|^2)$。从单次迭代的复杂度来看，它和value iteration在同一水平上。但policy iteration需要的总的迭代次数更少。</font>

#### III.1.2 policy iteration能收敛到唯一最优解
1. **每次policy improvement之后，新得到的policy一定比之前的policy有更好的value。**
$$
V^{\pi^{'}}(s)\ge V^{\pi}(s), \forall s\in \mathcal{S}
$$
证明[详见西湖书4.2.1 page73]
2. **policy evaluation和policy improvement的迭代可以收敛到$V^{*}(s), \forall s\in \mathcal{S}$。**\
证明思路：每一轮policy evaluation + policy improvement的迭代完成后得到的$V^{\pi}(s)$比value iteration每次迭代后的值更大，更接近$V^{*}(s)$。而value iteration可以收敛，因此policy iteration也能收敛。[详见西湖书4.2.1 page75]

3. **证明：迭代法做policy evaluation可以收敛，且会收敛到$V^{\pi}(s)$的唯一解。** \
(1)value iteration of fixed policy对应的bellman operator是一个contraction。 
$$V^{\pi}(s)\leftarrow \sum_{s^{'}}^{}T(s,\pi(s),s^{'})[R(s,\pi(s),s^{'})+\gamma V^{\pi}(s^{'})]$$
<font color=red>注，下面$BV(s)$是$BV^{\pi}(s)$的简写，指固定策略后的value，其它同理。</font>
$$\begin{align} 
& |BV(s)-B\tilde {V}(s)|， \\
& = \left |\sum_{s^{'}}^{}T(s,\pi(s),s^{'})[R(s,\pi(s),s^{'})+\gamma V(s^{'})]-\sum_{s^{'}}^{}T(s,\pi(s),s^{'})[R(s,\pi(s),s^{'})+\gamma \tilde V(s^{'})]  \right | \\
& = \left |\gamma \sum_{s^{'}}^{}T(s,\pi(s),s^{'})V(s^{'}) - \gamma \sum_{s^{'}}^{}T(s,\pi(s),s^{'})\tilde V(s^{'})\right | \\
& = \gamma*\left |\sum_{s^{'}}^{}T(s,\pi(s),s^{'})[V(s^{'})-\tilde V(s^{'})]  \right | \\
& \le \gamma*\left |\sum_{s^{'}}^{}T(s,\pi(s),s^{'})\underset {s^{'}}{max}|V(s^{'})-\tilde V(s^{'})| \right | \\
& = \gamma*\underset {s^{'}}{max}\left | V(s^{'})-\tilde V(s^{'}) \right |   \\
& =\gamma \left \| V-\tilde V \right \|_{\infty}
\end{align} $$
(2)证明：value iteration of fixed policy会收敛到唯一解。 \
直接用contraction性质。

### 附：对preference independent性质的说明
1. 定义: Utility function的自变量称为attributes。有attributes X,Y。如果preferences for different levels of X do not depend on the level of Y, and vice versa就称他们是preference independent的。 
2. 数学表达: 如果X和Y是preference independent的, the utility function U(X,Y)可以写成U(X,Y) = f(X) + g(Y)。
3. 例子：如果改变Y的大小会影响X的utility，那么就不满足preference independent条件。比如当苹果的拥有量很高的时候，拥有更多香蕉的效用会下降，因为他们都是甜水果。但是当苹果拥有量很多的时候，不会影响拥有汽车的效用。此时苹果和汽车是preference independent的，但苹果和香蕉不是。
4. 应用说明：在MDP设定下，preference independent按含在markov假设中。每个time step上的states就是attributes。$R_t$只取决于$S_t$，不受其他时点上的states影响。