In [1]:
from IPython.display import Image

### 从概率到期望（值, expected value）

$$
\mathbb E[x]=\sum_x xp(x)
$$

- 骰子的期望值：$\frac{1+2+3+4+5+6}6=\frac{21}6=3.5$

In [3]:
# 普通硬币：50% vs. 50%
# 更容易出现正面的硬币：80% vs. 20%
Image(url='./figs/stochastic_tree.png', width=400)

In [4]:
1/6*(1*0.5 + 3*0.5 + 5*0.5) + 1/6 * (2*0.8 + 4 * 0.8 + 6 * 0.8)

2.35

- $x$ 是掷骰子的结果（outcome，$\{1,2,3,4,5,6\}$），$y$ 是抛硬币的结果（outcome，$\{正,反\}$）
    - 上文的环境，硬币正面的概率是可变的，是 conditional 的，$p(y|x)$
    - $p(y=H|x=\{2,4,6\})=0.8$
    - $p(y=H|x=\{1,3,5\})=0.5$
- $x$ 与 $y$ 同时发生的概率称为联合概率（joint probability）
    - $p(x,y)=p(x)p(y|x)$
- 对于奖励 reward，$\{x,y\}$ 确定之后唯一确定，记为 $r(x,y)$
- 奖励的期望：

$$
\begin{split}
\mathbb E[r(x,y)]&=\sum_x\sum_y p(x,y)r(x,y)\\
&=\sum_x\sum_yp(x)p(y|x)r(x,y)
\end{split}
$$

### Bellman equation 的推导

- 收益（return，回报）的定义
    - $G_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\cdots$
    - 收益 $G_t$ 是从时刻 $t$ 之后获得的奖励（reward）的总和，由于有折现率 $\gamma$ 的存在（未来时刻的奖励折现），未来时刻获得的奖励呈指数级下降；
    - 现在来简单推导 $G_t$ 与 $G_{t+1}$ 的关系

$$
\begin{split}
G_t&=R_t+\gamma R_{t+1}+\gamma^2R_{t+2}+\gamma^3R_{t+3}+\cdots\\
&=R_t+\gamma(R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\cdots)\\
&=R_t+\gamma G_{t+1}
\end{split}
$$

- 状态价值函数是收益的期望值（$E[X+Y]=E[X]+E[Y]$）；

$$
\begin{split}
v_\pi(s)&=\mathbb E_\pi[G_t|S_t=s]\\
&=\mathbb E_\pi[R_t+\gamma G_{t+1}|S_t=s]\\
&=\mathbb E_\pi[R_t|S_t=s] + \gamma \mathbb E_\pi[G_{t+1}|S_t=s]
\end{split}
$$

- 我们来看左边这一项，$R_t$ 奖励的期望

$$
\begin{split}
\mathbb E_\pi[R_t|S_t=s]&=\sum_a\sum_{s'} \pi(a|s)p(s'|s,a)r(s,a,s')\\
&=\sum_{a,s'}\pi(a|s)p(s'|s,a)r(s,a,s')
\end{split}
$$

- 再来看右边那一项，即 $G_{t+1}$ 收益的期望（$\mathbb E_\pi[G_{t+1}|S_t=s]$）
    - $v_\pi(s)=\mathbb E_\pi[G_t|S_t=s]$
    - $v_\pi(s)=\mathbb E_\pi[G_{t+1}|S_{t+1}=s]$
    - 现在的问题是如何将条件 $S_{t}=s$ 变换为 $S_{t+1}=s$：往前走一步

$$
\begin{split}
\mathbb E_\pi[G_{t+1}|S_t=s]&=\sum_{a,s'}\pi(a|s)p(s'|s,a)\mathbb E_\pi[G_{t+1}|S_{t+1}=s']\\
&=\sum_{a,s'}\pi(a|s)p(s'|s,a)v_\pi(s')
\end{split}
$$

- 现在将两项合并得到贝尔曼方程：

$$
\begin{split}
v_\pi(s)&=\mathbb E_\pi[R_t|S_t=s]+\gamma\mathbb E_\pi[G_{t+1}|S_t=s]\\
&=\sum_{a,s'}\pi(a|s)p(s'|s,a)r(s,a,s')+\gamma\sum_{a,s'}\pi(a|s)p(s'|s,a)v_\pi(s')\\
&=\sum_{a,s'}\pi(a|s)p(s'|s,a)\left(r(s,a,s')+\gamma v_\pi(s')\right)
\end{split}
$$

- 贝尔曼方程刻画的是状态 $s$ 的价值函数与下一个可能的状态 $s'$ 的价值函数之间关系；
    - 对所有状态 $s$ 和所有策略 $\pi$ 都成立

### 一个示例