## 强化学习

### 主要内容

* 1 强化学习综述
    * 1.1 问题特点
    * 1.2 示例：$n$-摇臂赌博机问题
    * 1.3 Bellman等式
* 2 强化学习算法
    * 2.1 动态规划
    * 2.2 蒙特卡罗方法
    * 2.3 时序差分学习
    * 2.4 资格迹
* 3 其他内容
* 参考资料

### 1 强化学习综述

#### 1.1 问题特点
* 延迟奖励：以最终目标为导向
    * 处理方法
        * 选择期望累计奖励最多的策略
    * 数学表达
        * 累积奖励

            $$R_t=\sum_{k=0}^T\gamma^kr_{t+k+1}$$

        * 某一策略的状态价值函数

            $$V^\pi(s)=E_\pi(R_t|s_t=s)=E_\pi(\sum_{k=0}^\infty\gamma^kr_{t+k+1}|s_t=s)$$

        * 某一策略的动作价值函数

            $$Q^\pi(s,a)=E_\pi(R_t|s_t=s,a_t=a)=E_\pi(\sum_{k=0}^\infty\gamma^kr_{t+k+1}|s_t=s,a_t=a)$$

            这两者的关系为：

            $$V^\pi(s)=\sum_a\pi(s,a)Q^\pi(s,a)$$

        * 最优策略
            $$\pi^\ast=\arg\max_\pi V^\pi(s)=\arg\max_\pi Q^\pi(s,a)$$
* 试错学习：与环境交互
    * 持续地进行以下循环操作：估计价值函数（探索）$\Leftrightarrow$ 基于估计做出选择（利用）

#### 1.2 示例：$n$-摇臂赌博机问题

这是最简化的强化学习问题设定：

* 面对一个摇臂机（只有一个状态），需要选出期望奖励最多的摇臂（选择最优的动作）

解决这一问题需要循环地执行以下两步操作：
1. 估计动作的价值：估计各个摇臂的期望奖励

    $$Q_t(a)=(r_1+r_2+...+r_{k_a})/k_a$$

2. 选择动作：基于对价值的估计来选择摇臂
    * 贪心选择法：只选择当前估价最高的动作
    * $\varepsilon$-贪心选择法：以$\varepsilon$的概率探索新的动作，$1-\varepsilon$的概率选择当前估价最高的动作
    * Softmax选择法：选择各个动作的概率为$p(a)=e^{Q_t(a)/\tau}/\sum_{b=1}^{n}e^{Q_t(b)/\tau}$
    
#### 1.3 Bellman等式

#### 状态价值函数的Bellman等式

$$V^\pi(s)=\sum_a\pi(s,a)\sum_{s^{\prime}}P_{ss^{\prime}}^a[R_{ss^{\prime}}^a+\gamma V^\pi(s^{\prime})]$$


其中：
* $P_{ss^{\prime}}^a$为状态转移概率：$P_{ss^{\prime}}^a=P(s_{t+1}=s^{\prime}|s_t=s,a_t=a)$
* $R_{ss^{\prime}}^a$为即刻奖励期望：$R_{ss^{\prime}}^a=E(r_{t+1}|s_t=s,a_t=a,s_{t+1}=s^{\prime})$

同时假设这是马尔可夫决策过程（Markov Decision Process），满足马尔可夫性质：

$$P(s_{t+1}=s^{\prime},r_{t+1}=r|s_t,a_t,r_t,s_{t-1},a_{t-1}...)=P(s_{t+1}=s^{\prime},r_{t+1}=r|s_t,a_t)$$

证明：

$$V^{\pi}(s)=E_{\pi}(R_t|s_t=s)=\sum_a\pi(s,a)\sum_{s^{\prime}}P_{ss^{\prime}}^aE(R_t|s_t=s,a_t=a,s_{t+1}=s^{\prime})$$

\begin{align}
E(R_t|s_t=s,a_t=a,s_{t+1}=s^{\prime})
&=E(\sum_{k=0}^{\infty}\gamma^kr_{t+k+1}|s_t=s,a_t=a,s_{t+1}=s^{\prime})\\
&=E(r_{t+1}+\gamma\sum_{k=0}^{\infty}\gamma^kr_{t+k+2}|s_t=s,a_t=a,s_{t+1}=s^{\prime})\\
&=R_{ss^{\prime}}^a+\gamma E(\sum_{k=0}^{\infty}\gamma^kr_{t+1+k+1}|s_t=s,s_{t+1}=s^{\prime},a_t=a)\\
&=R_{ss^{\prime}}^a+\gamma E(\sum_{k=0}^{\infty}\gamma^kr_{t+1+k+1}|s_{t+1}=s^{\prime})\\
&=R_{ss^{\prime}}^a+\gamma E_{\pi}(\sum_{k=0}^{\infty}\gamma^kr_{t+1+k+1}|s_{t+1}=s^{\prime})\\
&=R_{ss^{\prime}}^a+\gamma E_{\pi}(R_{t+1}|s_{t+1}=s^{\prime})\\
&=R_{ss^{\prime}}^a+\gamma V^{\pi}(s^{\prime})
\end{align}

所以

$$V^{\pi}(s)=\sum_a\pi(s,a)\sum_{s^{\prime}}P_{ss^{\prime}}^a[R_{ss^{\prime}}^a+\gamma V^{\pi}(s^{\prime})]$$

#### 动作价值函数的Bellman等式

$$Q^{\pi}(s,a)=\sum_{s^{\prime}}P_{ss^{\prime}}^a[R_{ss^{\prime}}^a+\gamma\sum_{a^{\prime}}\pi(s^{\prime},a^{\prime})Q^{\pi}(s^{\prime},a^{\prime})]$$

证明：

$$
\begin{align}
Q^{\pi}(s,a) &
=E_{\pi}(R_t|s_t=s,a_t=a)\\
 & =\sum_{s^{\prime}}P_{ss^{\prime}}^aE(R_t|s_t=s,a_t=a,s_{t+1}=s^{\prime})\\
 & =\sum_{s^{\prime}}P_{ss^{\prime}}^aE(r_{t+1}+\gamma\sum_{k=0}^{\infty}\gamma^kr_{t+k+2}|s_t=s,a_t=a,s_{t+1}=s^{\prime})\\
 & =\sum_{s^{\prime}}P_{ss^{\prime}}^a(R_{ss^{\prime}}^a+\gamma E_{\pi}[\sum_{k=0}^{\infty}\gamma^kr_{t+1+k+1}|s_{t+1}=s^{\prime}])\\
 & =\sum_{s^{\prime}}P_{ss^{\prime}}^a[R_{ss^{\prime}}^a+\gamma V^{\pi}(s^{\prime})]\\
 & =\sum_{s^{\prime}}P_{ss^{\prime}}^a[R_{ss^{\prime}}^a+\gamma\sum_{a^{\prime}}\pi(s^{\prime},a^{\prime})Q^{\pi}(s^{\prime},a^{\prime})]\\
\end{align}
$$

#### 最优Bellman等式

$$
V^{\ast}(s)=\max_{a\in A(s)}Q^{{\pi}^{\ast}}(s,a)=\max_a\sum_{s^{\prime}}P_{ss^{\prime}}^a[R_{ss^{\prime}}^a+\gamma V^{\ast}(s^{\prime})]
$$

$$
Q^{\ast}(s,a)=\sum_{s^{\prime}}P_{ss^{\prime}}^a[R_{ss^{\prime}}^a+\gamma\max_{a^{\prime}}Q^{\ast}(s^{\prime},a^{\prime})]
$$

### 2 强化学习算法

#### 2.1 动态规划（Dynamic Programming）

动态规划为有模型算法，意思是状态转移概率和即刻奖励期望这些与环境相关的值已知。

* 策略迭代（Policy Iteration）
    * 策略评价：利用Bellman等式，通过迭代的方式计算某一策略的状态价值函数

    $$V_{k+1}(s)=\sum_a\pi(s,a)\sum_{s^{\prime}}P_{ss^{\prime}}^a[R_{ss^{\prime}}^a+\gamma V_k(s^{\prime})]$$

    * 策略改进

    $$\pi^{\prime}(s)=\arg\max_a\sum_{s^{\prime}}P_{ss^{\prime}}^a[R_{ss^{\prime}}^a+\gamma V^{\pi}(s^{\prime})]$$

    * 循环执行策略评价和策略改进这两个步骤，以至最优。
    
* 价值迭代（Value Iteration）：将策略评价和策略改进合并为一体

$$V_{k+1}(s)=\max_a\sum_{s^{\prime}}P_{ss^{\prime}}^a[R_{ss^{\prime}}^a+\gamma V_k(s^{\prime})]$$

    价值迭代也可以看做是把最优Bellman等式变成递推公式。

#### 2.2 蒙特卡罗方法（Monte Carlo Methods）

蒙特卡罗方法为无模型算法，意味着状态转移概率和即刻奖励期望这些与环境相关的值未知。蒙特卡罗方法对以下状态价值函数表达式进行采样估计：

$$V(s)=E_{\pi}(R_t|s_t=s)$$

估计方法
* 采用常数步长的递增表达式为：

$$V(s_t)\leftarrow V(s_t)+\alpha[R_t-V(s_t)]$$

* 蒙特卡罗方法对价值估计的更新是在完成一个采样轨迹（episode）之后。
* 因为无模型算法中状态转移概率和即刻奖励期望未知，因此仅对$V^{\pi}(s)$进行估计是不够的，最主要的还是对$Q^{\pi}(s,a)$进行估计。

#### 蒙特卡罗控制
* 估计某一策略的价值函数
* 选择策略：
    * 同策略蒙特卡罗算法：$\epsilon$-贪心策略
    * 异策略蒙特卡罗算法

#### 2.3 时序差分学习（Temporal-Difference Learning）

时序差分（TD）学习为无模型算法，意味着状态转移概率和即刻奖励期望这些与环境相关的值未知。TD(0)对以下状态价值函数表达式进行采样估计：

$$V^{\pi}(s)=E_{\pi}\{r_{t+1}+\gamma\sum_{k=0}^{\infty}\gamma^kr_{t+k+2}|s_t=s\}=E_{\pi}\{r_{t+1}+\gamma V^{\pi}(s_{t+1})|s_t=s\}$$

估计方法

* 采用常数步长的递增表达式为：

$$V(s_t)\leftarrow V(s_t)+\alpha[r_{t+1}+\gamma V(s_{t+1})-V(s_t)]$$

* TD学习对价值估计的更新是在下一个时间节点。
* 与蒙特卡罗方法相同，时序差分学习也需要对$Q^{\pi}(s,a)$进行估计。

#### Sarsa：同策略TD控制

$$Q(s_t,a_t)\leftarrow Q(s_t,a_t )+\alpha[r_{t+1}+\gamma Q(s_{t+1},a_{t+1})-Q(s_t,a_t)]$$

#### Q-学习：异策略TD控制

$$Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha[r_{t+1}+\gamma\max_{a}Q(s_{t+1},a)-Q(s_t,a_t)]$$

Q-学习也可以看做是对最优Bellman等式中的$Q^{\ast}(s,a)$的直接估计。

#### 2.4 资格迹（Eligibility Traces）

两种理解资格迹的等价视角

* 前向视角（forward view）：用来理解资格迹算法到底在计算什么，从理论上把TD学习和蒙特卡罗方法联系起来。
* 反向视角（backward view）：实际使用的资格迹算法

#### $TD(\lambda)$的前向视角

$n$步$TD$预测

$$R_t^{(n)}=r_{t+1}+\gamma r_{t+2}+\gamma^2 r_{t+3}+...+\gamma^{n-1} r_{t+n}+\gamma^n V_t(s_{t+n})$$

$n=1$时，为TD(0)；$n=\infty$时，为蒙特卡罗方法。

$TD(\lambda)$：对$n$步$TD$预测$R_t^{(n)}$进行加权平均

$$R_t^\lambda =(1-\lambda)\sum_{n=1}^\infty\lambda^{n-1}R_t^{(n)}=(1-\lambda)\sum_{n=1}^{T-t-1}\lambda^{n-1}R_t^{(n)}+\lambda^{T-t-1}R_t$$

$$\Delta V_t(s_t)=\alpha[R_t^\lambda-V_t(s_t)]$$

#### $TD(\lambda)$的反向视角

资格迹：

\begin{equation}
   e_t(s) = \left\{
   \begin{array}
     \gamma\lambda e_{t-1}(s) & s \neq s_t \\
     \gamma\lambda e_{t-1}(s)+1 & s=s_t \\
   \end{array}
   \right.
\end{equation}

$$\delta_t=r_{t+1}+\gamma V_t(s_{t+1})-V_t(s_t)$$

$$\Delta V_t(s_t)=\alpha\delta_te_t(s)$$

两种视角等价：

$$\sum_{t=0}^{T-1}\Delta V_t^{TD}(s)=\sum_{t=0}^{T-1}\Delta V_t^\lambda(s_t)I_{ss_t}$$

证明：

首先用数学归纳法证明资格迹可以表示为：

$$e_t(s)=\sum_{k=0}^t(\gamma\lambda)^{t-k}I_{ss_k}$$

当$t=0$时，由资格迹的定义可知$e_t(s)=I_{ss_0}$，满足上述等式。

当$t=1$时，由资格迹的定义可知$e_t(s)=\gamma\lambda I_{ss_0}I_{s\neq s_1}+(\gamma\lambda I_{ss_0}+1)I_{ss1}=\gamma\lambda I_{ss_0} (I_{ss_1}+ I_{s\neq s_1})+I_{ss1}=\gamma\lambda I_{ss_0}+I_{ss1}$，满足上述等式。

假设对任意$t\geqslant1$，$e_t(s)=\sum_{k=0}^t(\gamma\lambda)^{t-k}I_{ss_k}$。那么对于$e_{t+1}(s)$，由资格迹的定义可知，

$$
\begin{align}
e_{t+1}(s)
&=\gamma\lambda e_t(s)I_{s\neq s_{t+1}}+(\gamma\lambda e_t(s)+1)I_{ss_{t+1}}\\
&=\gamma\lambda e_t(s)(I_{s\neq s_{t+1}}+I_{ss_{t+1}})+I_{ss_{t+1}}\\
&=\gamma\lambda e_t(s)+I_{ss_{t+1}}\\
&=\gamma\lambda \sum_{k=0}^t(\gamma\lambda)^{t-k}I_{ss_k}+I_{ss_{t+1}}\\
&=\sum_{k=0}^t(\gamma\lambda)^{t+1-k}I_{ss_k}+I_{ss_{t+1}}\\
&=\sum_{k=0}^{t+1}(\gamma\lambda)^{t+1-k}I_{ss_k}\\
\end{align}
$$

所以对于任意$t\geqslant0$，均有$e_t(s)=\sum_{k=0}^t(\gamma\lambda)^{t-k}I_{ss_k}$。

对于双重求和，有：

$$
\begin{align}
\sum_{k=0}^{T-1}\sum_{t=0}^k
&=(\sum_{k=t}^{T-1}+\sum_{k=0}^{t-1})(\sum_{t=0}^{T-1}-\sum_{t=k+1}^{T-1})\\
&=\sum_{k=t}^{T-1}\sum_{t=0}^{T-1}-\sum_{k=t}^{T-1}\sum_{t=k+1}^{T-1}+\sum_{k=0}^{t-1}\sum_{t=0}^k\\
\end{align}
$$

其中后面两项都为零。以第二项为例。由求和上下限的定义可得，$k\geqslant t$及$t\geqslant k+1$，而这两个不等式是矛盾的，所以此求和为零。最后一项以此类推。

所以

$$\sum_{k=0}^{T-1}\sum_{t=0}^k=\sum_{k=t}^{T-1}\sum_{t=0}^{T-1}=\sum_{t=0}^{T-1}\sum_{k=t}^{T-1}$$

所以

$$
\begin{align}
\sum_{t=0}^{T-1}\Delta V_t^{TD}(s)
&=\sum_{t=0}^{T-1}\alpha\delta_t\sum_{k=0}^t(\gamma\lambda)^{t-k}I_{ss_k}\\
&=\sum_{k=0}^{T-1}\alpha\sum_{t=0}^k(\gamma\lambda)^{k-t}I_{ss_t}\delta_k (交换t和k)\\
&=\sum_{t=0}^{T-1}\alpha\sum_{k=t}^{T-1}(\gamma\lambda)^{k-t}I_{ss_t}\delta_k\\
&=\sum_{t=0}^{T-1}\alpha I_{ss_t}\sum_{k=t}^{T-1}(\gamma\lambda)^{k-t}\delta_k
\end{align}
$$

后面证明参照$^{[1]}$。

#### Sarsa($\lambda$)

$$Q_{t+1}(s,a)=Q_t(s,a)+\alpha\delta_te_t(s,a)$$

$$\delta_t=r_{t+1}+\gamma Q_t(s_{t+1},a_{t+1})-Q_t(s_t,a_t)$$

$$
\begin{equation}
   e_t(s,a) = \left\{
   \begin{array}\\
     \gamma\lambda e_{t-1}(s,a)+1 & s=s_t,a=a_t \\
     \gamma\lambda e_{t-1}(s,a) & 其他 \\
   \end{array}
   \right.
\end{equation}
$$

#### Watkin’s Q($\lambda$)

$$
\begin{equation}
   e_t(s,a)=I_{ss_t}\cdot I_{aa_t}+ \left\{
   \begin{array}\\
     \gamma\lambda e_{t-1}(s,a) & 当 Q_{t-1}(s_t,a_t)=\max_aQ_{t-1}(s_t,a) \\
     0 & 其他 \\
   \end{array}
   \right.
\end{equation}
$$

$$Q_{t+1}(s,a)=Q_t(s,a)+\alpha\delta_te_t(s,a)$$

$$\delta_t=r_{t+1}+\gamma\max_{a^{\prime}}Q_t(s_{t+1},a^{\prime})-Q_t(s_t,a_t)$$

### 3 其他内容

#### 3.1 泛化与函数近似
泛化
* 从有限的状态$\mapsto$价值数据（$s\mapsto v$）得到整个状态空间的价值函数。

泛化的方法是函数近似，也就是监督学习。强化学习因为训练集实时更新，适用随机梯度下降法（Stochastic Gradient Descent, SGD），即在线学习的方式更新泛化价值函数的参数$\overrightarrow{\rm \theta_t}$。

训练集数据$s\mapsto v$由动态规划（DP）、蒙特卡罗（MC）、时序差分或者资格迹等方法得到。价值函数可选用神经网络模型或者线性模型。

### 参考资料

[1] Richard S. Sutton and Andrew G. Barto. 1998. Reinforcement Learning: An Introduction. A Bradford Book, Cambridge, MA, USA.