# 大规模强化学习（Large-Scale Reinforcement Learning）

强化学习可以被用来解决大规模的问题（large problems），比如说

- 西洋双陆棋（Backgammon）：$10^{20}$个状态
- 围棋（Game of Go）：$10^{170}$个状态
- 直升飞机（Helicopter）：连续状态空间（continuous state space）

那我们怎样把无模型的预测和控制方法扩展到更大规模的问题上呢？

# 价值函数近似（Value Function Approximation）

- 到现在为止我们都用表格形式来表示价值函数（represent value function by a lookup table）
    - 每个状态$s$都有一个记录（entry）$V(s)$
    - 或者每个状态-动作组合（state-action pair）$s, a$ 都有一个记录（entry）$Q(s, a)$
- 大规模MDP的问题：
    - 要存入内存中的状态和动作太多了
    - 学习每个状态价值的速度太慢了
- 解决大规模MDP的方案：
    - 用函数近似（function approximation）来估计价值函数
    \begin{equation}
    \hat{v}(s,\textbf{w})\approx v_{\pi}(s) \\
    or \enspace \hat{q}(s,a,\textbf{w})\approx q_{\pi}(s,a)
    \end{equation}
    - 从遇到过的状态（seen states）泛化（generalise）到没有遇到过的状态（unseen states）
    - 用MC或是TD学习来更新参数$\textbf{w}$

# 价值函数近似的种类（Types of Value Function Approximation）

<img src="files/figures/types_of_value_function_approximation.png" style="width: 500px;" />

# 选择哪种方程近似方法呢？（Which Function Approximator?）

我们有许多种方程近似的方法，比如说

- 特征的线性组合（linear combinations of features）
- 神经网络（neural network）
- 决策树（decision tree）
- 邻近取样（nearest neighbour）
- 傅里叶/小波基（Fourier/wavelet bases）
- $\ldots$

我们在这里只考虑可微分的方程近似方法（differentiable function approximators）

- 特征的线性组合（linear combinations of features）
- 神经网络（neural network）

此外，我们还需要适合非静态、非-iid数据（non-stationary, non-idependent and identically distributed data）的的训练方法（training method）

# 梯度下降法（Gradient Descent）

- 让我们假设现在我们有一个关于参数向量（parameter vector）$\textbf{w}$可微分的函数（differentiable function）$J(\textbf{w})$
- 我们把$J(\textbf{w})$的梯度（gradient）定义为
\begin{equation}
\nabla_{\textbf{w}}J(\textbf{w})
=\left(
\begin{array}{lr}
\begin{split}
\frac{\partial J(\textbf{w})}{\partial \textbf{w}_1} \\
\vdots \\
\frac{\partial J(\textbf{w})}{\partial \textbf{w}_n}
\end{split}
\end{array}
\right)
\end{equation}

- 我们想要找到$J(\textbf{w})$的局部最小值
- 向梯度的负方向（direction of -ve gradient）调节$\textbf{w}$
\begin{equation}
\Delta\textbf{w}=-\frac{1}{2}\alpha\nabla_{\textbf{w}}J(\textbf{w})
\end{equation}

$\quad\alpha$在这里是步长参数（step-size parameter）

# 用随机梯度下降法进行价值函数近似（Value Function Approximation by Stochastic Gradient Descent）

- 目标：搜寻参数向量$\textbf{w}$来最小化近似价值函数（approximate value function）$\hat{v}(s,\textbf{w})$和真实价值函数（true value function）$v_{\pi}(s)$之差的均方误差（mean-squared error）
\begin{equation}
J(\textbf{w})=\mathbb{E}_{\pi}[(v_{\pi}(S)-\hat{v}(S, \textbf{w}))^2]
\end{equation}

- 梯度下降可以找到局部最小值（local minimum）
\begin{split}
& \Delta \textbf{w} & = - \frac{1}{2}\alpha\nabla_{\textbf{w}}J(\textbf{w}) \\
& & = \alpha \mathbb{E}_{\pi}[(v_{\pi}(S)-\hat{v}(S,\textbf{w}))\nabla_{\textbf{w}}\hat{v}(S,\textbf{w})]
\end{split}

- 随机梯度下降在梯度上取样（stochastic gradient descent samples the gradient）
\begin{equation}
\Delta \textbf{w} = \alpha (v_{\pi}(S)-\hat{v}(S,\textbf{w}))\nabla_{\textbf{w}}\hat{v}(S,\textbf{w})
\end{equation}

- 期望更新与全梯度更新相等（expected update is equal to full gradient update）

# 特征向量（Feature Vectors）

- 用一个特征向量（feature vector）来表示状态
\begin{equation}
\textbf{x}(S)
=\left(
\begin{split}
& \textbf{x}_1 (S) \\
& \enspace \vdots \\
& \textbf{x}_n (S)
\end{split}
\right)
\end{equation}

- 比如说
    - 机器人到地标的距离
    - 股市的趋势
    - 国际象棋中棋子的位置

# 线性价值函数近似（Linear Value Function Approximation）

- 用特征的线性组合来表示价值函数（represent value function by a linear combination of features）
\begin{equation}
\hat{v}(S,\textbf{w})=\textbf{x}(S)^T \textbf{w} = \sum_{j=1}^{n}\textbf{x}_j (S)\textbf{w}_j
\end{equation}

- 目标函数（objective function）对参数$\textbf{w}$来说是一个二次函数（quadratic）
\begin{equation}
J(\textbf{w})=\mathbb{E}_{\pi}[(v_{\pi}(S)-\textbf{x}(S)^T\textbf{w})^2]
\end{equation}

- 随机梯度下降会收敛到全局最优值（global optimum）
- 更新公式非常简单
\begin{align}
\nabla_{\textbf{w}}\hat{v}(S,\textbf{w}) & =\textbf{x}(S) \\
\Delta \textbf{w} & = \alpha (v_{\pi}(S)-\hat{v}(S,\textbf{w}))\textbf{x}(S)
\end{align}

$\quad 更新值=步长 \times 预测误差 \times 特征值$

# 查表法的特征（Table Lookup Features）

- 查表法（table lookup）是线性价值函数近似的一个特例
- 查表法所使用的特征（table lookup features）
\begin{equation}
\textbf{x}^{table}(S)
=\left(
\begin{split}
& \textbf{1}(S=s_1) \\
& \quad\enspace \vdots \\
& \textbf{1}(S=s_n)
\end{split}
\right)
\end{equation}

- 参数向量$\textbf{w}$对每个状态都有一个对应的值
\begin{equation}
\hat{v}(S,\textbf{w})
=\left(
\begin{split}
& \textbf{1}(S=s_1) \\
& \quad\enspace\vdots \\
& \textbf{1}(S=s_n)
\end{split}
\right)
\cdot
\left(
\begin{split}
& \textbf{w}_1 \\
& \vdots \\
& \textbf{w}_n
\end{split}
\right)
\end{equation}

# 渐进式预测算法（Incremental Prediction Algorithms）

- 通常的假设是真实的价值函数$v_{\pi}(s)$是由监督者（supervisor）给出的
- 但在强化学习中我们并没有监督者（supervisor），我们只有奖励（rewards）
- 在实际的应用中，我们用目标值（target）替代$v_{\pi}(s)$
    - 对于MC来说，目标就是回报$G_t$
    \begin{equation}
    \Delta \textbf{w}=\alpha (G_t - \hat{v}(S_t,\textbf{w}))\nabla_{\textbf{w}}\hat{v}(S_t,\textbf{w})
    \end{equation}
    
    - 对于TD(0)来说，目标就是TD目标$R_{t+1}+\gamma\hat{v}(S_{t+1},\textbf{w})$
    \begin{equation}
    \Delta \textbf{w}=\alpha (R_{t+1}+\gamma\hat{v}(S_{t+1},\textbf{w}) - \hat{v}(S_t,\textbf{w}))\nabla_{\textbf{w}}\hat{v}(S_t,\textbf{w})
    \end{equation}
    
    - 对于TD($\lambda$)来说，目标就是$\lambda$-回报$G_t^{\lambda}$
    \begin{equation}
    \Delta \textbf{w}=\alpha (G_t^{\lambda} - \hat{v}(S_t,\textbf{w}))\nabla_{\textbf{w}}\hat{v}(S_t,\textbf{w})
    \end{equation}

# 基于价值函数近似的蒙特卡洛法（Monte-Carlo with Value Function Approximation）

- 回报$G_t$是一个关于真实价值$v_{\pi}(S_t)$的无偏并且含噪音的样本（unbiased, noisy sample）
- 因为我们可以用监督学习的方法来对“训练数据”（"training data"）进行处理
\begin{equation}
<S_1,G_1>,<S_2,G_2>,\ldots ,<S_T,G_T>
\end{equation}

- 比如说，我们可以用线性蒙特卡洛策略评估（linear Monte-Carlo policy evaluation）
\begin{align}
\Delta \textbf{w} & = \alpha (G_t - \hat{v}(S_t, \textbf{w}))\nabla_{\textbf{w}}\hat{v}(S_t,\textbf{w}) \\
& = \alpha (G_t - \hat{v}(S_t,\textbf{w}))\textbf{x}(S_t)
\end{align}

- 蒙特卡洛评估收敛到局部最优值（local optimum）
- 就算是使用非线性价值函数近似（non-linear value function approximation）时也一样

# 基于价值函数近似的TD学习（TD Learning with Value Function Approximation）

- TD-目标$R_{t+1}+\gamma\hat{v}(S_{t+1},\textbf{w})$是真实价值$v_{\pi}(S_t)$的有偏样本（biased sample）
- 我们仍然可以在“训练数据”上使用监督学习的方法：
\begin{equation}
<S_1, R_2 + \gamma\hat{v}(S_2,\textbf{w})>,<S_2,R_3 +\gamma\hat{v}(S_3,\textbf{w})>,\ldots ,<S_{T-1},R_T>
\end{equation}

- 比如说，我们可以使用线性TD(0)（linear TD(0)）
\begin{align}
\Delta \textbf{w} & = \alpha (R+\gamma\hat{v}(S',\textbf{w})-\hat{v}(S,\textbf{w}))\nabla_{\textbf{w}}\hat{v}(S,\textbf{w}) \\
& = \alpha\delta\textbf{x}(S)
\end{align}

- 线性TD(0)收敛到（接近于）全局最优（global optimum）

# 基于价值函数近似的TD($\lambda$)

- $\lambda$-回报$G_t^{\lambda}$同样也是真实价值$v_{\pi}(s)$的有偏样本（biased sample）
- 我们仍然可以在“训练数据”上使用监督学习的方法：
\begin{equation}
<S_1,G_1^{\lambda}>,<S_2,G_2^{\lambda}>,\ldots,<S_{T-1},G_{T-1}^{\lambda}>
\end{equation}

- 前视线性TD($\lambda$)（forward-view linear TD($\lambda$)）
\begin{align}
\Delta\textbf{w} & = \alpha (G_t^{\lambda}-\hat{v}(S_t,\textbf{w}))\nabla_{\textbf{w}}\hat{v}(S_t,\textbf{w}) \\
& = \alpha (G_t^{\lambda}-\hat{v}(S_t,\textbf{w}))\textbf{x}(S_t)
\end{align}

- 后视线性TD($\lambda$)（backward-view linear TD($\lambda$)）
\begin{align}
\delta_t & = R_{t+1}+\gamma\hat{v}(S_{t+1},\textbf{w})-\hat{v}(S_t,\textbf{w}) \\
E_t & = \gamma\lambda E_{t-1}+\textbf{x}(S_t) \\
\Delta\textbf{w} & = \alpha\delta_t E_t
\end{align}

前视和后视的线性TD($\lambda$)是等价的

# 基于价值函数近似的控制（Control with Value Function Approximation）

<img src="files/figures/control_with_value_function_approximation.png" style="width: 300px;" />

策略评估： 近似策略评估（approximate policy evaluation），$\hat{q}(\cdot,\cdot,\textbf{w})\approx q_{\pi}$

策略改进： $\epsilon$-贪心策略改进

# 动作价值函数近似（Action-Value Function Approximation）

- 对动作价值函数（action-value function）进行方程近似
\begin{equation}
\hat{q}(S,A,\textbf{w})\approx q_{\pi}(S,A)
\end{equation}

- 对近似动作价值函数（approximate action-value function）$\hat{q}(S,A,\textbf{w})$和真实动作价值函数（true action-value function）$q_{\pi}(S,A)$之差的均方误差（mean-squared error）进行最小化
\begin{equation}
J(\textbf{w})=\mathbb{E}_{\pi}[(q_{\pi}(S,A)-\hat{q}(S,A,\textbf{w}))^2]
\end{equation}

- 用随机梯度下降来搜寻局部最小值
\begin{align}
-\frac{1}{2}\nabla_{\textbf{w}}J(\textbf{w}) & = (q_{\pi}(S,A)-\hat{q}(S,A,\textbf{w}))\nabla_{\textbf{w}}\hat{q}(S,A,\textbf{w}) \\
\Delta\textbf{w} & = \alpha(q_{\pi}(S,A)-\hat{q}(S,A,\textbf{w}))\nabla_{\textbf{w}}\hat{q}(S,A,\textbf{w})
\end{align}

# 线性动作价值函数近似（Linear Action-Value Function Approximation）

- 用一个特征向量（feature vector）来表示状态和动作
\begin{equation}
\textbf{x}(S,A)
=\left(
\begin{split}
& \textbf{x}_1 (S,A) \\
& \quad \vdots \\
& \textbf{x}_n (S,A)
\end{split}
\right)
\end{equation}

- 用特征的线性组合来表示动作价值函数
\begin{equation}
\hat{q} (S,A,\textbf{w})=\textbf{x} (S,A)^T\textbf{w}=\sum_{j=1}^{n}\textbf{x}_j (S,A)\textbf{w}_j
\end{equation}

- 用随机梯度下降进行更新
\begin{split}
\nabla_{\textbf{w}}\hat{q}(S,A,\textbf{w}) & = \textbf{x}(S,A) \\
\Delta \textbf{w} & = \alpha (q_{\pi}(S,A) - \hat{q}(S,A,\textbf{w}))\textbf{x}(S,A)
\end{split}

# 渐进式控制算法（Incremental Control Algorithm）

- 就像预测一样，我们必须用目标值（target）替代$q_{\pi}(S,A)$
    - 对于MC来说，目标值就是回报$G_t$
    \begin{equation}
    \Delta\textbf{w} = \alpha (G_t - \hat{q}(S_t,A_t,\textbf{w}))\nabla_{\textbf{w}}\hat{q}(S_t,A_t,\textbf{w})
    \end{equation}
    
    - 对于TD(0)来说，目标值就是TD目标$R_{t+1}+\gamma Q(S_{t+1},A_{t+1})$
    \begin{equation}
    \Delta\textbf{w} = \alpha (R_{t+1}+\gamma\hat{q}(S_{t+1},A_{t+1},\textbf{w}) - \hat{q}(S_t,A_t,\textbf{w}))\nabla_{\textbf{w}}\hat{q}(S_t,A_t,\textbf{w})
    \end{equation}
    
    - 对于前视TD($\lambda$)来说，目标值就是动作价值的$\lambda$-回报
    \begin{equation}
    \Delta\textbf{w} = \alpha (q_t^{\lambda}-\hat{q}(S_t,A_t,\textbf{w}))\nabla_{\textbf{w}}\hat{q}(S_t,A_t,\textbf{w})
    \end{equation}
    
    - 对于后视TD($\lambda$)来说，等价的更新是
    \begin{align}
    \delta_t & = R_{t+1}+\gamma\hat{q}(S_{t+1},A_{t+1},\textbf{w})-\hat{q}(S_t,A_t,\textbf{w}) \\
    E_t & = \gamma\lambda E_{t-1} + \nabla_{\textbf{w}}\hat{q}(S_t,A_t,\textbf{w}) \\
    \Delta \textbf{w} & = \alpha \delta_t E_t
    \end{align}

# 基于粗编码的线性Sarsa在过山车范例中的应用（Linear Sarsa with Coarse Coding in Mountain Car）

<img src="files/figures/linear_sarsa_with_coarse_coding_in_mountain_car.png" style="width: 500px;" />

# 基于径向基函数的线性Sarsa在过山车范例中的应用（Linear Sarsa with Radial Basis Functions in Mountain Car）

<img src="files/figures/linear_sarsa_with_radial_basis_functions_in_mountain_car.png" style="width: 500px;" />