# 基于策略的强化学习（Policy-Based Reinforcement Learning）

- 之前我们用参数$\theta$来近似价值或者动作价值函数
\begin{split}
V_{\theta}(s) & \approx V^{\pi}(s) \\
Q_{\theta}(s,a) & \approx Q^{\pi}(s,a)
\end{split}

- 我们直接基于价值函数生成了一个策略
    - 也就是用$\epsilon$-贪心

- 接下来我们将会直接对策略进行参数化（directly parameterise the policy）
\begin{equation}
\pi_{\theta}(s,a) = \mathbb{P}[a \mid s, \theta]
\end{equation}

- 无模型强化学习（model-free reinforcement learning）同样是我们的重点

# 基于价值的和基于策略的强化学习（Value-Based and Policy-Based RL）

<img src="files/figures/value-based_and_policy-based_RL.png" style="width: 300px;" />

- 基于价值的（value-based）
    - 学习到的价值函数（learnt value function）
    - 隐式策略（implicit policy），比如说$\epsilon$-贪心
- 基于策略的（policy-based）
    - 没有价值函数
    - 学习到的策略（learnt policy）
- 行动者-批评者方法（Actor-Critic）
    - 学习到的价值函数（learnt value function）
    - 学习到的策略（learnt policy）

# 基于策略强化学习方法的优势（Advantages of Policy-Based RL）

优势：

- 更好的收敛特性
- 在高维（high-dimensional）或连续（continuous）动作空间中更高效
- 可以学习随机策略（stochastic policy）

劣势：

- 一般收敛到局部最优值而不是全局最优值（local rather than global optimum）
- 一般来说评估一个策略效率不高并且偏差很高（inefficient and high variance）

# 范例-石头剪刀布（Example: Rock-Paper-Scissors）

<img src="files/figures/example_rock-paper-scissors.png" style="width: 300px;" />

- 两名玩家参与的石头剪刀
    - 剪刀赢布
    - 石头赢剪刀
    - 布赢石头
- 让我们来考虑迭代的（iterated）石头剪刀布的策略
    - 一个确定性的策略非常容易被利用
    - 一个均匀随机的策略是最优的（也就是纳什均衡，Nash equilibrium）

# 混淆的Gridworld（Aliased Gridworld）

<img src="files/figures/aliased_gridworld_1.png" style="width: 300px;" />

- 这里的智能体不能区分灰色的状态
- 让我们考虑下面这个形式的特征（对所有N, E, S, W，也就是北、东、南、西）
\begin{equation}
\phi(s, a) = \textbf{1}(wall\enspace to\enspace N,\enspace a=move \enspace E)
\end{equation}

- 我们用一个近似的价值函数（approximate value function）来比较基于价值的强化学习（value-based RL）
\begin{equation}
Q_{\theta}(s, a) = f(\phi (s, a), \theta)
\end{equation}

- 对于基于策略的强化学习（policy-based RL），我们使用一个参数化的策略（a parameterised policy）
\begin{equation}
\pi_{\theta}(s,a) = g(\phi (s, a), \theta)
\end{equation}

<img src="files/figures/aliased_gridworld_2.png" style="width: 300px;" />

- 在混淆的情况下，一个最优的确定性策略（an optimal deterministic policy）会在下面两种策略中选择其一
    - 在两个灰色的状态都会向W移动（用红色箭头标出来的）
    - 在两个灰色的状态都会向E移动
- 无论选择了哪种确定性策略，智能体都会卡住而永远到达不了钱袋的状态
- 基于价值的强化学习方法会学习到接近于确定性的策略
    - 也就是贪心或者是$\epsilon$-贪心
- 所以智能体会在走廊中徘徊很久

<img src="files/figures/aliased_gridworld_3.png" style="width: 300px;" />

- 一个最优的随机策略（an optimal stochastic policy）会在灰色的状态上随机选择向E或是W移动
\begin{split}
\pi_{\theta}(wall\enspace to\enspace N\enspace and\enspace S,\enspace move\enspace E) & = 0.5 \\
\pi_{\theta}(wall\enspace to\enspace N\enspace and\enspace S,\enspace move\enspace W) & = 0.5
\end{split}

- 智能体有很高的概率在几步后就到达目标状态（goal state）
- 基于策略的强化学习（policy-based RL）可以学习到最优的随机策略（optimal stochastic policy）

# 策略目标函数（Policy Objective Function）

- 目标：给定参数是$\theta$的策略$\pi_{\theta}(s, a)$，我们需要找到最优的$\theta$
- 但我们应该怎样衡量策略$\pi_{\theta}$的好坏呢？
- 在回合制的环境中（episodic environments），我们可以使用起始价值（start value）
\begin{equation}
J_1 (\theta) = V^{\pi_{\theta}}(s_1) = \mathbb{E}_{\pi_{\theta}}[v_1]
\end{equation}

- 在连续的环境中（continuing environments），我们可以使用平均价值（average value）

\begin{equation}
J_{avV}(\theta) = \sum_s d^{\pi_{\theta}}(s)V^{\pi_{\theta}}(s)
\end{equation}

- 或是每步的平均奖励（average reward per time-step）
\begin{equation}
J_{avR}(\theta) = \sum_s d^{\pi_{\theta}}(s) \sum_a \pi_{\theta}(s,a)\mathcal{R}_s^a
\end{equation}

- 这里的$d^{\pi_{\theta}}(s)$是$\pi_{\theta}$的马尔科夫链的静态分布（stationary distribution）

# 策略优化（Policy Optimisation）

- 基于策略的强化学习问题（policy-based RL）就是一个优化问题（an optimisation problem）
- 搜寻最大化$J(\theta)$的$\theta$
- 有一些方法并不需要用到梯度信息
    - 爬坡法（hill climbing）
    - Simplex/amoeba/Nelder-Mead法
    - 基因算法（Genetic Algorithms）
- 在使用梯度信息时效率可能会更高
    - 梯度下降（gradient descent）
    - 共轭梯度法（conjugate gradient）
    - 拟牛顿法（Quasi-Newton）
- 我们会主要使用梯度下降法（gradient descent），当然它也有很多延伸的方法
- 也有利用顺序结构的方法（methods that exploit sequential structure）

# 策略梯度法（Policy Gradient）

- $J(\theta)$可以是任何策略目标函数（policy objective function）
- 策略梯度算法通过沿着策略的梯度上升方向在$J(\theta)$中搜索一个局部最大值（a local maximum）
\begin{equation}
\Delta \theta = \alpha \nabla_{\theta} J(\theta)
\end{equation}

- 这个公式中的$\nabla_{\theta} J(\theta)$就是策略梯度（policy gradient）
\begin{equation}
\nabla_{\theta}J(\theta)
=\left(
\begin{split}
& \frac{\partial J(\theta)}{\partial \theta_1} \\
& \quad \vdots \\
& \frac{\partial J(\theta)}{\partial \theta_n}
\end{split}
\right)
\end{equation}

- 这里的$\alpha$是步长参数（a step-size parameter）

# 通过有限差分法来计算梯度（Computing Gradients by Finite Differences）

- 我们下面来评估$\pi_{\theta}(s,a)$的策略梯度（policy gradient）
- 对于每个维度 $k \in [1, n]$
    - 估计目标函数关于$\theta$第$k^{th}$维的偏导数
    - 通过在$\theta$的第$k^{th}$维改变一个很小的量$\epsilon$
    \begin{equation}
    \frac{\partial J(\theta)}{\partial \theta_k} \approx \frac{J(\theta + \epsilon u_k) - J(\theta)}{\epsilon}
    \end{equation}
    - 这里的$u_k$是一个在第$k^{th}$维上长度为1，其它维度上长度为0的单位向量
- 我们会做$n$个评估（$n$ evaluations）来计算$n$维的策略梯度
- 简单、有噪音、效率不高，但有时有效（simple, noisy, inefficient - but sometimes effective）
- 就算策略是不可微分的，有限差分法也可以用

# 用有限差分策略梯度法来训练AIBO步行（Training AIBO to Walk by Finite Difference Policy Gradient）

<img src="files/figures/aibo.png" style="width: 500px;" />

- 目标：让AIBO学习快速步行（在Robocup中是有用的）
- AIBO的步行策略是由12个数字来控制的（椭圆轨迹）
- 用有限差分策略梯度法来调整这些参数
- 通过给穿过场地计时来评估策略的表现

# AIBO的步行策略

- 训练前
- 训练中
- 训练后

# 评分函数（Score Function）

- 我们现在用分析法来计算策略梯度（compute the policy gradient analytically）
- 让我们假设策略$\pi_{\theta}$在非零时是可微分的
- 并且我们知道梯度信息$\nabla_{\theta}\pi_{\theta}(s,a)$
- 似然比（likelihood ratios）利用了下面这个恒等式
\begin{split}
\nabla_{\theta}\pi_{\theta}(s,a) & = \pi_{\theta}(s,a)\frac{\nabla_{\theta}\pi_{\theta}(s, a)}{\pi_{\theta}(s,a)} \\
& = \pi_{\theta}(s,a)\nabla_{\theta} \log \pi_{\theta}(s,a)
\end{split}

- 所以评分函数（score function）就是$\nabla_{\theta} \log \pi_{\theta}(s,a)$

# Softmax策略（Softmax Policy）

- 我们会用softmax策略作为一个运行示例
- 我们用特征$\phi(s,a)^{\intercal}\theta$的线性组合给动作加权
- 动作的概率和指数权重（exponentiated weight）成正比
\begin{equation}
\pi_{\theta}(s,a)\propto e^{\phi(s,a)^{\intercal}\theta}
\end{equation}

- 评分函数是
\begin{equation}
\nabla_{\theta} \log \pi_{\theta}(s,a)=\phi (s, a) - \mathbb{E}_{\pi_{\theta}}[\phi(s,\cdot)]
\end{equation}

# 高斯策略（Gaussian Policy）

- 在连续的动作空间中，使用高斯策略是一个自然的选择
- 均值是状态特征的线性组合（mean is a linear combination of state features）$\mu(s)=\phi(s)^{\intercal}\theta$
- 方差可以是固定的（fixed）$\sigma^2$，或者也可以被参数化（parameterised）
- 策略是高斯的（policy is Gaussian），$a \sim \mathcal{N}(\mu(s),\sigma^2)$
- 评价函数是
\begin{equation}
\nabla_{\theta} \log \pi_{\theta}(s, a) = \frac{(a-\mu(s))\phi(s)}{\sigma^2}
\end{equation}

# 一步MDP（One-Step MDPs）

- 让我们考虑一种简单的一步MDP
    - 起始状态$s\sim d(s)$
    - 在一步后停止并伴有奖励$r=\mathcal{R}_{s, a}$
- 用似然比（likelihood ratios）来计算策略梯度
\begin{split}
J(\theta) & = \mathbb{E}_{\pi_{\theta}}[r] \\
& = \sum_{s\in S} d(s) \sum_{a \in \mathcal{A}}\pi_{\theta}(s,a)\mathcal{R}_{s,a} \\
\nabla_{\theta} J(\theta) & = \sum_{s\in \mathcal{S}}d(s) \sum_{a \in \mathcal{A}}\pi_{\theta}(s,a)\nabla_{\theta}\log \pi_{\theta}(s,a)\mathcal{R}_{s,a} \\
& = \mathbb{E}_{\pi_{\theta}}[\nabla_{\theta}\log \pi_{\theta}(s,a)r]
\end{split}

# 策略梯度定理（Policy Gradient Theorem）

- 策略梯度定理把似然性方法一般化（generalise）到了多步MDP中
- 用长期价值（long-term value）$Q^{\pi}(s,a)$替换瞬时奖励（instantaneous reward）$r$
- 策略梯度定理可以用到初始状态目标、平均回报和平均价值目标上（policy gradient theorem applies to start state objective, average reward and average value objective）

对任何一个可微分的策略（any differentiable policy）$\pi_{\theta}(s,a)$来说，对任何的策略目标函数（policy objective functions）$J=J_1$、 $J_{avR}$或是$\frac{1}{1-\gamma}J_{avV}$我们都有策略梯度
\begin{equation}
\nabla_{\theta} J(\theta) = \mathbb{E}_{\pi_{\theta}}[\nabla_{\theta}\log \pi_{\theta}(s,a)Q^{\pi_{\theta}}(s,a)]
\end{equation}