# 目录

* 强化学习简介

* Policy gradient

* Actor-critic

* PPO (proximal policy optimization)

# 强化学习简介

### 什么是强化学习？

Try - Error - Learning

行动 - 评估 - 学习

### 强化学习

(Agents) learn to make good sequences of decisions.

（智能体）学习最优的决策序列。

* "Learn to make": don't know in advance how world works.

    * “学习做出”：事先并不知道环境的信息。

* "Good": reward for sequence of decisions.

    * “最优的”：一系列决策的奖励。

* "Sequences of decisions": repeated interactions with world.

    * “决策序列”：与环境重复的交互。

### 学习是基于什么的呢？

从智能体周围的环境和奖励中学习

### MDP (Markov Decision Process)

<img src="files/figures/deep_reinforcement_learning.png" style="width: 500px;" />

不断重复这一流程

$$s_0, a_0, r_1, s_1, a_1, r_2, \ldots, s_T$$

* 状态 (state): 状态就是环境的输入

* 动作 (action): 动作可以是离散的或连续的 (discrete or continuous)

* 奖励 (reward): 一个标量值

* 状态迁移概率 (state transition probability) $P_{s s'}^{a}$: 迁移到下一个状态的概率

* 折扣系数 (discount factor) $\gamma$: 未来价值的权重

* 策略 (policy): 在特定状态执行特定动作的概率

### Q函数和V函数

状态价值函数 (value function, V): 在当前状态下预期的未来累计奖励之和

$$v(s) = \mathbb{E}\left[ R_{t+1} + \gamma R_{t+2} + \cdots \mid S_t = s \right]$$

动作状态价值函数 (action-value function, Q): 在当前状态下执行特定动作预期的未来累计奖励之和

$$q(s, a) = \mathbb{E} \left[ R_{t+1} + \gamma R_{t+2} + \cdots \mid S_t = s, A_t = a \right]$$

### 范例: Grid World

<img src="files/figures/grid_world_example_1.png" style="width: 300px;" />

* 目标：

    * 智能体（红色正方形）规避障碍物（绿色三角形）到达目标点（蓝色圆形）。

* 环境:

    * $5 \times 5$ 的 grid world
    
* 信息：
    
    * 包括了智能体、环境、状态、动作、奖励

* 奖励：

    * 智能体到达障碍物位置时，奖励为 (-1)
    * 智能体到达目标位置时，奖励为 (+1)

### Grid World作为DMP

* 状态 S = 在grid world中的位置坐标

* 动作 A = { up, down, right, left }

* 奖励 R = { 障碍物 (-1), 目标 (+1) }

* 状态迁移概率 $P_{s s'}^{a}$ = 到达下一个状态 ($s'$) 的概率

* 折扣系数 $\gamma$ = 未来价值的权重

* 策略 $\pi (a \mid s)$ = 在特定状态执行特定动作的概率

# Policy Gradient

### 深度强化学习 (Deep Reinforcement Learning)

强化学习：基于策略 (policy) 的或基于动作价值函数 (Q-value)

深度学习：深度神经网络用作函数近似 (function approximation)

### 函数近似 (Function Approximation)

* **Value-based RL - Q-function approximation**

<img src="files/figures/value-based_function_approximation.png" style="height: 300px;" />

* **Policy-based RL - policy approximation:**

<img src="files/figures/policy-based_function_approximation.png" style="height: 300px;" />

### Reinforcement Learning Landscape

* Policy optimization
    * (DFO) devirative-free optimization/evolution
    * Policy gradient
* Dynamic programming
    * Policy iteration
    * Value iteration
        * Q-learning
    * Modified policy iteration (between policy iteration and value iteration)
* Policy gradient + value iteration = actor-critic methods

PPO: policy optimization中性能较好的算法

Policy optimization: 用深度学习来学习最优策略

### Policy Network

<img src="files/figures/policy-based_function_approximation.png" style="height: 300px;" />

Input: State $S$

Output: Policy $\pi_{\theta} (a \mid s) = \mathbb{P} \left[ A_t = a \mid S_t = s, \theta \right]$

Function approximator: 深度神经网络近似的最优策略

Optimal policy: 最大化奖励之和的策略，也就是最大化目标函数的策略 $J(\theta)=\mathbb{E}\left[ \sum_{t=1}^{T} r_t \mid \pi_{\theta} \right] = \mathbb{E} \left[ r_1 + r_2 + r_3 + \cdots + r_T \mid \pi_{\theta} \right]$

### 寻找最大化目标函数的$\theta$

\begin{split}
\operatorname*{argmax}_{\theta} J(\theta) & = \operatorname*{argmax}_{\theta} \mathbb{E} \left[ \sum_{t=0}^T r_t \mid \pi_{\theta} \right] \\
& = \operatorname*{argmax}_{\theta} \sum_{t=0}^{T-1} P(s_t, a_t \mid \tau) r_{t+1}
\end{split}

### 用Deep Neural Network来近似Policy

用gradient ascent来向最大化目标函数的方向进行更新

$$\theta \leftarrow \theta + \alpha \nabla_{\theta} J(\theta)$$

### Baseline算法：理解Policy Gradient

# 初次编辑日期 (Initial Edit Date)

2018年5月21日

# 参考文献 (References)

[1] https://github.com/wooridle/DeepRL-PPO-tutorial

[2] http://web.stanford.edu/class/cs234/