# 基于模型的强化学习（Model-Based Reinforcement Learning）

- 策略梯度（基于策略的学习）：从经历中直接学习策略（learn policy directly from experience）
- 基于价值函数的学习：从经历中直接学习价值函数（learn value function directly from experience）
- 基于模型的学习：从经历中直接学习模型（learn model directly from experience）
- 并且基于模型用规划（planning）来构造价值函数或是策略
- 把学习和规划整合到同一个框架中（integrate learning and planning into a single architecture）

# 基于模型和脱离模型的强化学习（Model-Based and Model-Free Reinforcement Learning）

- 脱离模型的强化学习（model-free RL）
    - 没有模型
    - 从经历中学习价值函数（和/或策略）
- 基于模型的强化学习（model-based RL）
    - 从经历中学习模型
    - 在模型中规划价值函数（和/或策略）

# 脱离模型的强化学习（Model-Free RL）

<img src="files/figures/model-free_rl.png" style="width: 300px'" />

# 基于模型的强化学习（Model-Based RL）

<img src="files/figures/model-based_rl.png" style="width: 300px'" />

<img src="files/figures/model-based_rl_2.png" style="width: 300px'" />

# 基于模型强化学习的优势（Advantages of Model-Based RL）

优势：

- 可以通过监督学习的方法来高效地学习模型
- 可以对模型的不确定性进行推理（reason about model uncertainty）

劣势：

- 先学习一个模型，再构建一个价值函数
    - 也就是说有两个近似误差的来源（two sources of approximation error）

# 什么是模型？（What is a Model?）

- 模型$\mathcal{M}$是一个用$\eta$来参数化的MDP$<\mathcal{S},\mathcal{A},\mathcal{P},\mathcal{R}>$
- 让我们假设状态空间$\mathcal{S}$和动作空间$\mathcal{A}$是已知的
- 所以一个模型$\mathcal{M}=<\mathcal{P}_{\eta},\mathcal{R}_{\eta}>$表示了状态转移（state transitions）$\mathcal{P}_{\eta}\approx\mathcal{P}$和奖励（rewards）$\mathcal{R}_{\eta}\approx\mathcal{R}$
\begin{align}
S_{t+1} & \sim \mathcal{P}_{\eta}(S_{t+1}\mid S_t, A_t) \\
R_{t+1} & = \mathcal{R}_{\eta}(R_{t+1}\mid S_t, A_t)
\end{align}

- 我们通常假设状态转移和奖励之间是条件独立的（conditional independence）
\begin{equation}
    \mathbb{P}[S_{t+1},R_{t+1}\mid S_t,A_t]=\mathbb{P}[S_{t+1}\mid S_t,A_t]\mathbb{P}[R_{t+1}\mid S_t,A_t]
\end{equation}

# 模型学习（Model Learning）

- 目标：从经历$\{ S_1,A_1,R_2,\ldots,S_T \}$中估计（estimate）出模型$\mathcal{M}_{\eta}$
- 这是一个监督学习问题（a supervised learning problem）
\begin{align}
S_1, S_1 & \rightarrow R_2, S_2 \\
S_2, S_2 & \rightarrow R_3, S_3 \\
& \vdots \\
S_{T-1}, A_{T-1} & \rightarrow R_T, S_T
\end{align}

- 学习$s, a \rightarrow r$是一个回归问题（a regression problem）
- 学习$s, a \rightarrow s'$是一个密度估计问题（a density estimation problem）
- 选择损失函数（loss function），比如说均方误差（mean-squared error）、KL散度（Kullback-Leibler divergence），$\ldots$
- 寻找最小化经验损失（empirical loss）的参数$\eta$

# 初次编辑日期

2018年4月24日

# 参考文献

[1] http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/dyna.pdf

[2] https://www.youtube.com/watch?v=ItMutbeOHtc