# 无模型强化学习（Model-Free Reinforcement Learning）

- 用动态规划来进行规划
    - 解一个已知的MDP

- 无模型预测（model-free prediction）
    - 估计一个未知MDP的价值函数

- 无模型控制（model-free control）
    - 优化一个未知MDP的价值函数

# 蒙特卡洛强化学习（Monte-Carlo Reinforcement Learning）

- MC方法直接从经验集（episodes of experience）上学习

- MC是无模型的（model-free）：没有MDP状态转移和奖励的知识

- MC从完整的回合（complete episodes）中学习：没有用到自举（bootstrapping）

- MC用了最简单的思想：价值等于平均回报（value=mean return）

- 警告：MC只能用在回合制的MDP上（episodic MDPs）
    - 所有的回合必须终止

# 蒙特卡洛策略评估（Monte-Carlo Policy Evaluation）

- 目标：从使用策略$\pi$的回合经验中学习$v_{\pi}$

\begin{equation}
S_1, A_1, R_2, \ldots, S_k \sim \pi
\end{equation}

- 回报（return）是总折扣奖励（total discounted reward）：

\begin{equation}
G_t = R_{t+1} + \gamma R_{t+2} + \ldots + \gamma^{T-1} R_T
\end{equation}

- 价值函数（value function）就是期望回报（expected return）：

\begin{equation}
v_{\pi}(s) = \mathbb{E}_{\pi}[G_t | S_t = s]
\end{equation}

- 蒙特卡洛策略评估使用了经验平均回报（empirical mean return）而不是期望回报（expected return）

# 首访蒙特卡洛策略评估（First-Visit Monte-Carlo Policy Evaluation）

- 这是用来评估状态$s$

- 状态$s$在一个回合中被访问的首个时间步长（first time-step）$t$

- 增量计数器（increment counter） $N(s) \leftarrow N(s)+1$

- 增量总回报（increment total return） $S(s) \leftarrow S(s) + G_t$

- 用平均回报来估计价值 $V(s) = S(s)/N(s)$

- 根据大数定理（law of large numbers），在$N(s) \rightarrow \infty$时$V(s) \rightarrow v_{\pi}(s)$

# 每访蒙特卡洛策略评估（Every-Visit Monte-Carlo Policy Evaluation）

- 这是用来评估状态$s$

- 状态$s$在一个回合中每个被访问的步长（every time-step）$t$

- 增量计数器（increment counter） $N(s) \leftarrow N(s)+1$

- 增量总回报（increment total return） $S(s) \leftarrow S(s) + G_t$

- 用平均回报来估计价值 $V(s) = S(s)/N(s)$

- 同样的，在$N(s) \rightarrow \infty$时$V(s) \rightarrow v_{\pi}(s)$

# 范例-二十一点（Blackjack Example）

- 状态（200个）
    - 当前总和（12-21）
    - 庄家的明牌（A-10）
    - 我有没有一张“可用的”A（yes-no）
- 停牌（stick）：停止要牌（结束）
- 要牌（twist）：再加一张牌（不换牌）
- 停牌的奖励：
    - 如果玩家的牌面点数之和$>$庄家的牌面点数之和，奖励为+1
    - 如果玩家的牌面点数之和$=$庄家的牌面点数之和，奖励为0
    - 如果玩家的牌面点数之和$<$庄家的牌面点数之和，奖励为-1
- 要牌的奖励：
    - 如果玩家的牌面点数之和$>$21（结束），奖励为-1
    - 其它情况下，奖励为0
- 状态转移：如果牌面点数之和$<$12，自动要牌

# 21点在蒙特卡洛学习后的价值函数（Blackjack Value Function after Monte-Carlo Learning）

策略：如果牌面点数之和$\geq$20的话选择停牌，否则选择要牌

<img src="files/figures/blackjack.png" style="width: 500px;"/>

# 平均增量（Incremental Mean）

序列$x_1, x_2, \ldots$的平均值$\mu_1, \mu_2, \ldots$可以被逐步计算，

\begin{align}
\mu_k & = \frac{1}{k}\sum_{j=1}^k x_j \\
& = \frac{1}{k}(x_k + \sum_{j=1}^{k-1} x_j) \\
& = \frac{1}{k}(x_k + (k-1)\mu_{k-1}) \\
& = \mu_{k-1} + \frac{1}{k}(x_k - \mu_{k-1})
\end{align}

# 蒙特卡洛逐步更新（Incremental Monte-Carlo Updates）

- 在每个回合$S_1, A_1, R_2, \ldots, S_T$后逐步更新$V(s)$

- 对每个回报为$G_t$的状态$S_t$

\begin{align}
& N(S_t) \leftarrow N(S_t)+1 \\
& V(S_t) \leftarrow V(S_t) + \frac{1}{N(S_t)}(G_t - V(S_t))
\end{align}

- 在非静态问题上（non-stationary problems），跟踪移动平均值（running mean）是非常有用的，也就是忘掉旧的回合（old episodes）

\begin{equation}
V(S_t) \leftarrow V(S_t) + \alpha (G_t - V(S_t))
\end{equation}

# 时差学习（Temporal-Difference Learning）

- TD方法直接从经验集（episodes of experience）上学习
- TD是无模型的（model-free）：没有MDP状态转移和奖励的知识
- TD用自举（bootstrapping）从不完整的回合（incomplete episodes）中学习
- TD从一个估计值向一个估计值的方向上更新

# 蒙特卡洛和时差法（MC and TD）

- 目标：在用策略$\pi$的前提下从经验中在线（online）学习$v_{\pi}$

- 增量每访蒙特卡洛（incremental every-visit Monte-Carlo）
    - 在价值$V(S_t)$的基础上朝实际回报（actual return）$G_t$的方向更新

\begin{equation}
V(S_t) \leftarrow V(S_t) + \alpha (G_t - V(S_t))
\end{equation}

- 最简单的时差学习算法：TD(0)
    - 在价值$V(S_t)$的基础上朝回报估计值（estimated return）的方向更新$R_{t+1} + \gamma V(S_{t+1})$

    \begin{equation}
    V(S_t) \leftarrow V(S_t) + \alpha (R_{t+1} + \gamma V(S_{t+1}) - V(S_t))
    \end{equation}
    
    - $R_{t+1} + \gamma V(S_{t+1})$被叫作TD目标（TD target）
    - $\delta_t = R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$被叫作TD误差（TD error）

# 范例-开车回家（Driving Home Example）

<img src="files/figures/driving_home_1.png" style="width: 500px;"/>

<img src="files/figures/driving_home_2.png" style="width: 500px;"/>

# 蒙特卡洛和时差法的优劣（1）（Advantages and Disadvantages of MC vs TD）

- TD可以在知道最终结果前就学习
    - TD可以在每一步后在线学习
    - MC必须等到回合结束也就是回报是已知的时候
- TD可以在没有最终结果的时候进行学习
    - TD可以从未完成的序列中学习
    - MC只能从完成的序列中学习
    - TD在连续的（无终止的）环境中也可以使用
    - MC只能在回合制的（会终止的）环境中使用

# 在偏差和方差中的权衡（Bias/Variance Trade-Off）

- 回报$G_t = R_{t+1} + \gamma R_{t+2} + \ldots + \gamma^{T-1} R_T$是$v_{\pi}(S_t)$的无偏估计（unbiased estimate）
- 真实的TD目标$R_{t+1}+\gamma v_{\pi}(S_{t+1})$是$v_{\pi}(S_t)$的无偏估计（unbiased estimate）
- TD目标$R_{t+1}+\gamma V(S_{t+1})$是$v_{\pi}(S_t)$的有偏估计（biased estimate）
- 与回报相比，TD目标的方差要小得多：
    - 回报取决于许多随机的动作、状态转移和奖励
    - TD目标取决于一个随机的动作、状态转移和奖励

# 蒙特卡洛和时差法的优劣（2）（Advantages and Disadvantages of MC vs TD）

- MC的特点是高方差和零偏差（high variance, zero bias）
    - 有非常好的收敛特性
    - （就算用函数逼近也有非常好的收敛特性）
    - 对初始价值不是非常敏感
    - 理解和使用起来非常简单
- TD的特点是低方差和有一些偏差（low variance, some bias）
    - 通常比MC要高效许多
    - TD(0)收敛到$v_{\pi}(s)$
    - （但在使用函数逼近时不总是收敛）
    - 对初始值更加敏感

# 范例-随机行走（Random Walk Example）

<img src="files/figures/random_walk_1.png" style="width: 500px;"/>

<img src="files/figures/random_walk_2.png" style="width: 500px;"/>

# 批量蒙特卡洛和时差法（Batch MC and TD）

- MC和TD的收敛情况：当经验$\rightarrow \infty$时$V(s) \rightarrow v_{\pi}(s)$
- 但有限经验的批量解的情况是怎么样的呢？
\begin{equation}
s_1^1, a_1^1, r_2^1, \ldots, s_{T_1}^1 \\
\vdots \\
s_1^K, a_1^K, r_2^K, \ldots, s_{T_K}^K
\end{equation}
    - 也就是重复样本回合$k \in [1, K]$
    - 在回合$k$上用MC或者TD(0)

# 范例-AB状态（AB Example）

有两个状态A和B；没有折扣（no discounting）；8个回合的经验

<img src="files/figures/AB.png" style="width: 500px;"/>

那么$V(A)$和$V(B)$是多少呢？

# 初次编辑时间

2018年4月20日

# 参考文献

[1] http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/MC-TD.pdf

[2] https://www.youtube.com/watch?v=PnHCvfgC_ZA