# 无模型强化学习（Model-Free Reinforcement Learning）

- 用动态规划来进行规划
    - 解一个已知的MDP

- 无模型预测（model-free prediction）
    - 估计一个未知MDP的价值函数

- 无模型控制（model-free control）
    - 优化一个未知MDP的价值函数

# 蒙特卡洛强化学习（Monte-Carlo Reinforcement Learning）

- MC方法直接从经验集（episodes of experience）上学习

- MC是无模型的（model-free）：没有MDP状态转移和奖励的知识

- MC从完整的回合（complete episodes）中学习：没有用到自举（bootstrapping）

- MC用了最简单的思想：价值等于平均回报（value=mean return）

- 警告：MC只能用在回合制的MDP上（episodic MDPs）
    - 所有的回合必须终止

# 蒙特卡洛策略评估（Monte-Carlo Policy Evaluation）

- 目标：从使用策略$\pi$的回合经验中学习$v_{\pi}$

\begin{equation}
S_1, A_1, R_2, \ldots, S_k \sim \pi
\end{equation}

- 回报（return）是总折扣奖励（total discounted reward）：

\begin{equation}
G_t = R_{t+1} + \gamma R_{t+2} + \ldots + \gamma^{T-1} R_T
\end{equation}

- 价值函数（value function）就是期望回报（expected return）：

\begin{equation}
v_{\pi}(s) = \mathbb{E}_{\pi}[G_t | S_t = s]
\end{equation}

- 蒙特卡洛策略评估使用了经验平均回报（empirical mean return）而不是期望回报（expected return）

# 首访蒙特卡洛策略评估（First-Visit Monte-Carlo Policy Evaluation）

- 这是用来评估状态$s$

- 状态$s$在一个回合中被访问的首个时间步长（first time-step）$t$

- 增量计数器（increment counter） $N(s) \leftarrow N(s)+1$

- 增量总回报（increment total return） $S(s) \leftarrow S(s) + G_t$

- 用平均回报来估计价值 $V(s) = S(s)/N(s)$

- 根据大数定理（law of large numbers），在$N(s) \rightarrow \infty$时$V(s) \rightarrow v_{\pi}(s)$

# 每访蒙特卡洛策略评估（Every-Visit Monte-Carlo Policy Evaluation）

- 这是用来评估状态$s$

- 状态$s$在一个回合中每个被访问的步长（every time-step）$t$

- 增量计数器（increment counter） $N(s) \leftarrow N(s)+1$

- 增量总回报（increment total return） $S(s) \leftarrow S(s) + G_t$

- 用平均回报来估计价值 $V(s) = S(s)/N(s)$

- 同样的，在$N(s) \rightarrow \infty$时$V(s) \rightarrow v_{\pi}(s)$

# 二十一点范例（Blackjack Example）

- 状态（200个）
    - 当前总和（12-21）
    - 庄家的明牌（A-10）
    - 我有没有一张“可用的”A（yes-no）
- 停牌（stick）：停止要牌（结束）
- 要牌（twist）：再加一张牌（不换牌）
- 停牌的奖励：
    - 如果玩家的牌面点数之和$>$庄家的牌面点数之和，奖励为+1
    - 如果玩家的牌面点数之和$=$庄家的牌面点数之和，奖励为0
    - 如果玩家的牌面点数之和$<$庄家的牌面点数之和，奖励为-1
- 要牌的奖励：
    - 如果玩家的牌面点数之和$>$21（结束），奖励为-1
    - 其它情况下，奖励为0
- 状态转移：如果牌面点数之和$<$12，自动要牌

# 21点在蒙特卡洛学习后的价值函数（Blackjack Value Function after Monte-Carlo Learning）

策略：如果牌面点数之和$\geq$20的话选择停牌，否则选择要牌

<img src="files/figures/blackjack.png" style="width: 500px;"/>

# 平均增量（Incremental Mean）

序列$x_1, x_2, \ldots$的平均值$\mu_1, \mu_2, \ldots$可以被逐步计算，

\begin{align}
\mu_k & = \frac{1}{k}\sum_{j=1}^k x_j \\
& = \frac{1}{k}(x_k + \sum_{j=1}^{k-1} x_j) \\
& = \frac{1}{k}(x_k + (k-1)\mu_{k-1}) \\
& = \mu_{k-1} + \frac{1}{k}(x_k - \mu_{k-1})
\end{align}

# 初次编辑时间

2018年4月20日

# 参考文献

[1] http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/MC-TD.pdf