## Monte Carlo Methods 蒙特卡洛方法

### Monte Carlo Prediction

- Model-Based 但无需状态转移概率


- 遵循 policy $\pi$ 通过 Model 生成 state, action, reward 的序列.



- **核心思想**:使用完整 returns 的算术平均值来逼近 returns 的期望值.因此更新发生在片段的结束.


- 通常一个 state s 在片段中可能出现多次,如果只在 s 第一次出现时统计 returns 的算数平均值,这种方法称为 *first-visit* MC.(之后学习 *every-visit* MC)


- 算法伪码(使用GPI):


![first-visit MC](../images/first_visit_MC.png)


- 相对于 DP 的优点:

    1. MC 不是 **expected update** 而是 **sample update** . 因此无需状态转移概率.

    2. MC 对每个状态的估计是独立的. 不需要 **bootstrap** (如贝尔曼方程某个状态需要其后继状态估计)

    3. 可以从感兴趣的状态开始学习.

### MC Control


- 当了解 model 时,可以单独通过价值函数确定 policy.正如 DP 的 Value Iteration.


- 不了解 model 时,通过估计行为价值函数来确定 policy. MC 对行为价值函数的估计类似与价值函数也使用算术平均值逼近.


- 因为初始化 policy $\pi$ 是固定的,所以行为价值函数的 action 也是固定的,这样不利于 Exploration. 解决方法有两种: *exploring starts* 和 *$\epsilon -soft$* .


- exploring starts: 初始化 state-action 对时随机选取 action. 随着片段数目的增加, state-action 对的访问数也增加,算法伪码:

![MCES](../images/MC_ES.png)


- $\epsilon -soft$: $\pi(a|s) > 0, \forall s \in \mathcal{S}, \forall a \in \mathcal{A(s)}$ ,任一 state s 的相关 action 都有可能执行,但最终策略将固定. 


- $\epsilon -greedy$ 是 $\epsilon -soft$ 的一种实现方式, 算法伪码:

![MCSOFT](../images/MC_SOFT.png)


### On-policy 和 Off-policy


- on-policy 估计和更新生成数据的策略


- off-policy 估计和更新的策略不生成数据,通常估计 target policy,但是数据遵循 behavior policy 生成.


- importance-sampling (IS,重要性采样),可估计不同分布的数学期望.


$$\mathbb{E}_{x \sim P}[f(x)] =\sum P(x)f(x)=\sum \frac{P(x)}{Q(x)}Q(x)f(x) = \mathbb{E}_{x \sim Q}\left[ \frac{P(x)}{Q(x)} f(x) \right]$$



- importance-sampling ratio (重要性采样比率),假设 $\pi$ 是 target policy, b 是 behavior policy.


$$\rho_{t:T-1} \dot= \frac{\prod_{k=t}^{T-1}\pi(A_k|S_k)p(S_{k+1}|S_k,A_k)}{\prod_{k=t}^{T-1}b(A_k|S_k)p(S_{k+1}|S_k,A_k)} = \prod_{k=t}^{T-1}\frac{\pi(A_k|S_k)}{b(A_k|S_k)}$$


因此,如果:

$$v_b(s) = \mathbb{E}_{G \sim b}[G_t|S_t=s]$$

那么:

$$v_\pi(s) = \mathbb{E}_{G \sim b}[\rho_{t:T-1}G_t|S_t=s]$$


### Ordinary IS and Weighted IS


- OIS


$$V(s) \dot= \frac{\sum_{t \in \mathcal{J(s)}}\rho_{t:T(t)-1}G_t}{\left|\mathcal{J(s)}\right|}$$


- WIS


$$V(s) \dot= \frac{\sum_{t \in \mathcal{J(s)}}\rho_{t:T(t)-1}G_t}{\sum_{t \in \mathcal{J(s)}}\rho_{t:T(t)-1}}$$


其中: $\mathcal{J(s)}$ 表示在 state s 上的时间步集合.


-  OIS 无偏差,方差大; WIS 有偏估计,方差小.

### Incremental Implementation


- WIS 的更新规则:


$$V_{n+1} \dot= V_n + \frac{W_n}{C_n}\left[G_n - V_n\right], n \ge 1$$


其中:  $C_{n+1} \dot= C_n + W_{n+1}, C_0 \dot= 0$


- Off-policy MC prediction for estimating $Q \to q_\pi$:


![policy evaluation](../images/off-policy_evaluation.png)


- Off-policy MC control, for estimating $\pi \to \pi_*$


![control](../images/off-policy_control.png)