# 01 Preliminary Knowledge

## 1.1 Markov Decision Process

## 1.2 Monte Carlo Method

### 蒙特卡洛方法
一种基于随机采样的方法，它的核心思想是通过大量随机实验来近似求解问题的解，尤其适用于那些难以通过解析方法或确定性算法解决的问题（原理：大数定律），也被称为统计模拟方法，是一种基于概率统计的数值计算方法。

**核心特点：**
- 随机性：依赖于随机采样，通过生成大量随机样本进行模拟；
- 统计性：利用统计学原理对结果进行分析，估计目标值及其误差；
- 近似性：通过大量实验逼近真实值，结果的精度岁样本数量的增加而提高；

**基本步骤：**
- 1.定义问题：将问题转化为概率模型，明确需要计算的量（如期望值、积分、概率等）
- 2.生成随机样本：根据问题的概率分布，生成大量随机样本；
- 3.计算样本值：对每个样本进行计算，得到目标量的估计值；
- 4.统计分析：对结果进行统计分析，计算估计值及其误差（如方差、置信区间等）。

**优点：**
- 适应性广：可以处理高维、非线性、非解析的问题；适用于复杂的概率分布和随机过程；
- 易于实现：算法简单直观、编程实现相对容易；
- 并行性强：随机试验相互独立，适合并行计算，提高效率；

**缺点：**
- 误差通常以$1/\sqrt{N}$的速度减小；要达到高精度，需要大量的样本；
- 结果具有随机性：由于以来随机采样，结果可能存在波动，需要多次试验以确保稳定性。

### 一个蒙特卡罗方法的例子

通过蒙特卡洛方法估计圆周率$\pi$：

- 1.定义问题：将圆周率估计问题转化成估计单位圆面积与单位正方形面积比例；
- 2.生成随机样本：在单位正方形$[0,1] \times [0,1]$内随机撒点；
- 3.统计分析：统计落在单位元内的点的比例；
- 4.问题求解：圆的面积公式，估计$\pi$值。

In [5]:
import random

In [6]:
def estimate_pi(N):
    """ Estimate Pi by Monte Carlo: pi / 4 = M / N """

    M = 0
    for _ in range(N):
        x = random.uniform(0, 1)
        y = random.uniform(0, 1)

        if x ** 2 + y ** 2 <= 1:
            M += 1

    return 4 * M / N

In [7]:
pi = estimate_pi(100000)
pi

3.14064