# Monte-Carlo随机采样方法

Dreisteine, 2021.07.28

---

## 一、问题提出

根据样本对统计模型参数进行**后验估计**：

$$
\begin{aligned}
    & {\rm Pr}\left(\theta_1 > \theta_2 | y_{1,1},...,y_{n_1,1},y_{2,1},...,y_{n_2, 1}\right) \\
    & = \int_{0}^{\infty} \int_{0}^{\theta_1} p\left(\theta_1, \theta_2 | y_{1,1},...,y_{n_1,1},y_{2,1},...,y_{n_2, 1} \right) d \theta_2 d\theta_1 \\
\end{aligned}
$$

对于上述式子，既可以直接通过微积分求解，也可以通过数值求解算法包求解。但是，这些方法严重依赖于具体的先验分布、模型细节和后验概率表述，**通用性差**。因此，我们将使用Monte-Carlo随机采样方法进行计算，该方法不依赖具体微积分和数值分析知识。

## 二、Monte-Carlo采样方法

假定我们能够根据参数$\theta$的后验分布（已知），随机独立地采集$S$个参数值样本：

$$
\theta^{(1)}, ..., \theta^{(S)} \sim \text{i.i.d. } p\left(\theta | y_{1},...,y_{n} \right)
$$

那么样本$\left\{ \theta^{(1)}, ..., \theta^{(S)} \right\}$的经验分布将随着$S$的增加而趋近于$p\left(\theta | y_{1},...,y_{n} \right)$,即为Monte-Carlo近似。

根据**大数定律**，令$g(\theta)$为任意形式的函数，若样本$\theta^{(1)}, ..., \theta^{(S)} \sim \text{i.i.d. } p\left(\theta | y_{1},...,y_{n} \right)$，则有：

$$
\frac{1}{S}\sum_{s=1}^{S}g(\theta^{(s)}) \rightarrow {\rm E}[g(\theta)]=\int g(\theta) p\left(\theta | y_{1},...,y_{n} \right)d\theta \text{ as } S \rightarrow \infty
$$

那么有：
* 样本均值收敛：$\bar \theta = \sum_{s=1}^{S}g(\theta^{(s)})/S \rightarrow {\rm E}[\theta | y_1, ..., y_n]$
* 样本方差收敛至${\rm Var}[\theta | y_1, ..., y_n]$
* 概率收敛
* 样本$\{\theta^{(1)},...,\theta^{(S)}\}$的经验分布 $\rightarrow p(\theta | y_1, ..., y_n)$
* 中位数收敛
* 分位数收敛

一句话概括：根据分布规则进行一系列采样，当样本量$S$充分大，样本集的统计性质将收敛于对于分布性质

### 算例1：gamma分布参数估计

> 首先，设定gamma分布并进行采样：

In [18]:
# Gamma分布的参数.
a <- 2; b <- 1
sm <- 66; n <- 44

# 按照不同样本量对Gamma分布进行采样.
theta_mc10 <- rgamma(10, a + sm, b + n)
theta_mc100 <- rgamma(100, a + sm, b + n)
theta_mc1000000 <- rgamma(1000000, a + sm, b + n)

> 比较不同样本量下样本均值与理论均值（=1.5）

In [16]:
mean(theta_mc10)
mean(theta_mc100)
mean(theta_mc1000000)

> 从结果可见，随着样本量$S$的增加，样本均值逼近分布的均值。

## 三、对任意函数的后验推理

假设我们对某些可计算的函数$g(\theta)$的后验分布感兴趣，比如在二项分布模型中，我们对如下的对数几率更感兴趣：

$$
\log odds(\theta) = \log \frac{\theta}{1-\theta} =\gamma
$$

大数定律告诉我们，如果我们根据$\theta$的后验分布生成了一系列样本$\{\theta^{(1)}, \theta^{(2)}, ...\}$，那么：

$$
{\rm mean} \left(\log \frac{\theta^{(s)}}{1-\theta^{(s)}}\right) \rightarrow {\rm E}\left[\log \frac{\theta^{(s)}}{1-\theta^{(s)}} | y_1, ..., y_n\right]
$$

而我们可能也对$\gamma$的其他后验分布性质感兴趣，这样一来可以通过Monte-Carlo方法进行如下独立并行采样计算：

$$
\left.
 \begin{array}{cc}
 \text{sample } \theta^{(1)} \sim p(\theta | y_1,...,y_n), \text{compute } \gamma^{(1)}=g\left(\theta^{(1)}\right) \\
 \text{sample } \theta^{(2)} \sim p(\theta | y_1,...,y_n), \text{compute } \gamma^{(2)}=g\left(\theta^{(1)}\right) \\
 \vdots \\
 \text{sample } \theta^{(S)} \sim p(\theta | y_1,...,y_n), \text{compute } \gamma^{(S)}=g\left(\theta^{(1)}\right) \\
 \end{array}
\right\} \text{independently}
$$

当采样数$S \rightarrow \infty$，对于$\gamma$有：
* 均值收敛
* 方差收敛
* 分布收敛

### 算例2：Functions of Two Parameters

> 基于Chaptet 3中的出生率Birthrate案例，两个教育水平群体的后验分布为：

$$
\begin{array}{}
    & \{\theta_1|y_{1,1}, ..., y_{n_1, 1}\} \sim {\rm gamma}(219, 112) \text{ (women without bachelor's degrees)} \\
    & \{\theta_2|y_{1,2}, ..., y_{n_2, 2}\} \sim {\rm gamma}(68, 45) \text{ (women with bachelor's degrees)} \\
\end{array}
$$

> 对于此例，我们对概率${\rm Pr}(\theta_1 > \theta_2|Y_{1,1}=y_{1,1},...,Y_{n_2,2}=y_{n_2,2})$或$\theta_1/\theta_2$的分布感兴趣，可以通过Monte-Carlo方法来实现:

$$
\begin{aligned}
&\text{sample } \theta_1^{(1)} \sim p(\theta_1|\sum_i Y_{i, 1}=217), \text{ sample }\theta_2^{(1)} \sim p(\theta_2|\sum_i Y_{i, 2}=66)\\
&\text{sample } \theta_1^{(2)} \sim p(\theta_1|\sum_i Y_{i, 1}=217), \text{ sample }\theta_2^{(2)} \sim p(\theta_2|\sum_i Y_{i, 2}=66)\\
&\vdots \\
&\text{sample } \theta_1^{(S)} \sim p(\theta_1|\sum_i Y_{i, 1}=217), \text{ sample }\theta_2^{(S)} \sim p(\theta_2|\sum_i Y_{i, 2}=66)\\
\end{aligned}
$$

> 在Chapter 3中已经提到了对于beta分布$\sum_{i}Y_i$是$\theta$的充分统计量。这样通过Monte-Carlo采样我们便获得了一系列的包含了$S$组$\theta_1$和$\theta_2$后验分布样本的采样序列$\left\{(\theta_1^{(1)}, \theta_2^{(1)}),...,(\theta_1^{(S)}, \theta_2^{(S)})\right\}$，然后计算${\rm Pr}\left(\theta_1 > \theta_2|\sum_{i=1}^{111}Y_{i,1}=217, \sum_{j=1}^{44}Y_{j,2}=66\right)$：

$$
{\rm Pr}\left(\theta_1 > \theta_2|\sum_{i=1}^{111}Y_{i,1}=217, \sum_{j=1}^{44}Y_{j,2}=66\right) \approx \frac{1}{S}\sum_{s=1}^{S}1(\theta_1 > \theta_2)
$$

> 对应的R代码如下：

In [6]:
# 分布参数.
a <- 2; b<- 1  # 先验参数
sm1 <- 217; n1 <- 111  # 后验参数
sm2 <- 66; n2 <- 44    # 后验参数

# 后验采样.
N_mc <- 10000
theta_1_mc <- rgamma(N_mc, a + sm1, b + n1)
theta_2_mc <- rgamma(N_mc, a + sm2, b + n2)

# 获得其他相关分布的概率.
mean(theta_1_mc > theta_2_mc)  # theta_1 > theta_2
mean(theta_1_mc / theta_2_mc)  # theta_1 / theta_2