# Bootstrap方法
## I. Bootstrap sample方法的用法示例
### I.1 一个引导案例
实验室有100个学生，想统计他们每人每天要开多少次手机。只有30个学生自愿报名参加统计，安装了用于统计开屏次数的app。1天之后，用他们的数据计算得到平均开屏次数是228.06次。

In [1]:
import numpy as np
import matplotlib.pyplot as plt

# 生成100个学生的总体数据
np.random.seed(42)
pickups = np.random.randint(0,500 , size=100)
print(f"{pickups.mean():.2f}", f"{pickups.std():.2f}")

252.70 144.25


In [2]:
# 从总体中抽样30个
n = 30
sample = np.random.choice(pickups, size=n)

# 计算sample mean,对总体均值做点估计
sample_mean = sample.mean()
print(f"{sample_mean:.2f}")

# measure of accuracy：用sample mean的标准差来衡量   
sample_std = np.std(sample, ddof=1)/np.sqrt(len(sample))
print(f"{sample_std:.2f}")

# 抽样数量达到n=30，已经可以用CLT，用正态分布算置信区间
confidence_in = sample_mean + np.array([-1, 1]) * sample_std * 1.96
print(f"{confidence_in}")

228.07
30.48
[168.31761045 287.81572289]


1. 上面案例中的估计量是样本均值$\bar X_n$。在计算出样本均值后，衡量该估计量的准确性的常用指标：估计量的方差$Var(\bar X_n)$和对应的总体统计量的置信区间都很好计算。
2. 但很多时候the standard error of a estimate是很难直接计算的。比如当估计量是样本中位数的时候，就无法直接得到估计量的方差和置信区间。这时候一种很方便的方法是Bootstrap sample。

### I.2 Empirical Bootstrap方法
1. 定义：Empirical Bootstrap又称<font color=red>Efron's bootstrap，或nonparametric bootstrap</font>，是一种resampling method。具体方式是：independently sampling with replacement from an existing sample data with same sample size n, and performing inference among these resampled data. 

2. Bootstrap sample过程 \
有抽样样本$\{X_1, X_2, ..., X_n\}$，用它做有放回抽样，每轮抽n个样本$\{X^{*(k)}_1, X^{*(k)}_2, ..., X^{*(k)}_n\}$，一共抽B轮，即$k=(1, 2, ..., B)$。得到的B个bootstrap sample sets: $$\begin{align} 
& \{X^{*(1)}_1, X^{*(1)}_2, ..., X^{*(1)}_n\} \\
& \{X^{*(2)}_1, X^{*(2)}_2, ..., X^{*(2)}_n\}\\
& ...\\
& \{X^{*(B)}_1, X^{*(B)}_2, ..., X^{*(B)}_n\} 
\end{align}$$
<img src="./pics/BootstrapSteps.png" style="zoom:40%">

3. 计算Bootstrap estimates \
以中位数为例：$M_n=median\{X_1, X_2, ..., X_n\}$为原样本中位数。\
从上面的bootstrap sample sets中可以得到：$$\begin{align} 
& M^{*(1)}_n = median\{X^{*(1)}_1, X^{*(1)}_2, ..., X^{*(1)}_n\} \\
& M^{*(2)}_n = median\{X^{*(2)}_1, X^{*(2)}_2, ..., X^{*(2)}_n\}\\
& ...\\
& M^{*(B)}_n = median\{X^{*(B)}_1, X^{*(B)}_2, ..., X^{*(B)}_n\} 
\end{align}$$
用他们可以计算各种Bootstrap estimates: \
(1) <font color=green>用$\hat {Var}_B(M^*_n)$估计</font> <font color=blue>**$Var(M_n)$样本中位数的方差**</font>
$$
\bar M^*_B=\frac{1}{B} {\textstyle \sum_{k=1}^{B}}M^{*(k)}_n \\
\hat {Var}_B(M^*_n) = \frac{1}{B-1} {\textstyle \sum_{k=1}^{B}} (M^{*(k)}_n-\bar M^*_B)^2
$$ 
$\hat {Var}_B(M_n)$称为bootstrap estimate of the variance，也就是样本中位数方差的Bootstrap估计量。\
(2) <font color=green>用$\hat {MSE}_B(M^*_n)$估计</font><font color=blue>**MSE：用样本中位数估总体中位数的MSE**</font>
$$\hat {MSE}_B(M^*_n) = \frac{1}{B} {\textstyle \sum_{k=1}^{B}} (M^{*(k)}_n-M_n)^2
$$
$\hat {MSE}_B(M^*_n)$称为bootstrap estimate of MSE，也就是样本中位数的MSE的Bootstrap估计量。\
(3) <font color=red>**总体中位数**</font><font color=green>的置信水平为$1-\alpha$的置信区间为：</font>
$$\begin{align}
& M_n \pm z_{1-\alpha/2}·\sqrt{\hat {Var}_B(M^*_n)}\\
& z_{1-\alpha/2}是标准正态分布的置信度为（1-\alpha/2）的置信区间的边界\end{align}
$$ 该区间称为bootstrap confidence interval，也就是样本中位数的Bootstrap置信区间。

### I.3 用Empirical Bootstrap处理样例中估计样本中位数的情况

In [3]:
# 计算样本中位数，因此作为总体总位数的估计量
sample_median = np.median(sample)
print(sample_median)

190.5


In [4]:
B = 50
bs_samples = np.zeros((B, n))
# 完成B次Bootstrap sample
for i in range(B):
    bs_sample = np.random.choice(sample, size=n, replace=True)
    bs_samples[i] = bs_sample

In [5]:
# 计算每个Bootstrap sample的sample median，得到Bootstrap medians
bs_medians = np.median(bs_samples, axis=1)

# 衡量估计量的acc: 用Bootstrap medians的标准差作为样本中位数标准差的估计量
var_sample_median = np.var(bs_medians)
print(f"{var_sample_median:.2f}")

# 衡量估计量的acc: 也可以用Bootstrap medians的标准差估计样本中位数的标准差
std_bs_median = np.std(bs_medians, ddof=1) 
print(f"{std_bs_median:.2f}")

5430.41
74.44


In [6]:
# 计算总体中位数的1-α置信区间
confidence_in = sample_median + \
                np.array([-1, 1]) * std_bs_median * 1.96
print(f"{confidence_in}")

[ 44.59860656 336.40139344]
