# Bootstrap
### 一个引导案例
实验室有100个学生，想统计他们没人每天要打开多少次手机。只有30个学生自愿报名参加统计，安装了用于统计开机次数的app。1天之后，用他们的数据计算得到平均开机次数是228.06次。

In [20]:
import numpy as np
import matplotlib.pyplot as plt

# 生成100个学生的总体数据
np.random.seed(42)
pickups = np.random.randint(0,500 , size=100)
print(f"{pickups.mean():.2f}", f"{pickups.std():.2f}")

252.70 144.25


In [18]:
# 从总体中抽样30个
sample = np.random.choice(pickups, size=30)
# 计算样本的均值和标准差，完成对总体均值的一次点估计
sample_mean = sample.mean()
print(f"{sample_mean:.2f}")
# 该点估计的measure of accuracy：用均值的标准差来衡量
sample_std = np.std(sample, ddof=1)/(30 ** 0.5)
print(f"{sample_std:.2f}")
# 抽样数量30，可以用CLT，近似假设估计量服从正态分布。由此可以计算置信区间

203.90
28.18


上述估计可行有两个前提：
1. 估计的是样本均值，该估计量的样本方法非常好估。但很多时候the standard error of a estimate是很难直接计算的
2. 可以用大数定律来得到估计量的置信区间。但实践中正态分布的假设并不成立。 \
此时，需要其他方法。

## I. Empirical Bootstrap
### I.1 定义
Empirical Bootstrap是一种resampling method。方式是：independently sampling with replacement from an existing sample data with same sample size n, and performing inference among these resampled data. \
又称<font color=red>Efron's bootstrap，或者nonparametric bootstrap</font>。

### I.2 流程
有抽样样本$\{X_1, X_2, ..., X_n\}$，从中有放回抽样，每轮抽n个样本$\{X^{*(k)}_1, X^{*(k)}_2, ..., X^{*(k)}_n\}$，一共抽B轮，即$k=(1, 2, ..., B)$。最终得到的B个bootstrap sample sets: $$\begin{align} 
& \{X^{*(1)}_1, X^{*(1)}_2, ..., X^{*(1)}_n\} \\
& \{X^{*(2)}_1, X^{*(2)}_2, ..., X^{*(2)}_n\}\\
& ...\\
& \{X^{*(B)}_1, X^{*(B)}_2, ..., X^{*(B)}_n\} 
\end{align}$$
<img src="./pics/BootstrapSteps.png" style="zoom:100%">

### I.3 用bootstrap samples做估计: Bootstrap estimates
以中位数为例：$M_n=median\{X_1, X_2, ..., X_n\}$为原样本中位数。\
从上面的bootstrap sample sets中可以得到：$$\begin{align} 
& M^{*(1)}_n = median\{X^{*(1)}_1, X^{*(1)}_2, ..., X^{*(1)}_n\} \\
& M^{*(2)}_n = median\{X^{*(2)}_1, X^{*(2)}_2, ..., X^{*(2)}_n\}\\
& ...\\
& M^{*(B)}_n = median\{X^{*(B)}_1, X^{*(B)}_2, ..., X^{*(B)}_n\} 
\end{align}$$
用他们可以计算各种Bootstrap estimates: \
<font color=green>(1) 用$\hat {Var}_B(M_n)$估计</font><font color=blue>**样本$Var(M_n)$**</font>
$$
\bar M^*_B=\frac{1}{B} {\textstyle \sum_{k=1}^{B}}M^{*(k)}_n \\
\hat {Var}_B(M_n) = \frac{1}{B-1} {\textstyle \sum_{k=1}^{B}} (M^{*(k)}_n-\bar M^*_B)^2
$$ $\hat {Var}_B(M_n)$称为bootstrap estimate of the variance，方差的Bootstrap估计量。\
<font color=green>(2) 用$\hat {MSE}_B(M_n)$估计</font><font color=blue>**样本$MSE$**</font>
$$\hat {MSE}_B(M_n) = \frac{1}{B} {\textstyle \sum_{k=1}^{B}} (M^{*(k)}_n-M_n)^2
$$ $\hat {MSE}_B(M_n)$称为bootstrap estimate of MSE，MSE的Bootstrap估计量。\
(3) <font color=blue>**总体中位数**</font><font color=green>的置信水平为$1-\alpha$的置信区间为：</font>
$$\begin{align}
& M_n \pm z_{1-\alpha/2}·\sqrt{\hat {Var}_B(M_n)}\\
& z_{1-\alpha/2}是标准正态分布的置信度为（1-\alpha/2）的置信区间的边界\end{align}
$$ 该区间称为bootstrap confidence interval

### I.4 Bootstrap estimates背后的统计原理
#### 1.4.1 $\hat F_n$是F(x)的EDF，也是Bootstrap sample对应的随机变量$X^*$的CDF
1. 原样本${X_1, X_2, ..., X_n}$对应的F(x)的估计量$\hat F_n(x)=\frac{1}{n} {\textstyle \sum_{i=1}^{n}}I(X_i\le x) $，它是基于原样本的EDF。
2. <font color=blue>用原样本${X_1, X_2, ..., X_n}$做Bootstrap sampling，每次得到的值记为随机变量$X^*$的取值。那么$X^*$本质上是以${X_1, X_2, ..., X_n}$为取值空间，每个事件概率$P(X^*=X_i)=\frac{1}{n}$的随机变量。此时，$\hat F_n(x)=\frac{1}{n} {\textstyle \sum_{i=1}^{n}}I(X_i\le x) $是$X^*$的CDF。</font>\
如果抽n个$X^*$，那么就有$$
X^*_1, X^*_2, ..., X^*_n\sim \hat F_n
$$
如果一共抽B轮，每轮抽n次，则有：$$\begin{align} 
& X^{*(1)}_1, X^{*(1)}_2, ..., X^{*(1)}_n \ \sim \hat F_n \\
& X^{*(2)}_1, X^{*(2)}_2, ..., X^{*(2)}_n \ \sim \hat F_n \\
& ...\\
& X^{*(B)}_1, X^{*(B)}_2, ..., X^{*(B)}_n \ \sim \hat F_n 
\end{align}$$
<font color=green>表示：每个Bootstrap sample set都是用分布$\hat F_n$抽样的一组IID样本</font>

#### 1.4.2 统计量的分布函数：中位数为例
1. 基于原样本${X_1, X_2, ..., X_n}$的统计量$M_n$的分布函数：$F_{M_n}(x)=\psi (x;F, n)$ \
原分布是F(x)，原有的抽样样本$X_1, X_2, ..., X_n\sim F$。这些样本的中位数$M_n$的分布取决于F和n，因此可以将样本中位数的分布标记为：$$F_{M_n}(x)=\psi (x;F, n)$$

2. Bootstrap估计量$M^{*(k)}_n$的分布函数：$M^{*}_n=\psi (x;\hat F_n,n)$，<font color=red>这里$\hat F_n$是$M^{*}_n$的CDF</font>。 \
比如Bootstrap median: $$
M^{*(k)}_n = median\{X^{*(k)}_1, X^{*(k)}_2, ..., X^{*(k)}_n\}\\
F_{M^{*(k)}_n}(x) = \psi (x;\hat F_n,n)
$$因为每一组Bootstrap sample都是从相同的分布$\hat F_n$中抽样得到的，所以：$$
\psi (x;\hat F_n,n)=F_{M^{*(1)}_n}(x)=F_{M^{*(2)}_n}(x)=...=F_{M^{*(B)}_n}(x)
$$

#### 1.4.3 估计量的性质分析
1. Bootstrap estimate的CDF与对应的population quantity的CDF相似 \
因为$\hat F_n \overset{P}{\rightarrow} F$，所以当n很大时，$\hat F_n$与F相似。如果$\psi$相对F是smooth的，那么此时$\psi (x;\hat F_n,n)$也会与$\psi (x;F, n)$很相似。\
根据收敛性质：$$ \begin{align}
& \because \hat F_n \overset{P}{\rightarrow} F ,\ \ \psi\ is\ smooth\\
& \therefore F_{M^{*}_n}(x)=\psi (x;\hat F_n,n) \overset{P}{\rightarrow} \psi (x;F, n) = F_{M_n}(x)
\end{align}$$
<font color=orange>这意味着：Bootstrap median $M^{*}_n$的CDF与sample median $M_n$的CDF相似。</font> \
<font color=green>一般化为：Bootstrap estimate的CDF与sample estimate的CDF相似。</font>

2. 当估计量的CDF与对应的总体特征(population quantity)的CDF相似时，可以扩展出新的性质，比如：<font color=blue>$$\hat {Var}_B(M_n) \approx Var(M^{*}_n|\hat F)\approx Var(M_n| F) $$</font>
· 取$Var(M^{*}_n|\hat F)$表示$Var(M^{*}_n)$，加条件是为强调它是以$\hat F$为CDF的$M^{*}_n$的<font color=red>**总体方差**</font>。 \
· 取$Var(M_n|F)$表示$Var(M_n)$，是以F为CDF的<font color=red>**总体方差**</font>。 \
· 取$\hat {Var}_B(M_n)= \frac{1}{B-1} {\textstyle \sum_{k=1}^{B}} (M^{*(k)}_n-\bar M^*_B)^2$，表示$M^{*}_n|\hat F$对应的B轮Bootstrap抽样得到的<font color=green>**样本方差**</font>。\
(1) Bootstrap median的CDF与sample median的CDF相似，所以他们的方差相似\
$Var(M^{*}_n|\hat F) \approx Var(M_n| F)$<font color=red>——这是两个总体的方差相似</font> \
(2) B可以人为设置为很大的值，B很大时，样本方差和总体方差相似。因为<font color=green>这里$\hat F_n$是$M^{*}_n$的CDF；B越大，抽样轮次越多，样本方差就会逼近总体方差。</font> \
$ \hat {Var}_B(M_n) \approx Var(M^{*}_n|\hat F) $ <font color=red>——这是样本方差与总体方差相似</font> \

<font color=blue>**除了variance之外，分位数，偏度、峰度等统计量都有同样的性质。但也不是所有的统计量都适用。**</font>

3. 上述特征对$M_n=min\{X_1, X_2, ..., X_n\}$无效。 \
分析： \
假设${X_1, X_2, ..., X_n} \sim Uni[0, 1]$，有n个样本$\{X_1, X_2, ..., X_n\}$，$M_n=min{X_1, X_2, ..., X_n}$是样本的最小值。\
分析：\
（1）均匀分布的样本最小值服从指数分布。即：$$n·M_n \overset{D}{\rightarrow} Exp(1)$$Exp(1)是参数为1的指数分布。也因此，$M_n$的分布是连续的。\
（2）用原样本做Bootstrap sample。\
· 得到$M^{*}_n$是Bootstrap sample的最小值，即$M^{*}_n=min{X^*_1, X^*_2, ..., X^*_n}$。\
· 因为$P(X^*_i=M_n)=\frac{1}{n}$，因此：$$
P(none\ of X^*_1, X^*_2, ..., X^*_n\ select\ M_n)=(1-\frac{1}{n})^n \approx e^{-1} \\
P(one\ of\ X^*_1, X^*_2, ..., X^*_n select\ M_n)\approx 1-e^{-1} \\
即，P(M^*_n=M_n) \approx 1-e^{-1}
$$可见，$M^*_n$有较大的概率直接取到$M_n$，这也就意味着，$M^*_n$的分布不是指数分布，也就和$M_n$的分布完全不同。

## II. Bootstrap and Statistical Functionals
