# Theory behind bootstrap

## I. 基本概念：CDF和EDF
### I.1 定义
1. <font color=blue>**累积分布函数CDF(Cumulative Distribution Function)**</font>\
定义：随机变量X的CDF记为F(x)，含义是事件(event)$\{X_i≤x\}$发生的概率。\
用数学形式可以表达为：$F(x)=P(X_i ≤x)$ 
2. <font color=blue>**经验分布函数EDF(Empitical Distribution Function)**</font> \
思路：用事件在随机变量的样本中发生的比率作为该事件发生概率的估计量(estimator)。 \
定义：$\hat{F_n}(x)$作为$F(x)$的估计量
$$\hat{F_n}(x) = \frac{number\ of\ X_i<x }{total\ number\ of\ observations}  = \frac{ {\textstyle \sum_{i=1}^{n}}I(X_i<x) }{n}
$$

### I.2 EDF的性质
1. EDF是$I(X_i\le x)$的均值，所以先看$I(X_i \le x)$的性质 \
定义随机变量$Yi=I(X_i \le x)$，有:
$$Y_i=\left\{\begin{matrix}
 1, & if\ X_i \le  x\\
 0, & if\ X_i > x
\end{matrix}\right.$$
此时，Yi是伯努利分布，其参数$p=P(Y_i=1)=P(X_i \le x)=F(x)$ \
因此，$$
\begin{align} 
  E(Y_i) & =p=F(x) \\
Var(Y_i) & =p(1-p)=F(x)(1-F(x))
\end{align}
$$
因此，$$\begin{align} 
E(I(X_i \le x)) & = E(Y_i) = F(x) \\
Var(I(X_i \le x)) & = Var(Y_i)=F(x)(1-F(x))
\end{align}
$$

2. $\hat{F_n}(x)=\frac{1}{n}{\textstyle \sum_{i=1}^{n}}I(X_i<x) 
$，带入$I(X_i \le x)$的均值和方差，可以得到： \
$$\begin{align} 
  E(\hat F_n(x)) & = E(I(X_i<x)) =F(x)\\
Var(\hat F_n(x)) & = \frac{{\textstyle \sum_{i=1}^{n}}Var(I(X_i<x))}{n^2}=\frac{F(x)(1-F(x))}{n} 
\end{align}$$

3. $\hat{F}_n(x)$作为估计量的性质：\
<font color=blue> (1) $\hat F_n(x)$是$F(x)$的无偏估计。前文已经证明$E(\hat F_n(x))=F(x)$ \
(2) $\hat F_n(x)$依概率收敛到$F(x)$。\
$$\hat F_n(x) \overset{P}{\rightarrow} F(x) ...①$$
\
(3) $\sqrt n(\hat F_n(x)-F(x))$依分布收敛到均值为0，方差为$F(x)(1-F(x))$的正态分布。\
$$\sqrt n(\hat F_n(x)-F(x)) \overset{D}{\rightarrow}  N(0, F(x)(1-F(x))) ...②$$ </font>

证明性质(2)：\
由切比雪夫不等式有：
$$
\begin{align} 
P(|\hat{F}_n(x)-F(x)|  \ge \epsilon ) &\le \frac{Var(\hat{F}_n(x))}{\epsilon^2}
=\frac{F(x)(1-F(x))}{n\epsilon^2} \\
\therefore \lim_{n \to \infty} P(|\hat{F}_n(x)-F(x)| \ge \epsilon ) &\le \lim_{n \to \infty} \frac{F(x)(1-F(x))}{n\epsilon^2}=0
\end{align}
$$
得证

证明性质(3)：直接套用中心极限定律即可。

## II. Statistical Functional
### II.1 定义
1. <font color=blue>**Functional** </font>：Functional是从函数到实数的映射。$T:F\mapsto R$
2. <font color=blue>**Statistical Functional** </font>：当Functional的input是CDF的时候，该Functional就成为Statistical Functional \
例子：\
(1)分布的均值(期望)：$$
T_{mean}(F) =E(x)=\int xdF(x)=\left\{\begin{matrix}
\int xf(s)dx  & 如果x是连续型随机变量\\
 {\textstyle \sum_{x}xp(x)}   & 如果x是离散型随机变量
\end{matrix}\right.
$$
(2)分布的方差：$T_{var}(F) = Var(x) = E(x^2) - E^2(x) = \int x^2dF(x)-(\int xdF(x))^2$ \
(3)分布的中位数：$T_{median}(F)=F^{-1}(0.5)$

3. <font color=blue>**Linear Functional** </font>：如果有Statistical functional$T(F)=\int w(x)dF(x)$，则称该T为Linear Functional。 \
<font color=orange>这里线性体现在：$$
T(aF+bG)=\int w(x)d(aF(x)+bG(x))=a\int w(x)dF(x)+b\int w(x)dG(x)=aT(F) + bT(G)
$$</font>
例：$T_{mean}(F)$和$T_{var}(F)$都是linear functional

### II.2 用途
1. Statistical Functional可以用于构造一种能够很方便地估计总体特征(population quantity)的估计量
2. 是bootstrap方法的基础

## III. plug-in estimator: 用$\hat{\theta}_n=T(\hat F_n)$估计$\theta = T(F)$
<font color=green>**出发点**：由EDF作为估计量的性质可知，$\hat F_n$是$F(x)$的一个很好的估计量。如果将EDF plug-in到Statistical functional中得到$T(\hat F_n)$，它可能也能作为$\theta = T(F)$的估计量，而且这种方法非常简洁。 </font>

### III.1 定义
已知population quantity $\theta = T(F)$，将估计量$\hat{\theta}_n=T(\hat F_n)$称为$\theta$的plug-in estimator</font>

### III.2 例子
1. **linear function** \
取linear functional $T(F) = \int w(x)dF(x)$，则其plug-in estimator为：
$$T(\hat{F}_n)=\int w(x)d\hat{F}_n(x)=\frac{1}{n}{\textstyle \sum_{i=1}^{n}w(x_i)} $$ 
理解：求解左边等式是将$\hat{F}_n(x)$作为一个分布(而不是原分布的EDF)来看，它是每个样本发生概率为$\frac{1}{n}$的均匀分布。

2. **估 $T_{var}(\hat{F}_n(x))$和$T_{var}(\hat{F}_n(x))$**
$$
\begin{align} 
T_{mean}(\hat{F}_n(x)) & =\int xd\hat{F}_n(x)={\textstyle \sum_{i=1}^{n}} \frac{X_i}{n} =\bar X
  \\
T_{var}(\hat{F}_n(x)) & =\int x^2d\hat{F}_n(x) - (\int xd\hat{F}_n(x))^2=\frac{1}{n}{\textstyle \sum_{i=1}^{n}} X^2_i - \bar X_n = {\textstyle \sum_{i=1}^{n}} (X_i - \bar X_n)^2
\end{align} \\
T_{median}(\hat{F}_n(x)) = \hat F^{-1}_n(0.5)
$$
<font color=orange>可见，估计结果和MLE的估计结果相同。也初步验证了plug-in可能确实是一种很简洁的参数估计方式。</font>