# Theory behind bootstrap

## I. 基本概念：CDF和EDF
### I.1 定义
1. <font color=blue>**累积分布函数CDF(Cumulative Distribution Function)**</font>\
定义：随机变量X的CDF记为F(x)，含义是事件(event)$\{X_i≤x\}$发生的概率。\
用数学形式可以表达为：$F(x)=P(X_i ≤x)$ 
2. <font color=blue>**经验分布函数EDF(Empitical Distribution Function)**</font> \
思路：用事件在随机变量的样本中发生的比率作为该事件发生概率的估计量(estimator)。 \
定义：$\hat{F_n}(x)$作为$F(x)$的估计量
$$\hat{F_n}(x) = \frac{number\ of\ X_i<x }{total\ number\ of\ observations}  = \frac{ {\textstyle \sum_{i=1}^{n}}I(X_i<x) }{n}
$$

### I.2 EDF的性质
1. EDF是$I(X_i\le x)$的均值，所以先看$I(X_i \le x)$的性质 \
定义随机变量$Yi=I(X_i \le x)$，有:
$$Y_i=\left\{\begin{matrix}
 1, & if\ X_i \le  x\\
 0, & if\ X_i > x
\end{matrix}\right.$$
此时，Yi是伯努利分布，其参数$p=P(Y_i=1)=P(X_i \le x)=F(x)$ \
因此，$$
\begin{align} 
  E(Y_i) & =p=F(x) \\
Var(Y_i) & =p(1-p)=F(x)(1-F(x))
\end{align}
$$
因此，$$\begin{align} 
E(I(X_i \le x)) & = E(Y_i) = F(x) \\
Var(I(X_i \le x)) & = Var(Y_i)=F(x)(1-F(x))
\end{align}
$$

2. $\hat{F_n}(x)=\frac{1}{n}{\textstyle \sum_{i=1}^{n}}I(X_i<x) 
$，带入$I(X_i \le x)$的均值和方差，可以得到： \
$$\begin{align} 
  E(\hat F_n(x)) & = E(I(X_i<x)) =F(x)\\
Var(\hat F_n(x)) & = \frac{{\textstyle \sum_{i=1}^{n}}Var(I(X_i<x))}{n^2}=\frac{F(x)(1-F(x))}{n} 
\end{align}$$

3. $\hat{F}_n(x)$作为估计量的性质：\
<font color=blue> (1) $\hat F_n(x)$是$F(x)$的无偏估计。前文已经证明$E(\hat F_n(x))=F(x)$ \
(2) $\hat F_n(x)$依概率收敛到$F(x)$。\
$$\hat F_n(x) \overset{P}{\rightarrow} F(x) ...①$$
\
(3) $\sqrt n(\hat F_n(x)-F(x))$依分布收敛到均值为0，方差为$F(x)(1-F(x))$的正态分布。\
$$\sqrt n(\hat F_n(x)-F(x)) \overset{D}{\rightarrow}  N(0, F(x)(1-F(x))) ...②$$ </font>

证明性质(2)：\
由切比雪夫不等式有：
$$
\begin{align} 
P(|\hat{F}_n(x)-F(x)|  \ge \epsilon ) &\le \frac{Var(\hat{F}_n(x))}{\epsilon^2}
=\frac{F(x)(1-F(x))}{n\epsilon^2} \\
\therefore \lim_{n \to \infty} P(|\hat{F}_n(x)-F(x)| \ge \epsilon ) &\le \lim_{n \to \infty} \frac{F(x)(1-F(x))}{n\epsilon^2}=0
\end{align}
$$
得证

证明性质(3)：直接套用中心极限定律即可。

## II. Statistical Functional
### II.1 定义
1. <font color=blue>**Functional** </font>：Functional是从函数域到实数域的映射。$T:F\mapsto R$
2. <font color=blue>**Statistical Functional** </font>：当Functional的input是CDF的时候，该Functional就成为Statistical Functional \
例子：\
(1)分布的均值(期望)：$$
T_{mean}(F) =E(x)=\int xdF(x)=\left\{\begin{matrix}
\int xf(s)dx  & ，如果x是连续型随机变量\\
 {\textstyle \sum_{x}xp(x)}   & ，如果x是离散型随机变量
\end{matrix}\right.
$$
(2)分布的方差：$T_{var}(F) = Var(x) = E(x^2) - E^2(x) = \int x^2dF(x)-(\int xdF(x))^2$ \
(3)分布的中位数：$T_{median}(F)=F^{-1}(0.5)$

3. <font color=blue>**Linear Functional** </font>：如果有Statistical functional$T(F)=\int w(x)dF(x)$，则称该T为Linear Functional。 \
<font color=orange>这里线性体现在：$$
T(aF+bG)=\int w(x)d(aF(x)+bG(x))=a\int w(x)dF(x)+b\int w(x)dG(x)=aT(F) + bT(G)
$$</font>
例：$T_{mean}(F)$和$T_{var}(F)$都是linear functional

### II.2 用途
1. Statistical Functional可以用于构造一种能够很方便地估计总体特征(population quantity)的估计量。详见后文的plug-in estimator。
2. 是bootstrap方法的基础

## III. plug-in estimator: 用$\hat{\theta}_n=T(\hat F_n)$估计$\theta = T(F)$
<font color=green>**出发点**：由EDF作为估计量的性质可知，$\hat F_n$是$F(x)$的一个很好的估计量。将EDF plug-in到Statistical functional中得到$T(\hat F_n)$，用它作为$\theta = T(F)$的估计量，提供了一种非常简洁的参数估计方法。只是还需要证明该估计量有足够好的性质。 </font>

### III.1 定义
1. 定义：已知population quantity $\theta = T(F)$，将估计量$\hat{\theta}_n=T(\hat F_n)$称为$\theta$的<font color=blue>plug-in estimator</font>。 
2. 特征：一般而言，如果Statistical Functional T(·)相对input F 是smooth的话，plug-in estimator会有较好的一致性。因为$\hat F_n \overset{D}{\rightarrow} F(x)$，如果T(F)smooth，那么$T(\hat F_n)\overset{D}{\rightarrow} T(F)$。\
<font color=orange>（上述特征是数学上不严谨的描述，详细的smooth含义和对应性质的证明需要函数分析的内容，这里略过。）</font>

### III.2 例子
1. **估 $T_{var}(\hat{F}_n(x))$和$T_{var}(\hat{F}_n(x))$**
$$
\begin{align} 
T_{mean}(\hat{F}_n(x)) & =\int xd\hat{F}_n(x)={\textstyle \sum_{i=1}^{n}} \frac{X_i}{n} =\bar X
  \\
T_{var}(\hat{F}_n(x)) & =\int x^2d\hat{F}_n(x) - (\int xd\hat{F}_n(x))^2=\frac{1}{n}{\textstyle \sum_{i=1}^{n}} X^2_i - \bar X_n = {\textstyle \sum_{i=1}^{n}} (X_i - \bar X_n)^2
\\
T_{med}(\hat{F}_n(x)) & = \hat F^{-1}_n(0.5)
\end{align}
$$
<font color=orange>可见，估计结果和MLE的估计结果相同。也体现了plug-in可能是有效的参数估计方式。</font>

2. **linear function** \
取linear functional $T(F) = \int w(x)dF(x)$，则其plug-in estimator为：
$$T(\hat{F}_n)=\int w(x)d\hat{F}_n(x)=\frac{1}{n}{\textstyle \sum_{i=1}^{n}w(x_i)} $$ 
<font color=green>理解1：求解左边等式是将$\hat{F}_n(x)$作为一个分布(而不是原分布的EDF)来看，它是每个样本发生概率为$\frac{1}{n}$的均匀分布。</font> \
<font color=green>理解2：$T(\hat{F}_n)$天然是函数$w(x)$的样本均值。因此可以利用大数定律和中心极限定律获得一些很好的性质。</font><font color=red>[详见后文influence function]</font>

### III.3 分析plug-in estimator的收敛性质

#### III.3.1 用delta method（实际上是一个定理）
1. **用delta method找$T(\hat F)$依分布收敛的特征** \
<font color=orange>理解：如果$Y_n$依分布收敛到正态分布，函数g是smoothing函数，那么可以用delta method来给$g(Y_n)$找到依分布收敛的正态分布。</font> \
可以简单表达为：$$如果Y_n - \mu \overset{D}{\rightarrow} N(0, \frac{\sigma^2}{n}) 则, \ g(Y_n)-g(\mu)\overset{D}{\rightarrow} N(0, g^{'}(\mu)^2\frac{\sigma^2}{n})$$
<font color=green>用于plug-in estimator时：</font>\
$$
\begin{align} 
& \because \hat F_n(x)-F(x)  \overset{D}{\rightarrow}  N(0, Var(\hat F_n(x)))  \\
& \therefore \hat \theta -\theta =T(\hat F_n)-T(F) \overset{D}{\rightarrow}  N(0, T^{'}(F)^2*Var(\hat F_n(x))) \\ 
& \therefore Var(\hat \theta) = T^{'}(F)^2*Var(\hat F_n(x))，其中，Var(\hat F_n(x))=\frac{F(x)(1-F(x))}{n}
\end{align}
$$
<font color=red>这里实际应用的难点是求：$T^{'}(F)$，因为很难直接对F求导，因此delta method通常不直接用g(·)=T(·)</font>
2. 例：$T(F)$取F期望值的倒数，即：$\theta = T_{inv}(F)=\frac{1}{E(X)}=\frac{1}{\int xdF(x)}$。用plug-in estimator做估计，$\hat \theta = T_{inv}(\hat F_n)=\frac{1}{\int xd\hat F_n(x)}=\frac{1}{\bar X_n}$。分析plug-in estimator的收敛性质。\
分析：<font color=orange>直接用delta method的话，需要对应取$g(x)=T(x),Y_n=\hat F_n$，但此时无法求解$T_{inv}^{'}(\hat F_n)$，换一种方式：取$g(x)=\frac{1}{x},Y_n=\bar X_n$</font>
$$
\begin{align} 
& \hat \theta -\theta =\frac{1}{\bar X_n} -\frac{1}{EX}=g(\bar X_n)-g(EX) \\
& g^{'}(EX) = -\frac{1}{E^2X} \\
\because \ & \bar{X}_n-EX \overset{D}{\rightarrow} N(0, Var(\bar{X}_n)) = N(0, \frac{Var(X)}{n})  \\
\therefore \ & \hat \theta -\theta\overset{D}{\rightarrow} N(0,(g^{'}(EX))^2\frac{Var(X)}{n}) = N(0, \frac{1}{E^4X}\frac{Var(X)}{n})
\end{align}
$$这里EX和Var(X)都有对应的一致估计量，带入可以得到$\hat \theta$的方差。
3. <font color=red>**使用限制**：由于上述限制，delta method通常只用于T(F)可以表达为E(X)的函数的场景。因此使用范围有限。</font>

#### III.3.2 用influential function分析linear function的收敛性质
1. 简单版定义 \
有两个linear function：$$
\begin{align} 
& T(F)=\int w(x)dF(x),\ T(G)=\int w(x)dG(x) \\
& T(G)-T(F) = \int w(x)dG(x) - T(F)\int dG(x) = \int w(x)- T(F)dG(x) 
\end{align}
$$
将$L_F(x)=w(x)- T(F)$定义为functional T的influence function。有：$$
T(G)-T(F) = \int L_F(x)dG(x) 
$$<font color=blue>典型应用场景：$T(\hat F_n)-T(F) = \int L_F(x)d\hat F_n(x) $</font> \
<font color=red>注：此时，$d\hat F_n(x)$中的$F_n$不是EDF，而是各个样本发生概率1/n的一个均匀分布的CDF，理解这个问题便于理解后面性质④证明中用到的积分运算。</font>

2. $F(x)$是x的分布函数，取$T(F)=\int w(x)dF(x)$，<font color=blue>有以下性质：
$$\begin{align}
& T(F)=E(w(x)|F) ...① \ \ 这里用w(x)|F表示w(x)的x的分布函数是F \\
& T(\hat{F}_n)=\int w(x)d\hat{F}_n(x)=\frac{1}{n}{\textstyle \sum_{i=1}^{n}w(x_i)} ...② \\
& Var(w(x)|F)= \int L^2_F(x)dF(x) =\int w^2dF(x)-T^2(F) ...③  \\
& Var(w(x)|\hat F_n)= \int L^2_\hat F(x)d\hat F_n(x) = \int w^2d\hat F_n(x)-T^2(\hat F_n) ...④
\end{align}
$$</font>
证明性质③：这里用w简单表示w(x)$$\begin{align} 
Var(w|F)&  =E(w^2|F)-(E(w|F))^2=\int w^2dF(x)-(\int wdF(x))^2  \\
& =\int w^2dF(x)-T^2(F) \\
\int L^2_F(x)dF(x) & =\int (w-T(F))^2dF(x)=\int (w^2-2wT(F)+T^2(F))dF(x) \\
& =\int w^2dF(x)-T^2(F)
\end{align}
$$
证明性质④：这里用w简单表示w(x)$$\begin{align} 
Var(w|\hat F_n)&  =E(w^2|\hat F_n)-(Ew|\hat F_n)^2=\int w^2d\hat F_n(x)-(\int wd\hat F_n(x))^2  \\
& =\int w^2d\hat F_n(x)-T^2(\hat F_n) \\
\int L^2_{\hat F_n}(x)d\hat F_n(x) & =\int (w-T(\hat F_n))^2d\hat F_n(x)=\int (w^2-2wT(\hat F_n)+T^2(\hat F_n))d\hat F_n(x) \\
& =\int w^2d\hat F_n(x)-T^2(\hat F_n)
\end{align}$$

3. **用influential function找$T(\hat F)$的收敛特征** \
<font color=blue>定理：如果$\int w^2(x)dF(x)<\infty$,则：$$
\sqrt n(\hat T(F_n)-T(F))\overset{D}{\rightarrow} N(0,Var(w(x)|F)) $$
其中，$Var(w(x)|F)=\int L^2_F(x)dF(x)$，有$Var(w(x)|\hat F_n)=\frac{1}{n} {\textstyle \sum_{i=1}^{n}} L^2_F(X)$是$Var(w(x)|F)$的一致估计量。</font> \
证明：\
<font color=green>第1步：证明$E(L_F(x_i))=0$ </font>
$$
\begin{align} 
& T(\hat F_n) - T(F) = \int L_F(x)d\hat{F}_n(x)=\frac{1}{n} {\textstyle \sum_{i=1}^{n}}L_F(x_i)  \\
& E(L_F(x_i)) = \int L_F(x)dF(x)=\int w(x)-T(F)dF(x)=T(F)-T(F)=0 \\
\end{align}$$
<font color=green>第2步：证明$T(\hat F_n) - T(F)$依概率收敛到正态分布。 </font> \
根据中心极限定律：利用了$T(\hat{F}_n)$是函数$w(x)$的样本均值，$T(F)$是w(x)的总体均值的特点。
$$ \sqrt n(T(\hat F_n) - T(F))\overset{D}{\rightarrow} N(0,Var(w(x)|F)) $$ 
根据前面性质③，$Var(w(x)|F) = \int L^2_F(x)dF(x)$ \
<font color=green>第3步：证明$Var(w(x)|\hat F_n)\overset{P}{\rightarrow}Var(w(x)|F)$，从而可以用$Var(w(x)|\hat F_n)$来估计$Var(w(x)|F)$</font> \
根据大数定律：当$E(|w(x)|F|)<\infty $时，$T(\hat F_n) \overset{P}{\rightarrow} T(F)$，这里$T(\hat F_n)$是样本均值，它收敛到总体均值$T(F)$。\
根据收敛性质：$T^2(\hat F_n) \overset{P}{\rightarrow} T^2(F)$ \
同样根据大数定律：当$E(w^2(x)|F)<\infty $时，$\int w^2(x)d\hat F_n(x) \overset{P}{\rightarrow} \int w^2(x)dF(x)$ \
可见：<font color=blue>$$\begin{align} 
\int w^2d\hat F_n(x)-T^2(\hat F_n) & \overset{P}{\rightarrow} \int w^2dF(x)-T^2(F) \\
Var(w(x)|\hat F_n) & \overset{P}{\rightarrow}  Var(w(x)|F)
\end{align}$$</font>

#### III.3.3 用influential function分析non-linear function的收敛性质
1. influential function的正式定义：
$\delta_x$是x点处的一个point mass，influence function for a Statistical functional $T_{target}$是： $$
L_F(x)=\lim_{\epsilon  \to \infty} \frac{T_{target}((1-\epsilon)F+\epsilon \delta_x)-T_{target}(F)}{\epsilon }$$
说明：\
(1)<font color=red>本质上，influential function的定义是一个函数相对于另一个函数的导数。这里就是$\frac{dT_{target}}{dF}$</font> \
(2)$\delta_x$是x点处的一个point mass是指：$\delta_x$是x点处概率1，其他位置概率0的mass point
2. 当T(F)是linear function的时候，该极限的求解结果就得到$L_F(x)=w(x)- T(F)$ \
证明：\
当$T_{target}(F)=\int w(x)dF(x)$时，按照定义：$$\begin{align} 
L_F(x)& =\lim_{\epsilon  \to \infty} \frac{T_{target}((1-\epsilon)F+\epsilon \delta_x)-T_{target}(F)}{\epsilon} \\
& = \lim_{\epsilon  \to \infty} \frac{\int w(x)d((1-\epsilon)F+\epsilon \delta_x)-\int w(w)dF}{\epsilon }\\
& = \lim_{\epsilon  \to \infty} \frac{\int w(x)d(F-\epsilon F+\epsilon \delta_x)-\int w(w)dF}{\epsilon } \\
& = \lim_{\epsilon  \to \infty} \frac{-\epsilon\int w(x)dF+\epsilon\int w(x)d\delta_x}{\epsilon } \\
& = -\int w(x)dF+w(x)\int d\delta_x \\
& = -T_{target}(F)+w(x)
\end{align}$$

3. 性质：当Statistical functional$T_{target}$是smooth的时候，有：$$\begin{align} 
& Var(target|\hat F_n) = \int L^2_\hat F(x)d\hat F_n(x) \\
& Var(target|F) = \int L^2_F(x)dF(x) \\
注： \\
& Var(target|\hat F_n)对应linear function中的Var(w(x)|\hat F_n) \\
& Var(target|F)对应linear function中的Var(w(x)|F) \\
非线性时没有：\\
& \int w^2d\hat F_n(x)和\int w^2dF(x)
\end{align}$$（证明略）

4. 例：T(F)是求分布F(x)的中位数，记为$T_{med}(F)=F^{-1}(0.5)$\
此时，influence function是(过程略)：$$L_F(x)=\frac{1}{2p(F^{-1}(0.5))} $$
$p$是F的pdf(概率密度函数)，$p(F^{-1}(0.5))$是一个常数。\
<font color=blue>**性质**:样本中位数渐进收敛到正态分布，且其方差有限，中位数的样本方差是其总体方差的一致估计。</font>\
(1)由于$L^2_F(x)=\frac{1}{(2p(F^{-1}(0.5)))^2}<\infty$，所以$Var(med|F)=\int L^2_F(x)dF(x)<\infty $ \
由中心极限定理：\
$$\sqrt n(T_{med}(\hat F_n)-T_{med}(F)) \overset{D}{\rightarrow} N(0, Var(med|F))$$
(2)由于$E(L^2_F(x))=\frac{1}{(2p(F^{-1}(0.5)))^2}<\infty$，\
由大数定律：$\int L^2_\hat F(x)d\hat F_n(x) \overset{P}{\rightarrow} \int L^2_F(x)dF(x)$，即$$Var(med|\hat F_n) \overset{P}{\rightarrow} Var(med|F)$$