# Part 1: Probability Tools
## 1. Probability & Independence 概率与独立性
### 1.1 Probability Function 概率函数
+ 样本空间（Sample Space）: 所有可能结果的集合，通常用$\Omega$表示。
+ 事件（Event）: 样本空间的一个子集，通常用$E$表示。
+ 概率（Probability）: 事件发生的可能性，取值范围在[0,1]之间。
  + 概率的三个条件：
    1. 非负性：$P(E) \geq 0$，任何事件的概率都是非负的。
    2. 归一性：$P(\Omega) = 1$，样本空间的概率为1。
    3. 可加性：对于互斥事件$E_1, E_2, \ldots$，有$P(E_1 \cup E_2 \cup \ldots) = P(E_1) + P(E_2) + \ldots$。
+ 条件概率（Conditional Probability）: 在事件$A$发生的条件下，事件$B$发生的概率，记作$P(B|A)$，定义为：
  $$P(B|A) = \frac{P(A \cap B)}{P(A)}$$
  其中$P(A) > 0$。

### 1.2 Independence 独立性
+ 如果事件$A$和事件$B$的发生与否互不影响，则称$A$和$B$是独立事件。数学上定义为：
  $$P(A \cap B) = P(A) \cdot P(B)$$
  + 多个事件之间的独立性：事件$A_1, A_2, \ldots, A_n$是相互独立的，当且仅当对于任意子集$\{A_{i_1}, A_{i_2}, \ldots, A_{i_k}\}$，都有：
    $$P(A_{i_1} \cap A_{i_2} \cap \ldots \cap A_{i_k}) = P(A_{i_1}) \cdot P(A_{i_2}) \cdot \ldots \cdot P(A_{i_k})$$
  + 互相独立 (mutual independence) vs. 成对独立 (pairwise independence): 互相独立是指所有事件的联合概率等于各自概率的乘积，而成对独立只要求任意两个事件的联合概率等于各自概率的乘积。互相独立可以推出成对独立，但反之不然。
+ Bayes公式 (Bayes' formula): 假设 $F_1, F_2, \dots, F_n$ ($n > 1$) 是互斥事件，满足 $ \bigcup_{i=1}^{n} F_i = S$, 那么对于任何事件 $E$，有$$ E = \bigcup_{i=1}^{n} (E \cap F_i) $$ $$ P(E) = \sum_{i=1}^{n} P(E \cap F_i) = \sum_{i=1}^{n} P(E \mid F_i) P(F_i) $$ $$ P(F_i \mid E) = \frac{P(E \cap F_i)}{P(E)} = \frac{P(E \mid F_i) P(F_i)}{\sum_{i=1}^{n} P(E \mid F_i) P(F_i)} \quad $$
+ De Moivre公式 (De Moivre's formula): 对于任意事件$A_1, A_2, \ldots, A_n$，有
  $$ P(A_1 \cup A_2 \cup \dots \cup A_n) = \sum_{\{A_i\}} P(A_i) - \sum_{\{A_i, A_j\}} P(A_i \cap A_j) + \dots + (-1)^{n-1} P(A_1 \cap A_2 \cap \dots \cap A_n). $$

## 2. Random Variables 随机变量
+ 随机变量（Random Variable）: 是一个将样本空间中的每个结果映射到实数的函数，通常用$X$表示。
  + 离散随机变量（Discrete Random Variable）: 取值为可数的离散值，如掷骰子的点数。
  + 连续随机变量（Continuous Random Variable）: 取值为连续的区间，如身高、体重等。
+ CDF/PDF:
  + 累积分布函数（Cumulative Distribution Function, CDF）: $F_X(x) = P(X \leq x)$，表示随机变量$X$小于等于$x$的概率。性质：单调性；右连续。
  + 概率密度函数（Probability Density Function, PDF）: $f_X(x) = \frac{d}{dx}F_X(x)$，表示随机变量$X$在某一点的概率密度。


### 2.1 Discrete RV 离散随机变量
+ 概率质量函数（Probability Mass Function, PMF）: $p_X(x) = P(X = x)$，表示离散随机变量$X$取值为$x$的概率。
+ Bernoulli RV: 所有可能值为0或1的随机变量，记作$X \sim Bernoulli(p)$。其pmf为
  $$ p_X(x) = p^x (1-p)^{1-x}, \quad x \in \{0, 1\} $$
  其中$p$为成功的概率，$1-p$为失败的概率。
+ Binomial RV: 进行$n$次独立的Bernoulli试验，每次成功的概率为$p$，则成功次数$X$服从二项分布，记作$X \sim Bin(n, p)$。其pmf为
  $$ p_X(x) = \binom{n}{x} p^x (1-p)^{n-x}, \quad x = 0, 1, \ldots, n $$
+ Geometric RV: 进行独立的Bernoulli试验，直到第一次成功为止，则所需的试验次数$X$服从几何分布，记作$X \sim Geo(p)$。其pmf为
  $$ p_X(x) = (1-p)^{x-1} p, \quad x = 1, 2, \ldots $$
+ Poisson RV: 在固定时间内发生的事件次数$X$服从Poisson分布，记作$X \sim Pois(\lambda)$。其pmf为
  $$ p_X(x) = \frac{\lambda^x e^{-\lambda}}{x!}, \quad x = 0, 1, 2, \ldots $$
  + Poisson RV作为二项分布的极限情况：当$n \to \infty$，$p \to 0$，且$n p = \lambda$时，$X \sim Bin(n, p)$收敛到$X \sim Pois(\lambda)$。  证明：
  $$
  \lim_{n \to \infty} \binom{n}{x} p^x (1-p)^{n-x} = \frac{\lambda^x e^{-\lambda}}{x!}
  $$


### 2.2 Continuous RV 连续随机变量
+ 对于连续随机变量 $X$，如果存在一个在 $(-\infty, \infty)$ 上定义的非负函数 $f(x)$，使得对于 $x \in \mathbb{R}$， $$ F(x) = P(X \le x) = \int_{-\infty}^{x} f(u) \, du, $$ 则函数 $f(x)$ 被称为随机变量 $X$ 的概率密度函数（pdf）。我们有 $$ f(x) = F'(x), \quad x \in \mathbb{R}. $$  密度值$f(x)$的含义：在区间$[x, x+dx]$内，随机变量$X$取值落在该区间的概率近似为$f(x)dx$，即
$$ P(x \le X \le x+dx) \approx f(x)dx. $$
+ Uniform RV: 在区间$[a, b]$上均匀分布的随机变量，记作$X \sim U(a, b)$。其pdf为
  $$ f_X(x) = \frac{1}{b-a}, \quad a \leq x \leq b $$
+ Exponential RV: 记作$X \sim Exp(\lambda)$，其pdf为
  $$ f_X(x) = \lambda e^{-\lambda x}, \quad x \geq 0 $$
  重要性质：无记忆性 (memory-less)，即$$ P(X > s + t | X > s) = P(X > t), \quad \forall s, t \geq 0 $$
+ Gamma RV: 记作$X \sim Gamma(\alpha, \beta)$，其pdf为
  $$ f_X(x) = \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha - 1} e^{-\beta x}, \quad x \geq 0 $$
  其中$\Gamma(\alpha)$为Gamma函数，定义为$\Gamma(\alpha) = \int_0^\infty t^{\alpha - 1} e^{-t} dt$。
  特殊情况：$\gamma(1, \lambda) = Exp(\lambda)$。  
  Gamma函数的性质：
  1. $\Gamma(1) = 1$，$\Gamma(n) = (n-1)!$，$n \in \mathbb{N}$。
  2. $\Gamma(\alpha + 1) = \alpha \Gamma(\alpha)$，这是Gamma函数的递归性质。
  3. $\Gamma(\frac{1}{2}) = \sqrt{\pi}$。
+ Normal RV: 记作$X \sim N(\mu, \sigma^2)$，其pdf为
  $$ f_X(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}, \quad x \in \mathbb{R} $$
  标准正态分布：$Z \sim N(0, 1)$，其pdf为
  $$ f_Z(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}, \quad z \in \mathbb{R} $$
  标准化：对于任意$X \sim N(\mu, \sigma^2)$，有$Z = \frac{X - \mu}{\sigma} \sim N(0, 1)$。
  CDF: $$\Phi(x) = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}u^2} du$$

### 2.3 Expectation of RV 随机变量的期望
+ 离散随机变量的期望：对于离散随机变量$X$，其期望定义为
  $$ E[X] = \sum_{x} x \cdot p_X(x) $$
  如果$X$的取值为非负整数，则
  $$ E(X) = \sum_{i=0}^{\infty} P\{X > i\} \qquad $$
  证明：每一个$P\{X = i\}$被计算了$i$次。
+ 连续随机变量的期望：对于连续随机变量$X$，其期望定义为
  $$ E[X] = \int_{-\infty}^{\infty} x \cdot f_X(x) \, dx $$
  类似地，如果$X$的取值为非负实数，则
  $$ E(X) = \int_{0}^{\infty} P\{X > x\} \, dx $$
+ $g(X)$的期望为
  $$ E[g(X)] = \int_{0}^{\infty} g(x) \cdot f_X(x) \, dx （连续情况）；$$
  $$ E[g(X)] = \sum_{x} g(x) \cdot p_X(x)（离散情况） $$
+ 第$n$阶矩为$E[X^n]$，例如指数分布下$E[X^n] = \frac{n!}{\lambda^n}$。
+ 方差：$Var(X) = E[X^2] - (E[X])^2$。

### 2.4 专题讨论

#### 2.4.1 Joint Distribution 联合分布
+ 联合分布函数：如果 $X$ 和 $Y$ 是两个随机变量，则函数 $$ F(x,y) = P\{X \le x, Y \le y\}, \quad (x,y) \in \mathbb{R}^2, $$ 称为 $X$ 和 $Y$ 的联合累积分布函数。 
+ 边际分布: $$ F_X(x) = P\{X \le x\} = P\{X \le x, Y < \infty\} = F(x, \infty) $$ $$ F_Y(y) = P\{Y \le y\} = P\{X < \infty, Y \le y\} = F(\infty, y) $$
+ 期望：期望是一个线性运算，即对于任意常数$a, b$，有
  $$ E[aX + bY] = aE[X] + bE[Y] $$
+ 协方差：$$ Cov(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y] $$
  协方差的性质：
  + $Cov(X, X) = Var(X)$
  + $Cov(X, Y) = Cov(Y, X)$
  + $Cov(aX, bY) = ab \cdot Cov(X, Y)$
  + $Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)$

#### 2.4.2 Independence between RV 随机变量之间的独立性
+ $X$和$Y$独立，当且仅当对于任意$a, b$，有
  $$ P(X \leq a, Y \leq b) = P(X \leq a) \cdot P(Y \leq b) $$
  或等价地，对于任意$x, y$，有
  $$ f_{X,Y}(x,y) = f_X(x) \cdot f_Y(y) $$
+ 独立性的特征：$X,Y$独立，当且仅当对任意函数$g, h$，有
  $$ E[g(X)h(Y)] = E[g(X)] \cdot E[h(Y)] $$
  证明步骤：
  1. 由独立性定义，$f_{X,Y}(x,y) = f_X(x) \cdot f_Y(y)$。
  2. 计算$E[g(X)h(Y)]$：
     $$
     E[g(X)h(Y)] = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x)h(y) f_{X,Y}(x,y) \, dy \, dx
     $$
     代入独立性条件：
     $$
     = \int_{-\infty}^{\infty} g(x) f_X(x) \, dx \int_{-\infty}^{\infty} h(y) f_Y(y) \, dy
     $$
     即
     $$
     = E[g(X)] \cdot E[h(Y)]
     $$
    + 推论：如果$X, Y$独立，则对任意函数$g, h$，有$g(x), h(y)$独立。
+ 相关性(correlation): $$ \rho(X, Y) = \frac{Cov(X, Y)}{\sqrt{Var(X) Var(Y)}} $$
  + 相关性(correlation)与独立性的区别：独立性是一个更强的条件，独立性必然导致零相关性（$Cov(X, Y) = 0$），但零相关性并不意味着独立性。反例：设$X$服从均匀分布$U(-1, 1)$，令$Y = X^2$，则$Cov(X, Y) = 0$，但显然$X$和$Y$不独立。
+ 多个变量的独立性：联合pmf/pdf可以分解为各自的pmf/pdf的乘积；对于所有函数$g_i$，有$E[\prod g_i(X_i)] = \prod E[g_i(X_i)]$。

#### 2.4.3 Moment Generating Function 矩母函数
+ 定义：随机变量$X$的矩母函数（Moment Generating Function, MGF）定义为
  $$ M_X(t) = E[e^{tX}] $$
  如果$X$是离散随机变量，则
  $$ M_X(t) = \sum_{x} e^{tx} p_X(x) $$
  如果$X$是连续随机变量，则
  $$ M_X(t) = \int_{-\infty}^{\infty} e^{tx} f_X(x) \, dx $$
+ 基本性质：
  + 如果 $X$ 和 $Y$ 是独立的，则 $M_{X+Y}(t) = M_{X}(t) M_{Y}(t)$ 
  + $E(X^{n}) = M^{(n)}(0)$ 对于所有 $n \ge 1$。
+ 不同分布性质总结：

| 分布类型 | 概率质量函数 $p(x)$ 或 $f(x)$ | 矩生成函数 $M(t)$ | 均值 | 方差 |
|---|---|---|---|---|
| 二项分布 $Bin(n, p)$ | $\displaystyle {n \choose x} p^x (1-p)^{n-x}$, $x = 0, 1, ..., n$ | $(pe^t + (1-p))^n$ | $np$ | $np(1-p)$ |
| 泊松分布 $Pois(\lambda)$ | $\displaystyle \frac{e^{-\lambda} \lambda^x}{x!}$, $x = 0, 1, 2, ...$ | $\exp\{\lambda(e^t - 1)\}$ | $\lambda$ | $\lambda$ |
| 几何分布 $Geo(p)$ | $p(1-p)^{x-1}$, $x = 1, 2, ...$ | $\frac{pe^t}{1 - (1-p)e^t}$ | $\frac{1}{p}$ | $\frac{1-p}{p^2}$ |
| 均匀分布 $U(a, b)$ | $f(x) = \frac{1}{b-a},\ a < x < b$ | $\frac{e^{tb} - e^{ta}}{t(b-a)}$ | $\frac{a+b}{2}$ | $\frac{(b-a)^2}{12}$ |
| 指数分布 $Exp(\lambda)$ | $f(x) = \lambda e^{-\lambda x},\ x \ge 0$ | $\frac{\lambda}{\lambda - t}$ | $\frac{1}{\lambda}$ | $\frac{1}{\lambda^2}$ |
| 伽马分布 $Gamma(n, \lambda)$ | $f(x) = \frac{\lambda e^{-\lambda x}(\lambda x)^{n-1}}{(n-1)!},\ x \ge 0$ | $\left(\frac{\lambda}{\lambda - t}\right)^n$ | $\frac{n}{\lambda}$ | $\frac{n}{\lambda^2}$ |
| 正态分布 $N(\mu, \sigma^2)$ | $f(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp[-(x-\mu)^2/2\sigma^2]$ | $\exp\left\{\mu t + \frac{\sigma^2 t^2}{2}\right\}$ | $\mu$ | $\sigma^2$ |

#### 2.4.4 Sum of Random Variables 随机变量的和
+ 通过上面的表格，可以证明以下结论：
  + $P(\lambda)$ ⊕ $P(\mu)$ = $P(\lambda + \mu)$;
  + $N(\mu_1$, $\sigma_1^2$) ⊕ $N(\mu_2$, $\sigma_2^2$) = $N(\mu_1 + \mu_2$, $\sigma_1^2 + \sigma_2^2$);
  + $Bin(n$, $p)$ ⊕ $Bin(m$, $p)$ = $Bin(n+m$, $p)$;
  + $Gamma(\alpha$, $\lambda$) ⊕ $Gamma(\beta$, $\lambda$) = $Gamma(\alpha + \beta$, $\lambda$);
  + 然而， $Gamma(\alpha$, $\lambda$) ⊕ $Gamma(\alpha$, $\mu$) $\neq$ $Gamma(\alpha$, $\lambda + \mu$)

#### 2.4.5 Sample Mean & Variance 样本均值与方差

+ 一组观察数据最简单的模型为独立同分布（i.i.d.）模型，即假设观察数据$X_1, X_2, \ldots, X_n$是来自同一分布且相互独立的随机变量。此时样本均值和方差分别为：
  $$ \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i $$
  $$ S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 $$
+ 基本性质：设$\mu = E[X_i]$，$\sigma^2 = Var(X_i)$，则
  $$ E[\bar{X}] = \mu $$
  $$ Var(\bar{X}) = \frac{\sigma^2}{n} $$
  $$ E[S^2] = \sigma^2 $$
  $$ Cov(X_i, X_i - \bar{X}) = 0, \forall i $$
+ 正态样本(Gaussian Sample): 如果$X_i \sim N(\mu, \sigma^2)$，则
  $$ \bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right) $$
  $$ \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) $$
  $$ \bar{X} \text{与} S^2 \text{独立} $$
  $$ T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1) $$

#### 2.4.6 Multivariate Change of Variables 多元随机变量

+ 设$f_{X_1, X_2}(x_1, x_2)$为二维随机变量$(X_1, X_2)$的联合pdf，且$g_1(x_1, x_2)$和$g_2(x_1, x_2)$是两个可微函数，定义新的随机变量$Y_1 = g_1(X_1, X_2)$和$Y_2 = g_2(X_1, X_2)$。如果存在反函数$x_1 = h_1(y_1, y_2)$和$x_2 = h_2(y_1, y_2)$，则$(Y_1, Y_2)$的联合pdf为
  $$ f_{Y_1, Y_2}(y_1, y_2) = f_{X_1, X_2}(h_1(y_1, y_2), h_2(y_1, y_2)) \cdot \left| J \right| $$
  其中$J$为Jacobian行列式，定义为
  $$ J = \begin{vmatrix}
  \frac{\partial h_1}{\partial y_1} & \frac{\partial h_1}{\partial y_2} \\
  \frac{\partial h_2}{\partial y_1} & \frac{\partial h_2}{\partial y_2}
  \end{vmatrix} $$
  + 这个等式可以扩展到$n$维随机变量的情况。
+ 例如，$X \sim Gamma(\alpha, \lambda)$和$Y \sim Gamma(\beta, \lambda)$独立，令$Z = X + Y$和$W = \frac{X}{X + Y}$，则$(Z, W)$的联合pdf为
  $$ f_{Z, W}(z, w) = \frac{\lambda^{\alpha + \beta}}{\Gamma(\alpha) \Gamma(\beta)} w^{\alpha - 1} (1 - w)^{\beta - 1} z^{\alpha + \beta - 1} e^{-\lambda z}, \quad z > 0, 0 < w < 1 $$
  其中$Z \sim Gamma(\alpha + \beta, \lambda)$，$W \sim Beta(\alpha, \beta)$，且$Z$与$W$独立。

#### 2.4.7 Order Statistics 次序统计量

+ 设$X_1, X_2, \ldots, X_n$为来自连续分布的独立同分布随机变量，记其次序统计量为$X_{(1)} \leq X_{(2)} \leq \ldots \leq X_{(n)}$，即将样本按从小到大排序后的值。则第$k$个次序统计量$X_{(k)}$的pdf为
  $$ f_{X_{(k)}}(x) = \frac{n!}{(k-1)!(n-k)!} [F_X(x)]^{k-1} [1 - F_X(x)]^{n-k} f_X(x) $$
  其中$F_X(x)$和$f_X(x)$分别为原始随机变量$X_i$的CDF和pdf。
  + 证明：令$h$为一个很小的正数，则
    $$ P(x < X_{(k)} < x + h) = P(\text{恰有} k-1 \text{个} X_i \leq x, \text{恰有} 1 \text{个} x < X_i < x + h, \text{其余} n-k \text{个} X_i > x + h) $$
    $$ = \binom{n}{k-1, 1, n-k} [F_X(x)]^{k-1} [F_X(x + h) - F_X(x)] [1 - F_X(x + h)]^{n-k} $$
    $$ \approx \frac{n!}{(k-1)!(n-k)!} [F_X(x)]^{k-1} f_X(x) h [1 - F_X(x)]^{n-k} $$
+ 同时，联合地，这$n$个次序统计量的联合pdf为
  $$ f_{X_{(1)}, X_{(2)}, \ldots, X_{(n)}}(x_1, x_2, \ldots, x_n) = n! \cdot f_X(x_1) f_X(x_2) \ldots f_X(x_n), \quad x_1 < x_2 < \ldots < x_n $$
  + 类似地，令$h_1, h_2, \ldots, h_n$为一组很小的正数，则
    $$ P(x_1 < X_{(1)} < x_1 + h_1, x_2 < X_{(2)} < x_2 + h_2, \ldots, x_n < X_{(n)} < x_n + h_n) $$
    $$ = P(\text{恰有} 1 \text{个} x_1 < X_i < x_1 + h_1, \text{恰有} 1 \text{个} x_2 < X_i < x_2 + h_2, \ldots, \text{恰有} 1 \text{个} x_n < X_i < x_n + h_n) $$
    $$ = \frac{n!}{1! 1! \ldots 1!} [F_X(x_1 + h_1) - F_X(x_1)] [F_X(x_2 + h_2) - F_X(x_2)] \ldots [F_X(x_n + h_n) - F_X(x_n)] $$
    $$ \approx n! f_X(x_1) h_1 f_X(x_2) h_2 \ldots f_X(x_n) h_n $$
    同时，对于很小的$h_i$，有
    $$ P(x_1 < X_{(1)} < x_1 + h_1, x_2 < X_{(2)} < x_2 + h_2, \ldots, x_n < X_{(n)} < x_n + h_n) \approx f_{X_{(1)}, X_{(2)}, \ldots, X_{(n)}}(x_1, x_2, \ldots, x_n) h_1 h_2 \ldots h_n $$
    这是因为每个次序统计量$X_{(i)}$在区间$[x_i, x_i + h_i]$内取值的概率近似为$f_{X_{(1)}, X_{(2)}, \ldots, X_{(n)}}(x_1, x_2, \ldots, x_n) h_i$，因此联合概率近似为上述表达式。  
    联合pdf可以表示为
  $$ f_{X_{(1)}, X_{(2)}, \ldots, X_{(n)}}(x_1, x_2, \ldots, x_n) = n! \cdot f_X(x_1) f_X(x_2) \ldots f_X(x_n), \quad x_1 < x_2 < \ldots < x_n $$

#### 2.4.8 Limit Theorems 极限定理

+ 大数定律 (Law of Large Numbers, LLN): 设$X_1, X_2, \ldots, X_n$为来自同一分布且相互独立的随机变量，且$E[X_i] = \mu$，则样本均值$\bar{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i$几乎必然收敛于$\mu$，即
  $$ P\left(\lim_{n \to \infty} \bar{X}_n = \mu\right) = 1 $$
+ 中心极限定理 (Central Limit Theorem, CLT): 设$X_1, X_2, \ldots, X_n$为来自同一分布且相互独立的随机变量，且$E[X_i] = \mu$，$Var(X_i) = \sigma^2 < \infty$，则标准化后的样本均值$\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}}$收敛于标准正态分布，即
  $$ \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \xrightarrow{d} N(0, 1) $$
+ Stirling公式 (Stirling's formula): 对于任意正整数$n$，有
  $$ n! \sim \sqrt{2\pi n} \left(\frac{n}{e}\right)^n $$
  其中$\sim$表示当$n \to \infty$时，两边的比值趋近于1。  
  + 该公式可以用概率方法证明：设$X_1, X_2, \ldots, X_n$为来自参数为$1$的Poisson分布的独立同分布随机变量，则$S_n = \sum_{i=1}^{n} X_i$服从参数为$n$的Poisson分布。根据中心极限定理，标准化后的变量$\frac{S_n - n}{\sqrt{n}}$收敛于标准正态分布。利用Poisson分布的概率质量函数，可以得到
    $$ P(S_n = n) = \frac{e^{-n} n^n}{n!} $$
    同时，根据中心极限定理，$P(S_n = n)$可以近似为标准正态分布在0点的概率密度，即
    $$ P(S_n = n) \approx \frac{1}{\sqrt{2\pi n}} $$
    结合上述两个表达式，可以得到Stirling公式。

#### 2.4.9 Definition of Stochastic Process 随机过程的定义

+ 随机过程（Stochastic Process）: 是一组随机变量的集合，通常用$\{X_t, t \in T\}$表示，其中$X_t$被称为状态空间(state space)；$T$被称为索引集(index set)，通常表示时间。每个$t$对应一个随机变量$X(t)$，表示在时间$t$的状态。如果$T$是离散的，则称为离散时间随机过程；如果$T$是连续的，则称为连续时间随机过程。
+ 四种类型的随机过程：  
  | 状态空间 \ 时间参数 | 离散 | 连续 | 
  | :--- | :--- | :--- | 
  | **离散** | 随机游走；马尔可夫链 | 泊松过程 | 
  | **连续** | 马尔可夫链；时间序列 | 布朗运动；股票价格 |

## 3. Conditional distributions and Conditional Expectation 条件分布与条件期望

### 3.1 Discrete Case 离散情况

+ 条件概率：对于离散随机变量$X$和$Y$，其联合pmf为$p_{X,Y}(x,y)$，边际pmf为$p_X(x)$和$p_Y(y)$，则条件pmf定义为
  $$ p_{X|Y}(x|y) = P(X = x | Y = y) = \frac{p_{X,Y}(x,y)}{p_Y(y)}, \quad p_Y(y) > 0 $$
  $$ p_{Y|X}(y|x) = P(Y = y | X = x) = \frac{p_{X,Y}(x,y)}{p_X(x)}, \quad p_X(x) > 0 $$
+ $p_{X|Y}(\cdot|Y=b)$ 是一个分布，因此具有均值、方差、矩与mgf等。对于期望，有
  $$ E[X|Y=y] = \sum_{x} x \cdot p_{X|Y}(x|y) $$
  $$ E[g(X)|Y=y] = \sum_{x} g(x) \cdot p_{X|Y}(x|y) $$
  + 如果$X$和$Y$独立，则$P_{X|Y}(x|b)=p_X(x); E[X|Y=y] = E[X]$。
+ 全概率公式：$$ P(X = x) = \sum_{y} P(X = x | Y = y) P(Y = y) $$
+ 全期望公式：$$ E[X] = E[E[X|Y]] = \sum_{y} E[X|Y=y] P(Y=y) $$
  证明：
  $$
  E[E[X|Y]] = \sum_{y} E[X|Y=y] P(Y=y) = \sum_{y} \left( \sum_{x} x \cdot p_{X|Y}(x|y) \right) P(Y=y)
  $$
  $$
  = \sum_{y} \sum_{x} x \cdot \frac{p_{X,Y}(x,y)}{p_Y(y)} p_Y(y) = \sum_{x} x \left( \sum_{y} p_{X,Y}(x,y) \right) = \sum_{x} x \cdot p_X(x) = E[X]
  $$
+ 全方差公式：$$ Var(X) = E[Var(X|Y)] + Var(E[X|Y]) $$
  证明：
  $$ Var(X) = E[X^2] - (E[X])^2 $$
  $$ = E[E[X^2|Y]] - (E[E[X|Y]])^2 $$
  $$ = E[Var(X|Y) + (E[X|Y])^2] - (E[E[X|Y]])^2 $$
  $$ = E[Var(X|Y)] + Var(E[X|Y]) $$
+ 上述的三个公式提示了，如果难以直接计算$X$的分布或期望，可以通过引入辅助变量$Y$，先计算条件分布或条件期望，再利用全概率或全期望公式进行计算。

### 3.2 Continuous Case 连续情况

+ 条件概率密度函数：对于连续随机变量$X$和$Y$，其联合pdf为$f_{X,Y}(x,y)$，边际pdf为$f_X(x)$和$f_Y(y)$，则条件pdf定义为
  $$ f_{X|Y}(x|y) = \frac{f_{X,Y}(x,y)}{f_Y(y)}, \quad f_Y(y) > 0 $$
  $$ f_{Y|X}(y|x) = \frac{f_{X,Y}(x,y)}{f_X(x)}, \quad f_X(x) > 0 $$
+ 对于条件pdf，有
  $$ \int_{-\infty}^{\infty} f_{X|Y}(x|y) \, dx = 1 $$
+ 条件期望：$$ E[X|Y=y] = \int_{-\infty}^{\infty} x \cdot f_{X|Y}(x|y) \, dx $$
  $$ E[g(X)|Y=y] = \int_{-\infty}^{\infty} g(x) \cdot f_{X|Y}(x|y) \, dx $$

### 3.3 Computing Expectation, Probabilities & Variance by Conditioning 通过条件计算期望，概率与方差

+ eg. 1. 设{$X_i; i = 1, 2, 3, ...$}为独立同分布（i.i.d.）的随机变量，具有共同的均值$\mu$和共同的方差$\sigma^2$。
设
$$
S_N = \sum_{i=1}^{N} X_i = X_1 + \dots + X_N,
$$
其中$N$是一个随机整数，并且与$X_i$独立。计算$E(S_N)$和$Var(S_N)$。
  + Sol. 由全期望公式，有
  $$ E(S_N) = E[E(S_N|N)] $$
  $$ = E[N \mu] = \mu E[N] $$
  由全方差公式，有
  $$
  Var(S_N) = E[Var(S_N|N)] + Var(E[S_N|N])
  $$
  $$ = E[N \sigma^2] + Var(N \mu) $$
  $$ = \sigma^2 E[N] + \mu^2 Var(N) $$


+ eg. 2. 一家保险公司假设每位投保人在一年内发生事故的次数服从泊松分布，泊松分布的均值取决于投保人。 如果随机选择的投保人的泊松均值服从伽马分布（$\lambda = 1$ 和 $\alpha = 2$），其密度函数为 $$ g(m) = me^{-m}, m \geq 0, $$ 那么随机选择的投保人在明年发生恰好 $n$ 次事故的概率是多少？
  + Sol. $P(X = n) = \int_0^\infty P(X = n | M = m) g(m) \, dm$，其中$X$表示投保人在一年内发生事故的次数，$M$表示投保人的泊松均值。
  代入$Poisson$分布的概率质量函数和伽马分布的概率密度函数，有
    $$ P(X = n) = \int_0^\infty \frac{e^{-m} m^n}{n!} me^{-m} \, dm $$
    $$ = \frac{1}{n!} \int_0^\infty m^{n+1} e^{-2m} \, dm $$
    $$ = \frac{1}{n!} \cdot \frac{(n+1)!}{2^{n+2}} = \frac{n+1}{2^{n+2}} $$
    （回忆Gamma函数的性质：$\Gamma(\alpha) = \int_0^\infty t^{\alpha - 1} e^{-t} dt$，且$\Gamma(\alpha + 1) = \alpha !$，当$\alpha$为正整数时）