# Lectures 4 & 5: Confidence Interval

## Introduction

- 置信区间（CI）是一种构建参数区间估计的方法。
- Def: 设 $X_1, X_2, \dots, X_n$ 是随机变量 $X$ 的一个样本，其中 $X$ 的概率密度函数为 $f(x; \theta)$，$\theta \in \Omega$。设 $L = L(X_1, \dots, X_n)$ 和 $U = U(X_1, \dots, X_n)$ 为两个统计量。给定一个水平 $\alpha \in (0, 1)$，我们称 $(L, U)$ 是 $\theta$ 的一个 $(1-\alpha)100\%$ 置信区间，如果 $$1 - \alpha = P_\theta[\theta \in (L, U)]。$$ 也就是说，区间包含 $\theta$ 的概率为 $1 - \alpha$，这被称为该区间的 **置信系数**。
### 均值的置信区间
  - 设 $X_1, X_2, \dots, X_n$ 是来自正态分布 $N(\mu, \sigma^2)$ 的一个样本，其中 $\mu$ 和 $\sigma^2$ 都是未知参数。我们想要构建 $\mu$ 的一个置信区间。
    - 当 $\sigma^2$ 已知时，使用标准正态分布构建置信区间：
    $$\left(\bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right)，$$
    其中 $\bar{X}$ 是样本均值，$z_{\alpha/2}$ 是标准正态分布的上 $\alpha/2$ 分位数。
    - 当 $\sigma^2$ 未知时，使用 t 分布构建置信区间：
    $$\left(\bar{X} - t_{\alpha/2, n-1} \frac{S}{\sqrt{n}}, \bar{X} + t_{\alpha/2, n-1} \frac{S}{\sqrt{n}}\right)，$$
    其中 $S$ 是样本标准差，$t_{\alpha/2, n-1}$ 是自由度为 $n-1$ 的 t 分布的上 $\alpha/2$ 分位数。
  - 有时$X_i$ 不是正态分布，但样本量 $n$ 很大时，可以使用中心极限定理近似处理，构建置信区间。

## Case Study 分情况讨论

### 情况1：正态分布，$\sigma^2$ 已知

- 假设 $X_i \overset{i.i.d.}{\sim} N(\mu, \sigma^2)$ 且 $\sigma^2$ 是已知的。则均值$\mu$在某一区间内的概率为 $1-\alpha$ ，这个置信区间为：$\left(\bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right)$。
- 证明如下：由RV的性质，$\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$，所以
  $$Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)。$$
  因此，
  $$P\left(-z_{\alpha/2} < Z < z_{\alpha/2}\right) = 1 - \alpha.$$
  这意味着
  $$P\left(-z_{\alpha/2} < \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} < z_{\alpha/2}\right) = 1 - \alpha,$$
  进一步化简得到
  $$P\left(\bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} < \mu < \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right) = 1 - \alpha,$$
  这就得到了均值$\mu$的置信区间：
  $$\left(\bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right)。$$
- CI的性质：
   - CI 以 $\bar{x}$ 为中心
   - 宽度：$2\frac{z_{\alpha/2}\sigma}{\sqrt{n}}$ 
   - 较大的 $n \Rightarrow$ 较短的 CI
   - 较大的 $\alpha \Rightarrow$ 较小的 $z_{\alpha/2} \Rightarrow$ 较短的 CI

### 情况2：未知分布，$\sigma^2$ 已知

- 放弃正态分布的假设，而改为使用CLT：对于足够大的$n$, 有$$ \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \approx N(0,1). $$  
  相似地，均值$\mu$在$\left(\bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right)$的概率为 $1-\alpha$ 。

### 情况3：正态分布，$\sigma^2$ 未知

- 应用抽样方差$S^2$ 来估计 $\sigma^2$，其中
  $$S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2；\\ \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t_{n-1}。$$
  因此，$$ \text{P}\left(-\text{t}_{\alpha/2}(n-1) \le \frac{\bar{X} - \mu}{S/\sqrt{n}} \le \text{t}_{\alpha/2}(n-1)\right) = 1 - \alpha $$ $$ \text{P}\left(\bar{X} - \frac{S \cdot \text{t}_{\alpha/2}(n-1)}{\sqrt{n}} \le \mu \le \bar{X} + \frac{S \cdot \text{t}_{\alpha/2}(n-1)}{\sqrt{n}}\right) = 1 - \alpha $$
  这就得到了均值$\mu$的置信区间：
  $$\left(\bar{X} - \frac{s \cdot \text{t}_{\alpha/2}(n-1)}{\sqrt{n}}, \bar{X} + \frac{s \cdot \text{t}_{\alpha/2}(n-1)}{\sqrt{n}}\right)。$$
  - 这个区间也被称为$100(1-\alpha)\%$ t-置信区间，$s$为$S$的实际值。

### 情况4：未知分布，$\sigma^2$ 未知

- 同样使用CLT：对于足够大的$n$，有$$ \frac{\bar{X} - \mu}{S/\sqrt{n}} \approx t_{n-1}。 $$
  因此，均值$\mu$在$\left(\bar{X} - t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}}, \bar{X} + t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}}\right)$的概率为 $1-\alpha$ 。
- 然而，当$n$值较小或$X_i$向某方向偏斜时，使用CLT可能会导致不准确的结果。

## One-sided Confidence Intervals 单侧置信区间

- 上文讨论的置信区间形式均为$\bar x \pm a$，称为双侧置信区间（two-sided CI）。
- 有时我们只关心参数的上限或下限，这时可以使用单侧置信区间（one-sided CI）。
  - 例如，已知$X_i \overset{i.i.d.}{\sim} N(\mu, \sigma^2)$，$\sigma^2$已知，想要构建$\mu$的上限置信区间。
    - 设$z_\alpha$为标准正态分布的上$\alpha$分位数，则
    $$P\left(Z \le z_\alpha\right) = P(\mu \geq \bar{X} - z_\alpha \frac{\sigma}{\sqrt{n}}) = 1 - \alpha,$$
    其中$Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)$。  
    在此，$\left(-\infty, \bar{X} + z_\alpha \frac{\sigma}{\sqrt{n}}\right)$和$\left(\bar{X} - z_\alpha \frac{\sigma}{\sqrt{n}}, +\infty\right)$分别为$\mu$的一个$100(1-\alpha)\%$置信区间。

## CI for the Difference of Two Means 两均值差的置信区间

### Pooled t-interval

- 设$X_1, X_2, \dots, X_n \overset{i.i.d.}{\sim} N(\mu_X, \sigma_X^2)$和$Y_1, Y_2, \dots, Y_m \overset{i.i.d.}{\sim} N(\mu_Y, \sigma_Y^2)$，且两组样本相互独立。我们想要构建$\mu_X - \mu_Y$的置信区间。
  - 当$\sigma_X^2$和$\sigma_Y^2$已知时，使用标准正态分布构建置信区间：
  $$\left((\bar{X} - \bar{Y}) - z_{\alpha/2} \sqrt{\frac{\sigma_X^2}{n} + \frac{\sigma_Y^2}{m}}, (\bar{X} - \bar{Y}) + z_{\alpha/2} \sqrt{\frac{\sigma_X^2}{n} + \frac{\sigma_Y^2}{m}}\right)，$$
  其中$\bar{X}$和$\bar{Y}$分别是两组样本的均值。
  - 当$\sigma_X^2$和$\sigma_Y^2$未知时，使用抽样方差$S_X^2$和$S_Y^2$来估计$\sigma_X^2$和$\sigma_Y^2$，其中
  $$S_X^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2；\\ S_Y^2 = \frac{1}{m-1} \sum_{j=1}^m (Y_j - \bar{Y})^2。$$
  - 如果假设$\sigma_X^2 = \sigma_Y^2 = \sigma^2$，则可以使用合并方差(pooled variance)估计：
  $$S_p^2 = \frac{(n-1)S_X^2 + (m-1)S_Y^2}{n + m - 2}。$$
  其中$S_p^2$是$\sigma^2$的无偏估计，因为$E[S_p^2] = \sigma^2$。
  - 在这种情况下，$\frac{(\bar{X} - \bar{Y}) - (\mu_X - \mu_Y)}{S_p \sqrt{\frac{1}{n} + \frac{1}{m}}} \sim t_{n+m-2}$，因此，$\mu_X - \mu_Y$在某一区间内的概率为 $1-\alpha$ ，则置信区间为：
  $$\left((\bar{X} - \bar{Y}) - t_{\alpha/2, n+m-2} S_p \sqrt{\frac{1}{n} + \frac{1}{m}}, (\bar{X} - \bar{Y}) + t_{\alpha/2, n+m-2} S_p \sqrt{\frac{1}{n} + \frac{1}{m}}\right)，$$
  其中$t_{\alpha/2, n+m-2}$是自由度为$n+m-2$的t分布的上$\alpha/2$分位数。
  
### Welch's t-interval

- 如果不假设$\sigma_X^2 = \sigma_Y^2$，则可以使用Welch's t检验方法，置信区间为：
  $$\left((\bar{X} - \bar{Y}) - t_{\alpha/2, r} \sqrt{\frac{S_X^2}{n} + \frac{S_Y^2}{m}}, (\bar{X} - \bar{Y}) + t_{\alpha/2, r} \sqrt{\frac{S_X^2}{n} + \frac{S_Y^2}{m}}\right)，$$
  其中$r$为近似自由度，计算公式为：
  $$r = \lfloor {\frac{\left(\frac{S_X^2}{n} + \frac{S_Y^2}{m}\right)^2}{\frac{\left(\frac{S_X^2}{n}\right)^2}{n-1} + \frac{\left(\frac{S_Y^2}{m}\right)^2}{m-1}}} \rfloor。$$
  其中floor函数表示向下取整。

### Paired t-interval

- 配对t检验用于比较两个相关样本的均值，例如同一组受试者在不同时间点的测量值。设$D_i = X_i - Y_i$为每对观测值的差，$D$的均值为$\mu_D$，标准差为$S_D$，样本量为$n$。则置信区间为：
  $$\left(\bar{D} - t_{\alpha/2, n-1} \frac{S_D}{\sqrt{n}}, \bar{D} + t_{\alpha/2, n-1} \frac{S_D}{\sqrt{n}}\right)，$$
  其中$t_{\alpha/2, n-1}$是自由度为$n-1$的t分布的上$\alpha/2$分位数。
  - 证明：由RV的性质，$\bar{D} \sim N\left(\mu_D, \frac{\sigma_D^2}{n}\right)$，所以
  $$T = \frac{\bar{D} - \mu_D}{S_D/\sqrt{n}} \sim t_{n-1}。$$

## CI for Proportion 比例的置信区间

- 设$X_1, X_2, \dots, X_n \overset{i.i.d.}{\sim} Bernoulli(p)$，其中$p$为未知参数。
  - 使用正态近似构建置信区间：
  $$\left(\hat{p} - z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p} + z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right)，$$
  其中$\hat{p} = \frac{1}{n} \sum_{i=1}^n X_i$是样本比例，且满足$\hat{p} \sim N\left(p, \frac{p(1-p)}{n}\right)$ (by CLT)，$z_{\alpha/2}$是标准正态分布的上$\alpha/2$分位数。
- 对于两个独立样本的比例差$p_1 - p_2$，可以使用类似的方法构建置信区间：
  - 使用正态近似：
  $$E(\hat{p}_1 - \hat{p}_2) = p_1 - p_2；\\ Var(\hat{p}_1 - \hat{p}_2) = \frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}。$$
  - 因此，置信区间为：
  $$\left((\hat{p}_1 - \hat{p}_2) - z_{\alpha/2} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}, (\hat{p}_1 - \hat{p}_2) + z_{\alpha/2} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}\right)，$$
  其中$\hat{p}_1$和$\hat{p}_2$分别是两个样本的比例。

## Sample Size Determination 样本量确定

- 为了减少成本，我们通常希望使用尽可能小的样本量来估计参数，同时保证估计的精度。
- 假设$X_1, X_2, \dots, X_n \overset{i.i.d.}{\sim} N(\mu, \sigma^2)$，$\sigma^2$已知，我们想要构建$\mu$的置信区间，并希望置信区间的宽度的一半不超过容忍度$\epsilon$，即$w/2 \leq \epsilon$。
  $\mu$的置信区间为$\left(\bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right)$，其宽度为$2 z_{\alpha/2} \frac{\sigma}{\sqrt{n}}$。因此，我们希望满足：
  $$z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \leq \epsilon$$
  化简得：
  $$n \geq \left(\frac{z_{\alpha/2} \sigma}{\epsilon}\right)^2$$
  因此，样本量的最小值为：
  $$n = \left\lceil \left(\frac{z_{\alpha/2} \sigma}{\epsilon}\right)^2 \right\rceil$$
- 如果$\sigma^2$未知，则先估计$\sigma^2$，然后使用估计值$s_p^2$代替$\sigma^2$来计算样本量。即：
  $$n = \left\lceil \left(\frac{z_{\alpha/2} s_p}{\epsilon}\right)^2 \right\rceil$$
- 对于比例$p$的置信区间，假设我们希望置信区间的宽度的一半不超过容忍度$\epsilon$，即$w/2 \leq \epsilon$。比例$p$的置信区间为$\left(\hat{p} - z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p} + z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right)$，其宽度为$2 z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$。因此，我们希望满足：
  $$z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq \epsilon$$
  化简得：
  $$n \geq \frac{z_{\alpha/2}^2 \hat{p}(1-\hat{p})}{\epsilon^2}$$
  因此，样本量的最小值为：
  $$n = \left\lceil \frac{z_{\alpha/2}^2 \hat{p}(1-\hat{p})}{\epsilon^2} \right\rceil$$
  - 然而，$\hat{p}$由$n$决定，因此在计算样本量时，通常使用先验估计 (prior estimate) $\hat{p} = p^*$（可通过预实验取得），或者使用保守估计$\hat{p} = 0.5$，因为$p(1-p)$在$p=0.5$时达到最大值。