# Lecture 16: One-way ANOVA & F-test

前面的课程包括了对于一到两个均值和中位数（分位数）的假设检验方法。下面将介绍一种用于比较多个总体均值的假设检验方法，称为单因素方差分析（One-way ANOVA）。这种方法适用于当我们有三个或更多组数据时，想要检验这些组的均值是否存在显著差异。F-检验是单因素方差分析中的核心统计方法。

## One-way ANOVA

这个方法旨在比较多个组的均值。样本需要满足以下假设：
1. 各组样本独立且随机抽取。
2. 各组数据服从正态分布。
3. 各组数据具有相同的方差（方差齐性）。

零假设$H_0$：所有组的均值相等，即$\mu_1 = \mu_2 = ... = \mu_k$。备择假设$H_1$：至少有一组的均值与其他组不同。

对第$i$组样本，设样本容量为$n_i$，样本均值为$\bar{X}_i$，样本方差为$s_i^2$（注意分母为$n_i - 1$）。总样本容量为$N = \sum_{i=1}^{k} n_i$，总体均值为$\bar{X} = \frac{1}{N} \sum_{i=1}^{k} n_i \bar{X}_i$。

在满足$H_0$的情况下，所有样本可以被看作是从同一个总体中抽取的，因此我们可以计算组间方差和组内方差。根据Student's Theorem（$\bar{X} := \frac{1}{n}\sum_{i=1}^{n} X_i$， $S^2 := \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2$。则有 $(n-1)S^2/\sigma^2 \sim \chi^2(n - 1)$），并定义如下统计量：$$ SS(TO) := \sum_{i=1}^{m} \sum_{j=1}^{n_i} (X_{ij} - \bar{X})^2 $$ $$SS(E) = \sum_{i=1}^{m} \sum_{j=1}^{n_i} (X_{ij} - \bar{X}_i)^2$$  $$SS(T) = \sum_{i=1}^{m} n_i (\bar{X}_i - \bar{X})^2$$  可以得出：$$ SS(TO) = SS(E) + SS(T) $$ $$SS(TO)/\sigma^2 \sim \chi^2(N - 1)$$ $$SS(E)/\sigma^2 \sim \chi^2(N - m)$$ $$SS(T)/\sigma^2 \sim \chi^2(m - 1)$$  

这三个统计量的解释如下：
- $SS(TO)$：总平方和，表示所有数据点与总体均值之间的总变异。
- $SS(E)$：组内平方和，表示每个组内数据点与该组均值之间的变异。
- $SS(T)$：组间平方和，表示各组均值与总体均值之间的变异。它与$SS(E)$相互独立。

构造检验统计量：$$ F = \frac{SS(T)/(m - 1)}{SS(E)/(N - m)} $$ 在$H_0$成立的情况下，$F \sim F(m - 1, N - m)$。需要强调的是，F-检验是一个右尾检验，自由度的顺序不能颠倒。

通过观察，得到$f_{obs} = \frac{SS(T)/(m - 1)}{SS(E)/(N - m)}$。拒绝域$\mathcal{C} = \{ F \geq F_{\alpha}(m - 1, N - m) \}$。如果$f_{obs} \in \mathcal{C}$，则拒绝$H_0$，否则不拒绝$H_0$。

*p*值计算：$$ p-value = P(F \geq f_{obs}) = 1 - F_{F}(f_{obs}) $$ 其中$F_{F}$为$F(m - 1, N - m)$的累积分布函数。

### Summary

单因素ANOVA所需的统计量可以用如下表格表示：
| 来源       | 平方和 (SS)          | 自由度 (df)     | 均方 (MS)               | F值                      |
|------------|----------------------|-----------------|-------------------------|--------------------------|
| 组间 (Treatment) | $SS(T) = \sum_{i=1}^{m} n_i (\bar{X}_i - \bar{X})^2$ | $m - 1$         | $MS(T) = SS(T)/(m - 1)$ | $F = MS(T)/MS(E)$        |
| 组内 (Error)     | $SS(E) = \sum_{i=1}^{m} \sum_{j=1}^{n_i} (X_{ij} - \bar{X}_i)^2$ | $N - m$         | $MS(E) = SS(E)/(N - m)$ |                          |
| 总计 (Total)     | $SS(TO) = \sum_{i=1}^{m} \sum_{j=1}^{n_i} (X_{ij} - \bar{X})^2$ | $N - 1$         |                         |                          |

其中：
- $m$：组数
- $N$：总样本容量
- $X_{ij}$：第$i$组的第$j$个观测值
- $\bar{X}_i$：第$i$组的样本均值
- $\bar{X}$：所有样本的总体均值

对于单组（第i组）均值的置信区间（在 ANOVA 背景下，使用合并方差 $MSE$ 作为方差估计）：
$\text{CI} = \bar{y}_i \pm t_{\alpha/2, N-m} \times \sqrt{\frac{MS(E)}{n_i}}$
- 其中$m$为组数，$n_i$为第$i$组的样本容量。