# Lecture 15: Test for Homogeneity and Test for Independence

## Contingency Tables

在检验两个分类变量是否独立时，我们通常使用列联表（contingency table）来组织数据。假设我们有两个分类变量 $A$ 和 $B$，其中 $A$ 有 $r$ 个类别，$B$ 有 $c$ 个类别。我们可以构建一个 $r \times c$ 的列联表，其中每个单元格 $(i, j)$ 中的值表示同时属于类别 $A_i$ 和类别 $B_j$ 的观察频数，记为 $O_{ij}$。

下面给出一个示例列联表：
|       | $B_1$  | $B_2$  | ... | $B_c$  | 总计 |
|-------|-----|-----|-----|-----|------|
| $A_1$    | $O_{11}$ | $O_{12}$ | ... | $O_{1c}$ | $R_1$   |
| $A_2$    | $O_{21}$ | $O_{22}$ | ... | $O_{2c}$ | $R_2$   |
| ...   | ... | ... | ... | ... | ...  |
| $A_r$    | $O_{r1}$ | $O_{r2}$ | ... | $O_{rc}$ | $R_r$   |
| 总计  | $C_1$  | $C_2$  | ... | $C_c$  | $N$    |

其中 $R_i$ 是第 $i$ 行的总计，$C_j$ 是第 $j$ 列的总计，$N$ 是总样本量。

通过列联表的数据，可以构建卡方检验统计量来检验两个分类变量是否独立。其可以表示为：$$Q = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$其中 $E_{ij} = \frac{R_i C_j}{N}$ 是在零假设下的期望频数。

令$p_{ij} = P(A=A_i, B=B_j)$，则零假设$H_0$: $p_{1j} = p_{2j} = \ldots = p_{rj}$，即变量$A$与变量$B$独立；备择假设$H_1$: $p_{ij}$不全相等，即变量$A$与变量$B$不独立。  
由于估计每个行和每个列的边际概率，我们失去了$r + c - 1$个自由度，因此检验统计量$Q$服从自由度为$(r-1)(c-1)$的卡方分布。即：$$Q \sim \chi^2(r-1)(c-1)$$

## Test for Homogeneity

当我们想比较多个总体的分类变量分布是否相同时，可以使用同质性检验（test for homogeneity）。假设我们有 $k$ 个独立样本，每个样本来自不同的总体，我们想检验这些总体在某个分类变量上的分布是否相同。  

零假设$H_0$: 各总体的分类变量分布相同；备择假设$H_1$: 至少有两个总体的分类变量分布不相同。

设第 $i$ 个样本的大小为 $n_i$，分类变量有 $c$ 个类别。我们可以构建一个 $k \times c$ 的列联表，其中每个单元格 $(i, j)$ 中的值表示第 $i$ 个样本中属于类别 $j$ 的观察频数，记为 $O_{ij}$。

检验统计量：$$Q = \sum_{i=1}^{k} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$其中$E_{ij} = \frac{R_i C_j}{N}$，$R_i$为第$i$行的总计，$C_j$为第$j$列的总计，$N$为总样本量。

拒绝域：$\mathcal{C} = \{q: q \geq \chi^2_{\alpha}(k-1)(c-1)\}$，其中$\chi^2_{\alpha}(k-1)(c-1)$为卡方分布在$\alpha$分位点处的值。
- 为什么这不符合直觉（分位数是$\alpha$而不是$1-\alpha$）？因为两个样本分布相同的条件非常苛刻，所以很容易拒绝零假设。

p值计算：计算检验统计量$q$后，p值为$P(Q \sim \chi^2((k-1)(c-1)) \geq q)$。

## Test for Independence

当我们想检验两个分类变量是否独立时，可以使用独立性检验（test for independence）。假设我们有一个样本，其中包含两个分类变量 $A$ 和 $B$，我们想检验这两个变量是否独立。
设变量 $A$ 有 $r$ 个类别，变量 $B$ 有 $c$ 个类别。我们可以构建一个 $r \times c$ 的列联表，其中每个单元格 $(i, j)$ 中的值表示同时属于类别 $A_i$ 和类别 $B_j$ 的观察频数，记为 $O_{ij}$。

零假设$H_0$: $p_{ij} = p_{i}p_{j} \forall (i,j)$，即变量$A$与变量$B$独立；备择假设$H_1$: $p_{ij}$不全相等，即变量$A$与变量$B$不独立。

检验统计量：$$Q = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$其中$E_{ij} = N p_i p_j$ 观察可估计为$\hat{E}_{ij} = \frac{R_i C_j}{N}$，$R_i$为第$i$行的总计，$C_j$为第$j$列的总计，$N$为总样本量。

此时自由度为$(r-1)(c-1)$，因此检验统计量$Q$服从自由度为$(r-1)(c-1)$的卡方分布。即：$$Q \sim \chi^2((r-1)(c-1))$$

拒绝域：$\mathcal{C} = \{q: q \geq \chi^2_{\alpha}(r-1)(c-1)\}$，其中$\chi^2_{\alpha}(r-1)(c-1)$为卡方分布在$\alpha$分位点处的值。

p值计算：计算检验统计量$q$后，p值为$P(Q \sim \chi^2((r-1)(c-1)) \geq q)$。

## Conclusion

同质性检验和独立性检验都是基于卡方分布的统计检验方法。二者的检验统计量和拒绝域、p值是完全相同的，唯一的区别在于它们所应用的情境不同。同质性检验用于比较多个总体的分类变量分布是否相同，而独立性检验用于检验两个分类变量是否独立。

具体的应用场景：
- 同质性检验：比较不同地区的消费者对某种产品的偏好是否相同。
- 独立性检验：检验性别与是否喜欢某种产品之间是否独立。