# Two-way ANOVA

## Motivation
之前的单因素方差分析（One-way ANOVA）仅考虑了一个分类变量对响应变量的影响。然而，在实际应用中，往往存在多个分类变量同时影响响应变量的情况。双因素方差分析（Two-way ANOVA）允许我们同时考虑两个分类变量及其交互作用对响应变量的影响。

假设存在两个分类变量A和B，分别有a和b个水平。可以列出一个a行b列的表格，每个单元格对应一个A和B的组合水平，单元格第$i$行第$j$列的数据$X_{ijk}$表示在该组合水平下的响应变量观测值。再假设
$$
X_{ij} \sim N(\mu_{ij}, \sigma^2)
$$
其中$\mu_{ij}$表示第$i$行第$j$列的总体均值，$\sigma^2$表示总体方差。且
$$
\mu_{ij} = \mu + \alpha_i + \beta_j
$$
其中$\mu$表示总体均值，$\alpha_i$表示分类变量A的第$i$个水平的效应，$\sum_{i=1}^a \alpha_i = 0$，$\beta_j$表示分类变量B的第$j$个水平的效应，$\sum_{j=1}^b \beta_j = 0$。

## Two-way ANOVA Without Interaction

零假设包含行效应不存在及列效应不存在两部分：
- $H_A$: $\alpha_1 = \alpha_2 = ... = \alpha_a = 0$
- $H_B$: $\beta_1 = \beta_2 = ... = \beta_b = 0$

为构造检验统计量，须首先确定行均值、列均值及总均值：
$$
\begin{aligned}
\bar{X}_{i\cdot} &:= \frac{1}{b} \sum_{j=1}^{b} X_{ij} \sim N(\mu + \alpha_i, \sigma^2/b) \\
\bar{X}_{\cdot j} &:= \frac{1}{a} \sum_{i=1}^{a} X_{ij} \sim N(\mu + \beta_j, \sigma^2/a) \\
\bar{X}_{\cdot \cdot} &:= \frac{1}{ab} \sum_{i=1}^{a} \sum_{j=1}^{b} X_{ij} \sim N(\mu, \frac{\sigma^2}{ab})
\end{aligned}
$$
下面定义三种平方和：
$$
\begin{aligned}
SS(TO) &= \sum_{i=1}^{a} \sum_{j=1}^{b} (X_{ij} - \bar{X}_{\cdot \cdot})^2 \\
&= \sum_{i=1}^{a} \sum_{j=1}^{b} \Big[(X_{ij} - \bar{X}_{i\cdot} - \bar{X}_{\cdot j} + \bar{X}_{\cdot \cdot}) + (\bar{X}_{i\cdot} - \bar{X}_{\cdot \cdot}) + (\bar{X}_{\cdot j} - \bar{X}_{\cdot \cdot})\Big]^2 \\
&= b\sum_{i=1}^{a} (\bar{X}_{i\cdot} - \bar{X}_{\cdot \cdot})^2 + a\sum_{j=1}^{b} (\bar{X}_{\cdot j} - \bar{X}_{\cdot \cdot})^2 \\
&\quad + \sum_{i=1}^{a} \sum_{j=1}^{b} (X_{ij} - \bar{X}_{i\cdot} - \bar{X}_{\cdot j} + \bar{X}_{\cdot \cdot})^2 \\
&= SS(A) + SS(B) + SS(E)
\end{aligned}
$$
其中，$SS(A)$表示行效应平方和，$SS(B)$表示列效应平方和，$SS(E)$表示误差平方和。

根据Student定理，得到：
$$\frac{SS(TO)}{\sigma^2} \sim \chi^2_{ab - 1}$$
$$\frac{SS(A)}{\sigma^2} \sim \chi^2_{a - 1}$$
$$\frac{SS(B)}{\sigma^2} \sim \chi^2_{b - 1}$$
$$\frac{SS(E)}{\sigma^2} \sim \chi^2_{(ab - a - b + 1)}$$
$$SS(TO) = SS(A) + SS(B) + SS(E)$$
且$SS(A)$、$SS(B)$及$SS(E)$相互独立。

构造检验统计量：
$$F_A = \frac{SS(A)/(a-1)}{SS(E)/(ab - a - b + 1)} \sim F_{a-1, ab - a - b + 1}$$
$$F_B = \frac{SS(B)/(b-1)}{SS(E)/(ab - a - b + 1)} \sim F_{b-1, ab - a - b + 1}$$

拒绝域$\mathcal{C} = \{F_A > F_{\alpha}({a-1, ab - a - b + 1)}$或$\mathcal{C} = \{F_B > F_{\alpha}(b-1, ab - a - b + 1)\}$。

*p*-value计算方法：
$$p\text{-value}_A = P(F_{a-1, ab - a - b + 1} \geq F_A)$$
$$p\text{-value}_B = P(F_{b-1, ab - a - b + 1} \geq F_B)$$

### Mathematical Derivation

下面将证明$SS(A)$与$\beta_j$无关：

$$
\begin{aligned}
\bar{X}_{i\cdot} &= \frac{1}{b} \sum_{j=1}^{b} X_{ij} \\
&= \frac{1}{b} \sum_{j=1}^{b} (\mu + \alpha_i + \beta_j + \epsilon_{ij}) \\
&= \mu + \alpha_i + \frac{1}{b}\sum_{j=1}^{b} \beta_j + \bar{\epsilon}_{i\cdot} \\
&= \mu + \alpha_i + \bar{\epsilon}_{i\cdot} \quad (\text{since } \sum_{j=1}^{b} \beta_j = 0)
\end{aligned}
$$

$$
\begin{aligned}
\bar{X}_{\cdot \cdot} &= \frac{1}{ab} \sum_{i=1}^{a} \sum_{j=1}^{b} X_{ij} \\
&= \frac{1}{ab} \sum_{i=1}^{a} \sum_{j=1}^{b} (\mu + \alpha_i + \beta_j + \epsilon_{ij}) \\
&= \mu + \frac{1}{a}\sum_{i=1}^{a} \alpha_i + \frac{1}{b}\sum_{j=1}^{b} \beta_j + \bar{\epsilon}_{\cdot \cdot} \\
&= \mu + \bar{\epsilon}_{\cdot \cdot} \quad (\text{since } \sum_{i=1}^{a} \alpha_i = 0, \sum_{j=1}^{b} \beta_j = 0)
\end{aligned}
$$

$$
\begin{aligned}
SS(A) &= b \sum_{i=1}^{a} (\bar{X}_{i\cdot} - \bar{X}_{\cdot \cdot})^2 \\
&= b \sum_{i=1}^{a} [(\mu + \alpha_i + \bar{\epsilon}_{i\cdot}) - (\mu + \bar{\epsilon}_{\cdot \cdot})]^2 \\
&= b \sum_{i=1}^{a} (\alpha_i + \bar{\epsilon}_{i\cdot} - \bar{\epsilon}_{\cdot \cdot})^2
\end{aligned}
$$

由此可见，$SS(A)$的表达式中不包含$\beta_j$，因此$SS(A)$与$\beta_j$无关。

### Summary

在无交互因素的情况下，以下表格总结了双因素方差分析需要的统计量：

| Source | SS | Degrees of Freedom | Mean Square | F | 
|---|---|---|---|---| 
| Factor A | $SS(A)$ | $a-1$ | $MS(A) = \frac{SS(A)}{a-1}$ | $\frac{MS(A)}{MS(E)}$ | 
| Factor B | $SS(B)$ | $b-1$ | $MS(B) = \frac{SS(B)}{b-1}$ | $\frac{MS(B)}{MS(E)}$ | 
| Error | $SS(E)$ | $(a-1)(b-1)$ | $MS(E) = \frac{SS(E)}{(a-1)(b-1)}$ | | 
| Total | $SS(TO)$ | $ab-1$ | | |

## Two-way ANOVA With Interaction

在某些情况下，两个分类变量之间可能存在交互作用，即一个分类变量的效应可能依赖于另一个分类变量的水平。为了考虑这种情况，我们可以在模型中加入交互项。前提是各项具有相同方差。原先的模型变为：
$$ X_{ijk} \sim N(\mu + \alpha_i + \beta_j + \gamma_{ij}, \sigma^2) $$
其中$\gamma_{ij}$表示分类变量A的第$i$个水平和分类变量B的第$j$个水平之间的交互效应，且$\sum_{i}\gamma_{ij} = 0$，$\sum_{j}\gamma_{ij} = 0$。
- 具体地，交互效应的计算公式为：$\gamma_{ij} = \bar{X}_{ij.} - \bar{X}_{i..} - \bar{X}_{.j.} + \bar{X}_{...}$，即单元格均值减去行均值和列均值再加上总均值。

增加零假设$H_{AB}: \gamma_{ij} = 0$，即交互效应不存在。

定义统计量如下：
单元格均值，对于 $i = 1, 2, \dots, a$， $j = 1, 2, \dots, b$， $$\bar{X}_{ij.} = \frac{1}{c} \sum_{k=1}^{c} X_{ijk},$$ 行均值或因子 A 在水平 $i$ 时的均值： $$\bar{X}_{i..} = \frac{1}{bc} \sum_{j=1}^{b} \sum_{k=1}^{c} X_{ijk}$$ 列均值或因子 B 在水平 $j$ 时的均值： $$\bar{X}_{.j.} = \frac{1}{ac} \sum_{i=1}^{a} \sum_{k=1}^{c} X_{ijk}$$ 总均值： $$\bar{X}_{...} = \frac{1}{abc} \sum_{i=1}^{a} \sum_{j=1}^{b} \sum_{k=1}^{c} X_{ijk}$$

类似地，$$SS(TO) = SS(A) + SS(B) + SS(AB) + SS(E)$$
其中$SS(AB)$表示交互效应平方和。它们之间均互相独立。

$$ \frac{SS(E)}{\sigma^2} = \frac{1}{\sigma^2} \sum_{i=1}^{a} \sum_{j=1}^{b} \sum_{k=1}^{c} (X_{ijk} - \bar{X}_{ij.})^2 \sim \chi^2(ab(c-1)) $$
$$ \frac{SS(A)}{\sigma^2} = \frac{bc}{\sigma^2} \sum_{i=1}^{a} (\bar{X}_{i..} - \bar{X}_{...})^2 \sim \chi^2(a-1) $$
$$ \frac{SS(B)}{\sigma^2} = \frac{ac}{\sigma^2} \sum_{j=1}^{b} (\bar{X}_{.j.} - \bar{X}_{...})^2 \sim \chi^2(b-1) $$
$$ \frac{SS(AB)}{\sigma^2} = \frac{1}{\sigma^2} \sum_{i=1}^{a} \sum_{j=1}^{b} c(\bar{X}_{ij.} - \bar{X}_{i..} - \bar{X}_{.j.} + \bar{X}_{...})^2 \sim \chi^2((a-1)(b-1)) $$

构建检验统计量：
$$ F_{AB} = \frac{\sum_{i=1}^{a} \sum_{j=1}^{b} (\bar{X}_{ij.} - \bar{X}_{i..} - \bar{X}_{.j.} + \bar{X}_{...})^2 / [\sigma^2 (a-1)(b-1)]}{\sum_{i=1}^{a} \sum_{j=1}^{b} \sum_{k=1}^{c} (X_{ijk} - \bar{X}_{ij.})^2 / [\sigma^2 ab(c-1)]} = \frac{SS(AB) / [(a-1)(b-1)]}{SS(E) / [ab(c-1)]}$$

在满足零假设的前提下，$F_{AB} \sim F_{(a-1)(b-1), ab(c-1)}$。
拒绝域$\mathcal{C} = \{F_{AB} > F_{\alpha}((a-1)(b-1), ab(c-1))\}$。

同时，$H_A$和$H_B$的检验也需要稍作修改。
$$ F_A = \frac{\frac{bc \sum_{i=1}^{a}(\bar{X}_{i..} - \bar{X}_{...})^2}{[\sigma^2(a-1)]}}{\frac{\sum_{i=1}^{a} \sum_{j=1}^{b} \sum_{k=1}^{c}(X_{ijk} - \bar{X}_{ij.})^2}{[\sigma^2 ab(c-1)]}} = \frac{SS(A)/(a-1)}{SS(E)/[ab(c-1)]} $$
$$ F_B = \frac{\frac{ac \sum_{j=1}^{b}(\bar{X}_{.j.} - \bar{X}_{...})^2}{[\sigma^2(b-1)]}}{\frac{\sum_{i=1}^{a} \sum_{j=1}^{b} \sum_{k=1}^{c}(X_{ijk} - \bar{X}_{ij.})^2}{[\sigma^2 ab(c-1)]}} = \frac{SS(B)/(b-1)}{SS(E)/[ab(c-1)]} $$

在同时满足$H_{AB}$和$H_A$的前提下，$F_A \sim F_{a-1, ab(c-1)}$。拒绝域$\mathcal{C} = \{F_A > F_{\alpha}(a-1, ab(c-1))\}$。  
在同时满足$H_{AB}$和$H_B$的前提下，$F_B \sim F_{b-1, ab(c-1)}$。拒绝域$\mathcal{C} = \{F_B > F_{\alpha}(b-1, ab(c-1))\}$。

### Summary

在有交互因素的情况下，以下表格总结了双因素方差分析需要的统计量：

| Source | SS | DF | MS | $F$ | 
| :---------- | :----- | :--------- | :--------------------------------------- | :------- | 
| Factor A | $SS(A)$ | $a-1$ | $MS(A) = \frac{SS(A)}{a-1}$ | $\frac{MS(A)}{MS(E)}$ | 
| Factor B | $SS(B)$ | $b-1$ | $MS(B) = \frac{SS(B)}{b-1}$ | $\frac{MS(B)}{MS(E)}$ | 
| Interaction | $SS(AB)$| $(a-1)(b-1)$ | $MS(AB) = \frac{SS(AB)}{(a-1)(b-1)}$ | $\frac{MS(AB)}{MS(E)}$ | 
| Error | $SS(E)$ | $ab(c-1)$ | $MS(E) = \frac{SS(E)}{ab(c-1)}$ | | 
| Total | $SS(TO)$| $abc-1$ | | |

其中，$a$为分类变量A的水平数，$b$为分类变量B的水平数，$c$为每个单元格中的观测值数量。