# Двухфакторный дисперсионный анализ с фиксированными эффектами
См. конспект Алексеевой про прикладную статистику

Модель: $$x_{ij} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \varepsilon_{ij}$$

$I$ -- число уровней первого фактора, $J$ -- число уровней второго фактора, $K$ -- число экспериментов при каждом сочетании факторов. Оценки параметров находятся по МНК, в частности, $$
    \hat{(\alpha\beta)}_{ij} = \bar{x_{ij\cdot}} - \bar{x_{i\cdot}} - \bar{x_{\cdot j}} + \bar{x}
$$
где слагаемые --- средние по какой-либо группе.

Гипотеза $H_0:\; \forall i, j (\alpha\beta)_{ij} = 0$

Статистика: $$
    F = \frac{Q_{AB} / \left(\left(I-1\right)\left(J-1\right)\right)}{Q_{err} / \left(IJ\left(K-1\right)\right)} \sim F\left(\left(I-1\right)\left(J-1\right), IJ\left(K-1\right)\right)
$$
где $Q_{AB} = \sum_i \sum_j (\bar{x}_{ij\cdot} - \bar{x}_{i\cdot} - \bar{x}_{\cdot j} + \bar{x})^2$
Как считаются средние арифметические? На что нормируются?

$$
\bar{x} = \frac{1}{I}\sum_{i=1}^I\frac{1}{J}\sum_{j=1}^J\frac{1}{K}\sum_{k=1}^K x_{ijk}
$$

$$
\bar{x}_{i\cdot} = \frac{1}{J}\sum_{j=1}^J\frac{1}{K}\sum_{k=1}^K x_{ijk}
$$

In [53]:
import numpy as np
from scipy.stats import norm, f
import pandas as pd

v1 = norm.rvs(size=100)
v2 = np.tile([0, 1], 50)
v3 = np.tile([0,0,1,1], 25)
data = pd.DataFrame({"num": v1, "lvl1": v2, "lvl2": v3})
data.to_csv("csvdata.txt", index=False)

In [54]:
m = data.num.mean()
lvl1m = data.groupby("lvl1").num.mean()
I = len(lvl1m)
lvl2m = data.groupby("lvl2").num.mean()
J = len(lvl2m)
bothlvlsm = data.groupby(["lvl1", "lvl2"]).mean()
K = 25
print lvl1m[0]

-0.0757045453898


0.0062711293478899255

In [57]:
Q_err = data.num.var() - Q_A - Q_B - Q_AB

In [58]:
Q_AB * I * J * (K-1) / ((I-1)*(J-1)*Q_err)

0.763290098314368

In [59]:
f((I-1)*(J-1), I * J * (K-1)).ppf(0.95)

3.9401627169902778

In [60]:
print f((I-1)*(J-1), I * J * (K-1)).sf(Q_AB * I * J * (K-1) / ((I-1)*(J-1)*Q_err))

0.384481094398
