# Дисперсионный анализ
### Задача 1
Объясняемая переменная y зависит от двух категориальных факторов A и B, причём фактор A имеет 3 уровня, а фактор B — 4 уровня. Результаты наблюдений приведены в таблице:

In [1]:
y = [[2.68, 3.29, 2.88, 4.45],
     [4.12, 4.96, 5.09, 5.22],
     [5.52, 4.50, 5.42, 5.29]]

С помощью двухфакторного дисперсионного анализа проверьте влияние каждого из факторов на переменную y.
#### Решение

Нулевые гипотезы можно записать в следующем виде:
$$H_{0A}: \: \overline{y_{1 \ast}} = \dots = \overline{y_{m \ast}}, \:
H_{0B}: \: \overline{y_{\ast 1}} = \dots = \overline{y_{\ast k}}.$$

Далее аналогичным образом вычисляются оценки дисперсий. Сначала считаем суммы квадратов отклонений:
$$S_A^2 = k \cdot \displaystyle\sum_{i=1}^m \left( \overline{y_{i \ast}} - \overline{y} \right)^2, \:
S_B^2 = m \cdot \displaystyle\sum_{j=1}^k \left( \overline{y_{\ast j}} - \overline{y} \right)^2, \:
S_{res}^2 = \displaystyle\sum_{i=1}^m \displaystyle\sum_{j=1}^k \left( y_{ij} - \overline{y_{i \ast}} - \overline{y_{\ast j}} + \overline{y} \right)^2.$$

Оценки дисперсий:
$$\sigma_A^2 = \dfrac{S_A^2}{m - 1}, \: \sigma_B^2 = \dfrac{S_B^2}{k - 1}, \:
\sigma_{res}^2 = \dfrac{S_{res}^2}{(k - 1) (m - 1)}.$$

По этим оценкам дисперсий вычисляются статистики:
$$T_A = \dfrac{\sigma_A^2}{\sigma_{res}^2}, \: T_B = \dfrac{\sigma_B^2}{\sigma_{res}^2}.$$

In [2]:
import numpy as np
from scipy import stats

y = np.array(y)
m, k = y.shape
y

array([[2.68, 3.29, 2.88, 4.45],
       [4.12, 4.96, 5.09, 5.22],
       [5.52, 4.5 , 5.42, 5.29]])

In [3]:
S2_A = k * ((y.mean(axis=1) - y.mean()) ** 2).sum()
S2_B = m * ((y.mean(axis=0) - y.mean()) ** 2).sum()
S2_res = ((y - y.mean(axis=1).reshape(-1, 1) - y.mean(axis=0) + y.mean()) ** 2).sum()
S2_A, S2_B, S2_res

(7.8407166666666654, 1.338166666666669, 1.9298833333333332)

In [4]:
var_A = S2_A / (m - 1)
var_B = S2_B / (k - 1)
var_res = S2_res / (k - 1) / (m - 1)
var_A, var_B, var_res

(3.9203583333333327, 0.4460555555555563, 0.3216472222222222)

In [5]:
T_A = var_A / var_res
T_B = var_B / var_res
T_A, T_B

(12.188379262995172, 1.3867850388192748)

Для выбранного уровня значимости $\alpha$ по каждому фактору вычисляется соответствующее критическое значение. Для фактора $A$ критическое значение $F_{crit, \: A}$ — квантиль порядка $1 - \alpha$ для распределения $F(k_{1A}, k_{2A})$, где $k_{1A} = m - 1$, $k_{2A} = n - m$. Здесь $n = k \cdot m$ — общее число наблюдений. Аналогично, $F_{crit, \: B}$ — квантиль порядка $1 - \alpha$ для распределения $F(k_{1B}, k_{2B})$, где $k_{1B} = k - 1$, $k_{2B} = n - k$.

In [6]:
alpha = 0.05
n = m * k

F_crit_A = stats.f.ppf(1 - alpha, m - 1, n - m)
F_crit_B = stats.f.ppf(1 - alpha, k - 1, n - k)
F_crit_A,F_crit_B

(4.25649472909375, 4.06618055135116)

$T_A > F_{crit, \: A}$, значит гипотеза $H_{0A}$ отвергается,

$T_B < F_{crit, \: B}$, гипотеза $H_{0B}$ принимается.

Заключаем, что фактор $B$ не является статистическим значимым, в отличие от фактора $A$.

### Задача 2
С помощью критерия Стьюдента для двух независимых выборок проверьте гипотезу о равенстве среднего роста футболистов и хоккеистов, основываясь на результатах измерений:

In [7]:
football_players = [173, 175, 180, 178, 177, 185, 183, 182]
hockey_players = [177, 179, 180, 188, 177, 172, 171, 184, 180]

#### Решение

Проверяется гипотеза $H_0$: средние значения по двум выборкам совпадают. 

Для проверки гипотезы рассмотрим статистику
$$T = \dfrac{\overline{X_1} -\overline{X_2}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$$
где $\sigma_i$ — несмещённая оценка среднего квадратического отклонения, $n_i$ — число элементов в выборке.

В предположении гипотезы $H_0$ данная статистика имеет распределение Стьюдента с $n_1 + n_2 - 2$ степенями свободы.

In [8]:
X1 = np.array(football_players)
X2 = np.array(hockey_players)
n1, n2 = len(X1), len(X2)

X1.mean() - X2.mean()

0.4583333333333428

In [9]:
T = (X1.mean() - X2.mean()) / np.sqrt(np.var(X1) / n1 + np.var(X2) / n2)
T

0.2120406006079591

In [10]:
t = stats.t.ppf(1 - alpha / 2, n1 + n2 - 2)
t

2.131449545559323

In [11]:
-t < T < t

True

Гипотеза принимается. Заключаем, что средний рост футболистов и хоккеистов равны.

### Задача 3
Ссылка на курсовой проект