In [1]:
import numpy as np
import scipy.stats as st

### 1) Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [2]:
g1 = np.array([173, 175, 180, 178, 177, 185, 183, 182])
g2 = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
g3 = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

In [3]:
k = 3
n1 = 8
n2 = 9
n3 = 11
n = n1 + n2 + n3 # 28

Найдем среднее значение переменной Y на i-м уровне: $$\overline{y}_{i} = \frac{1}{n_i}\sum\limits_{j=1}^{n_i}y_{ij}$$

In [4]:
y_bar_1 = np.sum(g1) / n1
y_bar_1

179.125

In [5]:
y_bar_2 = np.sum(g2) / n2
y_bar_2

178.66666666666666

In [6]:
y_bar_3 = np.sum(g3) / n3
y_bar_3

172.72727272727272

Найдем среднее значение переменной Y по всем значениям: $$\overline{Y} = \frac{1}{n}\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}y_{ij} = \frac{1}{n}\sum\limits_{i=1}^{k}\overline{y}_{i}n_{i}$$

In [7]:
g_total = np.hstack([g1, g2, g3])

In [8]:
Y_bar = np.sum(g_total) / n
Y_bar

176.46428571428572

Найдем сумму квадратов отклонений наблюдений от общего среднего ($S^{2}$):

In [9]:
S2 = np.sum((g_total - Y_bar)**2)
S2

830.9642857142854

Найдем сумму квадратов отклонений средних групповых значений от общего среднего значения $\overline{Y}$ ($S_F^2$ ):
$$S_F^2 = \sum\limits_{i=1}^{k}(\overline{y}_i - \overline{Y})^2n_i$$

In [10]:
S2F = (y_bar_1 - Y_bar)**2 * n1 + (y_bar_2 - Y_bar)**2 * n2 + (y_bar_3 - Y_bar)**2 * n3
S2F

253.9074675324678

Найдем остаточную сумма квадратов отклонений ($S_{residual}^2$): $$S_{residual}^{2} = \sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(y_{ij} - \overline{y}_i)^2$$

In [11]:
S2R = np.sum((g1 - y_bar_1)**2) + np.sum((g2 - y_bar_2)**2) + np.sum((g3 - y_bar_3)**2)
S2R

577.0568181818182

Cумма квадратов отклонений наблюдений от общего среднего дожна быть равна:
$$S^2 = S_F^2 + S_{residual}^2$$

In [12]:
np.round(S2, decimals=6) == np.round(S2R + S2F, decimals=6)

True

Общая дисперсия:
$$\sigma_{total}^{2} = \frac{S^2}{n - 1} = \frac{1}{n-1}\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(y_{ij} - \overline{Y})^2$$

In [13]:
sigma2t = S2 / (n - 1)
sigma2t

30.776455026455015

Факторная дисперсия:
$$\sigma_{F}^{2} = \frac{S_{F}^{2}}{k-1} = \frac{1}{k-1}\sum\limits_{i=1}^{k}(\overline{y}_i - \overline{Y})^{2}n_i$$

In [14]:
sigma2F = S2F / (k - 1)
sigma2F

126.9537337662339

Остаточная дисперсия:
$$\sigma_{residual}^{2} = \frac{S_{residual}^{2}}{n - k} = \frac{1}{n - k}\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(y_{ij} - \overline{y}_i)^2$$

In [15]:
sigma2R = S2R / (n - k)
sigma2R

23.08227272727273

Найдем $F_H$ $$F_H = \frac{\sigma_{F}^{2}}{\sigma_{residual}^{2}}$$

In [16]:
F_H = sigma2F / sigma2R
F_H

5.500053450812598

Проверим вычисления с помощью функции библиотеки scipy:

In [17]:
F, _ = st.f_oneway(g1,g2,g3)
F

5.500053450812596

Найдем значение $F_{crit}$ в таблице критических точек распределения Фишера-Снедекора для заданного уровня значимости $\alpha = 0.05$ и двух степеней свободы: 

$df_{between} = k - 1 = 3 - 1 = 2$ и $df_{within} = n - k = 28 - 3 = 25$.

Для данных значений $F_{crit} = 3.38$. Так как $F_H > F_{crit}$, мы отвергаем нулевую гипотезу $(H_0: \overline{y}_1 = \overline{y}_2 = \overline{y}_3)$, т.е. различие среднего роста среди взрослых футболистов, хоккеистов и штангистов статистически значимо.

**Ответ: При уровне значимости $\alpha$ 0.05, средний рост среди взрослых футболистов, хоккеистов и штангистов различается**