In [22]:
# Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, 
# хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: 
#     Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. 
#     Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. 
#     Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.
        
# Количественная переменная Y - средний рост взрослого спортсмена
# Качественный показатель - вид спорта, которым занимается взрослый спортсмен
# Есть k=3 выборок для переменной Y - футболисты, хоккеисты, штангисты

# Нужно установить, различаются ли средние роста этих трех групп при уровне значимости a=0.05.

import numpy as np

k = 3
y1 = np.array([173, 175, 180, 178, 177, 185, 183, 182], dtype=np.float64)  # футболисты
y2 = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180], dtype=np.float64)  # хоккеисты
y3 = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170], dtype=np.float64)  # штангисты

Проведем однофакторный дисперсионный анализ. В дисперсионном анализе проверяется гипотеза H0 о равенстве среднего роста в каждой группе. Чтобы проверить эту гипотезу, необходимо воспользоваться соотношением:

$$F_H = \frac{\sigma_{F}^{2}}{\sigma_{ост}^{2}};\ \ \ \sigma_{F}^{2} = \frac{S_{F}^{2}}{k-1} = \frac{1}{k-1}\sum\limits_{i=1}^{k}(\overline{y}_i - \overline{Y})^{2}n_i;\ \ \ \sigma_{ост}^{2} = \frac{S_{ост}^{2}}{n - k} = \frac{1}{n - k}\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(y_{ij} - \overline{y}_i)^2$$

In [23]:
n1 = y1.size
n2 = y2.size
n3 = y3.size
n = n1 + n2 + n3  # общее кол-во измерений
n

28

In [24]:
# Средний рост для каждого вида спорта:
y1_mean = y1.mean()
y2_mean = y2.mean()
y3_mean = y3.mean()
y1_mean, y2_mean, y3_mean

(179.125, 178.66666666666666, 172.72727272727272)

In [25]:
# средний рост по всем значениям
y_all = np.concatenate([y1, y2, y3])
y_mean = y_all.mean()
y_mean

176.46428571428572

In [26]:
# сумма квадратов отклонений наблюдений от общего среднего
s2 = np.sum((y_all - y_mean)**2)
s2

830.96428571428544

In [27]:
# сумма квадратов отклонений средних групповых значений от общего среднего
s2_f = ((y1_mean - y_mean)**2) * n1 + ((y2_mean - y_mean)**2) * n2 + ((y3_mean - y_mean)**2) * n3
s2_f

253.90746753246779

In [28]:
# остаточная сумма квадратов отклонений
s2_residual = np.sum((y1 - y1_mean)**2) + np.sum((y2 - y2_mean)**2) + np.sum((y3 - y3_mean)**2)
s2_residual

577.05681818181824

In [29]:
# Проверка
print(f'S = {s2}\nSf + Sr = {s2_f} + {s2_residual} = {s2_f + s2_residual}')

S = 830.9642857142854
Sf + Sr = 253.9074675324678 + 577.0568181818182 = 830.964285714286


In [30]:
# факторная дисперсия
sigma2_f = s2_f / (k - 1)

# остаточная дисперсия
sigma2_residual = s2_residual / (n - k)

# Расчетный показатель
F_h = sigma2_f / sigma2_residual
F_h

5.5000534508125982

Найдем значение $F_{крит}$ в таблице критических точек распределения Фишера-Снедекора для заданного уровня значимости $\alpha = 0.05$ и двух степеней свободы: 

$df_{межд} = k - 1 = 3 - 1 = 2$ и $df_{внутр} = n - k = 28 - 3 = 25$.

Для данных значений $F_{крит} = 3.38$. Так как $F_H > F_{крит}$, различие среднего роста в трех группах статистически значимо.

### Второй способ решения (ANOVA)

In [31]:
from scipy import stats

stats.f_oneway(y1, y2, y3)

F_onewayResult(statistic=5.5000534508125956, pvalue=0.010482206918698694)