Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [28]:
import numpy as np

In [29]:
n1 = 8
n2 = 9
n3 = 11
n = n1 + n2 + n3
print(n)

28


In [30]:
# Всего три группы:
k = 3

In [31]:
# Рост Футболисты:
y1 = np.array([173, 175, 180, 178, 177, 185, 183, 182], dtype=np.float64)

# Рост Хоккеисты:
y2 = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180], dtype=np.float64)

# Рост Штангисты:
y3 = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170], dtype=np.float64)

In [32]:
# Проведем однофакторный дисперсионный анализ. Сначала найдем средние зарплаты для каждой группы спортсменов:
y1_mean = np.mean(y1)
print(y1_mean)

179.125


In [33]:
y2_mean = np.mean(y2)
print(y2_mean)

178.66666666666666


In [34]:
y3_mean = np.mean(y3)
print(y3_mean)

172.72727272727272


Видно, что средний рост разнится. Установим, что это отличие статистически значимо. Для этого сначала соберем

все значения заработных платроста в один массив:

In [35]:
y_all = np.concatenate([y1, y2, y3])
y_all

array([173., 175., 180., 178., 177., 185., 183., 182., 177., 179., 180.,
       188., 177., 172., 171., 184., 180., 172., 173., 169., 177., 166.,
       180., 178., 177., 172., 166., 170.])

In [36]:
# Найдем среднее значение роста по всем значениям:
y_mean = np.mean(y_all)
print(y_mean)

176.46428571428572


Найдем $S^2$ — сумму квадратов отклонений наблюдений от общего среднего:

In [37]:
s2 = np.sum((y_all - y_mean)**2)
s2

830.9642857142854

Найдем $S^2_F$ - сумму квадратов отклонений средних групповых значений от общего среднего:

In [38]:
s2_f = ((y1_mean - y_mean)**2) * n1 + ((y2_mean - y_mean)**2) * n2 + ((y3_mean - y_mean)**2) * n3
s2_f

253.9074675324678

Найдем $S^2_{ост}$ — остаточную сумму квадратов отклонений:

In [39]:
s2_residual_y1 = ((y1[0] - y1_mean)**2) + ((y1[1] - y1_mean)**2) + ((y1[2] - y1_mean)**2) + ((y1[3] - y1_mean)**2) + ((y1[4] - y1_mean)**2) + ((y1[5] - y1_mean)**2) + ((y1[6] - y1_mean)**2) + ((y1[7] - y1_mean)**2)
s2_residual_y1

118.875

In [40]:
s2_residual_y2 = ((y2[0] - y2_mean)**2) + ((y2[1] - y2_mean)**2) + ((y2[2] - y2_mean)**2) + ((y2[3] - y2_mean)**2) + ((y2[4] - y2_mean)**2) + ((y2[5] - y2_mean)**2) + ((y2[6] - y2_mean)**2) + ((y2[7] - y2_mean)**2) + ((y2[8] - y2_mean)**2)
s2_residual_y2

227.99999999999997

In [41]:
s2_residual_y3 = ((y3[0] - y3_mean)**2) + ((y3[1] - y3_mean)**2) + ((y3[2] - y3_mean)**2) + ((y3[3] - y3_mean)**2) + ((y3[4] - y3_mean)**2) + ((y3[5] - y3_mean)**2) + ((y3[6] - y3_mean)**2) + ((y3[7] - y3_mean)**2) + ((y3[8] - y3_mean)**2) + ((y3[9] - y3_mean)**2) + ((y3[10] - y3_mean)**2)
s2_residual_y3

230.18181818181816

In [42]:
s2_residual = s2_residual_y1 + s2_residual_y2 + s2_residual_y3
s2_residual

577.0568181818181

Удостоверимся, что соблюдается равенство $S^2 = S_F^2 + S_{ост}^2$:

In [43]:
print(s2)
print(s2_f + s2_residual)

830.9642857142854
830.9642857142859


Найдем общую дисперсию:

In [44]:
sigma2_general = s2 / (n - 1)
sigma2_general

30.776455026455015

Найдем факторную дисперсию:

In [45]:
sigma2_f = s2_f / (k - 1)
sigma2_f

126.9537337662339

Найдем остаточную дисперсию:

In [46]:
sigma2_residual = s2_residual / (n - k)
sigma2_residual

23.082272727272724

Вычислим $F_H$:

In [47]:
F_h = sigma2_f / sigma2_residual
F_h

5.500053450812599

Найдем значение $F_{крит}$ в таблице критических точек распределения Фишера-Снедекора для заданного уровня значимости $\alpha = 0.05$ и двух степеней свободы: 

$df_{межд} = k - 1 = 3 - 1 = 2$ и $df_{внутр} = n - k = 28 - 3 = 25$.

Для данных значений $F_{крит} = 3.38$. Так как $F_H > F_{крит}$, различие средних зарплат в трех группах статистически значимо.

Также вычислим эмпирическое корреляционное отношение $\eta^2$:

In [48]:
eta2 = s2_f / s2
eta2

0.30555761769498

Значение $\eta^2$ близко к 1 — значит,  различие средних зарплат в трех группах являются статистически значимым.