Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. 
Даны значения роста в трех группах случайно выбранных спортсменов: 
Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. 
Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. 
Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [1]:
import numpy as np

In [2]:
# Всего три группы:
k = 3

In [3]:
# Рост футболистов:
y1 = np.array([173, 175, 180, 178, 177, 185, 183, 182], dtype=np.float64)

# Рост хоккеистов:
y2 = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180], dtype=np.float64)

#Рост штангистов:
y3 = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170], dtype=np.float64)

In [5]:
n1 = len(y1)
n2 = len(y2)
n3 = len(y3)
n = n1 + n2 + n3
print(n)

28


Проведем однофакторный дисперсионный анализ. Сначала найдем средний рост для каждой профессии:

In [6]:
y1_mean = np.mean(y1)
print(y1_mean)
y2_mean = np.mean(y2)
print(y2_mean)
y3_mean = np.mean(y3)
print(y3_mean)

179.125
178.66666666666666
172.72727272727272


Видно, что средний рост разнится. Установим, что это отличие статистически значимо. Для этого сначала соберем
все значения заработных плат в один массив:

In [7]:
y_all = np.concatenate([y1, y2, y3])
y_all

array([173., 175., 180., 178., 177., 185., 183., 182., 177., 179., 180.,
       188., 177., 172., 171., 184., 180., 172., 173., 169., 177., 166.,
       180., 178., 177., 172., 166., 170.])

In [8]:
# Найдем среднее значение роста по всем значениям:
y_mean = np.mean(y_all)
print(y_mean)

176.46428571428572


In [9]:
# Найдем — сумму квадратов отклонений наблюдений от общего среднего:
s2 = np.sum((y_all - y_mean)**2)
s2

830.9642857142854

In [10]:
# Найдем - сумму квадратов отклонений средних групповых значений от общего среднего:
s2_f = ((y1_mean - y_mean)**2) * n1 + ((y2_mean - y_mean)**2) * n2 + ((y3_mean - y_mean)**2) * n3
s2_f

253.9074675324678

In [11]:
# Найдем ост — остаточную сумму квадратов отклонений:
s2_residual = np.sum((y1 - y1_mean)**2) + np.sum((y2 - y2_mean)**2) + np.sum((y3 - y3_mean)**2)
s2_residual

577.0568181818182

In [12]:
#Удостоверимся, что соблюдается равенство ост:
print(s2)
print(s2_f + s2_residual)

830.9642857142854
830.964285714286


In [13]:
# Найдем общую дисперсию:
sigma2_general = s2 / (n - 1)
sigma2_general

30.776455026455015

In [14]:
# Найдем факторную дисперсию:
sigma2_f = s2_f / (k - 1)
sigma2_f

126.9537337662339

In [15]:
# Найдем остаточную дисперсию:
sigma2_residual = s2_residual / (n - k)
sigma2_residual

23.08227272727273

In [16]:
# Вычислим:
F_h = sigma2_f / sigma2_residual
F_h

5.500053450812598



Найдем значение $Fкрит$ в таблице критических точек распределения Фишера-Снедекора для заданного $\alpha = 0.05$ уровня значимости 
 и двух степеней свободы:


$df межд$ = $k - 1$ = 3 - 1 = 2 и $df внутр$ = $n - k$ = 28 - 3 = 25.

Для данных значений $Fкрит$ = 3.3852. Так как $Fh > Fкрит$, отвергнута гипотеза Н0, различие роста в трех группах статистически значимо.