Задача. Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

Решение: 
1. Решим задачу вручную, пользуясь  помощью Python. 
2. Проверим результат встроенной функцией stats.f_oneway(). 

Сформируем гипотезы:
Нулевая:  
$H0 : \mu_1=\mu_2=\mu_3$  т.е. средний рост спортсмена не зависит от вида спорта, которым он занимается.
Альтернативная:  
$H1: \mu_1\neq\mu_2\neq\mu_3$ т.е. средний рост спортсмена зависит от выбранного им спорта.

In [2]:
import numpy as np
import pandas as pd
from scipy import stats


In [3]:
football_pl = np.array([173, 175, 180, 178, 177, 185, 183, 182])
hockey_pl = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
weightlifting = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

Средний рост футболистов:

In [5]:
f_mean = football_pl.mean()
f_mean

179.125

Средний рост хоккеистов:

In [6]:
h_mean = hockey_pl.mean()
h_mean

178.66666666666666

Средний рост штангистов:

In [11]:
w_mean = weightlifting.mean()
w_mean

172.72727272727272

Общее среднее:

In [8]:
all_hight = np.hstack((football_pl,hockey_pl, weightlifting))
all_mean = all_hight.mean()
all_mean

176.46428571428572

Сумма квадратов отклонений от общего среднего:

In [9]:
all_s2 = np.sum((all_hight - all_mean) ** 2)
all_s2

830.9642857142854

Сумма квадратов отклоненний средних групповых значений от  общего среднего:

In [12]:
s2f = (f_mean - all_mean) ** 2 * len(football_pl) + (h_mean - all_mean) ** 2 * len(hockey_pl) + (w_mean - all_mean) ** 2 * len(weightlifting)
s2f

253.9074675324678

Остаточная сумма квадратных отклонений:

In [13]:
s2_ost = np.sum((football_pl - f_mean) ** 2) + np.sum((hockey_pl - h_mean) ** 2) + np.sum((weightlifting - w_mean) ** 2)
s2_ost

577.0568181818182

In [14]:
s2_ost + s2f

830.964285714286

Общая дисперсия:

In [16]:
s2_general = all_s2 / (len(all_hight) - 1)
s2_general

30.776455026455015

Факторная дисперсия:

In [17]:
s2_factor = s2f / (3 - 1)
s2_factor

126.9537337662339

Остаточная дисперсия:

In [18]:
s2_residual = s2_ost / (len(all_hight) - 3)
s2_residual

23.08227272727273

Наблюдаемый критерий Фишера:

In [20]:
F_h = s2_factor / s2_residual
F_h

5.500053450812598

Для проверки воспользуемся встроенной функцией:

In [4]:
stats.f_oneway(football_pl, hockey_pl, weightlifting)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698693)

Результат совпадает.

In [21]:
alpha = 0.05
d_f1 = 3 - 1
d_f2 = len(all_hight) - 3
d_f1, d_f2

(2, 25)

Табличное значение критерия Фишера  равно 3,38. Следовательно мы отвергаем нулевую гипотезу и принимаем гипотезу, что рост спортсмена зависит от вида спорта.