In [5]:
# Провести дисперсионный анализ для определения того,
# есть ли различия среднего роста среди взрослых футболистов,
# хоккеистов и штангистов.
# Даны значения роста в трех группах случайно выбранных спортсменов:
# Футболисты: 173, 175, 180, 178, 177, 185, 183, 182.
# Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180.
# Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

import numpy as np
from scipy import stats
import matplotlib.pyplot as plot

fbl_data = np.array([173, 175, 180, 178, 177, 185, 183, 182])
hck_data = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
wlf_data = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])
all_data = np.concatenate([fbl_data, hck_data, wlf_data])

alpha = 0.05

n1 = len(fbl_data)
n2 = len(hck_data)
n3 = len(wlf_data)
n = n1 + n2 + n3
k = 3

fbl_mean = fbl_data.mean() # Среднее по значениям роста футболистов
hck_mean = hck_data.mean() # Среднее по значениям роста хоккеистов
wlf_mean = wlf_data.mean() # Среднее по значениям роста штангистов
all_mean = np.mean(all_data) # Среднее по значениям роста всех спортсменов

S2_F = n1 * (fbl_mean - all_mean) ** 2 + n2 * (hck_mean - all_mean) ** 2 + n3 * (wlf_mean - all_mean) ** 2 # Сумма квадратов отклонений по группам спортсменов от общего среднего по всем спортсменам
S2_OST = ((fbl_data - fbl_mean) ** 2).sum() + ((hck_data - hck_mean) ** 2).sum() + ((wlf_data - wlf_mean) ** 2).sum() # Остаточная сумма квадратов отклонений
S2 = ((all_data - all_mean) ** 2).sum() # Сумма квадратов отклонений от общего среднего

k1 = k - 1
k2 = n - k

sigma2_F = S2_F / k1 # Расчет факторной дисперсии
sigma2_OST = S2_OST / k2 # Расчет остаточной дисперсии

T = sigma2_F / sigma2_OST # Расчет значения статистики

f = stats.f_oneway(fbl_data, hck_data, wlf_data)

F_CRIT = stats.f.ppf(1 - alpha, k1, k2) # Расчет критического значения

print(f'Исходя из расчета {f}, видим, что значение pvalue < {alpha}, следовательно принимаем альтернативную гипотезу.')

print(f'Значение статистики T = {T} > критического значения {F_CRIT}, следовательно отличие среднего роста всех спортсменов является статистически значимым!')

Исходя из расчета F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694), видим, что значение pvalue < 0.05, следовательно принимаем альтернативную гипотезу.
Значение статистики T = 5.500053450812598 > критического значения 3.3851899614491687, следовательно отличие среднего роста всех спортсменов является статистически значимым!
