Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов.
  
Даны значения роста в трех группах случайно выбранных спортсменов:  
Футболисты: 173, 175, 180, 178, 177, 185, 183, 182.  
Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180.  
Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [1]:
import numpy as np
from scipy import stats

In [2]:
football = np.array([173, 175, 180, 178, 177, 185, 183, 182])
hockey = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
weightlifting = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])
n1 = football.shape[0]
n2 = hockey.shape[0]
n3 = weightlifting.shape[0]

In [3]:
football_mean = football.mean()
hockey_mean = hockey.mean()
weightlifting_mean = weightlifting.mean()

print(f'Средний рост футболистов: {round(football_mean, 2)}\n'\
      f'Средний рост хоккеистов: {round(hockey_mean, 2)}\n'\
      f'Средний рост штангистов: {round(weightlifting_mean, 2)}\n')

Средний рост футболистов: 179.12
Средний рост хоккеистов: 178.67
Средний рост штангистов: 172.73



In [4]:
total = np.concatenate([football, hockey, weightlifting])

y_mean_total = np.mean(total)
y_mean_total #Среднее значение роста спортсменов

S2_F = n1 * (football_mean - y_mean_total) ** 2 + n2 * (hockey_mean - y_mean_total) ** 2 + n3 * (weightlifting_mean - y_mean_total) ** 2
S2_ost = ((football - football_mean) ** 2).sum() + ((hockey - hockey_mean) ** 2).sum() + ((weightlifting - weightlifting_mean) ** 2).sum()
S2 = ((total - y_mean_total) ** 2).sum()

print(f'Сумма квадратов отклонений среди групповых значений от общего среднего: {round(S2_F, 2)}\n'\
      f'Остаточная сумма квадратов отклонений: {round(S2_ost, 2)}\n'\
      f'Сумма квадратов отклонений наблюдений от общего среднего: {round(S2, 2)}\n')

Сумма квадратов отклонений среди групповых значений от общего среднего: 253.91
Остаточная сумма квадратов отклонений: 577.06
Сумма квадратов отклонений наблюдений от общего среднего: 830.96



In [5]:
k = 3
n = n1 + n2 + n3

k1 = k - 1
k2 = n - k

sigma2_F = S2_F / k1
sigma2_ost = S2_ost / k2
T = sigma2_F / sigma2_ost

print(f'Факторная дисперсия: {round(sigma2_F, 2)}\n'\
      f'Остаточная дисперсия: {round(sigma2_ost, 2)}\n'\
      f'Значение статистики: {round(T, 2)}\n')

Факторная дисперсия: 126.95
Остаточная дисперсия: 23.08
Значение статистики: 5.5



In [6]:
stats.f_oneway(football, hockey, weightlifting)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

In [7]:
alpha = 0.05
F_crit = stats.f.ppf(1 - alpha, k1, k2)
F_crit

3.3851899614491687

**Вывод**:  
pvalue=0.010482206918698694. Это значение меньше, чем альфа=0.05., делаем вывод в пользу альтернативной гипотезы.   
Так как T(значение статистики) > F_crit(критического значения) делаем вывод, что отличие среднего роста спортсменов, является статистически значимым.