In [None]:
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
%matplotlib inline

**1. Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.**

Протестируем нулевую гипотезу, что рост среди взрослых футболистов, хоккеистов и штангистов одинаковый.

$H0: \mu1 = \mu2 = \mu3$

$H1: \mu1 \neq \mu2 \neq \mu3$

При $\alpha = 0.05$:

$F_{расч} = 5.5$

$F_{табл} = 3.385$

$F_{расч} > F_{табл}$

**Ответ:** Различия в среднем росте в трех подгруппах статистически значимы.

In [None]:
football_players = np.array([173, 175, 180, 178, 177, 185, 183, 182])
hockey_players = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
weightlifter_players = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

alpha = 0.05

y_all = np.concatenate([football_players, hockey_players, weightlifter_players])

k = len([football_players, hockey_players, weightlifter_players])

n1 = len(football_players)
n2 = len(hockey_players)
n3 = len(weightlifter_players)

n = n1 + n2 + n3

# Средние по каждому значению
y1_mean = np.mean(football_players)
y2_mean = np.mean(hockey_players)
y3_mean = np.mean(weightlifter_players)

# Среднее значение переменной Y по всем значениям
y_mean = np.mean(y_all)

# Сумма квадратов отклонений наблюдений от общего среднего
s2 = np.sum((y_all - y_mean)**2)

# Сумма квадратов отклонений средних групповых значений от общего среднего значения y_mean
s2_f = np.sum(n1*(y1_mean - y_mean)**2 + n2*(y2_mean - y_mean)**2 + n3*(y3_mean - y_mean)**2)

# Остаточная сумма квадратов отклонений
s2_residual = np.sum((football_players - y1_mean)**2) + np.sum((hockey_players - y2_mean)**2) + np.sum((weightlifter_players - y3_mean)**2)

s2_2 = s2_f + s2_residual

# Факторная дисперсия
D_f = s2_f/(k - 1)

# Остаточная дисперсия
D_r = s2_residual/(n - k)

# Критерий Фишера расчетный
F = D_f/D_r

# Критерий Фишера табличный
F_crit = stats.f.ppf(1-alpha, dfn=(k-1), dfd=(n-k))

if F > F_crit:
  print(f'F: {F:.3f} > F_crit: {F_crit:.3f}\nВерна гипотеза H1.')
else:
  print(f'F: {F:.3f} < F_crit: {F_crit:.3f}\n Верна гипотеза H0.')

F: 5.500 > F_crit: 3.385
Верна гипотеза H1.


In [None]:
# Нахождение критерия Фишера через библиотеку
stats.f_oneway(football_players, hockey_players, weightlifter_players)

F_onewayResult(statistic=0.038473767885532584, pvalue=0.8471274829862326)