In [17]:
import numpy as np
from scipy import stats
from scipy.stats import f_oneway

### Задача 1
Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: 
```
football_players = [173, 175, 180, 178, 177, 185, 183, 182]
hockey_players = [177, 179, 180, 188, 177, 172, 171, 184, 180]
lifters = [172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170]
```

#### Решение:
Сначала найдем выборочные средние по каждой группе:

In [3]:
y_fp = np.array([173, 175, 180, 178, 177, 185, 183, 182], dtype=np.float64)
y_hp = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180], dtype=np.float64)
y_l = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170], dtype=np.float64)

n_fp = y_fp.shape[0]
n_hp = y_hp.shape[0]
n_l = y_l.shape[0]

y_fp_mean = y_fp.mean()
y_hp_mean = y_hp.mean()
y_l_mean = y_l.mean()

y_fp_mean, y_hp_mean, y_l_mean

(179.125, 178.66666666666666, 172.72727272727272)

Теперь соберем все значения в один массив и найдем средний рост спортсменов:

In [4]:
y = np.concatenate([y_fp, y_hp, y_l])
y_mean = y.mean()
y_mean

176.46428571428572

Найдём значения $S_b$ и $S_{w}$:

In [6]:
S2_b = n_fp * (y_fp_mean - y_mean) ** 2 + n_hp * (y_hp_mean - y_mean) ** 2 + n_l * (y_l_mean - y_mean) ** 2

S2_w = ((y_fp - y_fp_mean) ** 2).sum() + ((y_hp - y_hp_mean) ** 2).sum() + ((y_l - y_l_mean) ** 2).sum()

S2_b, S2_w

(253.9074675324678, 577.0568181818182)

Проверим выполнение равенства $S^2 = S_b^2 + S_{w}^2:$

In [12]:
S2_b + S2_w

830.964285714286

In [11]:
((y - y_mean) ** 2).sum()

830.9642857142854

Запишем оценки дисперсий:

In [13]:
k = 3
n = n_fp + n_hp + n_l

k1 = k - 1
k2 = n - k

sigma2_b = S2_b / k1
sigma2_w = S2_w / k2

sigma2_b, sigma2_w

(126.9537337662339, 23.08227272727273)

Итак, значение статистики $T$:

In [14]:
T = sigma2_b / sigma2_w
T

5.500053450812598

Зафиксируем уровень значимости $\alpha = 0.05$. Для него найдём критическое значение $F_{crit}$:

In [15]:
alpha = 0.05

F_crit = stats.f.ppf(1 - alpha, k1, k2)
F_crit

3.3851899614491687

In [16]:
p = 1 - stats.f.cdf(T, k1, k2)
p

0.010482206918698611

Видим, что $T > F_{crit}$, p-value < $\alpha$, поэтому заключаем, что отличие среднего роста действительно является статистически значимым.

In [18]:
f_oneway(y1, y2, y3)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

#### Ответ:
Отличие среднего роста спортсменов является статистически значимым.