### Задание 1

Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: 
```
football_players = [173, 175, 180, 178, 177, 185, 183, 182]
hockey_players = [177, 179, 180, 188, 177, 172, 171, 184, 180]
lifters = [172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170]
```

Необходимо проверить гипотезу $H_0$ о __различии__ средних значений роста по данным выборкам среди взрослых футболистов, хоккеистов и штангистов

Для проверки гипотезы применим однофакторный дисперсионный анализ. В предположении верности гипотезы $H_0$ статистика $T$ будет иметь распределение Фишера с параметрами $k_1 = k - 1$, $k_2 = n - k$. Выберем уровень значимости $\alpha = 0.05$, рассчитаем критическое значение $F_{crit}$, равное квантилю порядка $1 - \alpha$ для распределения $F(k_1, k_2)$. Если $T > F_{crit}$, то гипотеза $H_0$ принимается.

In [1]:
import numpy as np
from scipy import stats
from scipy.stats import f_oneway

In [2]:
football_players = np.array([173, 175, 180, 178, 177, 185, 183, 182], dtype=np.float64)
hockey_players = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180], dtype=np.float64)
lifters = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170], dtype=np.float64)

n_Fp = football_players.shape[0]
n_Hp = hockey_players.shape[0]
n_Lf = lifters.shape[0]

n_Fp, n_Hp, n_Lf

(8, 9, 11)

Выборочные средние по каждой группе:

In [3]:
y_Fp_mean = football_players.mean()
y_Hp_mean = hockey_players.mean()
y_Lf_mean = lifters.mean()

y_Fp_mean, y_Hp_mean, y_Lf_mean

(179.125, 178.66666666666666, 172.72727272727272)

Видно, что средний рост разнится не сильно.

In [4]:
y_height_sum = np.concatenate([football_players, hockey_players, lifters])

print(y_height_sum)

[173. 175. 180. 178. 177. 185. 183. 182. 177. 179. 180. 188. 177. 172.
 171. 184. 180. 172. 173. 169. 177. 166. 180. 178. 177. 172. 166. 170.]


In [5]:
y_height_sum_mean = y_height_sum.mean()
y_height_sum_mean

176.46428571428572

Находим значения $S_b^2$ и $S_w^2$:

In [6]:
S2_b = n_Fp * (y_Fp_mean - y_height_sum_mean) ** 2 + n_Hp * (y_Hp_mean - y_height_sum_mean) ** 2 + n_Lf * (y_Lf_mean - y_height_sum_mean) ** 2

S2_w = ((football_players - y_Fp_mean) ** 2).sum() + ((hockey_players - y_Hp_mean) ** 2).sum() + ((lifters - y_Lf_mean) ** 2).sum()

S2_b, S2_w

(253.9074675324678, 577.0568181818182)

Проверим выполнение равенства $S^2 = S_b^2 + S_w^2:$

In [7]:
round(S2_b + S2_w, 3) == round(((y_height_sum - y_height_sum_mean) ** 2).sum(), 3)

True

In [8]:
k = 3
n = n_Fp + n_Hp + n_Lf

k1 = k - 1
k2 = n - k

sigma2_b = S2_b / k1
sigma2_w = S2_w / k2

sigma2_b, sigma2_w

(126.9537337662339, 23.08227272727273)

Значение статистики $T$:

In [9]:
T = sigma2_b / sigma2_w
T

5.500053450812598

Находим критическое значение $F_{crit}$ для уровеня значимости $\alpha = 0.05$:

In [10]:
alpha = 0.05

F_crit = stats.f.ppf(1 - alpha, k1, k2)
F_crit

3.3851899614491687

$Pvalue:$

In [11]:
p = 1 - stats.f.cdf(T, k1, k2)
p

0.010482206918698611

$T > F_{crit}$, поэтому заключаем, что различия среднего роста является статистически значимым, поэтому гипотеза $H_0$ принимается (очевидно, что рост штангистов влияет на результат, так как штангисты по специфике спорта имеют средний рост ниже, чем у футболистов и хоккеистов, однако отличия не столь сильные, что показывают значения $T = 5.5$ и $F_{crit} = 3.4$).

Проверяем с помощью встроенного метода:

In [12]:
f_oneway(football_players, hockey_players, lifters)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)