In [1]:
import numpy as np
from scipy import stats

# Задача 1

_Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов.
Даны значения роста в трех группах случайно выбранных спортсменов:_

_Футболисты:_ **173, 175, 180, 178, 177, 185, 183, 182.**

_Хоккеисты:_ **177, 179, 180, 188, 177, 172, 171, 184, 180.**

_Штангисты:_ **172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.**_

In [10]:
fb_height = np.array([173, 175, 180, 178, 177, 185, 183, 182])
hp_height = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
wl_height = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

In [23]:
alpha = 0.05

#### Выполним проверку данных на нормальность распределения:

In [11]:
stat_fb, p_val_fb = stats.shapiro(fb_height)
print(f'Футболисты: stat_fb = {stat_fb:.3f}, p_val_fb = {p_val_fb:.3f}')
stat_hp, p_val_hp = stats.shapiro(hp_height)
print(f'Хоккеисты: stat_hp = {stat_hp:.3f}, p_val_hp = {p_val_hp:.3f}')
stat_wl, p_val_wl = stats.shapiro(wl_height)
print(f'Штангисты: stat_wl = {stat_wl:.3f}, p_val_wl = {p_val_wl:.3f}')

Футболисты: stat_fb = 0.978, p_val_fb = 0.950
Хоккеисты: stat_hp = 0.958, p_val_hp = 0.776
Штангисты: stat_wl = 0.939, p_val_wl = 0.505


In [12]:
print(f'Футболисты: ({p_val_fb:.3f} > {alpha}) == {p_val_fb > alpha}\n'
      f'Хоккеисты: ({p_val_hp:.3f} > {alpha}) == {p_val_hp > alpha}\n'
      f'Штангисты: ({p_val_wl:.3f} > {alpha}) == {p_val_wl > alpha}')

Футболисты: (0.950 > 0.05) == True
Хоккеисты: (0.776 > 0.05) == True
Штангисты: (0.505 > 0.05) == True


**pvalue** для каждой выборки больше $\alpha = 0.05$. Данные выборок имеют **нормальное распределение**.

#### Выполним проверку равенства дисперсий:

In [13]:
stat_sportsmen, p_val_sportsmen = stats.bartlett(fb_height, hp_height, wl_height)
print(f'stat_sportsmen = {stat_sportsmen:.3f}, p_val_sportsmen = {p_val_sportsmen:.3f}')

stat_sportsmen = 0.464, p_val_sportsmen = 0.793


**pvalue** больше $\alpha = 0.05$. **Дисперсии равны**.

#### Однофакторный дисперсионный анализ:

Формулировка гипотез:

$H0:\mu_{1}=\mu_{2}=\mu_{3}$    - Футболисты, хоккеисты и штангисты **не имеют** существенных различий в росте.

$H1:\mu_{1}\neq\mu_{2}\neq\mu_{3}$    -  Футболисты, хоккеисты и штангисты **имеют** существенные различия в росте.

In [14]:
stat_ha, p_val_ha = stats.f_oneway(fb_height, hp_height, wl_height)
print(f'Средний рост спортсменов: stat_ha = {stat_ha:.5f}, p_val_ha = {p_val_ha:.5f}')

Средний рост спортсменов: stat_ha = 5.50005, p_val_ha = 0.01048


Получили значение $pvalue = 0.01048$ на уровне статистической значимости $\alpha = 0.05$.

**pvalue** больше $\alpha = 0.05$. Нулевая гипотеза **отвергается**.

Футболисты, хоккеисты и штангисты имеют существенные различия в росте.



####Посчитаем **вручную**:

In [15]:
n1 = fb_height.shape[0]
n2 = hp_height.shape[0]
n3 = wl_height.shape[0]

In [16]:
fb_mean = fb_height.mean()
hp_mean = hp_height.mean()
wl_mean = wl_height.mean()

In [17]:
print(f"Среднее значение роста футболистов = {fb_mean:.2f}")
print(f"Среднее значение роста хоккеистов = {hp_mean:.2f}")
print(f"Среднее значение роста штангистов = {wl_mean:.2f}")

Среднее значение роста футболистов = 179.12
Среднее значение роста хоккеистов = 178.67
Среднее значение роста штангистов = 172.73


In [18]:
y = np.concatenate([fb_height, hp_height, wl_height])
y_mean = y.mean()
print(f"Среднее значение роста  всех спортсменов = {y_mean:.2f}")

Среднее значение роста  всех спортсменов = 176.46


In [19]:
S2_F = n1 * (fb_mean - y_mean) ** 2 + n2 * (hp_mean - y_mean) ** 2 + n3 * (wl_mean - y_mean) ** 2
S2_res = ((fb_height - fb_mean) ** 2).sum() + ((hp_height - hp_mean) ** 2).sum() + ((wl_height - wl_mean) ** 2).sum()

S2 = ((y - y_mean) ** 2).sum()
print(f" Sf^2 = {S2_F:.2f}")
print(f" Sres^2 = {S2_res:.2f}")
print()
print(f" S^2 = Sf^2 + Sres^2")
print(f"{S2:.2f} = {S2_F + S2_res:.2f}")

 Sf^2 = 253.91
 Sres^2 = 577.06

 S^2 = Sf^2 + Sres^2
830.96 = 830.96


In [20]:
k = 3
n = n1 + n2 + n3

k1 = k - 1
k2 = n - k

sigma2_F = S2_F / k1
sigma2_res = S2_res / k2

print(f"Факторная дисперсия = {sigma2_F:.2f}")
print(f"Остаточная дисперсия = {sigma2_res:.2f}")

Факторная дисперсия = 126.95
Остаточная дисперсия = 23.08


In [21]:
T = sigma2_F / sigma2_res
print(f"Значение статистики = {T:.2f}")

Значение статистики = 5.50


In [24]:
F_crit = stats.f.ppf(1 - alpha, k1, k2)
print(f"Критическое значение = {F_crit:.2f}")

Критическое значение = 3.39


Так как **T > F_crit** делаем вывод, что различие среднего роста спортсменов является **статистически значимым**.