In [29]:
import numpy as np
import pandas as pd
from scipy import stats

__Задача 1__

Проведите дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трёх группах случайно выбранных спортсменов: 


In [2]:
football_players = np.array([173, 175, 180, 178, 177, 185, 183, 182])
hockey_players = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
lifters = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

__Решение__

Проверим гипотезу о равенстве среднего роста по каждой группе. Для проверки этой гипотезы воспользуемся однофакторным дисперсионным анализом.

In [4]:
n1 = football_players.shape[0]
n2 = hockey_players.shape[0]
n3 = lifters.shape[0]
n1, n2, n3

(8, 9, 11)

In [5]:
f_mean = football_players.mean()
h_mean = hockey_players.mean()
l_mean = lifters.mean()
f_mean, h_mean, l_mean

(179.125, 178.66666666666666, 172.72727272727272)

Так как средние значения разнятся проверим статистическую значимость этой отличия.

In [20]:
y = np.concatenate([football_players, hockey_players, lifters])
y

array([173, 175, 180, 178, 177, 185, 183, 182, 177, 179, 180, 188, 177,
       172, 171, 184, 180, 172, 173, 169, 177, 166, 180, 178, 177, 172,
       166, 170])

In [21]:
y_mean = y.mean()
y_mean

176.46428571428572

Найдём значения $S_F^2$ и $S_{res}^2$:

In [22]:
S2_F = n1 * (f_mean - y_mean) ** 2 + n2 * (h_mean - y_mean) ** 2 + n3 * (l_mean - y_mean) ** 2
S2_res = ((football_players - f_mean) ** 2).sum() + ((hockey_players - h_mean) ** 2).sum() + ((lifters - l_mean) ** 2).sum()
S2_F, S2_res

(253.9074675324678, 577.0568181818182)

Проверим выполнение равенства $S^2 = S_F^2 + S_{res}^2:$

In [24]:
((y - y_mean) ** 2).sum()

830.9642857142854

In [25]:
S2_F + S2_res

830.964285714286

Полученные значения отличаются лишь на последнем знаке, так что можем считать, что равенство выполненно.

Оценки дисперсий:

In [27]:
k = 3
n = n1 + n2 + n3
k1 = k - 1
k2 = n - k
sigma2_F = S2_F / k1
sigma2_res = S2_res / k2

sigma2_F, sigma2_res

(126.9537337662339, 23.08227272727273)

In [28]:
T = sigma2_F / sigma2_res
T

5.500053450812598

Возьмем уровень значимости $\alpha = 0.05$. Для него найдём критическое значение $F_{crit}$:

In [30]:
alpha = 0.05

F_crit = stats.f.ppf(1 - alpha, k1, k2)
F_crit

3.3851899614491687

Видим, что $T > F_{crit}$, поэтому заключаем, что отличие среднего роста является статистически значимым.

__Задача 2__

С помощью критерия Стьюдента для двух независимых выборок проверьте гипотезу о равенстве среднего роста футболистов и хоккеистов из задачи 1.

__Решение__

Проверим гипотезу о том, что средние значения по этим двум выборкам совпадают.

Для начала получим нужные нам данные: мат. ожидание, среднее отклонение и размер выборки:

(мат ожидание мы посчитали в предыдущем задании)

In [31]:
f_std = football_players.std()
h_std = hockey_players.std()

In [32]:
f_mean, f_std, n1

(179.125, 3.8547859862773186, 8)

In [33]:
h_mean, h_std, n2

(178.66666666666666, 5.033222956847166, 9)

Далее, вычисляем эмпирическое значения по формуле t-критерия Стьюдента для независимых выборок:

$$T = \dfrac{\overline{X_1} -\overline{X_2}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}.$$

In [38]:
T = (f_mean - h_mean) / (np.sqrt((f_std ** 2 / n1) + (h_std ** 2 / n2)))
T

0.2120406006079591

Вычислим степени свободы:

In [36]:
df = n1 + n2 - 2
df

15

Определяем по таблице критических значений t-Стьюдента уровень значимости.

Значение 0.212 меньше чем значение 2,131 следовательно уровень значимости меньше 0.05

Так как уровень значимости меньше 0.05 делаем вывод о наличи различий между группами. Таким образом гипотеза о равенстве среднего роста между футболистами и хоккеистами отвергается.