In [1]:
import numpy as np
from scipy import stats

Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов.
Даны значения роста в трех группах случайно выбранных спортсменов:  
Футболисты: 173, 175, 180, 178, 177, 185, 183, 182.  
Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180.  
Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [2]:
y1 = np.array([173, 175, 180, 178, 177, 185, 183, 182]) # футболисты
y2 = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180]) # хоккеисты
y3 = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170]) # штангисты

In [3]:
n1 = y1.shape[0]
n2 = y2.shape[0]
n3 = y3.shape[0]

n1, n2, n3

(8, 9, 11)

Проведем однофакторный дисперсионный анализ. Выборочные средние по каждой группе:

In [4]:
y1_mean = y1.mean()
y2_mean = y2.mean()
y3_mean = y3.mean()

y1_mean, y2_mean, y3_mean

(179.125, 178.66666666666666, 172.72727272727272)

Выборочные средние по каждой группе (вручную):

In [5]:
y1_new_mean = np.sum(y1) / n1
y2_new_mean = np.sum(y2) / n2
y3_new_mean = np.sum(y3) / n3

y1_new_mean, y2_new_mean, y3_new_mean  

(179.125, 178.66666666666666, 172.72727272727272)

 Добавим все значения роста в один массив:

In [6]:
y_all = np.concatenate([y1, y2, y3])

print(y_all)

[173 175 180 178 177 185 183 182 177 179 180 188 177 172 171 184 180 172
 173 169 177 166 180 178 177 172 166 170]


Найдем значение среднего роста всех спортсменов

$\overline{Y}$ — среднее значение переменной **Y** по всем значениям:

$$ \overline{Y} = \frac{1}{n} \sum_{i=1}^{k} \sum_{j=1}^{n_i} y_{ij} = 
\frac{1}{n} \sum_{i=1}^{k} \overline{y}_{i} n_{i} $$

In [7]:
y_mean = y_all.mean()
y_mean

176.46428571428572

Найдем $S^2$ — сумму квадратов отклонений наблюдений от общего среднего:

$$ S^2 = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (y_{ij} - \overline{Y})^2$$

In [8]:
s2 = np.sum((y_all - y_mean)**2)
s2

830.9642857142854

Найдем $S^2_F$ - сумму квадратов отклонений средних групповых значений от общего среднего:

$$S_F^2 = \sum_{i=1}^{k}(\overline{y}_i - \overline{Y})^2n_i$$

$S_{\text{ост}}^2$ — остаточная сумма квадратов отклонений:

$$S_{\text{ост}}^{2} = \sum_{i=1}^{k}\sum_{j=1}^{n_i}(y_{ij} - \overline{y}_i)^2$$

In [9]:
S2_f  = n1 * (y1_mean - y_mean) ** 2 + n2 * (y2_mean - y_mean) ** 2 + n3 * (y3_mean - y_mean) ** 2

S2_residual = ((y1 - y1_mean) ** 2).sum() + ((y2 - y2_mean) ** 2).sum() + ((y3 - y3_mean) ** 2).sum()

S2_f, S2_residual

(253.9074675324678, 577.0568181818182)

Тогда сумма квадратов отклонений наблюдений от общего среднего дожна быть равна:

$$S^2 = S_F^2 + S_{\text{ост}}^2$$

In [10]:
print(S2_f + S2_residual)
print(s2)

830.964285714286
830.9642857142854


Запишем оценки дисперсий:

In [11]:
k = 3
n = 28

k1 = k - 1
k2 = n - k

sigma2_general = s2 / (n - 1) # общая дисперсия

sigma2_f = S2_f / k1 # факторная дисперсия 
sigma2_residual = S2_residual / k2 # остаточная дисперсия


sigma2_general, sigma2_f, sigma2_residual

(30.776455026455015, 126.9537337662339, 23.08227272727273)

Значение статистики $F$:

In [12]:
F = sigma2_f / sigma2_residual
F

5.500053450812598

Зафиксируем уровень значимости $\alpha = 0.05$. Для него найдём нужный нам квантиль:

In [13]:
alpha = 0.05

t = stats.f.ppf(1 - alpha, k1, k2)
t

3.3851899614491687

Итак, наша критическая область имеет вид:
$$\Omega_\alpha = \left( 3.38, \infty \right)$$

Так как  𝐹 > 𝐹крит , различие среднего роста в трех группах статистически значимо.  

Также вычислим эмпирическое корреляционное отношение $\eta^2$:

In [14]:
eta2 = S2_f / s2
eta2

0.30555761769498

Так как при значениях $\eta^2$ ниже 0.2-0.3 групповые значения средних не имеют статистически достоверного отличия. Поэтому различие среднего роста в трех группах является статистически значимым.