Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: 

Футболисты: 173, 175, 180, 178, 177, 185, 183, 182.   
Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180.   
Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.  

In [2]:
import numpy as np
import pandas as pd
from scipy import stats

In [19]:
fb = np.array([173, 175, 180, 178, 177, 185, 183, 182])
hc = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
sh = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

n_fb = len(fb)
n_hc = len(hc)
n_sh = len(sh)

Определим сначала средние значения переменной по видам спорта:

$$\overline{y}_{i} = \frac{1}{n_i}\sum\limits_{j=1}^{n_i}y_{ij}$$

In [17]:
print('Футболтсты {:.2f}'.format(fb.mean()))
print('Хоккеисты  {:.2f}'.format(hc.mean()))
print('Штангисты  {:.2f}'.format(sh.mean()))

Футболтсты 179.12
Хоккеисты  178.67
Штангисты  172.73


Рост спортсменов отличается, установим статистичекую значимость этого различия.

Для этого определим среднее значение по всем гурппам:

$$\overline{Y} = \frac{1}{n}\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}y_{ij} = \frac{1}{n}\sum\limits_{i=1}^{k}\overline{y}_{i}n_{i}$$

In [31]:
y_all = np.concatenate([fb, hc, sh])
all_mean = y_all.mean()
print('Средняя величина по всем спортсменам {:.2f}'.format(all_mean))

Средняя величина по всем спортсменам 176.46


Вычислим сумму квадратов отклонений от общего среднего

$$S^2 = \sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}({y}_{ij} - \overline{Y})^2$$

In [32]:
S2 = np.sum((y_all - all_mean)**2)
S2

830.9642857142854

Вычислим сумму квадратов отклонений среднегрупповых от общего среднего

$$S_F^2 = \sum\limits_{i=1}^{k}(\overline{y}_i - \overline{Y})^2n_i$$

In [33]:
S2_f = ((fb.mean() - all_mean)**2)*n_fb + ((hc.mean() - all_mean)**2)*n_hc + ((sh.mean() - all_mean)**2)*n_sh
S2_f

253.9074675324678

Вычислим остаточную сумму отклонений 

$$S_{ост}^{2} = \sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(y_{ij} - \overline{y}_i)^2$$

In [35]:
S2_res = np.sum((fb - fb.mean())**2) + np.sum((hc - hc.mean())**2) + np.sum((sh - sh.mean())**2)
S2_res

577.0568181818182

Проверим верность равенства $S^2 = S_F^2 + S_{ост}^2$:

In [37]:
round(S2, 2) == round(S2_f + S2_res, 2)

True

Вычислим общую:
    
$$\sigma_{общ}^{2} = \frac{S^2}{n - 1} = \frac{1}{n-1}\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(y_{ij} - \overline{Y})^2$$

факторную:

$$\sigma_{F}^{2} = \frac{S_{F}^{2}}{k-1} = \frac{1}{k-1}\sum\limits_{i=1}^{k}(\overline{y}_i - \overline{Y})^{2}n_i$$

и остаточную дисперсию:

$$\sigma_{ост}^{2} = \frac{S_{ост}^{2}}{n - k} = \frac{1}{n - k}\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(y_{ij} - \overline{y}_i)^2$$

In [39]:
sigma2_general = S2/(n_fb + n_hc + n_sh)
sigma2_f = S2_f/(3-1)
sigma2_res = S2_res/(n_fb + n_hc + n_sh - 3)

print('sigma2_general = {:.2f}'.format(sigma2_general))
print('sigma2_f       = {:.2f}'.format(sigma2_f))
print('sigma2_res     = {:.2f}'.format(sigma2_res))

sigma2_general = 29.68
sigma2_f       = 126.95
sigma2_res     = 23.08


Вычислим наблюдаемое значение критерия Фишера

$$F_H = \frac{\sigma_{F}^{2}}{\sigma_{ост}^{2}}$$

In [40]:
F_h = sigma2_f/sigma2_res
F_h

5.500053450812598

Зададим уровень значимости $\alpha = 0.05$,

k = 3,  
n = 28

Тогда табличное значение F для заданного уровня значимости и колличества степеней свободы:  

$df_{межд} = k - 1 = 3 - 1 = 2$,  
$df_{внутр} = n - k = 28 - 3 = 25$,

составит $F_{крит} = 3.38$

$$F_H > F_{крит}$$
$$5.5 > 3.38$$ 

Следовательно различие роста спортсменов в трёх группах значимы

In [43]:
#Проверим полученное значение с помощью функции модуля scipy
stats.f_oneway(fb, hc, sh)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

#### Результаты расчета совпадают с ранее вычисленными значениями