In [1]:
import numpy as np
from scipy import stats

### Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [2]:
# футболисты
y1 = np.array([173, 175, 180, 178, 177, 185, 183, 182])
# хоккеисты
y2 = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
# штангисты
y3 = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

Нулевая гипотеза $H_0$ - среди взрослых футболлистов, хоккеистов и штангистов нет статистически значимых различий в среднем росте

Альтернативная гипотеза $H_1$ - среди взрослых футболлистов, хоккеистов и штангистов есть статистически значимые различия в среднем росте

Для тестирования гипотезы будет проведен дисперсионный анализ

In [3]:
k = 3
n1 = y1.shape[0]
n2 = y2.shape[0]
n3 = y3.shape[0]

n = n1 + n2 + n3

n1, n2, n3, n

(8, 9, 11, 28)

$$ \overline{y_i} = \frac{1}{n_i}\sum_{j=1}^{n_i}y_{ij} $$

In [4]:
# средние для каждой из групп спортсменов
y1_ = np.mean(y1)
y2_ = np.mean(y2)
y3_ = np.mean(y3)

y1_, y2_, y3_

(179.125, 178.66666666666666, 172.72727272727272)

$$ \overline{Y} = \frac{1}{n}\sum_{i=1}^{k}\sum_{j=1}^{n_j}y_{ij} = \frac{1}{n}\sum_{i=1}^{k}\overline{y_i}n_i $$

In [5]:
# все значения
Y = np.hstack((y1, y2, y3))

# среднее по всем значениям
Y_ = np.mean(Y)
Y_

176.46428571428572

$S^2$ - сумма квадратов отклонений наблюдений от общего среднего 

(TSS)

$$ S^2 = \sum_{i=1}^{k}\sum_{j=1}^{n_i}(y_{ij} - \overline{Y})^2 $$

In [6]:
TSS = np.sum((Y - Y_)**2)
TSS

830.9642857142854

$ S_{F}^{2} $ - сумма квадратов отклонений средних групповых значений от общего среднего значения $ \overline{Y} $ 


(ESS)

$$ S_{F}^{2} = \sum_{i=1}^{k}(\overline{y_{i}} - \overline{Y})^{2}n_{i} $$

In [7]:
ESS = (((y1_ - Y_)**2)*n1) + (((y2_ - Y_)**2)*n2) + (((y3_ - Y_)**2)*n3)
ESS

253.9074675324678

$ S_{ост}^{2} $ - остаточная сумма квадратов отклонений

(RSS)

$$ S_{ост}^{2} = \sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij} - \overline{y_{i}})^2 $$

In [8]:
RSS = np.sum((y1 - y1_)**2) + np.sum((y2 - y2_)**2) + np.sum((y3 - y3_)**2)
RSS

577.0568181818182

$$ S^2 = S_{F}^{2} + S_{ост}^{2} $$

$$ TSS = ESS + RSS $$

In [9]:
# проверка 
TSS, ESS + RSS

(830.9642857142854, 830.964285714286)

Факторная дисперсия

$$ \sigma_{F}^{2} = \frac{S_{F}^{2}}{k - 1} = \frac{1}{k - 1}\sum_{i=1}^{k}(\overline{y_{i}} - \overline{Y})^2n_{i} $$

$$ MS_{B} = \frac{ESS}{k - 1} $$

In [10]:
MSb = ESS/(k - 1)
MSb

126.9537337662339

Остаточная дисперсия

$$ \sigma_{ост}^{2} = \frac{S_{ост}^{2}}{n - k} = \frac{1}{n - k}\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij} - \overline{y_{i}})^2 $$

$$ MSw = \frac{RSS}{n - k} $$

In [11]:
MSw = RSS/(n - k)
MSw

23.08227272727273

$$ F_{H} = \frac{\sigma_{F}^{2}}{\sigma_{ост}^{2}} $$

$$ F_{H} = \frac{MSb}{MSw} $$

In [12]:
F_H = MSb/MSw
F_H

5.500053450812598

Проверка полученного значения методом stats.f_oneway из библиотеки scipy

In [13]:
stats.f_oneway(y1, y2, y3)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

In [14]:
k - 1, n - k

(2, 25)

Найдем значение $ F_{крит} $ в таблице критических точек распределения Фишера-Снедекора для заданного уровня значимости $ \alpha = 0.05 $

In [15]:
alpha = 0.05
F_crit = 3.38

F_crit > F_H, stats.f_oneway(y1, y2, y3)[1] > alpha

(False, False)

### Вывод:

$F_H > F_{крит}$ => Различия среднего роста между группами статистически значимое на уровне значимости $\alpha = 0.05$. Нулевая гипотеза $H_0$ отклоняется