# Урок 8. Дисперсионный анализ. Логистическая регрессия

1. Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [88]:
import numpy as np
from scipy import stats

In [89]:
F = np.array([173, 175, 180, 178, 177, 185, 183, 182])
H = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
L = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

Тестируем нулевую гипотезу:
### $$H_0:\mu_F=\mu_H=\mu_L$$

In [90]:
stats.f_oneway(F, H, L)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

Полученная величина $p-value$ позволяет утверждать, что нулевая гипотеза отвергается на 5% уровне значимости, но не может быть отвергнута на 1% уровне значимости.

Повторим вручную проведенный анализ. Для этого сначала определим средние значения для каждой из выборок и общее среднее:
### $$\overline{x}_F \approx 179.13$$
### $$\overline{x}_H \approx 178.67$$
### $$\overline{x}_L \approx 172.73$$
### $$\overline{x}_{FHL} \approx 176.46$$

In [91]:
FHL = np.concatenate((F, H, L))
print(f'Средний рост футболистов - {np.mean(F)}')
print(f'Средний рост хоккеистов - {np.mean(H)}')
print(f'Средний рост штангистов - {np.mean(L)}')
print(f'Средний рост спортсменов - {np.mean(FHL)}')

Средний рост футболистов - 179.125
Средний рост хоккеистов - 178.66666666666666
Средний рост штангистов - 172.72727272727272
Средний рост спортсменов - 176.46428571428572


Посчитаем сумму квадратов отклонений имеющихся наблюдений от среднего:
### $$S^2 \approx 830.9643$$

In [92]:
s2 = ((FHL - np.mean(FHL))**2).sum()
print(f'Сумма квадратов отклонений имеющихся наблюдений от среднего - {s2}')

Сумма квадратов отклонений имеющихся наблюдений от среднего - 830.9642857142854


Далее посчитаем сумму квадратов отклонений средних групповых значений от общего среднего:
### $$S^2_F \approx 253.9075$$

In [93]:
s2f = ((np.mean(F) - np.mean(FHL))**2)*len(F) + \
    ((np.mean(H) - np.mean(FHL))**2)*len(H) + \
    ((np.mean(L) - np.mean(FHL))**2)*len(L)
print(f'Сумма квадратов отклонений средних групповых значений от общего среднего - {s2f}')

Сумма квадратов отклонений средних групповых значений от общего среднего - 253.9074675324678


Теперь найдем остаточную сумму квадратов отклонений:
### $$S^2_{ост} \approx 577.0568$$

In [94]:
s2ost = ((F - np.mean(F))**2).sum() + ((H - np.mean(H))**2).sum() + ((L - np.mean(L))**2).sum()
print(f'Остаточная сумма квадратов отклонений - {s2ost}')

Остаточная сумма квадратов отклонений - 577.0568181818182


Вычислим факторную дисперсию, $k=3$ в данном случае:
### $$\sigma^2_F = \frac{S^2_F}{k-1} = \frac{253.9075}{2} \approx 126.9537$$
Вычислим остаточную дисперсию:
### $$\sigma^2_{ост} = \frac{S^2_{ост}}{n-k} = \frac{577.0568}{25} \approx 23.0823$$

In [95]:
k = 3
n = len(FHL)
sigma_f = s2f/(k-1)
sigma_ost = s2ost/(n-k)
print(f'Факторная дисперсия - {sigma_f}')
print(f'Остаточная дисперсия - {sigma_ost}')

Факторная дисперсия - 126.9537337662339
Остаточная дисперсия - 23.08227272727273


Теперь найдем рассчетное значение критерия Фишера:
### $$F_H=\frac{\sigma^2_F}{\sigma^2_{ост}} \approx 5.5$$

In [96]:
sigma_f/sigma_ost

5.500053450812598

Критическое значение критерия Фишера для разных уровней значимости и соответствующих степеней свободы $(2, 25)$:
### $$F_{крит5\%}  =3.38$$
### $$F_{крит1\%}  =5.57$$

Получаем такой же вывод: гипотеза о равенстве средних во всех группах отвергается на 5% уровне значимости, но принимается на 1% уровне значимости.