### Урок 8. Дисперсионный анализ. Логистическая регрессия

##### 1. Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [4]:
import numpy as np

fb = np.array([173, 175, 180, 178, 177, 185, 183, 182])
hc = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
sht = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

k = 3

n1 = len(fb)
n2 = len(hc)
n3 = len(sht)

n = n1 + n2 + n3
print(n)

28


Проведем однофакторный дисперсионный анализ. Сначала найдем средний рост для каждой группы спортсменов:

In [5]:
fb_mean = fb.mean()
hc_mean = hc.mean()
sht_mean = sht.mean()
print(fb_mean, hc_mean, sht_mean)

179.125 178.66666666666666 172.72727272727272


Видно, что средний рост отличается. Установим, что это отличие статистически значимо. Для этого сначала соберем 

все значения среднего роста в один массив:

In [7]:
all_hght = np.concatenate([fb, hc, sht])
print(all_hght)

[173 175 180 178 177 185 183 182 177 179 180 188 177 172 171 184 180 172
 173 169 177 166 180 178 177 172 166 170]


Найдем среднее значение среднего роста по всем значениям:

In [8]:
all_mean = all_hght.mean()
print(all_mean)

176.46428571428572


Найдем $S^2$ — сумму квадратов отклонений наблюдений от общего среднего:

In [9]:
s2 = np.sum((all_hght - all_mean)**2)
print(s2)

830.9642857142854


Найдем $S^2_F$ - сумму квадратов отклонений средних групповых значений от общего среднего:

In [10]:
s2f = (fb_mean - all_mean)**2 * n1 + (hc_mean - all_mean)**2 * n2 + (sht_mean - all_mean)**2 * n3
print(s2f)

253.9074675324678


Найдем $S^2_{ост}$ — остаточную сумму квадратов отклонений:

In [11]:
s2ost = np.sum((fb - fb_mean)**2) + np.sum((hc - hc_mean)**2) + np.sum((sht - sht_mean)**2)
print(s2ost)

577.0568181818182


Удостоверимся, что соблюдается равенство $S^2 = S_F^2 + S_{ост}^2$:

In [13]:
print(s2)
print(s2ost + s2f)

830.9642857142854
830.964285714286


Найдем общую дисперсию:

In [14]:
s2_general = s2 / (n - 1)
print(s2_general)

30.776455026455015


Найдем факторную дисперсию:

In [15]:
s2_f = s2f / (k - 1)
print(s2_f)

126.9537337662339


Найдем остаточную дисперсию:

In [16]:
s2_residual  = s2ost / (n - k)
print(s2_residual)

23.08227272727273


Вычислим $F_H$:

In [17]:
F_h = s2_f / s2_residual
print(F_h)

5.500053450812598


Найдем значение $F_{крит}$ в таблице критических точек распределения Фишера-Снедекора для уровня значимости $\alpha = 0.05$ и двух степеней свободы: 

$df_{межд} = k - 1 = 3 - 1 = 2$ и $df_{внутр} = n - k = 28 - 3 = 25$.

Для данных значений $F_{крит} = 3.38$. Так как $F_H$ близок к $F_{крит}$, различие среднего роста в трех группах статистически не значимо

Также вычислим эмпирическое корреляционное отношение $\eta^2$:

In [18]:
eta2 = s2_f / s2
print(eta2)

0.15277880884749


при значениях $\eta^2$ ниже 0.2-0.3 групповые значения средних не имеют статистически достоверного отличия.