### Урок 8. Дисперсионный анализ. Логистическая регрессия


In [1]:
import numpy as np
from scipy import stats

#### 1. Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: 

Футболисты: 173, 175, 180, 178, 177, 185, 183, 182.

Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. 

Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

Рост футболистов:

In [2]:
y1 = np.array([173, 175, 180, 178, 177, 185, 183, 182], dtype=np.float64)

Рост хоккеистов:

In [3]:
y2 = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180], dtype=np.float64)

Рост штангистов:

In [4]:
y3 = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170], dtype=np.float64)

Всего значений:

In [5]:
n1 = len(y1)
n2 = len(y2)
n3 = len(y3)
n = n1 + n2 + n3
n

28

Всего три группы:

In [6]:
k = 3

#### Проведем однофакторный дисперсионный анализ. 
Сначала найдем средний рост для каждой профессии:

In [7]:
y1_mean = np.mean(y1)
print(y1_mean)

179.125


In [8]:
y2_mean = np.mean(y2)
print(y2_mean)

178.66666666666666


In [9]:
y3_mean = np.mean(y3)
print(y3_mean)

172.72727272727272


#### Установим, что это отличие статистически значимо. 

Для этого сначала соберем все значения роста в один массив:

In [10]:
y_all = np.concatenate([y1, y2, y3])
y_all

array([173., 175., 180., 178., 177., 185., 183., 182., 177., 179., 180.,
       188., 177., 172., 171., 184., 180., 172., 173., 169., 177., 166.,
       180., 178., 177., 172., 166., 170.])

Найдем среднее значение роста по всем значениям:

In [11]:
y_mean = np.mean(y_all)
print(y_mean)

176.46428571428572


Найдем $S^2$ — сумму квадратов отклонений наблюдений от общего среднего:

In [12]:
s2 = np.sum((y_all - y_mean)**2)
s2

830.9642857142854

Найдем $S^2_F$ - сумму квадратов отклонений средних групповых значений от общего среднего:

In [13]:
s2_f = ((y1_mean - y_mean)**2) * n1 + ((y2_mean - y_mean)**2) * n2 + ((y3_mean - y_mean)**2) * n3
s2_f

253.9074675324678

Найдем $S^2_{ост}$ — остаточную сумму квадратов отклонений:

In [14]:
s2_residual = np.sum((y1 - y1_mean)**2) + np.sum((y2 - y2_mean)**2) + np.sum((y3 - y3_mean)**2)
s2_residual

577.0568181818182

Удостоверимся, что соблюдается равенство $S^2 = S_F^2 + S_{ост}^2$:

In [15]:
print(s2)
print(s2_f + s2_residual)

830.9642857142854
830.964285714286


Найдем общую дисперсию:

In [16]:
sigma2_general = s2 / (n - 1)
sigma2_general

30.776455026455015

Найдем факторную дисперсию:

In [17]:
sigma2_f = s2_f / (k - 1)
sigma2_f

126.9537337662339

Найдем остаточную дисперсию:

In [18]:
sigma2_residual = s2_residual / (n - k)
sigma2_residual

23.08227272727273

Вычислим $F_H$:

In [19]:
F_h = sigma2_f / sigma2_residual
F_h

5.500053450812598

Найдем значение $F_{крит}$ в таблице критических точек распределения Фишера-Снедекора для заданного уровня значимости $\alpha = 0.05$ и двух степеней свободы: 

$df_{межд} = k - 1 = 3 - 1 = 2$ и $df_{внутр} = n - k = 28 - 3 = 25$.

Для данных значений $F_{крит} = 3.38$. 

Так как $F_H > F_{крит}$, различие средних роста спортсменов в трех группах статистически значимо.

#### Расчитаем то же самое с помощью библиотеки stats.f_oneway

In [20]:
stats.f_oneway(y1,y2,y3)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

Вывод: при уровне значимости $\alpha = 0.05$ профессия влияет на средний рост