## Тема: Дисперсионный анализ. Логистическая регрессия

ANOVA

In [1]:
import numpy as np

### 1. Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

$H0 - \mu0 = \mu1 = \mu2$  
$H1 - \mu0 <> \mu1 <> \mu2$

In [2]:
# рост футболистов
f = np.array([173, 175, 180, 178, 177, 185, 183, 182])

# рост хоккеистов
h = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])

# рост штангистов
s = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

k = 3

n_f = len(f)
n_h = len(h)
n_s = len(s)
n = n_f + n_h + n_s
n

28

Сначала найдем средний рост для каждой профессии:

In [3]:
f_mean = np.mean(f)
h_mean = np.mean(h)
s_mean = np.mean(s)
print(f'Футболисты - {f_mean}, хоккеисты - {np.round(h_mean, 3)}, штангисты - {np.round(s_mean, 3)}')

Футболисты - 179.125, хоккеисты - 178.667, штангисты - 172.727


Видно, что средний рост разнится. Установим, что это отличие статистически значимо. Для этого сначала соберем все значения роста в один массив:

In [4]:
y_all = np.concatenate([f, h, s])
y_all

array([173, 175, 180, 178, 177, 185, 183, 182, 177, 179, 180, 188, 177,
       172, 171, 184, 180, 172, 173, 169, 177, 166, 180, 178, 177, 172,
       166, 170])

Найдем среднее значение роста по всем значениям:

In [5]:
y_mean = np.mean(y_all)
print(y_mean)

176.46428571428572


Найдем $S^2$ — сумму квадратов отклонений наблюдений от общего среднего:

In [6]:
s2 = np.sum((y_all - y_mean)**2)
s2

830.9642857142854

Найдем $S^2_F$ - сумму квадратов отклонений средних групповых значений от общего среднего:

In [7]:
s2_f = ((f_mean - y_mean)**2) * n_f + ((h_mean - y_mean)**2) * n_h + ((s_mean - y_mean)**2) * n_s
s2_f

253.9074675324678

Найдем $S^2_{ост}$ — остаточную сумму квадратов отклонений:

In [8]:
s2_residual = np.sum((f - f_mean)**2) + np.sum((h - h_mean)**2) + np.sum((s - s_mean)**2)
s2_residual

577.0568181818182

Удостоверимся, что соблюдается равенство $S^2 = S_F^2 + S_{ост}^2$:

In [9]:
print(s2)
print(s2_f + s2_residual)

830.9642857142854
830.964285714286


Найдем общую дисперсию:

In [10]:
sigma2_general = s2 / (n - 1)
sigma2_general

30.776455026455015

Найдем факторную дисперсию:

In [11]:
sigma2_f = s2_f / (k - 1)
sigma2_f

126.9537337662339

Найдем остаточную дисперсию:

In [12]:
sigma2_residual = s2_residual / (n - k)
sigma2_residual

23.08227272727273

Вычислим $F_H$:

In [13]:
F_h = sigma2_f / sigma2_residual
F_h

5.500053450812598

Найдем значение $F_{крит}$ в таблице критических точек распределения Фишера-Снедекора для заданного уровня значимости $\alpha = 0.05$ и двух степеней свободы: 

$df_{межд} = k - 1 = 3 - 1 = 2$   
$df_{внутр} = n - k = 28 - 3 = 25$.

Для данных значений $F_{крит} = 3.385$. 

Так как $F_H > F_{крит}$, различие роста в трех группах статистически значимо.

### Решение инструментами Python

In [14]:
from scipy import stats

In [15]:
stats.f_oneway(f, h, s)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)