## Дисперсионный анализ. Логистическая регрессия

### Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [28]:
import numpy as np
import pandas as pd
from scipy import stats

$$ Гипотеза~ H0:~ mu1=mu2=mu3 $$

$$ Гипотеза~ H1:~ mu1~ \neq~ mu2,~mu2~\neq~mu3,~mu1~\neq~mu3 $$

In [29]:
foot = np.array([173, 175, 180, 178, 177, 185, 183, 182]) 
hock= np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
lift = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

In [30]:
alpha = 0.05

Проведем однофакторный дисперсионный анализ 

In [31]:
stats.f_oneway(foot,hock,lift)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

Исходя из того что p-value < alpha то принимаем альтернативную гипотезу, что говорит о статистически значимых различиях среднего роста среди взрослых футболистов, хоккеистов и штангистов.

Проведем однофакторный дисперсионный анализ без применения готовой функции

In [32]:
k = 3 # три группы
n = len(foot)+len(hock)+len(lift) # общее колл-во
n

28

In [33]:
n1 = len(foot)
n1

8

In [34]:
n2 = len(hock)
n2

9

In [35]:
n3 = len(lift)
n3

11

$$ Необходимо~ найти~ наблюдаемое~ значение~ критерия~ Фишера~ по~ формуле~\frac{\sigma_F^2}{\sigma_с^2}  $$

Найдем среднее значение по каждой выборке

In [36]:
foot_mean = foot.mean()
hock_mean = hock.mean()
lift_mean = lift.mean()
print(f'Cреднее значение по каждой выборке равно для футболистов {foot_mean}, для хоккеистов {hock_mean}, для штангистов {lift_mean}')

Cреднее значение по каждой выборке равно для футболистов 179.125, для хоккеистов 178.66666666666666, для штангистов 172.72727272727272


Найдем среднее арифмитическое по всем значениям

In [37]:
all_ = np.concatenate([foot, hock, lift])
all_mean = all_.mean()
print(f'Cреднее значение по всем наблюдениям {all_mean}')

Cреднее значение по всем наблюдениям 176.46428571428572


Найдем сумму квадратов отклонений наблюдений от общего среднего

In [38]:
S2 = np.sum((all_ - all_mean)**2)
S2

830.9642857142854

$$ Рассчитаем~ факторную~ дисперсию~ по~ формуле~ \sigma_F^2 = \frac{S_F^2}{k-1} $$

Найдем сумму квадратов отклонений средних групповых значений от общего среднего

In [39]:
S2_F = ((foot_mean - all_mean)**2) * n1 + ((hock_mean - all_mean)**2) * n2 + ((lift_mean - all_mean)**2) * n3
S2_F

253.9074675324678

In [40]:
sigma2_F = S2_F / (k - 1)
sigma2_F

126.9537337662339

$$ Далее~ найдем~ остаточную~ дисперсию~ по~ формуле~ \sigma_c^2 = \frac{S_c^2}{n-k} $$

In [41]:
S2_c = ((foot - foot_mean)**2).sum() + ((hock - hock_mean) ** 2).sum() + ((lift - lift_mean) ** 2).sum()
S2_c

577.0568181818182

In [42]:
sigma2_c = S2_c / (n - k)
sigma2_c

23.08227272727273

$$ Удостоверимся,~ что~ соблюдается~ равенство~ по~ формуле~S^{2} = S_F^2 + S_c^2  $$

In [43]:
round(S2) == round(S2_F+S2_c)

True

Найдем общую дисперсию

In [44]:
sigma2_general = S2 / (n - 1)
sigma2_general

30.776455026455015

Далее вычислим значение критерия Фишера FH

In [45]:
FH = sigma2_F/sigma2_c
FH

5.500053450812598

Сравним значение наблюдаемого значения Фишера FH и критическое значение Fтаб F-критерия Фишера при уровне значимости a = 0.5

In [46]:
alpha = 0.05
F_таб = stats.f.ppf(1 - alpha, (k - 1), (n - k))

FH, F_таб

(5.500053450812598, 3.3851899614491687)

Так как значение Фишера наблюдаемого больше Фишера табличного то принимаем альтернативную гипотезу H1