- Дисперсионный анализ. Логистическая регрессия

1. Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

Найдём средний рост

In [1]:
yf = np.array([173, 175, 180, 178, 177, 185, 183, 182])
yh = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
ys = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

yf_mean = np.mean(yf)
yh_mean = np.mean(yh)
ys_mean = np.mean(ys)
print(yf_mean)
print(yh_mean)
print(ys_mean)

179.125
178.66666666666666
172.72727272727272


Т.к. средний рост различается, выясним значимо ли это статистически.

Создадим массив всех спортсменов.

In [2]:
y_all = np.concatenate([yf, yh, ys])
y_all

array([173, 175, 180, 178, 177, 185, 183, 182, 177, 179, 180, 188, 177,
       172, 171, 184, 180, 172, 173, 169, 177, 166, 180, 178, 177, 172,
       166, 170])

Среднее роста всех спортсменов:

In [3]:
y_mean = np.mean(y_all)
y_mean

176.46428571428572

Найдем $S^2$ — сумму квадратов отклонений наблюдений от общего среднего:

In [4]:
s2 = np.sum((y_all - y_mean)**2)
s2

830.9642857142854

Найдем $S^2_F$ - сумму квадратов отклонений средних групповых значений от общего среднего:

In [5]:
n_f = len(yf)
n_h = len(yh)
n_s = len(ys)
n = n_f + n_h + n_s

s2_f = ((yf_mean - y_mean)**2) * n_f + ((yh_mean - y_mean)**2) * n_h + ((ys_mean - y_mean)**2) * n_s
s2_f

253.9074675324678

Найдем $S^2_{res}$ — остаточную сумму квадратов отклонений:

In [6]:
s2_res = np.sum((yf - yf_mean)**2) + np.sum((yh - yh_mean)**2) + np.sum((ys - ys_mean)**2)
s2_res

577.0568181818182

Удостоверимся, что соблюдается равенство $S^2 = S_F^2 + S_{res}^2$:

In [7]:
print(f's2 = {s2} = {s2_f + s2_res}')

s2 = 830.9642857142854 = 830.964285714286


Найдем общую дисперсию:

In [8]:
sigma2_general = s2 / (n - 1)
sigma2_general

30.776455026455015

Найдем факторную дисперсию:

In [9]:
k = 3
sigma2_f = s2_f / (k - 1)
sigma2_f

126.9537337662339

Найдем остаточную дисперсию:

In [10]:
sigma2_res = s2_res / (n - k)
sigma2_res

23.08227272727273

$F_H$:

In [11]:

F_h = sigma2_f / sigma2_res
F_h

5.500053450812598

Найдем значение $F_{крит}$ в таблице критических точек распределения Фишера-Снедекора для заданного уровня значимости $\alpha = 0.05$ и двух степеней свободы по сылкам <a href = "https://studfiles.net/preview/5520526/page:14/">Критические точки распределения Фишера–Снедекора</a>
        
<a href = "https://www.matburo.ru/tv/table_fisher.pdf">Распределение Фишера–Снедекора (F-распределение)</a>: 

$df_{межд} = k - 1 = 3 - 1 = 2$

и 

$df_{внутр} = n - k = 28 - 3 = 25$.

Для данных значений $F_{крит} = 3.38$. Так как $F_H > F_{крит}$, различие средних зарплат в трех группах статистически значимо.

Также вычислим эмпирическое корреляционное отношение $\eta^2$:

In [12]:
eta2 = s2_f / s2
eta2

0.30555761769498

Решение задачи через библиотеки Питона:

In [13]:
import numpy as np
from scipy import stats

In [14]:
stats.f_oneway(yf, yh, ys)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)