## Теория вероятностей и математическая статистика
****************

In [4]:
%matplotlib inline
import numpy as np
from math import sqrt
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error as mse

from scipy import stats

1. Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [31]:
group_1 = np.array([173, 175, 180, 178, 177, 185, 183, 182])
group_2 = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
group_3 = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

k = 3

n1, n2, n3 = len(group_1), len(group_2), len(group_3)
mean1, mean2, mean3 = np.mean(group_1), np.mean(group_2), np.mean(group_3)

all = np.concatenate([group_1, group_2, group_3])
mean_all = np.mean(all)

$F_H = 5.5 \Rightarrow $ различия среднего роста в трех группах статистически значимы

**Пошаговый расчет с применением однофакторного анализа:**

Средние значения для анализируемых групп:

In [18]:
print(f'mean1: {mean1}\t mean2: {mean2}\t mean3: {mean3}')
print(f'mean_all: {np.mean(all)}')

mean1: 179.125	 mean2: 178.66666666666666	 mean3: 172.72727272727272
mean_all: 176.46428571428572


Сумма квадратов отклонений наблюдений от общего среднего $S^2$:

In [22]:
s2 = np.sum((all-mean_all) ** 2)
s2

830.9642857142854

Сумма квадратов отклонений средних групповых значений от общего среднего $S^2_F$:

In [23]:
s2_f = ((mean1 - mean_all)**2) * n1 + ((mean2 - mean_all)**2) * n2 + ((mean3 - mean_all)**2) * n3
s2_f

253.9074675324678

Остаточная сумма квадратов отклонений $S^2_{ост}$:

In [24]:
s2_residual = np.sum((group_1 - mean1)**2) + np.sum((group_2 - mean2)**2) + np.sum((group_3 - mean3)**2)
s2_residual

577.0568181818182

In [25]:
print(s2)
print(s2_f + s2_residual)

830.9642857142854
830.964285714286


Общая, факторная и остаточная дисперсия $\sigma^2, \sigma^2_F, \sigma^2_{res}$:

In [36]:
sigma2_general = s2 / (n1 + n2 + n3 - 1)
sigma2_f = s2_f / (k - 1)
sigma2_residual = s2_residual / (n1 + n2 + n3 - k)

print(f'sigma2_general: {sigma2_general}')
print(f'sigma2_f: {sigma2_f}')
print(f'sigma2_residual: {sigma2_residual}')

sigma2_general: 30.776455026455015
sigma2_f: 126.9537337662339
sigma2_residual: 23.08227272727273


$F_H$:

In [37]:
F_h = sigma2_f / sigma2_residual
F_h

5.500053450812598

$a=0.05$

$df_{bet} = 2$

$df_{internal} = 25$

$F_{crit} = 3.385$

In [41]:
(3.4 + 3.37)/2

3.385

$F_H (5.5) > F_{crit} (3.385) \Rightarrow$ различия среднего роста в трех группах статистически значимы.

**Решение с помощью статистического пакета:**

In [47]:
stats.f_oneway(group_1,group_2,group_3)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)