In [1]:
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов.
Даны значения роста в трех группах случайно выбранных спортсменов:

* Футболисты: 173, 175, 180, 178, 177, 185, 183, 182.

* Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180.

* Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [2]:
group_f = np.array([173, 175, 180, 178, 177, 185, 183, 182])
group_h = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
group_s = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

print(f'Проверяем на нормальность распределения 1 выборку: {stats.shapiro(group_f)}')
print(f'Проверяем на нормальность распределения 2 выборку: {stats.shapiro(group_h)}')
print(f'Проверяем на нормальность распределения 3 выборку: {stats.shapiro(group_s)}')
print()

alpha = 1 - (1 -0.05)**3
print(f'Ошибка 1 рода: {alpha}')
k = 3
nf = len(group_f)
nh = len(group_h)
ns = len(group_s)
n = nf + nh + ns
print()
 
f_mean = np.mean(group_f)
h_mean = np.mean(group_h)
s_mean = np.mean(group_s)
print(f'Средняя арифметическая по выборке:\nФутболисты: {f_mean}\nХоккеисты: {h_mean}\nШтангисты: {s_mean}')

Проверяем на нормальность распределения 1 выборку: ShapiroResult(statistic=0.9775082468986511, pvalue=0.9495404362678528)
Проверяем на нормальность распределения 2 выборку: ShapiroResult(statistic=0.9579196572303772, pvalue=0.7763139009475708)
Проверяем на нормальность распределения 3 выборку: ShapiroResult(statistic=0.9386808276176453, pvalue=0.5051165223121643)

Ошибка 1 рода: 0.1426250000000001

Средняя арифметическая по выборке:
Футболисты: 179.125
Хоккеисты: 178.66666666666666
Штангисты: 172.72727272727272


In [3]:
total = np.array([173, 175, 180, 178, 177, 185, 183, 182, 177, 179, 180, 188, 177, 172, 171, 184, 180, 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])
print(total)
total_mean = np.mean(total)
print(f'Средняя арифметическая по всем выборкам: {total_mean}')


S_f = np.sum((f_mean - total_mean)**2) * nf + np.sum((h_mean - total_mean)**2) * nh + np.sum((s_mean - total_mean)**2) * ns
print(f'Сумма квадратов отклонений средних групповых значений от общего среднего: {S_f}')
S_ost = np.sum((group_f - f_mean)**2) + np.sum((group_h - h_mean)**2) + np.sum((group_s - s_mean)**2)
print(f'Остаточная сумма квадратов отклонений: {S_ost}')
S_ob = S_f + S_ost
print(f'Сумма квадратов отклонений наблюдейний от общего среднего: {S_ob}')

[173 175 180 178 177 185 183 182 177 179 180 188 177 172 171 184 180 172
 173 169 177 166 180 178 177 172 166 170]
Средняя арифметическая по всем выборкам: 176.46428571428572
Сумма квадратов отклонений средних групповых значений от общего среднего: 253.9074675324678
Остаточная сумма квадратов отклонений: 577.0568181818182
Сумма квадратов отклонений наблюдейний от общего среднего: 830.964285714286


In [4]:
D_f = S_f / (k - 1)
print(f'Факторная дисперсия: {D_f}')
D_ost = S_ost / (n - k)
print(f'Остаточная дисперсия: {D_ost}')
F_n = D_f / D_ost
print(f'Критерий Фишера: {F_n}')

Факторная дисперсия: 126.9537337662339
Остаточная дисперсия: 23.08227272727273
Критерий Фишера: 5.500053450812598


In [5]:
f = stats.f_oneway(group_f, group_h, group_s)
f

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

In [6]:
from statsmodels.stats.multicomp import pairwise_tukeyhsd

import pandas as pd
df = pd.DataFrame({'score': [173, 175, 180, 178, 177, 185, 183, 182, 177, 179, 180, 188, 177, 172, 171, 184, 180, 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170],
                  'group': np.repeat(['football players', 'hockey players', 'weightlifters'], repeats=[nf, nh , ns])})
tukey = pairwise_tukeyhsd(endog=df['score'],
                         groups=df['group'],
                         alpha=0.05)
print(tukey)

          Multiple Comparison of Means - Tukey HSD, FWER=0.05          
     group1          group2     meandiff p-adj   lower    upper  reject
-----------------------------------------------------------------------
football players hockey players  -0.4583  0.979  -6.2732  5.3566  False
football players  weightlifters  -6.3977 0.0219 -11.9583 -0.8372   True
  hockey players  weightlifters  -5.9394 0.0284 -11.3181 -0.5607   True
-----------------------------------------------------------------------


### Вывод:

Исходя из полученных результатов можно считать, что статистические различия в росте футболистов, хоккеистов и штангистов есть. 

При уточнении получены данные, что статистические значимые различия есть только между выборкой роста группы штангистов с остальными двумя группами, при этом в росте хоккеистов и футболистов статистически значимых различий нет.