### Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов:
### Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. 
### Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180.
### Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

In [3]:
football_pl = np.array([173, 175, 180, 178, 177, 185, 183, 182]) 
hockey_pl = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180]) 
lifter = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])
from scipy.stats import bartlett

In [5]:
stats.bartlett(football_pl, hockey_pl, lifter)

BartlettResult(statistic=0.4640521043406442, pvalue=0.7929254656083131)

In [6]:
stats.shapiro(football_pl)

ShapiroResult(statistic=0.9775081276893616, pvalue=0.9495397210121155)

In [7]:
stats.shapiro(hockey_pl)

ShapiroResult(statistic=0.9579195976257324, pvalue=0.7763133645057678)

In [8]:
stats.shapiro(lifter)

ShapiroResult(statistic=0.93868088722229, pvalue=0.5051169991493225)

Тесты Шапиро-Уилка показывают, что все 3 выборки соответствуют нормальному распределению прри alpha = 0.05, т.к. pvalue > alpha. Тест Бартлетта показывает, что рассматриваемые выборки получены из генеральных совокупностей, обладающих одинаковыми дисперсиями( также pvalue > alpha).  Можем применять формулы для дисперсионного анализа. 

In [10]:
k = 3
f_len = len(football_pl)
f_len

8

In [11]:
h_len = len(hockey_pl)
h_len

9

In [12]:
l_len = len(lifter)
l_len

11

In [13]:
n = l_len + h_len + f_len
n

28

In [14]:
f_mean_1 = np.mean(football_pl)
f_mean_1

179.125

In [15]:
h_mean_1 = np.mean(hockey_pl)
h_mean_1

178.66666666666666

In [16]:
l_mean_1 = np.mean(lifter)
l_mean_1

172.72727272727272

In [20]:
total = np.array([173, 175, 180, 178, 177, 185, 183, 182, 177, 179, 180, 188, 177, 172, 171, 184, 180, 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])
total

array([173, 175, 180, 178, 177, 185, 183, 182, 177, 179, 180, 188, 177,
       172, 171, 184, 180, 172, 173, 169, 177, 166, 180, 178, 177, 172,
       166, 170])

In [21]:
mean_total = np.mean(total)
mean_total

176.46428571428572

In [22]:
np.sum((total - mean_total)**2)

830.9642857142854

In [23]:
S_f = np.sum((f_mean_1 - mean_total)**2)*f_len + np.sum((h_mean_1 - mean_total)**2)*h_len + np.sum((l_mean_1 - mean_total)**2)*l_len
S_f

253.9074675324678

In [24]:
S_ost = np.sum((football_pl - f_mean_1 )**2) + np.sum((hockey_pl - h_mean_1)**2) + np.sum((lifter - l_mean_1)**2) 
S_ost

577.0568181818182

In [25]:
S_f + S_ost

830.964285714286

In [26]:
D_f = S_f/(k-1)
D_f

126.9537337662339

In [27]:
D_ost = S_ost/ (n-k)
D_ost

23.08227272727273

In [28]:
F_n = D_f/D_ost
F_n

5.500053450812598

In [29]:
f = stats.f_oneway(football_pl, hockey_pl, lifter)
f

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

Расчетные значения и вычисления с помощью функции совпали.

In [30]:
F_teor = 3.38 # для к1 = 2 к2 = 25

F_n > F_teor => расчетное значение F_n попадает в область принятия альтернативной гипотезы H1. Т.е. мы делаем вывод, что в каждом виде спорта средний рост спортсменов статистически значимо различается.
Также pvalue < alpha( 0.05), также это свидетельствут в пользу альтернативной гипотезы.

In [31]:
from statsmodels.stats.multicomp import pairwise_tukeyhsd
import pandas as pd

In [32]:
df = pd.DataFrame({'height': [173, 175, 180, 178, 177, 185, 183, 182, 177, 179, 180, 188, 177,
       172, 171, 184, 180, 172, 173, 169, 177, 166, 180, 178, 177, 172,
       166, 170],
                  'sport': np.repeat(['football', 'hockey','lifting'], repeats=[8, 9, 11])})
tukey = pairwise_tukeyhsd(endog=df['height'],
                          groups = df['sport'],
                          alpha = 0.05)
print(tukey)

  Multiple Comparison of Means - Tukey HSD, FWER=0.05   
 group1   group2 meandiff p-adj   lower    upper  reject
--------------------------------------------------------
football  hockey  -0.4583    0.9  -6.2722  5.3555  False
football lifting  -6.3977 0.0218 -11.9573 -0.8382   True
  hockey lifting  -5.9394 0.0283 -11.3172 -0.5616   True
--------------------------------------------------------


Нет статистически значимых различий только между футболистами и хоккеистами. Между футболистами и штангистами и между хоккеистами и штангистами  имеем статистически значимые различия в росте.