## Task
Провести дисперсионный анализ для определения того, есть ли различия
среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны
значения роста в трех группах случайно выбранных спортсменов: Футболисты:
173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171,
184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [1]:
import numpy as np
from scipy import stats
from statsmodels.stats.multicomp import pairwise_tukeyhsd
import pandas as pd

In [2]:
football = np.array([173, 175, 180, 178, 177, 185, 183, 182])
hockey = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
weightlift = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

In [3]:
# проверка на нормальность
# H0: normal
print(stats.shapiro(football))
print(stats.shapiro(hockey))
print(stats.shapiro(weightlift))

ShapiroResult(statistic=0.9775081982196379, pvalue=0.9495400664151513)
ShapiroResult(statistic=0.957919718551844, pvalue=0.7763139669394437)
ShapiroResult(statistic=0.9386807421264948, pvalue=0.5051151338730138)


In [4]:
# при alpha = 0.05
# p-value > alpha => H0 is accepted, the distribution is normal

In [5]:
# проверим равенство дисперсий

#H0: дисперсии равны
stats.bartlett(football, hockey, weightlift)

BartlettResult(statistic=0.4640521043406442, pvalue=0.7929254656083131)

In [6]:
# при alpha = 0.05
# p-value > alpha => H0 is accepted, variances equal for all samples

In [7]:
stats.f_oneway(football, hockey, weightlift)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

In [9]:
# при alpha = 0.05
# p-value < alpha => H0 is rejected, есть статистически значимые отличия в среднем росте спортсменов в зависимости от вида спорта

In [11]:
# poc host test Tukey
df = pd.DataFrame({'score': [173, 175, 180, 178, 177, 185, 183, 182,
                            177, 179, 180, 188, 177, 172, 171, 184, 180,
                            172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170],
                  'group': np.repeat(["football", "hockey", "weightlift"], repeats=[8, 9, 11])})
df

Unnamed: 0,score,group
0,173,football
1,175,football
2,180,football
3,178,football
4,177,football
5,185,football
6,183,football
7,182,football
8,177,hockey
9,179,hockey


In [13]:
tukey = pairwise_tukeyhsd(df['score'], df['group'], alpha=0.05)
print(tukey)

    Multiple Comparison of Means - Tukey HSD, FWER=0.05    
 group1    group2   meandiff p-adj   lower    upper  reject
-----------------------------------------------------------
football     hockey  -0.4583  0.979  -6.2732  5.3566  False
football weightlift  -6.3977 0.0219 -11.9583 -0.8372   True
  hockey weightlift  -5.9394 0.0284 -11.3181 -0.5607   True
-----------------------------------------------------------


In [None]:
# Для групп футболистов и хоккеистов нулевая гипотеза (что средний рост одинаковый) не отвергается, соответственно
# средний рост футболистов и хоккеистов равен при допустимой ошибке в 5%.
# Для группы футболисты-штангисты и хоккеисты-штангисты нулевая гипотеза отвергается, так как p-value < alpha, соответственно 
# средний рост этих групп спортсменов отличается.