Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170. Данная промежуточная аттестация оценивается по системе "зачет" / "не зачет". "Зачет" ставится, если Слушатель успешно выполнил задание. "Незачет" ставится, если Слушатель не выполнил задание. Критерии оценивания: 1 - Слушатель провел дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов.

In [17]:
import numpy as np
import scipy.stats as st
import pandas as pd
from scipy.stats import bartlett
from statsmodels.stats.multicomp import pairwise_tukeyhsd

In [18]:
footballers = [173, 175, 180, 178, 177, 185, 183, 182]
hockey_player = [177, 179, 180, 188, 177, 172, 171, 184, 180]
weightlifter = [172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170]

In [19]:
# Проводим оценку на нормальность распределения
st.shapiro(footballers) # norm
st.shapiro(hockey_player) # norm
st.shapiro(weightlifter) # norm
bartlett(footballers, hockey_player, weightlifter) # pvalue=0.7929254656083131 - недостаточно данных для отклонения Н0 о разности дисперсий

BartlettResult(statistic=0.4640521043406442, pvalue=0.7929254656083131)

In [20]:
# Применяем критерий Фишера
st.f_oneway(footballers, hockey_player, weightlifter) # pvalue=0.010482206918698693 - принимаем альтернативную гипотезу (существует разница средних по меньшей мере между двумя группами)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698693)

In [47]:
# Оцениваем, между какими группами существуют различия (критерий Тьюки)
# df = pd.DataFrame({'height': [173, 175, 180, 178, 177, 185, 183, 182, 177, 179, 180, 188, 177, 172, 171, 184, 180, 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170], 
#                    'sportsmen': np.repeat(['footballers','hockey_player','weightlifter'], repeats=len(weightlifter))})

# print(pairwise_tukeyhsd(df['height'], df['sportsmen'], alpha=0.05))

# Сравнение футболистов и хоккеистов
stat1, p1 = st.ttest_ind(footballers, hockey_player) # p = 0.8471274829862304
stat2, p2 = st.ttest_ind(footballers, weightlifter) # p = 0.007418502503470327
stat3, p3 = st.ttest_ind(hockey_player, weightlifter) # p = 0.017384077963160167
p1, p2, p3

# Поправка Холма
# q = p(m + i - 1), где m - число проверяемых гипотез, i - номер гипотезы
alpha = 0.05
m= 3
p_array = [p1, p2, p3]
p_array_sorted = sorted(p_array)
p_array_sorted

for k in range(len(p_array_sorted)):
    if p_array_sorted[k]*(m + (k+1) - 1) < alpha:
        print(f'{k+1}: TRUE, p = {p_array_sorted[k]}')
    else:
        print(f'{k+1}: FALSE, p = {p_array_sorted[k]}')

# Вывод: выявлены статистически значимые различия в росте между футболистами и штангистами



(0.8471274829862304, 0.007418502503470327, 0.017384077963160167)