**Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов.\
Даны значения роста в трех группах случайно выбранных спортсменов:\
Футболисты: 173, 175, 180, 178, 177, 185, 183, 182\
Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180\
Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170**

In [1]:
import numpy as np
import scipy.stats as st


y1 = np.array([173, 175, 180, 178, 177, 185, 183, 182])
y2 = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])
y3 = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

Проверим все выборки на нормальность:

In [2]:
sh1 = st.shapiro(y1)
sh2 = st.shapiro(y2)
sh3 = st.shapiro(y3)
print(f'{sh1},\n{sh2},\n{sh3}')

ShapiroResult(statistic=0.9775082468986511, pvalue=0.9495404362678528),
ShapiroResult(statistic=0.9579196572303772, pvalue=0.7763139009475708),
ShapiroResult(statistic=0.9386808276176453, pvalue=0.5051165223121643)


p-value теста Шапиро для всех выборок больше $\alpha$ (0.05), значит, все выборки имеют нормальное распределение

Проверим все выборки на равенство дисперсий:

In [3]:
print(st.bartlett(y1,y2,y3))

BartlettResult(statistic=0.4640521043406442, pvalue=0.7929254656083131)


p-value для теста Бартлетта больше $\alpha$ (0.05), значит, все выборки имеют однородные дисперсии

Условия применимости дисперсионного анализа выполнены, можно приступать к самому анализу.

Формируем гипотезы:\
$H_0: \mu1 = \mu2 = \mu3$, т.е. средний рост спортсмена не зависит от выбранного им спорта\
$H_1: \mu1 ≠ \mu2 ≠ \mu3$ - рост спортсемена зависит от спорта, которым он занимается

In [4]:
k = 3   # кол-во групп
n = len(y1)+len(y2)+len(y3)     # число всех элементов во всех группах

ym1 = np.mean(y1)
ym2 = np.mean(y2)
ym3 = np.mean(y3)
print(f'Средние для каждой выборки:\ny1={ym1},\ny2={ym2},\ny3={ym3}')


Средние для каждой выборки:
y1=179.125,
y2=178.66666666666666,
y3=172.72727272727272


In [5]:
total = np.concatenate([y1,y2,y3])
ymt = np.mean(total)
print(f'Среднее по всех значениям групп: {ymt}')

Среднее по всех значениям групп: 176.46428571428572


In [6]:
s = np.sum((total - ymt)**2)
print(f'Сумма квадратов отклонений от общего среднего: {s}')

Сумма квадратов отклонений от общего среднего: 830.9642857142854


In [7]:
sf = np.sum((ym1-ymt)**2)*len(y1) + np.sum((ym2-ymt)**2)*len(y2) + np.sum((ym3-ymt)**2)*len(y3)
print(f'Сумма квадратов отклонений средних групповых от общего среднего: {sf}')

Сумма квадратов отклонений средних групповых от общего среднего: 253.9074675324678


In [8]:
so = np.sum((y1-ym1)**2) + np.sum((y2-ym2)**2) + np.sum((y3-ym3)**2)
print(f'Остаточная сумма отклонений: {so}')


Остаточная сумма отклонений: 577.0568181818182


In [9]:
Df = sf / (k-1)
print(f'Факторная дисперсия равна: {Df}')

Do = so / (n-k)
print(f'Остаточная дисперсия равна: {Do}')

Факторная дисперсия равна: 126.9537337662339
Остаточная дисперсия равна: 23.08227272727273


In [10]:
Fn = Df/Do
print(f'Наблюдаемый критерий Фишера: {Fn}')

Наблюдаемый критерий Фишера: 5.500053450812598


Найдем табличное значение критерия Фишера:

In [11]:
Ft = st.f.ppf(1-0.05, k-1, n-k)
print(f'Табличное значение критерия Фишера: {Ft}')

Табличное значение критерия Фишера: 3.3851899614491687


Вывод: $F_н > F_т$, значит, что отличие роста является статистически значимым

Эту же задачу можно решить встроенным методом библиотеки scipy

In [12]:
f = st.f_oneway(y1,y2,y3)
print(f)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)


Вывод: Рассчетное значение p-value (0.0105) меньше принятого нами значения $\alpha$ (0.05), поэтому есть статистичеки значимые различия: принимаем $H_1$.