In [1]:
import numpy as np
from scipy import stats

#### 1. Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [2]:
# футболисты
y1 = np.array([173, 175, 180, 178, 177, 185, 183, 182])

# хоккеисты
y2 = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180])

# штангисты
y3 = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

In [5]:
# Всего значений роста
n = len(y1) + len(y2) + len(y3)

# кол-во групп
k = 3

##### Однофакторный дисперсионный анализ

Найдём средний рост для каждой профессии.

In [6]:
y1_mean = np.mean(y1)
y2_mean = np.mean(y2)
y3_mean = np.mean(y3)

In [9]:
print(f'Средний рост у футболистов - {y1_mean:.2f}, хоккеистов - {y2_mean:.2f}, штангистов - {y3_mean:.2f}')

Средний рост у футболистов - 179.12, хоккеистов - 178.67, штангистов - 172.73


Предположим, что эти отличия статистически значимы.

Для этого нам необходимо собрать все значения роста в общий массив

In [12]:
y_general = np.concatenate([y1, y2, y3])

In [14]:
# среднее значение роста по общему массиву
y_mean = np.mean(y_general)

In [24]:
# сумма квадратов отклонений наблюдений от общего среднего
s2 = np.sum((y_general - y_mean)**2)

# сумма квадратов отклонений средних групповых значений от общего среднего
s2_f = ((y1_mean - y_mean)**2) * len(y1) + ((y2_mean - y_mean)**2) *len(y2) + ((y3_mean - y_mean)**2) * len(y3)

# остаточная сумма квадратов отклонений
s2_res = np.sum((y1 - y1_mean)**2) + np.sum((y2 - y2_mean)**2) + np.sum((y3 - y3_mean)**2)

In [30]:
print(f'    Сумма квадратов отклонений наблюдений от общего среднего равна {s2:.3f}\n\
    Сумма квадратов отклонений средних групповых значений от общего среднего равна {s2_f:.3f}\n\
    Остаточная сумма квадратов отклонений равна {s2_res:.3f}')

    Сумма квадратов отклонений наблюдений от общего среднего равна 830.964
    Сумма квадратов отклонений средних групповых значений от общего среднего равна 253.907
    Остаточная сумма квадратов отклонений равна 577.057


Проверим соблюдается ли равенство $S^2 = S_F^2 + S_{ост}^2$:

In [34]:
s2

830.9642857142854

In [35]:
s2_f + s2_res 

830.964285714286

In [36]:
# Общая дисперсия
sigma2_general = s2 / (n - 1)

# факторная дисперсия
sigma2_f = s2_f / (k - 1)

# остаточная дисперсия
sigma2_res = s2_res / (n - k)

In [38]:
print(f'    Общая дисперсия - {sigma2_general:.3f}\n\
    Факторная дисперсия - {sigma2_f:.3f}\n\
    Остаточная дисперсия - {sigma2_res:.3f}')

    Общая дисперсия - 30.776
    Факторная дисперсия - 126.954
    Остаточная дисперсия - 23.082


Вычислим $F_H$:

In [40]:
F_h = sigma2_f / sigma2_res
F_h

5.500053450812598

Найдем значение $F_{крит}$ в таблице критических точек распределения Фишера-Снедекора для заданного уровня значимости $\alpha = 0.05$ и двух степеней свободы:

$df_{межд} = k - 1 = 3 - 1 = 2$ и $df_{внутр} = n - k = 28 - 3 = 25$.

Для данных значений $F_{крит} = 3.38$.

Так как $F_H$ > $F_{крит}$, различие средних роста спортсменов в трех группах статистически значимо.

#### Теперь всё то же самое, только с помощью функции f_oneway из модуля scipy

In [41]:
stats.f_oneway(y1,y2,y3)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

#### Делаем вывод, что при уровне значимости $\alpha = 0.05$ профессия влияет на средний рост.