### Задача

Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [89]:
import numpy as np
from scipy import stats

In [90]:
# Рассчитаем с помощью функции

# Нулевая гипотеза - статистически значимых различий нет, 
# Альтернативная - статистически значимые различия есть
alpha = 0.05

footballers = np.array([173, 175, 180, 178, 177, 185, 183, 182])
hockey_playes = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180 ])
weightlifters = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170])

x1 = footballers
x2 = hockey_playes
x3 = weightlifters

In [91]:
stats.f_oneway(x1, x2, x3)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

p-value (1%) меньше alpha (5%), т. е. принимаем альтернативную гипотезу, т.е. средние значения роста 3х подгрупп статистически различимы

**Рассчитаем вручную**

In [92]:
x1_mean = np.mean(x1) # находим среднее по росту футболистов
x2_mean = np.mean(x2) # среднее по росту хоккеистов
x3_mean = np.mean(x3) # среднее по росту штангистов

# создаем общий массив из всех наблюдений:
x_total = np.concatenate([x1, x2, x3]) 

# находим общее среднее по всем наблюдениям
X_mean = np.mean(x_total)  

In [93]:
# найдем сумму квадратов отклонений средних по группам от среднего по всем наблюдениям (междгрупповая сумма отклонений)
n1 = len(x1) # количество наблюдений у футболистов
n2 = len(x2) # у хоккеистов
n3 = len(x3) # у штангистов

Sf = (x1_mean - X_mean)**2*n1 + (x2_mean - X_mean)**2*n2 + (x3_mean - X_mean)**2*n3
Sf

253.9074675324678

In [94]:
# найдем остаточную сумму квадратов отклонений (внутригрупповую)

S_residual = ((x1 - x1_mean)**2).sum() + ((x2 - x2_mean)**2).sum() + ((x3 - x3_mean)**2).sum()
S_residual

577.0568181818182

In [95]:
# вычислим факторную дисперсию
k = 3 # количество групп

var_f = Sf/(k-1)
var_f

126.9537337662339

In [96]:
# вычислим остаточную дисперсию

var_residual = S_residual/(len(x_total) - k)
var_residual

23.08227272727273

In [97]:
# Найдем рассчетное значение F критерия Фишера

F_count = var_f/var_residual
F_count

# Рассчитанное вручную значение критерия Фишера совпадает с рассчитанным с помощью функции

5.500053450812598

In [98]:
len(x_total)

28

In [99]:
# Найдем табличное значение F критерия Фишера
# степени свободны числителя = 3-1 = 2 - смотрим по горизонтали
# степени свободы знаменателя = 28 - 3 = 25 - смотрим по вертикали
F_table = 3.38

In [100]:
if F_table > F_count:
    print('Принимаем нулевую гипотезу, статистически значимых отличий между средними значениям подгрупп нет')
else: 
    print('Принимаем альтернативную гипотезу, средние по подгруппам статистически различимы')

Принимаем альтернативную гипотезу, средние по подгруппам статистически различимы
