#### Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170. ####

In [14]:
import numpy as np

class Sample:
    def __init__(self,data,name):
        self.data = np.array(data)
        self.name = name
        self.length = self.data.size
        self.mean = np.mean(self.data)
        self.tss = np.sum((self.data - self.mean) ** 2)

footbal = Sample([173, 175, 180, 178, 177, 185, 183, 182], 'футболисты')
hockey = Sample([177, 179, 180, 188, 177, 172, 171, 184, 180], 'хокеисты')
weightlift = Sample([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170], 'штангисты')

overall = Sample(np.concatenate([footbal.data,hockey.data,weightlift.data]),'общее')

print(footbal.__dict__)
print(hockey.__dict__)
print(weightlift.__dict__)
print(overall.__dict__)




{'data': array([173, 175, 180, 178, 177, 185, 183, 182]), 'name': 'футболисты', 'length': 8, 'mean': 179.125, 'tss': 118.875}
{'data': array([177, 179, 180, 188, 177, 172, 171, 184, 180]), 'name': 'хокеисты', 'length': 9, 'mean': 178.66666666666666, 'tss': 227.99999999999997}
{'data': array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170]), 'name': 'штангисты', 'length': 11, 'mean': 172.72727272727272, 'tss': 230.1818181818182}
{'data': array([173, 175, 180, 178, 177, 185, 183, 182, 177, 179, 180, 188, 177,
       172, 171, 184, 180, 172, 173, 169, 177, 166, 180, 178, 177, 172,
       166, 170]), 'name': 'общее', 'length': 28, 'mean': 176.46428571428572, 'tss': 830.9642857142854}


Видим, что средние значения незначительно отличаются друг от друга и от общего среднего в том числе.
Т.к. количество наблюдений не достаточно велико мы не можем использовать статику хи-квадрат поэтому будем использовать статистику Фишера в предположении о нормальности ошибок измерения.

Сформулируем $H_0$ гипотезу о равенстве средних групповых значений:
    $$(H_0: \overline{football} = \overline{hockey} = \overline{weightlift})$$
    



Чтобы проверить эту гипотезу, расчитаем наблюдаемое значение статистики Фишера со степенями свободы $df_{межд} = k - 1 = 3 - 1 = 2$ и $df_{внутр} = n - k = 28 - 3 = 25$.

$$F_H = \frac{\widehat\sigma_{F}^{2}}{\widehat\sigma_{ост}^{2}}$$

Для этого найдём оценку дисперсии фактороной и остаточной дисперсий.

Оценка факторной дисперсии:
$$\widehat\sigma_{F}^{2} = \frac{1}{k-1}\sum\limits_{i=1}^{k}(\overline{y}_i - \overline{Y})^{2}n_i$$

Оценка остаточной дисперсии:
$$\widehat\sigma_{ост}^{2} = \frac{1}{n - k}\sum\limits_{i=1}^{k}\sum\limits_{j=1}^{n_i}(y_{ij} - \overline{y}_i)^2$$

In [15]:
ESS = sum([footbal.length * (footbal.mean - overall.mean) ** 2, hockey.length * (hockey.mean - overall.mean) ** 2,weightlift.length * (weightlift.mean - overall.mean) ** 2])
RSS = sum([footbal.tss, hockey.tss, weightlift.tss])
TSS = overall.tss

var_f = ESS/(3 - 1)
var_r = RSS/ (overall.length - 3)

print(TSS, ESS + RSS)
print('var_f',var_f)
print('var_r',var_r)
print('F_obs',var_f / var_r)


830.9642857142854 830.964285714286
var_f 126.9537337662339
var_r 23.08227272727273
F_obs 5.500053450812598


Наёдем какому уровню значимости соответсвует данное значение статистики.

In [26]:
from scipy.stats import f

print('Уровень надёжности', f.cdf(5.5, 2, 25))
print('Уровень значимости', 1 - f.cdf(5.5, 2, 25))

Уровень надёжности 0.9895174039896039
Уровень значимости 0.010482596010396139


Таким образом, при уровне значимости большем, чем 0.0105 гипотеза $H_0$ будет не отвергаться, при уровне значимости меньшем, чем 0.0105 гипотеза $H_0$ будет отвергаться