In [1]:
import pandas as pd
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. 

Даны значения роста в трех группах случайно выбранных спортсменов: 
- Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. 
- Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. 
- Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

Внесем все данные о выборках:

* n1 = 8
* n2 = 9
* n3 = 11

n = n1 + n2 + n3 = 28 - Количество значений всего

k = 3 - Три группы

In [16]:
n1 = 8
n2 = 9
n3 = 11
n = n1 + n2 + n3
k = 3

In [2]:
y1 = np.array([173, 175, 180, 178, 177, 185, 183, 182], dtype=np.float64)
y2 = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180], dtype=np.float64)
y3 = np.array([172, 173, 169, 177, 166, 180, 178,
              177, 172, 166, 170], dtype=np.float64)


Проведем однофакторный дисперсионный анализ. 

Для начала необходимо найти средний рост для каждой профессии:

In [3]:
y1_mean = np.mean(y1)
print(y1_mean)


179.125


In [4]:
y2_mean = np.mean(y2)
print(y2_mean)


178.66666666666666


In [5]:
y3_mean = np.mean(y3)
print(y3_mean)


172.72727272727272


Соберем все данные в один массив:

In [6]:
y_all = np.concatenate([y1, y2, y3])
y_all


array([173., 175., 180., 178., 177., 185., 183., 182., 177., 179., 180.,
       188., 177., 172., 171., 184., 180., 172., 173., 169., 177., 166.,
       180., 178., 177., 172., 166., 170.])

Проведем последовательно все операции регрессионного анализа, как в лекции:

In [7]:
y_mean = np.mean(y_all) # Среднее по всем спортсменам
print(y_mean)


176.46428571428572


In [8]:
# сумма квадратов отклонений наблюдений от общего среднего
s2 = np.sum((y_all - y_mean)**2)
s2


830.9642857142854

In [10]:
# сумма квадратов отклонений средних групповых значений от общего среднего:
s2_f = ((y1_mean - y_mean)**2) * n1 + ((y2_mean - y_mean)**2) * \
    n2 + ((y3_mean - y_mean)**2) * n3
s2_f


253.9074675324678

In [11]:
# остаточная сумма квадратов отклонений
s2_residual = np.sum((y1 - y1_mean)**2) + \
    np.sum((y2 - y2_mean)**2) + np.sum((y3 - y3_mean)**2)
s2_residual


577.0568181818182

Проверка на **равенство остаточных**:

  "сумма квадратов отклонений наблюдений от общего среднего = сумма квадратов отклонений средних групповых значений от общего среднего + остаточная сумма квадратов отклонений"

In [12]:
print(s2)
print(s2_f + s2_residual)


830.9642857142854
830.964285714286


Определим сигму генеральной совокупности:

In [15]:
sigma2_general = s2 / (n - 1)
sigma2_general


30.776455026455015

In [17]:
sigma2_f = s2_f / (k - 1) # факторная (зависимая) дисперсия
sigma2_f


126.9537337662339

In [18]:
sigma2_residual = s2_residual / (n - k) # остаточная дисперсия
sigma2_residual


23.08227272727273

In [19]:
F_h = sigma2_f / sigma2_residual # критерий Фишера
F_h


5.500053450812598

Найдем значение критерия Фишера в **таблице** критических точек распределения Фишера-Снедекора для заданного уровня значимости a = 0.05 и двух степеней свободы:

    k-1 = 2 и n-k=25 ===> F_cr = 3.3852

Так как критерий рассчетный больше критерия табличного ==> отвергнута гипотеза Н0.

**Различие роста в трех группах статистически значимо.**

In [26]:
f = stats.f_oneway(y1, y2, y3)
f

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698693)