**Пример 1**

Среди людей, проживающих в одном городе, выделены три группы по качественному признаку — профессии: бухгалтеры, юристы, 

программисты. 

Рассмотрим количественный признак — заработную плату (в тысячах рублей).

Нужно установить, различаются ли средние зарплаты этих трех групп при уровне значимости $\alpha$, равном 0.05.

Количество человек в каждой группе: бухгалтеры — 5, юристы — 8, программисты — 7.

In [1]:
import numpy as np

In [0]:
n1 = 5
n2 = 8
n3 = 7
n = n1 + n2 + n3
print(n)

20


Всего три группы:

In [0]:
k = 3

Зарплаты бухгалтеров:

In [0]:
y1 = np.array([70, 50, 65, 60, 75], dtype=np.float64)

Зарплаты юристов:

In [0]:
y2 = np.array([80, 75, 90, 70, 75, 65, 85, 100], dtype=np.float64)

Зарплаты программистов:

In [0]:
y3 = np.array([130, 100, 140, 150, 160, 170, 200], dtype=np.float64)

Проведем однофакторный дисперсионный анализ. Сначала найдем средние зарплаты для каждой профессии:

In [0]:
y1_mean = np.mean(y1)
print(y1_mean)

64.0


In [0]:
y2_mean = np.mean(y2)
print(y2_mean)

80.0


In [0]:
y3_mean = np.mean(y3)
print(y3_mean)

150.0


Видно, что средние зарплаты разнятся. Установим, что это отличие статистически значимо. Для этого сначала соберем 

все значения заработных плат в один массив:

In [0]:
y_all = np.concatenate([y1, y2, y3])
y_all

array([  70.,   50.,   65.,   60.,   75.,   80.,   75.,   90.,   70.,
         75.,   65.,   85.,  100.,  130.,  100.,  140.,  150.,  160.,
        170.,  200.])

Найдем среднее значение заработной платы по всем значениям:

In [0]:
y_mean = np.mean(y_all)
print(y_mean)

100.5


Найдем $S^2$ — сумму квадратов отклонений наблюдений от общего среднего:

In [0]:
s2 = np.sum((y_all - y_mean)**2)
s2

34445.0

Найдем $S^2_F$ - сумму квадратов отклонений средних групповых значений от общего среднего:

In [0]:
s2_f = ((y1_mean - y_mean)**2) * n1 + ((y2_mean - y_mean)**2) * n2 + ((y3_mean - y_mean)**2) * n3
s2_f

27175.0

Найдем $S^2_{ост}$ — остаточную сумму квадратов отклонений:

In [0]:
s2_residual = np.sum((y1 - y1_mean)**2) + np.sum((y2 - y2_mean)**2) + np.sum((y3 - y3_mean)**2)
s2_residual

7270.0

Удостоверимся, что соблюдается равенство $S^2 = S_F^2 + S_{ост}^2$:

In [0]:
print(s2)
print(s2_f + s2_residual)

34445.0
34445.0


Найдем общую дисперсию:

In [0]:
sigma2_general = s2 / (n - 1)
sigma2_general

1812.8947368421052

Найдем факторную дисперсию:

In [0]:
sigma2_f = s2_f / (k - 1)
sigma2_f

13587.5

Найдем остаточную дисперсию:

In [0]:
sigma2_residual = s2_residual / (n - k)
sigma2_residual

427.64705882352939

Вычислим $F_H$:

In [0]:
F_h = sigma2_f / sigma2_residual
F_h

31.772696011004129

Найдем значение $F_{крит}$ в таблице критических точек распределения Фишера-Снедекора для заданного уровня значимости $\alpha = 0.05$ и двух степеней свободы: 

$df_{межд} = k - 1 = 3 - 1 = 2$ и $df_{внутр} = n - k = 20 - 3 = 17$.

Для данных значений $F_{крит} = 3.59$. Так как $F_H > F_{крит}$, отвергнута гипотеза Н0, различие средних зарплат в трех группах статистически значимо.

### Задание 1. Реализовать метод по примеру выше для расчета дисперсий к следующей задаче.
### Решить задачу, используя методы Anova SciPy.

Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

### Задание2. Проанализируйте набор данных «Авто-мили», чтобы выяснить, насколько переменные похожи друг на друга.

Загрузите набор данных auto-mpg из ~ / наборов данных / auto-mpg /
Проверить нулевую гипотезу, отклонять или не отклонять нулевую гипотезу.

1. Гипотезы:

Independent variable: origin

Dependent variable: mpg

$ H_o: $ Существенных различий в милях среди транспортных средств различного происхождения не существует.

$ H_1: $ Существенная разница существует в милях среди транспортных средств различного происхождения.
 
 2. 
 
Independent variable: origin

Independent variable: horsepower

Dependent variable: mpg

$ H_o: $ Существенных различий в милях среди транспортных средств различного происхождения не существует.

$ H_1: $ Существенная разница существует в милях среди транспортных средств различного происхождения.


 

Задание 3. Определить , какие выборки и  какой критерий использовать. 

1. Пример

Изучить, оказывает ли влияение новая недавно разработанная система электронной регистрации на прием к врачу на среднее время, проведенное пациентом в ожидании приема. Пусть есть две выборки  со средним временем ожидания приема за последний месяц в двух разных клиниках; в одной из них есть система электронной регистрации, а в другой – нет.
2. Пример

Для тестирования диеты набираются 15 человек. Их вес замеряется, а затем они подвергаются диете в течении некоторого времени, и их вес снова замеряется. С помощью статистических методов необходимо проверить, работает ли диета.

3. Пример

Влияние витамина C на рост зубов морских свинок.
В эксперименте изучалось влияние витамина C на рост одонтобластов морских свинок. Рассматривалось три дозы витамина (0.5, 1 и 2 мг) и два способа его приёма (апельсиновый сок и аскорбиновая кислота). В каждой из 6 групп по уровням двух факторов были произведены измерения для 10 морских свинок.

4. Пример

Рост певцов хора
В 1979 году было опрошено 235 членов нью-йоркской ассоциации хорового пения, для каждого из них известен рост и регистр голоса. Меняется ли средний рост вместе с регистром?