**Пример 1**

Среди людей, проживающих в одном городе, выделены три группы по качественному признаку — профессии: бухгалтеры, юристы, 

программисты. 

Рассмотрим количественный признак — заработную плату (в тысячах рублей).

Нужно установить, различаются ли средние зарплаты этих трех групп при уровне значимости $\alpha$, равном 0.05.

Количество человек в каждой группе: бухгалтеры — 5, юристы — 8, программисты — 7.

In [5]:
import numpy as np

In [0]:
n1 = 5
n2 = 8
n3 = 7
n = n1 + n2 + n3
print(n)

20


Всего три группы:

In [0]:
k = 3

Зарплаты бухгалтеров:

In [0]:
y1 = np.array([70, 50, 65, 60, 75], dtype=np.float64)

Зарплаты юристов:

In [0]:
y2 = np.array([80, 75, 90, 70, 75, 65, 85, 100], dtype=np.float64)

Зарплаты программистов:

In [0]:
y3 = np.array([130, 100, 140, 150, 160, 170, 200], dtype=np.float64)

Проведем однофакторный дисперсионный анализ. Сначала найдем средние зарплаты для каждой профессии:

In [0]:
y1_mean = np.mean(y1)
print(y1_mean)

64.0


In [0]:
y2_mean = np.mean(y2)
print(y2_mean)

80.0


In [0]:
y3_mean = np.mean(y3)
print(y3_mean)

150.0


Видно, что средние зарплаты разнятся. Установим, что это отличие статистически значимо. Для этого сначала соберем 

все значения заработных плат в один массив:

In [0]:
y_all = np.concatenate([y1, y2, y3])
y_all

array([  70.,   50.,   65.,   60.,   75.,   80.,   75.,   90.,   70.,
         75.,   65.,   85.,  100.,  130.,  100.,  140.,  150.,  160.,
        170.,  200.])

Найдем среднее значение заработной платы по всем значениям:

In [0]:
y_mean = np.mean(y_all)
print(y_mean)

100.5


Найдем $S^2$ — сумму квадратов отклонений наблюдений от общего среднего:

In [0]:
s2 = np.sum((y_all - y_mean)**2)
s2

34445.0

Найдем $S^2_F$ - сумму квадратов отклонений средних групповых значений от общего среднего:

In [0]:
s2_f = ((y1_mean - y_mean)**2) * n1 + ((y2_mean - y_mean)**2) * n2 + ((y3_mean - y_mean)**2) * n3
s2_f

27175.0

Найдем $S^2_{ост}$ — остаточную сумму квадратов отклонений:

In [0]:
s2_residual = np.sum((y1 - y1_mean)**2) + np.sum((y2 - y2_mean)**2) + np.sum((y3 - y3_mean)**2)
s2_residual

7270.0

Удостоверимся, что соблюдается равенство $S^2 = S_F^2 + S_{ост}^2$:

In [0]:
print(s2)
print(s2_f + s2_residual)

34445.0
34445.0


Найдем общую дисперсию:

In [0]:
sigma2_general = s2 / (n - 1)
sigma2_general

1812.8947368421052

Найдем факторную дисперсию:

In [0]:
sigma2_f = s2_f / (k - 1)
sigma2_f

13587.5

Найдем остаточную дисперсию:

In [0]:
sigma2_residual = s2_residual / (n - k)
sigma2_residual

427.64705882352939

Вычислим $F_H$:

In [0]:
F_h = sigma2_f / sigma2_residual
F_h

31.772696011004129

Найдем значение $F_{крит}$ в таблице критических точек распределения Фишера-Снедекора (НАЙТИ ТАБЛИЦУ В ИНТЕРНЕТЕ) для заданного уровня значимости $\alpha = 0.05$ и двух степеней свободы: 

$df_{межд} = k - 1 = 3 - 1 = 2$ и $df_{внутр} = n - k = 20 - 3 = 17$.

Для данных значений $F_{крит} = 3.59$. Так как $F_H > F_{крит}$, отвергнута гипотеза Н0, различие средних зарплат в трех группах статистически значимо.

### Задание 1. Реализовать метод по примеру выше для расчета дисперсий к следующей задаче.
### Решить задачу, используя методы Anova SciPy.

Провести дисперсионный анализ для определения того, есть ли различия среднего роста среди взрослых футболистов, хоккеистов и штангистов. Даны значения роста в трех группах случайно выбранных спортсменов: Футболисты: 173, 175, 180, 178, 177, 185, 183, 182. Хоккеисты: 177, 179, 180, 188, 177, 172, 171, 184, 180. Штангисты: 172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170.

In [2]:
football_c = 8
hockey_c = 9
wl_c = 11
all_c = football_c + hockey_c + wl_c
all_c

28

Количество факторов:

In [3]:
k = 3

Рост футболистов, хоккеистов и штангистов:

In [6]:
fb = np.array([173, 175, 180, 178, 177, 185, 183, 182], dtype = np.float64)
h = np.array([177, 179, 180, 188, 177, 172, 171, 184, 180], dtype = np.float64)
wl = np.array([172, 173, 169, 177, 166, 180, 178, 177, 172, 166, 170], dtype = np.float64)

Проведем однофакторный дисперсионный анализ:

In [7]:
fb_mean = np.mean(fb)
fb_mean

179.125

In [9]:
h_mean = np.mean(h)
h_mean

178.66666666666666

In [10]:
wl_mean = np.mean(wl)
wl_mean

172.72727272727272

Видно, что средние зарплаты практически не отличаются. Соберем все значения в один массив:

In [12]:
common = np.concatenate([fb, h, wl])
common

array([173., 175., 180., 178., 177., 185., 183., 182., 177., 179., 180.,
       188., 177., 172., 171., 184., 180., 172., 173., 169., 177., 166.,
       180., 178., 177., 172., 166., 170.])

Найдем среднее по всем значениям:

In [13]:
common_mean = np.mean(common)
common_mean

176.46428571428572


Найдем $S^2$ — сумму квадратов отклонений наблюдений от общего среднего:

In [22]:
s2 = np.sum((common - common_mean)**2)
s2

830.9642857142854

Найдем $S^2_F$ - сумму квадратов отклонений средних групповых значений от общего среднего:

In [23]:
s2_f = ((fb_mean - common_mean)**2) * football_c + ((h_mean - common_mean)**2) * hockey_c + ((wl_mean - common_mean)**2) * wl_c
s2_f

253.9074675324678

Найдем $S^2_{ост}$ — остаточную сумму квадратов отклонений:

In [24]:
s2_residual = np.sum((fb - fb_mean)**2) + np.sum((h - h_mean)**2) + np.sum((wl - wl_mean)**2)
s2_residual

577.0568181818182

Удостоверимся, что соблюдается равенство $S^2 = S_F^2 + S_{ост}^2$:

In [25]:
print(s2)
print(s2_f + s2_residual)

830.9642857142854
830.964285714286


Найдем общую дисперсию:

In [27]:
sigma2_general = s2 / (all_c - 1)
sigma2_general

30.776455026455015

Найдем факторную дисперсию:

In [28]:
sigma2_f = s2_f / (k - 1)
sigma2_f

126.9537337662339

Найдем остаточную дисперсию:

In [29]:
sigma2_residual = s2_residual / (all_c - k)
sigma2_residual

23.08227272727273

Вычислим $F_H$:

In [30]:
F_h = sigma2_f / sigma2_residual
F_h

5.500053450812598

Найдем значение $F_{крит}$ в таблице критических точек распределения Фишера-Снедекора (НАЙТИ ТАБЛИЦУ В ИНТЕРНЕТЕ) для заданного уровня значимости $\alpha = 0.05$ и двух степеней свободы: 

$df_{межд} = k - 1 = 3 - 1 = 2$ и $df_{внутр} = all_c - k = 28 - 3 = 25$.

Для данных значений $F_{крит} = 3.38$. Так как $F_H > F_{крит}$, отвергнута гипотеза Н0, различие средних зарплат в трех группах статистически значимо.

##### Решим задачу с помощью scipy anova

In [1]:
import scipy.stats as stats

In [33]:
stats.f_oneway(fb, h, wl)

F_onewayResult(statistic=5.500053450812596, pvalue=0.010482206918698694)

Returns
statistic float:
The computed F-value of the test.

pvalue float:
The associated p-value from the F-distribution

#### Как мы видим $F_H$ = 5.5, а  $F_{крит}$ = 3,38, т.к. это значение в таблице критических точек распределения Фишера-Снедекора для значений 2 и 25. И т.к. 5,5 > 3,38, то $H_0$ гипотеза не верна

### Задание2. Проанализируйте набор данных «Авто-мили», чтобы выяснить, насколько переменные похожи друг на друга.

Загрузите набор данных auto-mpg из ~ / наборов данных / auto-mpg /
Проверить нулевую гипотезу, отклонять или не отклонять нулевую гипотезу.

1. Гипотезы:

Independent variable: origin (как я понял это факторы, в предыдущих заданиях это k, такие как футболисты, хоккеисты, штангисты)

Dependent variable: mpg (а это n, т.к. тут какие-то зависимые значения, которые зависят от конкретного $k_i$-ого)

$ H_o: $ Существенных различий в милях среди транспортных средств различного происхождения не существует.

$ H_1: $ Существенная разница существует в милях среди транспортных средств различного происхождения.

In [2]:
import pandas as pd

Считаем данные, проверим, что интересного в них есть:

In [3]:
df = pd.read_csv('auto_mpg.csv')

In [4]:
df.head(20)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino
5,15.0,8,429.0,198,4341,10.0,70,1,ford galaxie 500
6,14.0,8,454.0,220,4354,9.0,70,1,chevrolet impala
7,14.0,8,440.0,215,4312,8.5,70,1,plymouth fury iii
8,14.0,8,455.0,225,4425,10.0,70,1,pontiac catalina
9,15.0,8,390.0,190,3850,8.5,70,1,amc ambassador dpl


Проверим данные на null значения и дубликаты:

In [5]:
df.isnull().sum()

mpg             0
cylinders       0
displacement    0
horsepower      0
weight          0
acceleration    0
model year      0
origin          0
car name        0
dtype: int64

In [6]:
df.duplicated().sum()

0

Налл значения и дубликаты отсутствуют.

Воспольуемся scipy.stats для вычисления значения и проверки гипотезы:

Сгруппируем переменную mpg по origin, разделим на n-е количество массивов, а потом провести ANOVA тест (у python - stats.f_oneway). Узнаем какие же факторы есть у независимой переменной origin

In [15]:
p = pd.unique(df["origin"])
p

array([1, 3, 2], dtype=int64)

In [20]:
df['origin'].count()

398

Факторами ($k$) являются 1, 2, 3. $n$ = 398. Вычислим $F_H$ и сравним с табличным значением

In [21]:
arr = []

for x in pd.unique(df["origin"]):
    arr.append(df[df["origin"]==x]["mpg"].values)
stats.f_oneway(arr[0], arr[1],arr[2])

F_onewayResult(statistic=98.54179491075871, pvalue=1.9154864184128e-35)

#### Как мы видим $F_H$ = 98.54, а  $F_{крит}$ = 2.68, т.к. это значение в таблице критических точек распределения Фишера-Снедекора для значений 3 и 120, а при увеличении степеней свободы критическое значение лишь уменьшается, можно сделать вывод: 98.54 > 2,68, то $H_0$ гипотеза не верна

 
 2. 
 
Independent variable: origin

Independent variable: horsepower

Dependent variable: mpg

$ H_o: $ Существенных различий в милях среди транспортных средств различного происхождения не существует.

$ H_1: $ Существенная разница существует в милях среди транспортных средств различного происхождения.

In [24]:
p = pd.unique(df["horsepower"])
len(p)

94

In [29]:
arr = []

for x in pd.unique(df["horsepower"]):
    arr.append(df[df["horsepower"]==x]["mpg"].values)
stats.f_oneway(arr[0], arr[1], arr[2],arr[3],arr[4],arr[5],arr[6],arr[7],arr[8],arr[9],arr[10],arr[11],arr[12],arr[14],arr[15],arr[16],arr[17],arr[18],arr[93])

F_onewayResult(statistic=13.4550969886472, pvalue=7.268506458352683e-20)

### Задание 3. Определить , какие выборки и  какой критерий использовать. 

1. Пример

Изучить, оказывает ли влияение новая недавно разработанная система электронной регистрации на прием к врачу на среднее время, проведенное пациентом в ожидании приема. Пусть есть две выборки  со средним временем ожидания приема за последний месяц в двух разных клиниках; в одной из них есть система электронной регистрации, а в другой – нет.

#### Ответ: зависимым фактором определенно будет среднее время ожидания. Независимым клиника с электронной регистрацией или без.

2. Пример

Для тестирования диеты набираются 15 человек. Их вес замеряется, а затем они подвергаются диете в течении некоторого времени, и их вес снова замеряется. С помощью статистических методов необходимо проверить, работает ли диета.

#### Ответ: зависимый фактор в данной ситуации вес измеряемых. Независимый будет время, в течении которого они худели. Так можно выяснить, как меняется вес спустя разное время, т.к. тип диеты один и тот же.
#### Иначе можно сначала выяснить есть ли зависимость от типа диеты, а потом уже зависимость от времени

3. Пример

Влияние витамина C на рост зубов морских свинок.
В эксперименте изучалось влияние витамина C на рост одонтобластов морских свинок. Рассматривалось три дозы витамина (0.5, 1 и 2 мг) и два способа его приёма (апельсиновый сок и аскорбиновая кислота). В каждой из 6 групп по уровням двух факторов были произведены измерения для 10 морских свинок.

#### Выясняем зависимость два раза: в обоих случаях зависимый фактор - рост свинок. Независимые же факторы доза или способ приема.

4. Пример

Рост певцов хора
В 1979 году было опрошено 235 членов нью-йоркской ассоциации хорового пения, для каждого из них известен рост и регистр голоса. Меняется ли средний рост вместе с регистром?

#### Т.к. регистр является более факторной переменной, то это будет независимой переменной, а рост зависимой