# STAT&BASIC-5. Тестирование гипотез о разности параметров

## 5.0. О чём этот модуль?

Этот модуль представляет собой логическое продолжение предыдущего модуля о тестировании гипотез. Здесь вы познакомитесь с тестированием гипотез о разности двух параметров. 

Как и в предыдущем модуле, мы будем рассматривать процесс тестирования в формате «от практики к теории»: сначала изучим примеры различных гипотез и получим общее представление об алгоритме действий при тестировании, и только затем перейдем к принципам подсчета и точным формулам. 

В конце модуля вы получите возможность закрепить полученные знания решением небольших задач с помощью Python.

## 5.1. Разность средних

Презентация, с которой работает автор, - SkillFactory_Module_on_Testing.pptx

### Разность средних
Рассмотрим ещё один вид гипотез — гипотез о разности параметров. Например, мы можем говорить о разности средних, скажем, разности доходов в двух регионах.

Пусть $X_1$ — доход жителей одного региона, а $X_2$ — доход жителей другого. Если обе выборки приблизительно нормально распределены, то по центральной предельной теореме $X_1$ среднее и $X_2$ среднее распределены приблизительно нормально.
$$\overline{X_{1}} \sim N, \overline{X_{2}} \sim N$$
Если эти переменные друг от друга не зависят, то их разность тоже распределена нормально. Однако мы не знаем параметры этого нормального распределения (значения среднего и стандартного отклонения).
$$\overline{X_{1}}-\overline{X_{2}} \sim N(?, ?)$$
Среднее разности — это математическое ожидание. По свойствам математического ожидания это будет разность между математическими ожиданиями $X_1$ среднего и $X_2$ среднего. Мы знаем, что математическое ожидание выборочного среднего — это $\mu$. В данном случае — $\mu_1$ и $\mu_2$.
$$E(\overline{X_{1}}-\overline{X_{2}})=E(\overline{X_{1}})-E(\overline{X_{2}})=\mu_{1}-\mu_{2}$$
Найдем стандартное отклонение от этой величины: сначала найдем дисперсию, а затем возьмем из нее квадратный корень.

Мы знаем, что если две случайные величины независимы друг от друга, то дисперсия их суммы или разности является суммой их дисперсий.

Также мы знаем, что дисперсия выборочного среднего — это сигма в квадрате, поделенная на n. Вот ход наших рассуждений:
$$\operatorname{Var}(\overline{X_{1}}-\overline{X_{2}})=\operatorname{Var}(\overline{X_{1}})+\operatorname{Var}(\overline{X_{2}})=\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}$$
Стандартное отклонение будет корнем из получившейся величины. Подставляем в исходные параметры нормального распределения.
$$\overline{X_{1}}-\overline{X_{2}} \sim N\left(\mu_{1}-\mu_{2}, \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}\right)$$

## 5.3. Допущения при использовании формул

Итак, у нас есть три пугающие формулы, которые крошка Мю точно не одобряет:
$$z_{s t=} \frac{\overline{x_{1}}-\overline{x_{2}}}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}}, \quad t_{s t}(k)=\frac{\overline{x_{1}}-\overline{x_{2}}}{\sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}}, \quad t_{s t}(k)=\frac{\overline{x_{1}}-\overline{x_{2}}}{s_{p} \cdot \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}}$$
На самом деле эти формулы не нужно помнить: различные программы умеют рассчитывать эти статистики и значения p-value. Но вот о чем нам нужно помнить, так это о допущениях, которые позволяют нам применять эти формулы:
        

### ДОПУЩЕНИЯ:
1. Выборки взяты случайно.
2. Выборки взяты независимо друг от друга.
3. Выборки достаточно велики:
$$n_{1} \geq 30,\: n_{2} \geq 30$$
$$или$$
$$X_{1}\sim N,\: X_{2}\sim N$$

## 5.4. Как проводятся эксперименты?

Перед тем, как рассмотреть тестирование подобных гипотез на примере, давайте узнаем, как проводятся эксперименты.

Один из распространенных видов экспериментов — это медицинский эксперимент, который проводится с целью проверки эффективности лекарства. Эксперимент проводится на двух группах пациентов: экспериментальной и контрольной.
- Экспериментальная группа получает лекарство;
- Контрольная группа не получает лекарство (получает «пустышку» – плацебо).

Контрольная группа нужна для того, чтобы через некоторое время мы могли сравнить результаты экспериментальной группы с результатами контрольной.

Однако существует проблема под названием «эффект плацебо» – эффект самореализующихся ожиданий испытуемого. Дело в том, что на самочувствие людей могут влиять не только объективные факторы, но и их ожидания. Когда человек принимает таблетку, он невольно ожидает, что их самочувствие улучшится, и оно действительно чуть-чуть улучшается.

Чтобы избежать ошибочных результатов, связанных с эффектом плацебо, контрольной группе также дают таблетки-пустышки, и ожидания у обеих групп пациентов будут одинаковыми.

## 5.5. Тестирование гипотезы о разности между μ1 и μ2

Рассмотрим в качестве примера исследование по снижению уровня холестерина среди мужчин.

Из соответствующей группы пациентов крупной клиники 20 мужчин с повышенным уровнем холестерина выбраны случайно. Далее они были случайно разделены на группы: 10 мужчин попали в группу А, которой давали плацебо. Остальные 10 пациентов попали в группу B, где пациенты получали лекарство. Через 3 месяца был измерен уровень холестерина у обеих групп пациентов.

В группе А среднее снижение уровня холестерина составило 10,2 мг/дл со стандартным отклонением 7,66 мг/дл. В группе B среднее снижение составило 16,4 мг/дл со стандартным отклонением 9,4 мг/дл.

Нам известно, что динамика в уровне холестерина среди пациентов имеет приблизительно нормальное распределение.

Нам нужно протестировать гипотезу об эффективности лекарства на 1 % уровне значимости. 

$X_A, X_B$ — снижение уровня холестерина в группах A, B.
$$X_{A},\: X_{B} \approx  N$$

#### 1. Формулируем гипотезы
Нулевая гипотеза строит предположение о том, что нет никакой разницы между $\mu_A$ и $\mu_B$. В качестве альтернативной гипотезы мы рассматриваем версию того, что лекарство будет эффективно, а значит среднее снижение уровня холестерина в группе B будет больше.

$H_{0}: \mu_{A}=\mu_{B}\left(\mu_{A}-\mu_{B}=0\right)$

$H_{A}: \mu_{A}<\mu_{B}$

#### 2. Собираем наблюдения
У нас две выборки, размер каждой из которых равен 10. Записываем значения среднего и стандартного отклонений для каждой выборки.  
$$\bar{x}_{A}=10.2,\: \bar{x}_{B}=16.4,\: s_{A}=7.66,\: s_{B}=9.4,\: n_{A}=n_{B}=10,\: \alpha=0.01$$

#### 3. Мысленный эксперимент
Что происходит, если нулевая гипотеза верна? Выборки случайные и независимые, значит $X_{A}, X_{B} \approx  N$. Средние значения также будут распределены нормально. Разность между ними также будет распределена нормально.
$$\overline{X_{1}}-\overline{X_{2}} \sim N\left(\mu_{1}-\mu_{2},\: \sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}\right)$$

#### 4. Считаем t-статистику и p-value
$$t_{st}(\boldsymbol{k})=\frac{\overline{x_{A}}-\overline{x_{B}}}{\sqrt{\frac{s_{A}^{2}}{n_{A}}+\frac{s_{B}^{2}}{n_{B}}}}=\frac{10.2-16.4}{\sqrt{\frac{7.66^{2}}{10}+\frac{9.4^{2}}{10}}} \approx-1.617,\: \mathrm{k} = 10 +10 - 2 = 18$$
$$\text { p-value }=P(t(18)<-1.617) \approx 0.062$$

#### 5. Сравниваем p-value и уровень значимости α, где α = 0.01

p-value > α 

Вывод: $H_0$ не отвергнута на 1 % уровне значимости.

## 5.6. Практика

### Подсказка к выполнению задачи
Задачи на разность средних в Python можно считать либо вручную, заранее рассчитав необходимые значения средних и стандартных отклонений и подставляя их в формулу $z_{st}$ или $t_{st}$, либо используя библиотеку statsmodels.stats. Ее нужно будет предварительно импортировать:

In [2]:
from statsmodels.stats import weightstats

Чтобы сделать тест z-test, нужно использовать weightstats.CompareMeans.ztest_ind():
- weightstats.CompareMeans.ztest_ind() – для формулы ниже. Используется крайне редко, только если известны истинные стандартные отклонения.
$$Z_{S t}=\frac{\overline{x_{1}}-\overline{x_{2}}}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}}$$

Чтобы сделать тест t-test, нужно использовать weightstats.ttest_ind():
- weightstats.ttest_ind() – для вот этой формулы:
$$t_{s t}(k)=\frac{\overline{x_{1}}-\overline{x_{2}}}{\sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}}$$

### Параметры
Функции weightstats.CompareMeans.ztest_ind() и weightstats.ttest_ind() принимают на вход одни и те же параметры. Чтобы посчитать разность средних двух наборов данных, необходимо передать на вход функции два аргумента: $x_1$ и $x_2$. Где:

- $x_1$ — первый набор данных;
- $x_2$ — второй набор данных;

Дополнительный параметр usevar может принимать два значения. Если usevar = 'pooled', то стандартное отклонение образцов считается одинаковым. Если usevar ='unequal', то стандартные отклонения образцов могут быть разными.

Функции weightstats.CompareMeans.ztest_ind() и weightstats.ttest_ind() возвращают:
- значение t (или z)-статистики;
- значение p-value;
- значение степеней свободы.

Подробнее о weightstats.CompareMeans.ztest_ind() можно прочесть здесь - https://www.statsmodels.org/stable/generated/statsmodels.stats.weightstats.CompareMeans.ztest_ind.html.

Подробнее о weightstats.ttest_ind() можно прочесть здесь - https://www.statsmodels.org/stable/generated/statsmodels.stats.weightstats.ttest_ind.html.

### Условия
Дано два набора данных:

X  6.1  9.2  11.5  8.6  12.1  3.9  8.4  10.1  9.4  8.9

Y  7.3  8.7  12.6  6.8  12    6.9  10.2 17.1  9.2 11.6

Известно, что это две случайные выборки, взятые независимо друг от друга и что обе переменные распределены нормально: $X\sim N, Y\sim N$.

Используя эти данные, проверьте, есть ли разница в средних значениях X и Y. Используйте эту формулу:
$$t_{s t}(k)=\frac{\overline{x_{1}}-\overline{x_{2}}}{\sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}}$$
Другими словами, протестируйте следующую пару гипотез:
$$\mathrm{H}_{0}: \mu_{\mathrm{x}}=\mu_{\mathrm{y}},\: \mathrm{H}_{\mathrm{A}}: \mu_{\mathrm{x}} \neq \mu_{\mathrm{y}}$$

In [3]:
import pandas as pd
df = pd.DataFrame({
    'x': [6.1, 9.2, 11.5, 8.6, 12.1, 3.9, 8.4, 10.1, 9.4, 8.9],
    'y': [7.3, 8.7, 12.6, 6.8, 12, 6.9, 10.2, 17.1, 9.2, 11.6]
})

In [6]:
weightstats.ttest_ind(df.x, df.y, alternative='two-sided', usevar='unequal')

(-1.120432065446935, 0.27840903994521154, 16.673890238780608)

### 5.6.1 Задание 1
Сколько степеней свободы в соответствующем распределении Стьюдента?

Примечание: мы не можем сказать, что выборочные отклонения наборов данных одинаковы. Уточните это в парамере usevar при вычислении. При необходимости ответ округлите до целого числа.

    16.673890238780608

### 5.6.2 Задание 2
Укажите значение t-статистики. Ответ округлите до двух знаков после разделительной точки.

    -1.12 -   верно 

### 5.6.3 Задание 3
Чему равно значение p-value для тестируемой двусторонней альтернативной гипотезы? Ответ округлите до двух знаков после разделительной точки.

    0.28 -   верно 

### 5.6.4 Задание 4
Таким образом, мы (1) нулевую гипотезу  и приходим к выводу о (2) средних значений X и Y.

    (1) не отвергаем
    (2) равенстве

## 5.7. Распределение разности пропорций

Поговорим о тестировании гипотез о разности ещё одних параметров — пропорций. Мы знаем, что если выборка достаточно велика, то выборочная пропорция по центральной предельной теореме распределена нормально.

Что происходит, когда нам нужно оценить пропорцию в двух группах?

Допустим, у нас есть поддержка кандидата в одном регионе, и мы ее оцениваем с помощью выборочной пропорции $\hat{p_{1}}$; пропорцию в другом регионе мы обозначаем $\hat{p_{2}}$.

#### 1
Если обе выборки достаточно велики, эти пропорции распределены нормально.
$$\hat{p_{1}} \approx N\left(p_{1}, \sqrt{\frac{p_{1}\left(1-p_{1}\right)}{n_{1}}}\right), \hat{p_{2}} \approx N\left(p_{2}, \sqrt{\frac{p_{2}\left(1-p_{2}\right)}{n_{2}}}\right)$$

#### 2
Если две выборки независимы друг от друга, то разность выборочных пропорций также будет распределена нормально. Но нам пока неизвестны параметры этого распределения.
$$\hat{p}_{1}-\hat{p}_{2} \sim N(?, ?)$$

#### 3
Математическое ожидание разности будет разностью математического ожидания между двумя значениями выборочной пропорции. Нам известны эти значения, это просто истинные значения пропорций.
$$E\left(\hat{p}_{1}-\hat{p}_{2}\right)=E\left(\hat{p}_{1}\right)-E\left(\hat{p}_{2}\right)=p_{1}-p_{2}$$

#### 4
Чтобы найти стандартное отклонение этой разности, нужно найти дисперсию и взять квадратный корень. Поскольку выборочные пропорции независимы друг от друга, дисперсия их разности будет суммой их дисперсий. Эти значения нам также известны.
$$\operatorname{Var}\left(\hat{p}_{1}-\hat{p}_{2}\right)=\operatorname{Var}\left(\hat{p}_{1}\right)+\operatorname{Var}\left(\hat{p}_{2}\right)$$
$$=\frac{p_{1}\left(1-p_{1}\right)}{n_{1}}+\frac{p_{2}\left(1-p_{2}\right)}{n_{2}}$$
Стандартное отклонение — это корень из получившейся величины. Подставляем в параметры:
$$\hat{p}_{1}-\hat{p}_{2} \sim N\left(p_{1}-p_{2}, \sqrt{\frac{p_{1}\left(1-p_{1}\right)}{n_{1}}+\frac{p_{2}\left(1-p_{2}\right)}{n_{2}}}\right)$$

#### 5
Согласно нулевой гипотезе разницы между пропорциями нет, а значит, разница между ними будет равна нулю. Если это одно и то же число, обозначаем его как p.
$$H_{0}: p_{1}=p_{2},\left(p_{1}-p_{2}=0\right)$$
$$p_{1}=p_{2}=p$$
Следовательно:
$$\hat{p}_{1}-\hat{p}_{2} \sim N(0, \sqrt{p(1-p) \times \left(\left(\frac{1}{n_{1}}\right)+\left(\frac{1}{n_{2}}\right)\right)}$$

#### 6
Считаем z-статистику:
$$z_{s t}=\frac{\hat{p}_{1}-\hat{p}_{2}-0}{\sqrt{p(1-p) \times \left(\left(\frac{1}{n_{1}}\right)+\left(\frac{1}{n_{2}}\right)\right)}}$$
Воспользоваться этой формулой напрямую мы не можем, поскольку не знаем значения истинного p. 

Но как нам ее использовать? Мы можем оценить это значение, используя обе выборки. Пропорция считается как количество успехов, поделенное на размер выборки. Учитывая, что выборки у нас две, получаем:
$$\hat{p}=\frac{m_{1}+m_{2}}{n_{1}+n_{2}}=\frac{\hat{p}_{1} \times n_{1}+\hat{p}_{2} \times n_{2}}{n_{1}+n_{2}}$$

## 5.8. Тестируем гипотезу о разности пропорций

### Распределение разности пропорций
Вспоминаем формулу z-статистики, к которой мы пришли используя допущения и подстановки для нулевой гипотезы: 
$$z_{s t}=\frac{\hat{p}_{1}-\hat{p}_{2}}{\sqrt{p(1-p) \times \left(\left(\frac{1}{n_{1}}\right)+\left(\frac{1}{n_{2}}\right)\right)}}$$
Чтобы пользоваться этой формулой, нам нужно убедиться, что все предположения удовлетворены:
1. Выборки взяты случайно
2. Выборки независимы друг от друга
3. Выборки достаточно велики:
$$n_{1} \hat{p_{1}} \geq 5, n_{1}(1-\hat{p_{1}}) \geq 5$$
$$n_{2} \hat{p_{2}} \geq 5, n_{2}(1-\hat{p_{2}}) \geq 5$$

### ПРИМЕР
Допустим, нас интересует динамика поддержки кандидатов на выборах.

За два месяца до выборов опрос показал, что 460 из 800 опрошенных поддерживают определенного кандидата. Однако за неделю до выборов другой независимый опрос показал поддержку в 520 из 1000 опрошенных.

Наша задача — протестировать на 10% уровне значимости падение поддержки кандидата за рассматриваемый период.

$p_{1},p_{2}$  — поддержка кандидата за два месяца и за неделю до выборов.

#### 1. Формулируем гипотезы

$H_{0}: p_{1} = p_{2},(p_{1} - p_{2} = 0),\:p_{1}=p_{2}=\hat{p}$

$H_{A}: p_{1} > p_{2}$

Нулевая гипотеза предполагает, что уровень поддержки не изменился, а альтернативная — что уровень поддержки упал.

#### 2. Собираем данные
$$\hat{p}_{1}=\frac{460}{800}=0.575, \hat{p}_{2}=\frac{520}{1000}=0.520$$
$$n_{1}=800, n_{2}=1000$$

#### 3. Мысленный эксперимент
Выборки случайные и независимые. Проверяем, достаточно ли они велики.
$$n_{1} \hat{p_{1}}=460>5, n_{1}(1-\hat{p_{1}})=340>5$$
$$n_{2} \hat{p_{2}}=520>5, n_{2}(1-\hat{p_{2}})=480>5$$
Значит,
$$\hat{\mathrm{p}}_{1}-\hat{\mathrm{p}}_{2} \sim \mathrm{N}\left(\mathrm{p}_{1}-\mathrm{p}_{2}, \sqrt{\frac{\mathrm{p}_{1} \cdot\left(1-\mathrm{p}_{1}\right)}{\mathrm{n}_{1}}+\frac{\mathrm{p_2} \cdot\left(1-\mathrm{p}_{2}\right)}{\mathrm{n}_{2}}}\right)$$

#### 4. Считаем z-статистику и p-value
$$\hat{\mathrm{p}}=\frac{\hat{\mathrm{p}}_{1} \cdot \mathrm{n}_{1}+\hat{\mathrm{p}}_{2} \cdot \mathrm{n}_{2}}{\mathrm{n}_{1}+\mathrm{n}_{2}}=\frac{460+520}{800+1000}=0.544$$
$$\mathrm{z}_{\mathrm{st}}=\frac{\mathrm{p}_{1}-\mathrm{p}_{2}}{\sqrt{\mathrm{p}(1-\mathrm{p})} \sqrt{\frac{1}{\mathrm{n}_{1}}+\frac{1}{\mathrm{n}_{2}}}}=\frac{0.575-0.520}{0.0236}=\frac{0.055}{0.0236}=2.33$$

p-value $= P(>2.33)=0.0099 \approx 0.01$

#### 5. Сравниваем p-value с α
p-value ≈ 0.01 и α = 0.1

p-value < α

Наша нулевая гипотеза отвергается, значит уровень поддержки упал.

## 5.9. Практика

### Условия задачи


У нас есть две случайные выборки (100 женщин в каждой) из двух исследуемых этнических групп, A и Б.

Таблица содержит количество положительных отрицательных ответов на вопрос «Состояли ли вы в браке до достижения возраста 19 лет?» в каждой из выборок:

        A   Б
    Да  62  29
    Нет 38  71

Протестируйте гипотезу о равенстве пропорций женщин, состоявших в браке до 19 лет в группах A и Б против альтернативы, что эта пропорция в группе А выше.

    p1 - пропорция в группе А
    p2 - пропорция в группе Б

    H0: p1 = p2
    H1: p1 > p2

In [15]:
import numpy as np
from scipy.stats import norm

p1 = 62/100
p2 = 29/100
n1 = 100
n2 = 100

p_hat = round((p1*n1+p2*n2)/(n1+n2), 4)
bot = round(np.sqrt(p_hat*(1-p_hat)*(1/n1+1/n2)), 4)
z_st = round((p1-p2)/bot, 4)
p_value = round(norm.cdf(z_st), 4)

print('p1 =', round(p1,6), ', p2 =', round(p2,6))
print('p_hat =', round(p_hat,6), ', bot =', round(bot,6))
print('z_st =', round(z_st,6), ', p_value =', round(p_value,6))


p1 = 0.62 , p2 = 0.29
p_hat = 0.455 , bot = 0.0704
z_st = 4.6875 , p_value = 1.0


### 5.9.1 Задание 1
Введите значение z-статистики. Ответ округлите до двух знаков после разделительной точки.

    4.69 -  верно 

### 5.9.2 Задание 2
Соответствующее значение p-value:

    меньше 0.01 - верно

### 5.9.3 Задание 3
Таким образом, мы (1) нулевую гипотезу $H_0$ и приходим к выводу о том, что пропорция в группе А (2) в группе Б.

    (1) отвергаем
    (2) выше чем

In [None]:
# 19.05.2020 - 4 ч.