# Основы анализа данных в Python

*Алла Тамбовцева*

## Практикум 8. Проверка гипотез: обзор статистических критериев

Необходимые импорты (есть в памятке к НЭ):

In [1]:
from statsmodels.stats.weightstats import ztest 
from scipy import stats

  import pandas.util.testing as tm


Полезные функции (есть в памятке к НЭ):

* Z-test – `ztest()` из `statsmodels` выше.
* Одновыборочный t-критерий – `stats.ttest_1samp()`.
* Двухвыборочный t-критерий – `stats.ttest_ind()`.
* Парный t-критерий – `stats.ttest_rel()`.

In [None]:
# let's recall how to (politely) ask Python for help

In [None]:
# базовый вариант – работает не только в Jupyter/Colab
# результат – обычная текстовая выдача

help(stats.ttest_1samp)

In [None]:
# вариант для Jupyter/Colab
# можно открыть в новой вкладке

??stats.ttest_1samp

### Задача 1

*Тип задания №17 из НЭ (тренировочный вариант 1)*

Ниже приведены данные об уровнях осадков в двух различных регионах России, измеренные за одинаковые промежутки времени.

Предполагая, что все необходимые предпосылки выполнены, дисперсии генеральных совокупностей равны, а выборки независимы, проверьте гипотезу о равенстве средних уровней осадков ($H_0: \mu_1=\mu_2$) при помощи Z-теста на уровне значимости 5%. Выберите верное утверждение.


Регион 1: [105.99, 101.02, 102.83, 103.73, 103.25, 107.59, 105.80, 108.34, 103.98, 102.31].

Регион 2: [105.47, 105.28, 105.53, 104.04, 104.85, 104.21, 106.02, 104.54, 103.93, 105.38].

Выберите один ответ:

* Основная гипотеза отвергается.
* Основная гипотеза не отвергается.

In [2]:
reg1 = [105.99, 101.02, 102.83, 103.73, 103.25, 107.59, 
        105.80, 108.34, 103.98, 102.31]
reg2 = [105.47, 105.28, 105.53, 104.04, 104.85, 104.21, 
        106.02, 104.54, 103.93, 105.38]

ztest(reg1, reg2)

(-0.5643554474040218, 0.5725122531230531)

> Первое значение – наблюдаемое значение z-статистики $z_{\text{набл}}$, второе значение – p-value. Так как здесь p-value больше уровня значимости $\alpha = 0.05$, нулевая (основная) гипотеза не отвергается, а значит, средние уровни осадков в двух регионах можно считать одинаковыми. 

Если вспомнить, что $z_{\text{набл}} = -0.56$ в случае, если $H_0$ верна, принадлежит стандартному нормальному распределению $N(0, 1)$, можно прийти к такому же выводу, поскольку это значение входит в 95% наиболее достоверных значений такого распределения от $-2$ до 2 (по правилу трех сигм).

### Задача 2

*Тип задания №17 из НЭ (тренировочный вариант 2)*

Ниже приведены данные о температуре в двух различных регионах России, измеренные за одинаковые промежутки времени. 

Предполагая, что все необходимые предпосылки выполнены, дисперсии генеральных совокупностей равны, а выборки независимы, проверьте гипотезу о равенстве средних температур ($H_0:\mu_1=\mu_2$) при помощи t−теста на уровне значимости 5%. Выберите верное утверждение.


Регион 1: [3.91191711, 11.85438423,  5.33315539, 15.65024281,  1.41290797, 5.81031468,  5.02855113,  6.97657259,  5.76103967,  5.79249865]

Регион 2: [16.81716616, 13.2731672 ,  7.43622619, 17.90370181, 16.22380383, 5.80146314, 10.15938281,  2.54872913, 16.34722055, 10.5265988]


Выберите один ответ:

* Основная гипотеза отвергается.
* Основная гипотеза не отвергается.

In [3]:
r1 = [3.91191711, 11.85438423, 5.33315539, 15.65024281, 1.41290797, 
      5.81031468, 5.02855113, 6.97657259, 5.76103967, 5.79249865]
r2 = [16.81716616, 13.2731672 , 7.43622619, 17.90370181, 16.22380383, 
      5.80146314, 10.15938281, 2.54872913, 16.34722055, 10.5265988]
stats.ttest_ind(r1, r2)

Ttest_indResult(statistic=-2.3503732918690403, pvalue=0.030357385858521567)

> Первое значение – наблюдаемое значение t-статистики $t_{\text{набл}}$, второе значение – p-value. Так как здесь p-value меньше уровня значимости $\alpha=0.05$, нулевая (основная) гипотеза отвергается, а значит, средние уровни осадков в двух регионах отличаются.

**Важно 1.** Если в предпосылках указано, что дисперсии НЕ равны, в функцию выше нужно добавить аргумент `equal_var = False`, по умолчанию этот аргумент равен `True`, что соответствует нашему случаю.

**Важно 2.** По умолчанию Python проверяет нулевую гипотезу против двусторонней альтернативы ($H_0:\mu_1 \ne \mu_2$). Если у нас есть необходимость выбрать одностороннюю альтернативу, это можно сделать в аргументе `alternative`. В данном случае логично выбрать левостороннюю альтернативу, так как наблюдаемое значение статистики получилось отрицательным, а значит, среднее первой выборки меньше, чем среднее второй (и у генеральных совокупностей ожидаем такое же соотношение):

In [4]:
stats.ttest_ind(r1, r2, alternative = "less")

Ttest_indResult(statistic=-2.3503732918690403, pvalue=0.015178692929260783)

Как можно заметить, p-value закономерно сократилось вдвое (и нулевая гипотеза по-прежнему отвергается).

### Задача 3

Участникам эксперимента было предложено выполнить разные задания, включающие или не включающие физическую активность. Спустя 15 минут после выполнения задания у 15 участников был измерен пульс – число ударов сердца в минуту:

[85, 92, 97, 82, 92, 86, 103, 92, 96, 96, 98, 104, 105, 132, 110].

Предполагая, что все необходимые предпосылки выполнены, выборка выше взята из нормального распределения, проверьте гипотезу о равенстве среднего 90 на уровне значимости 5%. 

Выберите один ответ:

* Основная гипотеза отвергается.
* Основная гипотеза не отвергается.

Изменится ли вывод, если мы изменим уровень значимости на 1%?

In [5]:
sample = [85, 92, 97, 82, 92, 86, 103, 92, 
          96, 96, 98, 104, 105, 132, 110]

# H0: mu = 90
# H1: mu != 90

stats.ttest_1samp(sample, popmean = 90)

Ttest_1sampResult(statistic=2.532234929949829, pvalue=0.023927192376426366)

> Так как p-value меньше уровня значимости $\alpha=0.05$, нулевая (основная) гипотеза отвергается, а значит, среднее число ударов сердца в минуту не равно 90 (раз наблюдаемое значение статистики `statistic` положительно, то больше 90). Если изменим уровень значимости на $\alpha=0.01$, вывод изменится на противоположный.

### Задача 4

Ниже приведены результаты измерения веса (в килограммах) 80 человек в начале и в конце некоторой диеты. Необходимо проверить, можно ли считать выбранную диету эффективной, приняв уровень значимости равным 5%. 

Предложите два способа решения этой задачи и реализуйте их.

In [7]:
import numpy as np

w_before = np.array([72, 77, 73, 68, 76, 68, 72, 87, 78, 72, 
                     82, 75, 81, 74, 90, 90, 75, 81, 65, 75, 
                     76, 73, 77, 75, 76, 80, 75, 78, 64, 87, 
                     85, 81, 83, 84, 88, 89, 86, 50, 70, 74, 
                     85, 70, 96, 88, 77, 85, 88, 71, 76, 78, 
                     80, 64, 80, 74, 71, 75, 98, 84, 76, 83, 
                     78, 76, 87, 83, 72, 69, 73, 68, 85, 75, 
                     83, 71, 81, 81, 81, 65, 85, 75, 67, 83])

w_after = np.array([85, 84, 68, 75, 87, 72, 74, 77, 89, 78, 75, 
                    81, 73, 71, 88, 83, 71, 72, 70, 74, 78, 78, 
                    77, 74, 72, 75, 69, 88, 64, 77, 69, 72, 79, 
                    80, 78, 73, 71, 73, 78, 69, 75, 79, 71, 76, 
                    69, 83, 72, 77, 77, 67, 74, 75, 84, 81, 76, 
                    76, 76, 80, 65, 73, 78, 75, 85, 69, 86, 83, 
                    81, 75, 74, 81, 71, 78, 63, 80, 73, 69, 75, 
                    65, 72, 71])

**Вариант 1.** Выбираем t-test для связанных (парных) выборок, так как данные по одним и тем же людям. Поскольку мы заинтересованы в эффективности диеты, логично выбрать правосторонюю альтернативу – средний вес в начале диеты (*before*) больше среднего веса в конце диеты (*after*).

In [8]:
# H0: mu_before = mu_after
# H1: mu_before > mu_after

stats.ttest_rel(w_before, w_after, alternative = "greater")

Ttest_relResult(statistic=2.0279287057550452, pvalue=0.022969319219410304)

> На 5% уровне значимости есть основания отвергнуть нулевую гипотезу о равенстве среднего веса людей в начале и в конце диеты, значит, диета эффективна (наблюдаемое значение статистики положительно, люди точно теряли вес, среднее первой выборки больше среднего второй выборки).

**Вариант 2.** Вычисляем разницу в среднем весе до и после диеты и проверяем гипотезу о равенстве средней разницы в весе нулю с помощью одновыборочного t-теста. 

In [9]:
# diff = mu_before - mu_after
# H0: mu(diff) = 0
# H1: mu(diff) > 0

w_loss = w_before - w_after
stats.ttest_1samp(w_loss, popmean = 0, alternative = "greater")

Ttest_1sampResult(statistic=2.0279287057550452, pvalue=0.022969319219410304)

> Результаты полностью идентичны тем, что выше, решения полностью эквивалентны.

### Задача 5*

В файле `grocery.csv` хранятся результаты АВ-тестирования сайта продуктового магазина. Менеджеры по продажам заинтересованы в том, чтобы посетители сайта скачивали приложение магазина и становились участниками программы лояльности, поэтому ключевой вопрос звучит так: нужно ли изменять внешний вид ссылки на скачивание приложения, чтобы привлечь больше покупателей к участию в программе лояльности, или нет?

В текущей версии сайта пользователям предлагается поле для ввода номера телефона для отправки ссылки на приложение в SMS и опция **Show link** для просмотра самой ссылки. В новой версии сайта пользователям предлагается стандартное окно **Our Mobile Apps** с кнопками-ссылками на *App Store* и *Google Play*. 

В течение некоторого времени посетителям сайта случайным образом показывали текущую версию сайта (с серверов под номерами 2 и 3) и обновлённую версию сайта (с сервера под номером 1), а потом фиксировали, перешли ли пользователи на страницу для скачивания приложения или нет.

Показатели в файле:

* `RecordID`: id записи;
* `IP.Address`: IP адрес посетителя сайта;
* `LoggedInFlag`: зашёл ли пользователь в аккаунт на сайте (0 – нет, 1 – да);
* `ServerID`: id сервера, с которого открывается сайт;
* `VisitPageFlag`: перешёл ли пользователь на страницу для скачивания приложения и регистрации в программе лояльности.


**5.1.** Загрузите данные из файла `grocery.csv` и сохраните в датафрейм `grocery`. Оставьте в датафрейме `grocery` только те строки, которые соответствуют незарегистрированным пользователям или пользователям, не зашедшим в аккаунт (столбец `LoggedInFlag`). 

In [10]:
import pandas as pd
grocery = pd.read_csv("grocery.csv")
grocery = grocery[grocery["LoggedInFlag"] == 0]

**5.2.** Сохраните в датафрейм `new` строки, которые соответствуют пользователям,  которые видели обновлённую версию сайта (с сервера номер 1). Сохраните в датафрейм `old` строки, которые соответствуют пользователям,  которые видели текущую версию сайта (с серверов номер 2 и 3).

In [11]:
new = grocery[grocery["ServerID"] == 1]
old = grocery[grocery["ServerID"] > 1]

# еще варианты для old
# old = grocery[(grocery["ServerID"] == 2) | (grocery["ServerID"] == 3)]
# old = grocery[grocery["ServerID"].isin([2, 3])]

**5.3.** Проверьте, используя подходящий статистический критерий, гипотезу о равенстве долей пользователей, перешедших на страницу для скачивания приложения, в текущей и новой версии дизайна сайта (уровень значимости равен 5%). Сделайте содержательный вывод, то есть ответьте на вопрос, стоит ли изменять дизайн сайта, чтобы привлечь больше пользователей к программе лояльности.

*Подсказка:* 

    from statsmodels.stats.proportion import proportions_ztest

In [12]:
from statsmodels.stats.proportion import proportions_ztest

Для реализации критерия, чтобы Python сам вычислил необходимые доли и стандартные ошибки, нам нужно зафиксировать число наблюдений в `new` и `old` и число успехов в этих двух выборках – сумму единиц в столбце `VisitPageFlag`.

In [13]:
n1 = new.shape[0]
n2 = old.shape[0]

success1 = new["VisitPageFlag"].sum()
success2 = old["VisitPageFlag"].sum()

In [14]:
# H0: p_new = p_old
# H1: p_new != p_old

proportions_ztest(count = [success1, success2], nobs = [n1, n2])

(12.83488866464478, 1.0455316698144524e-37)

> Так как p-value очень мало, практически 0, на любом уровне значимости нулевая гипотеза отвергается, а значит, различия в доле перешедших на страницу программы лояльности есть. Раз значение статистики положительно, доля по первой выборке (новый дизайн) выше, изменять дизайн смысл есть.

Убедимся в этом, сравнив доли:

In [15]:
print(success1 / n1, success2 / n2)

0.13652749557580127 0.10758530398494395
