# **Анализ результатов A/B-тестирования: доверительные интервалы**

In [11]:
# импортируем библиотеки, которые нам пригодятся:
from IPython.display import display
import pandas as pd

from scipy.stats import norm
from scipy.stats import t

Итак, мы с вами знаем, что на основе **выборки** (части наблюдений) мы всегда можем измерить следующие показатели:

* выборочное среднее (центральная мера распределения);
* выборочное стандартное отклонение (мера разброса);
* выборочную пропорцию (доля объектов из выборки, выбранных по условию, например доля пользователей, совершивших покупки).

Однако эти оценки не являются нашим основным предметом интереса. На самом деле нас интересуют параметры **генеральной** совокупности: 

* **истинное** среднее — математическое ожидание ();
* **истинное** стандартное отклонение ();
* **истинная** пропорция ().

Если вы взяли выборку клиентов и выяснили их предпочтения, вам важно не то, что вы узнали предпочтения именно этих клиентов — вам важно, что теперь вы знаете предпочтения всех ваших клиентов (генеральная совокупность).

**Важно помнить о разнице между выборочными статистиками и параметрами генеральной совокупности.**

**Выборочная статистика** является случайной величиной, ведь она рассчитана на случайной выборке. Если мы возьмём одну выборку и посчитаем значение среднего, мы получим одно значение; возьмём другую — получим другое значение.

А вот параметр **генеральной совокупности** — это константа, конкретное число, которое, как правило, нам неизвестно и никогда известным не станет. Однако его можно приблизительно оценить!

Существует два способа оценки параметров генеральной совокупности:

⭐ **Точечные** оценки.  
⭐ **Интервальные** оценки.

С **точечными** оценками на самом деле мы уже знакомы и не раз их вычисляли — это просто выборочные статистики. Например, мы собрали данные о росте прохожих людей и посчитали среднее, стандартное отклонение и так далее. Почему они точечные? Потому что они дают ответ точечно, то есть в виде одного числа.

С одной стороны, это удобно: взяли выборку, посчитали выборочное среднее и получили ответ, к примеру **[«средний рост в этой выборке равен 178 см».]**


Однако есть у такого подхода и существенный недостаток: полученное значение практически **никогда не равно истинному**. 

**Интервальные** оценки — это ещё один способ оценки параметров генеральной совокупности, при использовании которого ответ даётся не в виде одного числа, а в виде интервала. 

Тогда мы скажем так: **[«Истинный средний рост лежит в интервале от 170 до 179 см с такой-то долей уверенности»]**. Скорее всего, истинный параметр будет находиться внутри этого интервала.

**Поиск интервальной оценки заключается в построении доверительного интервала**. 

* **Доверительный интервал** — интервал, который с заданной надёжностью покрывает значение неизвестного параметра. 

Например, если вам говорят, что построен 90 %-ый доверительный интервал для среднего роста и имеет вид: (170, 179), то это означает, что **с надёжностью в 90 % истинный средний рост (его математическое ожидание) лежит в пределах от 170 см до 179 см**. То есть с вероятностью в 90 % ожидается (в среднем), что любой человек из рассматриваемой генеральной совокупности имеет рост от 170 до 179 см.

Доверительные интервалы бывают двусторонними, левосторонними и правосторонними (как гипотезы). Мы с вами будем рассматривать только построение **двусторонних** доверительных интервалов, так как они являются наиболее популярными.

Любой двусторонний доверительный интервал обладает следующей структурой:

                                            Параметр = Выборочная оценка ± Предел погрешности

В соответствии с этой формулой можно нарисовать доверительный интервал. Обозначим выборочную оценку как **x**, а предел погрешности как **E**. 

![](https://lms.skillfactory.ru/assets/courseware/v1/3523cd3c845cff57b3cfe494a76a7e82/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-5-27.png)

На оси возможных значений параметра откладывается точка x. Влево и вправо от x откладывается погрешность E. Обратите внимание, что выборочная оценка всегда находится в центре двустороннего доверительного интервала. В результате построения интервала мы получаем зону, в которой предположительно лежит истинное значение параметра. 

**[Пример. Мы замеряем температуру тела человека несколько раз. Сделав замеры, мы рассчитали среднюю температуру Xmean, она оказалась 36.6 С0, а также рассчитали погрешность E=0.1 С.]**

Тогда границы доверительного интервала для истинного среднего температуры будут следующими: 

левая (нижняя) граница — Xmean - E = 36.6 - 0.1 = 36.5;
правая (верхняя) граница —  Xmean - E = 36.6 - 0.1 = 36.7. 

То есть истинное среднее температуры лежит в диапазоне от 36.5 C0 до 36.7 C0. Математически это пишется так: **∈**. Символ ∈ обозначает принадлежность.

![](https://lms.skillfactory.ru/assets/courseware/v1/b59ed79fe4f6bffb859d6dc6b4df07b4/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-5-28.png)


***
### **ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ СРЕДНЕГО ПРИ ИЗВЕСТНОМ ИСТИННОМ СТАНДАРТНОМ ОТКЛОНЕНИИ**

Самым частым параметром, который хотелось бы оценить, является истинное среднее (математическое ожидание). И начнём мы сразу с задачи:

**[Была опрошена случайная выборка из 36 жителей региона об их затратах на продукты питания за последний месяц. Выборочное среднее оказалось равным 16 100 рублей.**
**Допустим, откуда-то известно, что истинное стандартное отклонение расходов равно 12 000 рублей.**  
**Нам нужно построить доверительный интервал для истинных средних расходов жителя данного региона на продукты питания в месяц. Интервал должен определять истинное значение с надежностью в 95 %.]**

По условию задачи у нас есть выборка размером **n = 36** человек. Далее, просуммировав затраты жителей региона и поделив на их количество, было получено выборочное среднее **Xmean = 16100** рублей. Ещё нам дано значение истинного (НЕ выборочного) стандартного отклонения **σ = 12000** рублей. То есть в среднем разброс затрат составляет 12 000 рублей. Ещё нам сказали, что рассчитанный нами интервал должен быть надёжным с уровнем надёжности γ = 0.95.

Теперь, когда мы ввели все обозначения, пора нам познакомиться с **формулой доверительного интервала для истинного среднего при известном стандартном отклонении**:

![alt text](data/for1.png)

Другая запись этой формулы:

![alt text](data/for2.png)

Если сопоставить полученную формулу со структурой доверительного интервала, о которой мы говорили выше, можно заметить, что за выборочную компоненту отвечает выборочное среднее x = Xmean, а за погрешность отвечает выражение E = zкрит * σ/sqrt(n)

Подставляя значения в эту формулу и подобрав правильное значение z-критического, мы можем сказать, что истинное среднее лежит в интервале с определённой надежностью. 

И всё в этой формуле было бы прекрасно, если бы мы знали, что такое **zкрит** и как его вычислять. Давайте узнаем!

#### **ОТКУДА БЕРЁТСЯ Z-КРИТИЧЕСКОЕ?**

**Под уровнем надёжности понимается вероятность того, что истинное значение параметра окажется в построенном интервале. А под уровнем значимости — вероятность того, что построенный доверительный интервал «промахнётся» и не захватит истинное значение параметра.**

То есть мы хотим взять такое значение, при котором в интервале от -z-критического до  +z-критического лежало бы 95 % всех исходов. В двустороннем интервале эти 95 % мы будем брать как раз посередине, чтобы справа и слева осталось 5 %, по 2.5 % с каждой стороны (помним, что нормальное распределение симметрично).

![](https://lms.skillfactory.ru/assets/courseware/v1/f218d797192af6127e6c36e6487f5c95/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-5-29.png)

**Таким образом, zкрит — это значение, которое отсекает критическую область нормального распределения.**

Значение z-критического мы можем найти при помощи специальных таблиц, библиотек Python или [**калькулятора**](https://planetcalc.ru/7803/). 

✏️ Теперь ничто не мешает решить нашу задачу! Вычисления будем производить с помощью Python. 

Найти значение **z-критического** для любого уровня значимости можно при помощи функции **norm.ppf()** из модуля **scipy.stats**. По специфическим причинам реализации функция возвращает не совсем z-критическое, а его отрицательный модуль, поэтому мы берём его со знаком минус.

In [2]:
n = 36 # размер выборки
x_mean = 16100 # выборочное среднее
sigma = 12000 # истинное стандартное отклонение
gamma = 0.95 # уровень надёжности
alpha = 1 - gamma # уровень значимости
z_crit = -norm.ppf(alpha/2) # z критическое

Итак, у нас есть все ингредиенты, чтобы «приготовить» доверительный интервал. Вычислим нижнюю и верхнюю границу по формуле. Округлим результат до целого и выведем на экран:

In [3]:
eps = z_crit * sigma/(n ** 0.5) #погрешность
lower_bound = x_mean - eps # левая (нижняя) граница
upper_bound = x_mean + eps # правая (верхняя) граница
confidence_interval = (round(lower_bound), round(upper_bound)) # создаём кортеж из округлённых границ интервала
print('Доверительный интервал: {}'.format(confidence_interval)) # выводим результат

Доверительный интервал: (12180, 20020)


Полученный результат интерпретируется следующим образом: мы на 95 % уверены, что истинные расходы жителей на продукты питания лежат в интервале от 12 180 рублей до 20 020 рублей. 

⚡ Важно! Доверительный интервал не даёт нам 100 % результата. Всегда есть шанс, что мы промахнулись и не захватили истинного значения. Этот шанс как раз равен уровню значимости а.
То есть в нашем примере существует 5 %-ый шанс, что истинное среднее расходов вовсе не лежит в интервале от 12 180 до 20 020. Существует вероятность, что математическое ожидание на самом деле равно 5 000 рублей или 25 000 рублей. Но такая вероятность составляет менее 5 %, и это нас устраивает.

***
### **ЗАДАЧИ**

Аккумуляторный завод производит батарейки, срок службы которых имеет истинное стандартное отклонение в 2.4 месяца. Средний срок службы батареек в случайной выборке из 64 штук составил 12.35 месяца. Необходимо построить 90 %-ный доверительный интервал для истинного среднего срока службы производимой батарейки и ответить на вопросы заданий ниже.

In [8]:
n = 64 # размер выборки
x_mean = 12.35 # выборочное среднее
sigma = 2.4 # истинное стандартное отклонение
gamma = 0.9 # уровень надёжности
alpha = 1 - gamma # уровень значимости
z_crit = -norm.ppf(alpha/2) # z критическое
print(z_crit.round(2))
eps = z_crit * sigma/(n ** 0.5) #погрешность
lower_bound = x_mean - eps # левая (нижняя) граница
upper_bound = x_mean + eps # правая (верхняя) граница
confidence_interval = (round(lower_bound,2), round(upper_bound,2)) # создаём кортеж из округлённых границ интервала
print('Доверительный интервал: {}'.format(confidence_interval)) # выводим результат

1.64
Доверительный интервал: (11.86, 12.84)


***
### **ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ СРЕДНЕГО ПРИ НЕИЗВЕСТНОМ СТАНДАРТНОМ ОТКЛОНЕНИИ**

Для правомерного использования формулы истинное стандартное отклонение выборки должно быть известно. Но, как правило, нам неизвестно это значение (если только оно не свалилось на нас озарением), ведь для этого нам нужно знать все значения генеральной совокупности. А если они у нас есть, то нам и доверительные интервалы не нужны — зная всю генеральную совокупность, всегда можно найти истинные параметры.

В реальной жизни нам приходится заменять значение  значением выборочного стандартного отклонения, которое мы можем посчитать на основании выборки.

Когда мы заменяем константу на случайную величину, точность всей конструкции явно становится меньше. Вероятно, итоговая величина будет похожа на нормальное распределение, но будет обладать бОльшим разбросом.

Такая случайная величина хорошо описывается распределением **Стьюдента**, или **Т-распределением**. 

**Распределение Стьюдента** — это целое семейство родственников стандартного нормального распределения.

Действительно, центр (среднее) по-прежнему будет в 0, а вот разброс значений (то есть стандартное отклонение) будет уже больше. Этот разброс будет различным в зависимости от степеней свободы (k).

![](https://lms.skillfactory.ru/assets/courseware/v1/29adc7996458db714b453d5e11b05541/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-5-30.png)

На рисунке фиолетовым цветом изображено нормальное распределение с параметрами 0 и 1, а зелёным цветом — распределение Стьюдента. Отчётливо видно, что распределение Стьюдента несколько «шире» — обладает бОльшим разбросом.

Степени свободы  обозначаются d.f. (от англ. degrees of freedom). Они и говорят нам о том, насколько велик разброс в значениях распределения Стьюдента. Этот параметр вычисляется как k = n - 1, где n — размер выборки.

Чем больше k, тем меньше разброс распределения и тем ближе оно к нормальному, что можно продемонстрировать следующим рисунком:  

![](https://lms.skillfactory.ru/assets/courseware/v1/b0d34b3c90b9efe013495754b16503dd/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-5-31.png)

Тогда в формуле для доверительного интервала случайная нормальная величина **Z** заменится на случайную величину **T**, а истинное стандартное отклонение **σ** заменится на выборочное — **Xstd**:

![alt text](data/for3.png)

Значения tкрит вычисляются аналогично zкрит: задаётся уровень надёжности (или уровень значимости a), и на его основе по таблицам или калькуляторам для распределения Стьюдента вычисляется число. Отличие состоит в том, что для вычисления tкрит нужно задать ещё и число степеней свободы k = n - 1:

![alt text](data/for4.png)

✏️ А теперь давайте решим задачу!

**[Управляющий супермаркета хочет оценить, сколько денег покупатели тратят за один поход в супермаркет в среднем. На основании ранее собранных данных известно, что расходы одного покупателя распределены приблизительно нормально. Управляющий взял случайную выборку из 15 покупателей и выяснил, что их средние расходы равны 2 000 рублей, а выборочное стандартное отклонение равно 400 рублей.]**

Для оценки управляющий хочет построить доверительный интервал с надёжностью в 95 %.

In [9]:
n = 15 # размер выборки
k = n - 1 # число степеней свободы
x_mean = 2000 # выборочное среднее
x_std = 400 # выборочное стандартное отклонение
gamma = 0.95 # уровень надёжности
alpha = 1 - gamma # уровень значимости

Найти значение **t-критического** для любого уровня значимости можно, используя функцию **t.ppf()** из модуля **scipy.stats**.

Для этого в функцию передаётся интересующий уровень значимости (a/2) и число степеней свободы (k = n - 1). Аналогично z-критическому функция возвращает отрицательный модуль t-критического, поэтому мы берём его со знаком минус:

In [12]:
t_crit = -t.ppf(alpha/2, k) # t-критическое

Теперь составим доверительный интервал для истинного среднего. Вычислим верхнюю и нижнюю границу по формуле. Округлим результат и выведем на экран:

In [13]:
eps = t_crit * x_std/(n ** 0.5) # погрешность
lower_bound = x_mean - eps # левая (нижняя) граница
upper_bound = x_mean + eps # правая (верхняя) граница
confidence_interval = (round(lower_bound), round(upper_bound)) # создаём кортеж из округлённых границ интервала
print('Доверительный интервал: {}'.format(confidence_interval)) # выводим результат

Доверительный интервал: (1778, 2222)


Итак, мы на 95 % уверены, что истинные траты покупателей в нашем магазине лежат в интервале от 1 778 до 2 222 рублей. 

**Важно отметить, что при достаточной выборке (примерно более 30 наблюдений) распределение Стьюдента очень похоже на стандартное нормальное распределение. В этом случае можно использовать первую формулу (z-критическое) даже при неизвестном стандартном отклонении. Однако используя вторую формулу при оценке среднего, вы не ошибётесь.**

Ещё один важный факт состоит в том, что обе формулы работают только при соблюдении двух условий:

* Выборка должна быть случайной.
* Выборка должна быть достаточно велика. Но есть исключение: если выборка маленькая, но сама величина распределена нормально, то выборочное среднее тоже будет распределено нормально. В таком случае мы можем пользоваться формулой доверительного интервала.

***
### **ЗАДАЧИ**

Чиновника интересует сумма подоходного налога, выплачиваемого домохозяйствами за год. На случайной выборке из 25 домохозяйств был посчитан средний размер выплаченного налога, и он составил 3 540. Также известно выборочное отклонение величины подоходного налога, равное $ 1 150.

Необходимо найти 90 %-ый доверительный интервал для истинного среднего значения налоговых выплат за год. Используйте формулу с t-критическим.

In [14]:
n = 25 # размер выборки
k = n - 1 # число степеней свободы
x_mean = 3540 # выборочное среднее
x_std = 1150 # выборочное стандартное отклонение
gamma = 0.9 # уровень надёжности
alpha = 1 - gamma # уровень значимости

t_crit = -t.ppf(alpha/2, k) # t-критическое

eps = t_crit * x_std/(n ** 0.5) # погрешность
lower_bound = x_mean - eps # левая (нижняя) граница
upper_bound = x_mean + eps # правая (верхняя) граница
confidence_interval = (round(lower_bound), round(upper_bound)) # создаём кортеж из округлённых границ интервала
print('Доверительный интервал: {}'.format(confidence_interval)) # выводим результат

Доверительный интервал: (3146, 3934)


***
### **ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ПРОПОРЦИИ**

Настало время вернуться к нашей задаче об анализе конверсии в двух группах A/B-тестирования.

Давайте ещё раз вспомним, что такое **конверсия**.  
**Конверсия** — это доля пользователей, совершивших целевое действие, по отношению к общей массе пользователей. 

Ранее мы уже выяснили, что признак того, осуществлена конверсия пользователем или нет — это случайная величина, имеющая распределение Бернулли. Такая случайная величина имеет два возможных исхода: 

* успех (1) — конверсия осуществлена (пользователь совершил целевое действие);
* неуспех (0) — пользователь не совершил целевое действие. 

То есть конверсия — это вероятность того, что пользователь совершит целевое действие (вероятность успеха традиционно обозначается как p):

**p = conv = N+/N**

Примечание. При расчётах конверсии обычно долю ещё умножают на 100 %.

В контексте задачи A/B-тестирования нам бы хотелось знать истинную конверсию (а не ту, которая подсчитана по выборке) в контрольной и тестовой группе, а также оценить истинную разницу между конверсиями. 

Если подумать, то на самом деле мы решаем задачу оценки истинной пропорции генеральной совокупности по выборке. А значит, нужно научиться строить **доверительный интервал для пропорции**.


Истинную вероятность успеха p, мы, конечно же, не знаем, так как нам неизвестна вся генеральная совокупность (всех возможных пользователей). Вместо неё мы используем выборочную пропорцию (обозначим её как Xp) — долю совершивших конверсию пользователей, то есть выборочную конверсию. 

Заметим, что истинная пропорция p полностью совпадает с истинным средним μ. Если немного поколдовать с формулой доверительного интервала для истинного среднего, то можно вывести формулу доверительного интервала для истинной пропорции (истинной конверсии):

![](data/for5.png)

Примечание. Если размер выборки < 30, то вместо zкрит используется tкрит. Но в задачах A/B-тестирования, как правило, такой размер выборки не используется. Чаще всего мы имеем дело с сотнями или тысячами наблюдений.

✏️ Пора приступать к реализации на Python. Будем работать с данными о посетителях веб-сайта из прошлого юнита:

In [15]:
ab_data = pd.read_csv('data/ab_data.csv')
ab_data.head()

Unnamed: 0,user_id,timestamp,group,converted
0,851104,2017-01-21,A,0
1,804228,2017-01-12,A,0
2,661590,2017-01-11,B,0
3,853541,2017-01-08,B,0
4,864975,2017-01-21,A,1


In [16]:
# Для удобства создадим отдельные таблицы для каждой из групп пользователей:

#фильтруем данные группы А
a_data = ab_data[ab_data['group'] == 'A']
#фильтруем данные группы B
b_data = ab_data[ab_data['group'] == 'B']

Давайте на этот раз оформим расчёт в виде функции: объявим функцию proportions_conf_interval(). У данной функции будет три аргумента: n — размер выборки, x_p — выборочная пропорция и gamma — уровень надёжности (по умолчанию он равен 0.95). Функция будет возвращать кортеж из вычисленных границ доверительного интервала, умноженных на 100 % и округлённых до второго знака после запятой.

In [18]:
def proportions_conf_interval(n, x_p, rnd=2, gamma=0.95):   
    alpha = 1 - gamma # уровень значимости
    z_crit = -norm.ppf(alpha/2) # z критическое
    eps = z_crit * (x_p * (1 - x_p) / n) ** 0.5 #погрешность
    lower_bound = x_p - eps # левая (нижняя) граница
    upper_bound = x_p + eps # правая (верхняя) граница
    # возвращаем кортеж из округлённых границ интервала
    return round(lower_bound * 100, rnd), round(upper_bound * 100, rnd)

In [19]:
# Теперь применим нашу функцию к данным группы А и группы B:

conf_interval_a = proportions_conf_interval(
n=a_data['user_id'].count(), # размер выборки
x_p=a_data['converted'].mean() # выборочная пропорция
)

conf_interval_b = proportions_conf_interval(
n=b_data['user_id'].count(), # размер выборки
x_p=b_data['converted'].mean() # выборочная пропорция
)

print('Доверительный интервал для конверсии группы А: {}'.format(conf_interval_a))
print('Доверительный интервал для конверсии группы B: {}'.format(conf_interval_b))

Доверительный интервал для конверсии группы А: (11.86, 12.19)
Доверительный интервал для конверсии группы B: (11.7, 12.03)


***
**Итак, можно сделать вывод, что с надёжностью в 95 % конверсия группы А лежит в интервале от 11.86 % до 12.19 %, а конверсия группы B лежит в интервале от 11.7 % до 12.03 %.**

Если схематично изобразить построенные доверительные интервалы для конверсии в группах А и B, можно отчётливо заметить пересечение интервалов (обозначено синим цветом):

![](https://lms.skillfactory.ru/assets/courseware/v1/ccff869d9047579be1db2e4c29eba8bb/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-5-33.png)

Что значит такое пересечение интервалов для нас? Это значит, что существует вероятность, что истинное значение конверсии в обеих группах может совпасть (попасть в синюю зону). То есть мы не можем однозначно сказать, есть ли разница в конверсиях. Можно даже рассчитать эту вероятность, но лучше пойти другим путём.

Лучше построить **доверительный интервал разницы пропорций** (конверсий).

Не будем уходить в статистические дебри, просто приведём формулу для расчёта доверительного интервала разницы конверсий в группах. Запоминать её, как и считать руками, не нужно, мы реализуем расчёты с помощью Python. Однако важно понимать её составляющие:

![](data/for6.png)

Допустим, мы построим такой доверительный интервал. Как тогда на его основе сделать выводы и принять решение? Возможны три случая:

                                                                1

* **Обе границы доверительного интервала являются положительными (больше 0)**

Истинная разница в конверсии положительная. В таком случае говорят, что вариант B более эффективен по метрике конверсии, чем вариант А с заданной надёжностью.

![](https://lms.skillfactory.ru/assets/courseware/v1/3614ef7552116c96900af8d01436c3ee/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-5-34.png)

                                                                2

* **Обе границы доверительного интервала являются отрицательными (меньше 0)**

Истинная разница в конверсии отрицательна. Тогда вариант B хуже по метрике конверсии, чем вариант А с заданной надёжностью.

![](https://lms.skillfactory.ru/assets/courseware/v1/721ac12868f72379e6e039bbd4ee1fc6/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-5-35.png)

                                                                3

* **Интервал охватывает точку 0**

Левая граница доверительного интервала отрицательная, а правая — положительная. То есть истинная разница в конверсии  может быть как положительной, так и отрицательной. Тогда это будет значить, что варианты А и B равнозначны по метрике конверсии. 

![](https://lms.skillfactory.ru/assets/courseware/v1/88a5e0a1528bc754258228aa6902ce07/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-5-36.png)

✏️ Создадим функцию **diff_proportions_conf_interval(**) со следующими аргументами: **n** — список из размеров выборки для групп А и B соответственно, **xp** — список из выборочных пропорций для групп А и B соответственно и **gamma** — уровень надёжности (по умолчанию он равен 0.95). Функция будет возвращать кортеж из вычисленных границ доверительного интервала разницы конверсий, умноженных на 100 % и округлённых до второго знака после запятой.

In [20]:
def diff_proportions_conf_interval(n, xp, rnd=2, gamma=0.95):
    alpha = 1 - gamma # уровень значимости
    diff = xp[1] - xp[0] # выборочная разница конверсий групп B и A
    z_crit = -norm.ppf(alpha/2) # z критическое
    eps = z_crit * (xp[0] * (1 - xp[0])/n[0] + xp[1] * (1 - xp[1])/n[1]) ** 0.5 # погрешность
    lower_bound = diff - eps # левая (нижняя) граница
    upper_bound = diff + eps # правая (верхняя) граница
    # возвращаем кортеж из округлённых границ интервала
    return round(lower_bound *100, rnd), round(upper_bound * 100, rnd)

In [21]:
# Вызовем функцию и построим интересующий нас доверительный интервал:

# размеры выборок групп А и B
n = [a_data['user_id'].count(), b_data['user_id'].count()]
# выборочная пропорция групп A и B
xp = [a_data['converted'].mean(), b_data['converted'].mean()]
# строим доверительный интервал для разности конверсий
diff_inverval = diff_proportions_conf_interval(n, xp)
print('Доверительный интервал для разности конверсий: {}'.format(diff_inverval))

Доверительный интервал для разности конверсий: (-0.39, 0.08)


Итак, что можно сказать теперь? Построенный доверительный интервал с 95 %-ой надёжностью говорит нам, что разница в конверсии между вариантом B и вариантом А лежит в интервале от -0.39 % до 0.08 %. 

То есть разница в конверсии с 95 %-ой надёжностью может быть как положительной, так и отрицательной. Мы имеем дело с третьим случаем — интервал охватывает точку 0.

Отсюда можно сделать вывод, что статистической разницы в конверсии между вариантами А и B не существует, то есть они являются равнозначными по данной метрике.

***
**⭐️ Обычно доверительные интервалы используются в комплексе со статистическими тестами. Статистический тест показывает, значимы ли наши результаты, а доверительный интервал показывает пределы изменения метрик и их разницы в группах.**
***

In [27]:
# Чтобы оценить удовлетворённость клиентов сети отелей, менеджер
# взял случайную выборку из 189 комментариев, оставленных
# посетителями на онлайн-платформе по бронированию, и провёл анализ их содержания.
# Выяснилось, что 132 комментария были положительными, остальные — негативными.

# Чему равна выборочная пропорция положительных комментариев?
x_p=132/189 # выборочная пропорция
print(x_p)

# Найдите 90 % доверительный интервал для истинной пропорции положительных комментариев.
conf_interval_hotel = proportions_conf_interval(
n=189, # размер выборки
x_p=x_p, # выборочная пропорция
rnd=2,
gamma=0.9
)
print('Доверительный интервал для конверсии: {}'.format(conf_interval_hotel))


0.6984126984126984
Доверительный интервал для конверсии: (64.35, 75.33)


In [29]:
# Вызовем функцию и построим интересующий нас доверительный интервал:

# размеры выборок групп А и B
n = [1000, 1000]
# выборочная пропорция групп A и B
xp = [45/1000, 50/1000]
# строим доверительный интервал для разности конверсий
diff_inverval = diff_proportions_conf_interval(n, xp)
print('Доверительный интервал для разности конверсий: {}'.format(diff_inverval))

Доверительный интервал для разности конверсий: (-1.36, 2.36)
