In [1]:
from scipy import stats
import matplotlib.pyplot as plt
%matplotlib inline
import pandas as pd
import numpy as np

### A/B тестирование

В этом задании вы познакомитесь с A/B тестированием и примените полученные знания по статистике. 

Рассмотрим A/B тестирование на примере сайта. У сайта есть два дизайна - старый и новый, и мы хотим оценить, насколько новый дизайн лучше старого. Для этого пользователи сайта случайным образом разделяются на контрольную и тестовую группы. Контрольной группе показывается старая версия сайта, тестовой группе - измененная версия. Оценить изменение можно несколькими способами, самый простой - оценить конверсию. Конверсия - доля пользователей, совершивших заранее определенное действие(например подписка, нажатие на кнопку, заполнение формы).

### Описание данных

Для начала нужно загрузить данные из файла `a_b_testing.csv` при помощи функции `read_csv` из библиотеки `pandas`. В данном случае 1 - была совершена подписка на сайт, 0 - подписки не было. A - контрольная группа, B - тестовая группа.

Далее нужно выполнить следующие пункты, описание выходного формата содержится внутри каждого задания.

### Доверительный интервал

В видео про доверительный интервал мы рассмотрели, как можно аппроксимировать биномиальное распределение нормальным. В некоторых случаях параметры нормального распределения можно вывести математически и ниже мы рассмотрим как.

Представим количество пользователей как случайную величину из биномиального распределения с параметрами  `n`  - количество пользователей и `p` - вероятность конверсии или как сумму  `n`  независимых бросаний монетки. Определим следующую случайную величину:

$$Y = X_{1} + X_{2} + \dots + X_{n} , \, $$
где случайная величина $X_{i}$ имеет распределение Бернулли. Для случайной величины $Y$ математическое ожидание и дисперсия равны:

$$\mu = np, \, \sigma^{2} = np\cdot(1 - p)$$

Далее применяя центральную предельную теорему(случайные величины $X_{i}$ распределены независимо и размер выборки большой), получаем что 

$$Y \sim \mathcal{N}(np \, np\cdot(1 - p))\$$

Мы перешли от биномиального распределения к нормальному. Следующий шаг - стандартизация нормального распределения:

$$Z = \frac{Y - np}{\sqrt{np\cdot(1-p)}} \sim \mathcal{N}(0, \, 1) $$ 

Преобразуем выражение выше:

$$Z = \frac{Y - np}{\sqrt{np\cdot(1-p)}} = \frac{\frac{Y}{n} - p}{\sqrt{\frac{p(1-p)}{n}}} \sim \mathcal{N}(0, \, 1) $$

Так как среднее значение по выборке - это наблюдаемый процент конверсии, то доверительный интервал будет выглядеть следующим образом:

$${P}\left(p - z_{1-\frac{\alpha}{2}} \sqrt{\frac{p(1-p)}{n}} \le \mu \le p + z_{1-\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}}\right) = 1-\alpha$$

### ЗАДАНИЕ

Найдите доверительный интервал для средней конверсии пользователей из контрольной выборки с уровнем значимости 95%. Округлите левую и правую границу с точностью до двух знаков после запятой. Запишите значения левой и правой границ через запятую, сохраняя приведенный порядок, в переменную `answer1`, которая будет являтся строкой.

#### РЕШЕНИЕ

In [2]:
data = pd.read_csv('a_b_testing.csv')
data.groupby('group').groups # узнаем размеры контрольной и тестовой выборок

{'A': Int64Index([   0,    1,    2,    4,    7,    9,   10,   11,   12,   13,
             ...
             3988, 3989, 3990, 3991, 3992, 3993, 3994, 3995, 3996, 3999],
            dtype='int64', length=2037),
 'B': Int64Index([   3,    5,    6,    8,   16,   18,   19,   27,   28,   29,
             ...
             3965, 3968, 3970, 3971, 3973, 3976, 3983, 3985, 3997, 3998],
            dtype='int64', length=1963)}

In [3]:
mean = data[data['group'].str.contains('A')].mean()
mean

converted    0.41188
dtype: float64

In [4]:
st_dev = data[data['group'].str.contains('A')].std()
st_dev 

converted    0.492295
dtype: float64

In [5]:
z_value = stats.norm.ppf(q = 0.95)  # Z-score

In [6]:
interval = z_value * (st_dev/np.sqrt(2037))

In [7]:
conf_inv = (mean - interval, mean + interval) # доверительный интервал
conf_inv

(converted    0.393939
 dtype: float64, converted    0.429822
 dtype: float64)

### Задача A/B тестирования

Рассмотрим независимые выборки $X$ и $Y$ для которых есть $\mu_x$ и $\mu_y$, определяющие среднее значение распределения.

Рассматривается следующая гипотеза:
$$
H_0: \mu_x = \mu_y
$$
против альтернативы:

$$
H_1: \mu_x \ne \mu_y.
$$

Если гипотеза $H_0$ отвергается, то показатель действительно поменялся.

Также можно тест можно записать и другим способом:
$$
H_0: \mu_x \le \mu_y
$$

против альтернативы:

$$
H_1: \mu_x > \mu_y
$$

### Задание по статистике Стьюдента 

Найдите значение статистики Стьюдента в предположении независимости выборок по формуле:

$$
T(X, Y) = \frac{\bar{X} - \bar{Y}}{\sqrt{\frac{s_x^2}{n} + \frac{s_y^2}{m}}}
$$

где `n` - размер контрольной выборки, `m`  - размер тестовой выборки.

Ответ запишите в переменную `answer2` с точностью до двух знаков после запятой.

### РЕШЕНИЕ

In [8]:
n = 2037
m = 1963

In [9]:
data[data['group'].str.contains('A')].mean() # среднее значение контрольной выборки

converted    0.41188
dtype: float64

In [10]:
data[data['group'].str.contains('A')].std() # стандартное отклонение контрольной выборки

converted    0.492295
dtype: float64

In [11]:
data[data['group'].str.contains('B')].mean() # среднее значение тестовой выборки

converted    0.437086
dtype: float64

In [12]:
data[data['group'].str.contains('B')].std() # стандартное отклонение тестовой выборки

converted    0.496152
dtype: float64

In [13]:
control1 = data[data.group == 'A']['converted'].sample(n=2037)
control2 = data[data.group == 'B']['converted'].sample(n=1963)

In [14]:
stats.ttest_ind(control1, control2) #  статистика Стьюдента 

Ttest_indResult(statistic=-1.6126205013707795, pvalue=0.10690590820177134)

### Статистика Стьюдента из библиотеки Scipy

Найдите p-value для статистики Стьюдента, используя функцию `stats.ttest_ind`.

### РЕШЕНИЕ

In [15]:
from scipy.stats import ttest_ind
stats.ttest_ind(control1, control2) #  статистика Стьюдента 

Ttest_indResult(statistic=-1.6126205013707795, pvalue=0.10690590820177134)

Дополнительная проверка: значение статистики Стьюдента, посчитанная двумя способами, должны совпадать.

Ответ запишите в переменную `answer3` с точностью до 2 знака после запятой