In [1]:
from scipy import stats
import matplotlib.pyplot as plt
%matplotlib inline
import pandas as pd
import numpy as np

### A/B тестирование

В этом задании вы познакомитесь с A/B тестированием и примените полученные знания по статистике. 

Рассмотрим A/B тестирование на примере сайта. У сайта есть два дизайна - старый и новый, и мы хотим оценить, насколько новый дизайн лучше старого. Для этого пользователи сайта случайным образом разделяются на контрольную и тестовую группы. Контрольной группе показывается старая версия сайта, тестовой группе - измененная версия. Оценить изменение можно несколькими способами, самый простой - оценить конверсию. Конверсия - это доля пользователей, совершивших заранее определенное действие(например подписка, нажатие на кнопку, заполнение формы). Задачу A/B тестирования можно записать математически, представив количество посетителей как случайную величину из биномиального распределения с параметрами  $n$  - количество пользователей и  $p$ - вероятность конверсии (или как сумму  $n$  независимых бросаний монетки).

### Задача A/B тестирования

Даны две независимые выборки $X$ и $Y$ для которых есть $\mu_x$ и $\mu_y$, определяющие среднее значение распределения.

Рассматривается следующая гипотеза:
$$
H_0: \mu_x = \mu_y
$$
против альтернативы:

$$
H_1: \mu_x \ne \mu_y.
$$

Если гипотеза $H_0$ отвергается, то показатель действительно поменялся.

Также тест можно записать и другим способом:
$$
H_0: \mu_x \le \mu_y
$$

против альтернативы:

$$
H_1: \mu_x > \mu_y
$$

### Описание данных

Для начала нужно загрузить данные из файла `a_b_testing.csv` при помощи функции `read_csv` из библиотеки `pandas`. В столбце `converted` значение 1 - была совершена подписка на сайт, 0 - подписки не было. в столбце `group` A - контрольная группа, B - тестовая группа.

Далее нужно выполнить следующие инструкции. Описание выходного формата содержится внутри каждого задания.

### Доверительный интервал

Найдите доверительный интервал для средней конверсии пользователей из контрольной выборки с уровнем значимости 95%. 
Для этого представим количество посетителей как случайную величину из биномиального распределения с параметрами  $n$ - количество пользователей и  $p$ - вероятность конверсии (или как сумму $n$ независимых бросаний монетки).

Напомним, что доверительный интервал строится следующим образом:

$${P}\left( \bar{X} - z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \le \mu \le \bar{X} + z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}\right) = 1-\alpha$$

Далее примените центральную предельную теорему для оценки выборочного среднего и выборочной дисперсии, когда сумма случайных величин имеет биномиальное распределение.

### РЕШЕНИЕ

In [2]:
data = pd.read_csv('a_b_testing.csv')
#для контрольной выборки
p = 0.41
n = 2037

z_value = stats.norm.ppf(q = 0.975)
var = np.sqrt((p*(1-p))/n)
interval = z_value * var
conf_int = (p - interval, p + interval)  
answer1 = ','.join([str(round(c,2)) for c in conf_int])

print("Confidence interval: {0}".format(answer1))

Confidence interval: 0.39,0.43


Запишите значения левой и правой границ через запятую, сохраняя приведенный порядок, в переменную `answer1`, которая будет являтся строкой.

### Статистика Стьюдента

Найдите значение статистики Стьюдента в предположении независимости выборок

$$
T(X, Y) = \frac{\bar{X} - \bar{Y}}{\sqrt{\frac{s_1^2}{n} + \frac{s_2^2}{m}}}
$$

где $n$ - размер контрольной выборки, $m$ - размер тестовой выборки

Ответ запишите в переменную `answer2` с точностью до 2 знака после запятой

### РЕШЕНИЕ

In [3]:
n = 2037
m = 1963
mu_x = 0.411880
mu_y = 0.437086

def t_stat_binomial(n, m, mu_x, mu_y):
    return (mu_x - mu_y) / np.sqrt(mu_x * (1 - mu_x) / n + mu_y * (1 - mu_y) / m)

answer2 = round(t_stat_binomial(n, m, mu_x, mu_y), 3)

### Статистика Стьюдента из библиотеки Scipy

Найдите p-value для статистики Стьюдента, используя функцию `stats.ttest_ind`.

### РЕШЕНИЕ

In [4]:
from scipy.stats import ttest_ind

X = data[data['group'] == 'A']['converted']
Y = data[data['group'] == 'B']['converted']

answer3 = ttest_ind(X, Y, equal_var=False).pvalue

Дополнительная проверка: значение статистики Стьюдента, посчитанная двумя способами, должны совпадать

Ответ запишите в переменную `answer3` с точностью до 2 знака после запятой

### Ответы

In [5]:
output = """Confidence interval:{0}
T score custom {1:.2f}
T score scipy {2:.2f}"""
print(output.format(answer1, answer2, answer3))

Confidence interval:0.39,0.43
T score custom -1.61
T score scipy 0.11
