In [2]:
import pandas as pd
pd.set_option('display.max_colwidth', None)


## 1. Обзор эксперимента

**Название эксперимента: Баннер «Бесплатная пробная версия».**

Платформа онлайн-курсов решила провести эксперимент с  бизнес-целью — максимально увеличить количество студентов, проходящих курс.

### 1.1 Текущие условия до изменений

На момент проведения этого эксперимента курсы платформы  имеют две опции на странице обзора курса: «начать бесплатную пробную версию» и «получить доступ к материалам курса».

Если студент нажмет «Начать бесплатную пробную версию», ему будет предложено ввести данные своей кредитной карты, после чего он будет зачислен на бесплатную пробную версию платной версии курса. Через 14 дней с него будет автоматически списана плата, если он не откажется заранее.

Если студент нажмет «получить доступ к материалам курса», он сможет бесплатно просматривать видео и проходить тесты, но не получит коучинговой поддержки или подтвержденного сертификата и не отправит свой окончательный проект на отзыв.


### 1.2 Описание экспериментального изменения

В ходе эксперимента платформа хочет протестировать изменение: если студент нажимает «начать бесплатную пробную версию», его спрашивают, сколько времени он может посвятить курсу.
Если студент указал 5 или более часов в неделю, он будет проходить процедуру оформления заказа как обычно.
Если он укажет менее 5 часов в неделю, то появится сообщение о том, что курсы обычно требуют больше времени для успешного завершения, и что студент может захотеть получить доступ к материалам курса бесплатно.

На этом этапе у студента будет возможность продолжить регистрацию на бесплатную пробную версию или вместо этого получить бесплатный доступ к материалам курса. 


### 1.3 Гипотеза эксперимента

Гипотеза заключается в том, что это помогло бы заранее установить более четкие ожидания для студентов, тем самым уменьшая количество разочарованных студентов, которые покинули бесплатную пробную версию, потому что у них нет достаточного количества времени.

При этом мы не хотим значительно сокращать количество студентов, которые продолжили бы бесплатную пробную версию и в конечном итоге завершили ее (то есть оплатили курс). Если бы эта гипотеза подтвердилась, платформа смогла бы улучшить общий опыт студентов и улучшить способность преподавателей поддерживать студентов, которые с большой вероятностью завершат курс.


### 1.4 Детали эксперимента

Идентификатором отслеживания является файл cookie, но если учащийся записывается на бесплатную пробную версию, с этого момента он отслеживается по user-id. Один и тот же uder-id не может дважды зарегистрироваться в бесплатной пробной версии. Uder-id, которые не регистрируются, не отслеживаются в эксперименте, даже если они вошли в систему при посещении страницы обзора курса.

## 2. Оценка текущей ситуации

Перед тем как приступить к эксперименту, нужно знать текущие оценки метрик на платформе:



In [3]:
baseline_df = pd.read_csv('hw_3_data/baseline_vals.csv' )

In [4]:
baseline_df

Unnamed: 0,metric_name,metric,baseline_value
0,Number of cookies,Unique cookies to view page per day:,40000.0
1,Number of clicks,"Unique cookies to click ""Start free trial"" per day:",3200.0
2,Number of enrollments,Enrollments per day:,660.0
3,CTP,"Click-through-probability on ""Start free trial"":",0.08
4,Gross Conversion,"Probability of enrolling, given click:",0.20625
5,Retention,"Probability of payment, given enroll:",0.53
6,Net Conversion,"Probability of payment, given click",0.109313


**Описание метрик:**

**Number of cookies** -Количество уникальных файлов cookie (=количество пользователей) просмотревших страницу обзора курса в день  

**Number of clicks** - Количество уникальных файлов cookie (=количество пользователей) кликнувших на «Начать бесплатную пробную версию». (Что происходит до того, как появится новый баннер).

**Number of enrollments** - Количество зачислений на курс в день. (Прошли ввод карты)

**CTP** - Конверсия из просмотра страницы в клик на «Начать бесплатную пробную версию»

**Gross Conversion** - Конверсия из клика на «Начать бесплатную пробную версию» в зачисление на курс

**Retention** - Конверсия из зачисления на курс в оплату (По истечении бесплатных 2 недель)

**Net Conversion** - Конверсия из клика на «Начать бесплатную пробную версию» в оплату (По истечении бесплатных 2 недель)
 

## 3. Дизайн эксперимента

### 3.1 Выбор метрик

Какие из имеющихся показателей вы бы выбрали для измерения в этом эксперименте и почему? 
Для каждой выбранной вами метрики укажите, будете ли вы использовать ее в качестве основной метрики или валидационной. (Вы можете выбрать одну или большое одной основной метрики, но не стоит относить к основным слишком много метрик).

***Ваш ответ***:

### 3.2 MDE (Minimal Detectable Effect)

Вы получили от бизнеса информацию о том, какое изменение каждой метрики принесло бы практическое значение для бизнеса. (Значения абсолютные)


**Number of cookies**: d_min = 3000

**Number of clicks**: d_min = 240

**Number of enrollments**: d_min = 50

**CTP**: d_min = 0.01

**Gross Conversion**: d_min = 0.01

**Retention**: d_min = 0.01

**Net Conversion**: d_min = 0.0075
 

Однако вы понимаете, что не все метрики можно увеличить этим экспериментом. Например, некоторые валидационные метрики могут служить просто проверкой, sanity-check-ом, что эксперимент идет нормально.

Согласно гипотезе эксперимента, для каждой выбранной вами метрике в пункте 3.1 опишите какое поведение вы от нее ожидаете. Если вы считаете, что метрика должна увеличиться - то используйте mde, который дал вам бизнес.

Если вы указали несколько основных метрик, то ответьте на вопрос - для того чтобы вы признали эксперимент успешным, вам необходимо увидеть статзначимый и существенный результат для всех этих метрик? 

***Ваш ответ***:

### 3.3 Размер выборок / Sample Size

Для каждой основной метрики, которую вы выбрали в п 3.1 посчитайте необходимый размер выборок для того чтобы увидеть нужный mde.
Каждый sample size пересчитайте в терминах посещений страницы (pageviews). Используйте формулу из лекции.

***Примечание 1:***
Не забудьте, что если вы считаете размер выборки, например, для метрики Gross Conversion, то формула даст вам результат в количестве кликов, а не посещений страницы. Это значит, что полученное n для Gross Conversion нужно разделить на 0.08, чтобы получить значение в количестве посещений страницы. Аналогично для каждой метрики.


***Примечание 2:***
Статистическую значимость и мощность используйте по своему усмотрению, можно использовать стандартные значения (0.05 и 0.8)


***Примечание 3:*** z-scores в питоне можно получить с помощью этой функции https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html


In [56]:
def get_sample_size(p, alpha, power, d_min): 
    pass
    # Your Code Here
    # return n

После того как вы посчитали размер необходимого количества посещений странцы для каждой вашей метрики, посчитайте какое количество дней вам необходимо будет вести эксперимент, чтобы набрать такое значение. 

Не забудьте, что формула размера выборки даст вам n для каждой выборки (тестовой и контрольной), а не суммарно. (Для простоты можем считать, что мы будем использовать весь траффик страницы в нашем эксперименте.)

Если для какой-то метрики количество дней получилось слишком большим, вы еще можете пересмотреть свой выбор основных метрик, так как эксперимент еще не запущен. (Если это так, то напишите об этом в ответе)

***Ваш ответ***:

## 4. Собираем результаты

Представьте, что эксперимент завершился. В файле experiment_data.csv вы найдете результаты для тестовой выборки, а в файле control_data.csv - для контрольной.

Описание столбцов:

**Pageviews:** количество уникальных файлов cookie (=количество пользователей) просмотревших страницу обзора курса в этот день.

**Clicks:** количество уникальных файлов cookie (=количество пользователей) кликнувших на "Начать бесплатную пробную версию" в этот день.

**Enrollments:** количество уникальных пользователей, которые зарегистрировались в бесплатной пробной версии в этот день.

**Payments:** количество уникальных пользователей, которые зарегистрировались в этот день и останутся зарегистрированными в течение 14 дней и, таким образом, произведут оплату. (Обратите внимание, что датой в этом столбце является дата регистрации (enrollment-а), а не дата платежа. Оплата произошла на 14 дней позже. 

In [133]:
experiment = pd.read_csv('hw_3_data/experiment_data.csv')
control = pd.read_csv('hw_3_data/control_data.csv')

In [135]:
experiment.head()

Unnamed: 0,Date,Pageviews,Clicks,Enrollments,Payments
0,"Sat, Oct 11",13117.2,1166.2,178.5,57.8
1,"Sun, Oct 12",15789.6,1334.5,197.2,154.7
2,"Mon, Oct 13",17816.0,1502.8,246.5,134.3
3,"Tue, Oct 14",16773.9,1405.9,234.6,156.4
4,"Wed, Oct 15",16648.1,1414.4,238.0,159.8


In [136]:
control.head()

Unnamed: 0,Date,Pageviews,Clicks,Enrollments,Payments
0,"Sat, Oct 11",13129.1,1167.9,227.8,119.0
1,"Sun, Oct 12",15473.4,1324.3,249.9,119.0
2,"Mon, Oct 13",17868.7,1545.3,283.9,161.5
3,"Tue, Oct 14",16780.7,1421.2,265.2,178.5
4,"Wed, Oct 15",17023.8,1422.9,277.1,108.8


### 4.1 Sanity-check

Сначала проверьте валидационные метрики. Проверьте результаты эксперимента на соответсвие вашим ожиданиям по поведению метрик, выведете результаты.

### 4.2 Проверка основных метрик

Теперь проверьте результаты эксперимента на соответсвие вашим ожиданиям по поведению основных метрик для успешного завершения эксперимента. По основной или основным метрикам выведете изменения, а также стат. значимость результата. Не забудьте правильно выбрать тест для проверки статистической значимости.

## 5. Выводы и рекомендации

Напишите свои выводы и рекомендации для бизнеса. 
Чтобы вы рекомендовали - выкатить изменения / провести еще эксперименты, опирающиеся на выводы по текущему / оставить эту идею.
Если вы планируете провести последующие эксперименты, кратко опишите этот эксперимент и гипотезы, которые вы хотели бы еще протестировать. 


***Ваш ответ:***