## Задача 

На основе выбранных продуктов из первого вебинара, выберите 2 A/B-теста и составьте план эксперимента, чтобы избежать Peeking Problem
Распишите, какие метрики и как вы будете анализировать

Ключевые метрики:

- Количество новых регистраций пользователей
- Доход от новых пользователей

**Гипотеза № 1:** Если предложить 15% скидку на первую покупку для новых пользователей, то мы сможем повысить количество регистраций новых пользователей на 20%.

Что мы делаем в каждой из групп: Даём код на 15% скидку на первую покупку.

На каких пользователях мы тестируем: Новые пользователи, которые раньше не делали покупок на сайте.

**Метрика: количество новых регистраций пользователей.**

**Гипотеза № 2:** Если предоставить персонализированные рекомендации по продуктам новым пользователям на основе их истории просмотров и покупательского поведения, то сможем повысить показатель дохода от новых пользователей на n%.
Что мы делаем в каждой из групп: группа новых пользователей получает персонализированные рекомендации.

На каких пользователях мы тестируем: На новых пользователях, совершивших хотя бы одну покупку на сайте

**Метрика: доход от новых пользователей.**

### Решение 

1. Соберём данные о регистрациях и доходах для контрольной и тестовой групп.
2. Разделим данные на выборки – каждая выборка будет содержать 10,000 пользователей.
3. Для каждой выборки будем считать количество новых регистраций и доход от новых пользователей для контрольной и тестовой групп.
4. С помощью бутстрапа будем генерировать 1000 выборок с возвращением.
5. Для каждой выборки будем считать различие между контрольной и тестовой групп в количестве новых регистраций и доходе от новых пользователей.
6. Построим распределение полученных различий, оценим доверительные интервалы для обеих метрик.
7. Если доверительный интервал не содержит 0 (для метрики регистраций) или отрицательных значений (для метрики дохода), то можем сделать вывод о том, что эксперимент был успешным и можно внедрять новые подходы в работу сервиса.

*Определяем ключевые билиотеки:*

In [10]:
import numpy as np
import pandas as pd
from scipy.stats import norm

*Собираем данные:*

In [11]:
control_registrations = 10000
test_registrations = 10000
control_income = 1000000
test_income = 1000000

*Разделяем данные на выборки:*

In [12]:
control_registrations_list = np.random.binomial(n=1, p=0.05, size=control_registrations)
test_registrations_list = np.random.binomial(n=1, p=0.05, size=test_registrations)
control_income_list = np.random.normal(loc=100, scale=20, size=control_income)
test_income_list = np.random.normal(loc=110, scale=20, size=test_income)

*Считаем количество регистраций и доход для контрольной и тестовой групп:*

In [13]:
control_registrations_num = sum(control_registrations_list)
test_registrations_num = sum(test_registrations_list)
control_income_sum = sum(control_income_list)
test_income_sum = sum(test_income_list)

*Проводим бутстрап:*

In [14]:
n = 1000
differences_registrations = []
differences_income = []

for i in range(n):
    control_registrations_sample = np.random.choice(control_registrations_list, size=10000, replace=True)
    test_registrations_sample = np.random.choice(test_registrations_list, size=10000, replace=True)
    control_income_sample = np.random.choice(control_income_list, size=10000, replace=True)
    test_income_sample = np.random.choice(test_income_list, size=10000, replace=True)

    sample_diff_registrations = sum(test_registrations_sample) - sum(control_registrations_sample)
    sample_diff_income = sum(test_income_sample) - sum(control_income_sample)

    differences_registrations.append(sample_diff_registrations)
    differences_income.append(sample_diff_income)

*Оцениваем доверительный интервал для количества регистраций:*

In [15]:
difference_registrations_mean = np.mean(differences_registrations)
difference_registrations_std = np.std(differences_registrations)
ci_registrations = norm.interval(0.95, loc=difference_registrations_mean, scale=difference_registrations_std/np.sqrt(n))
print("95% доверительный интервал для количества регистраций: ", ci_registrations)
     

95% доверительный интервал для количества регистраций:  (24.16281122084262, 28.08118877915738)


*Оцениваем доверительный интервал для дохода:*

In [16]:
difference_income_mean = np.mean(differences_income)
difference_income_std = np.std(differences_income)
ci_income = norm.interval(0.95, loc=difference_income_mean, scale=difference_income_std/np.sqrt(n))
print("95% доверительный интервал для дохода: ", ci_income)

95% доверительный интервал для дохода:  (99607.17974857635, 99959.25455525743)


### Ответ:

Так как, доверительный интервал не содержит 0 (для метрики регистраций) и отрицательных значений (для метрики дохода), то можем сделать вывод о том, что эксперимент был успешным и можно внедрять новые подходы в работу сервиса.