## Проект: "Анализ гипотез для увеличения выручки интернет магазина."

### Описание проекта
Вы — аналитик крупного интернет-магазина. Вместе с отделом маркетинга вы подготовили список гипотез для увеличения выручки.
Приоритизируйте гипотезы, запустите A/B-тест и проанализируйте результаты. 

### План выполнения работы
#### Часть 1. Приоритизация гипотез.
В файле /datasets/hypothesis.csv 9 гипотез по увеличению выручки интернет-магазина с указанными параметрами Reach, Impact, Confidence, Effort.
#### Задача
* Применить фреймворк ICE для приоритизации гипотез. Отсортировать их по убыванию приоритета.
* Применить фреймворк RICE для приоритизации гипотез. Отсортировать их по убыванию приоритета.
* Определить, как изменилась приоритизация гипотез при применении RICE вместо ICE. Объяснить, почему так произошло.

#### Часть 2. Анализ A/B-теста
Вы провели A/B-тест и получили результаты, которые описаны в файлах /datasets/orders.csv и /datasets/visitors.csv.
#### Задача
* Проанализировать A/B-тест:
* Построить график кумулятивной выручки по группам. Сделать выводы и предположения.
* Построить график кумулятивного среднего чека по группам. Сделать выводы и предположения.
* Построить график относительного изменения кумулятивного среднего чека группы B к группе A. Сделать выводы и предположения.
* Построить график кумулятивного среднего количества заказов на посетителя по группам. Сделать выводы и предположения.
* Построить график относительного изменения кумулятивного среднего количества заказов на посетителя группы B к группе A. Сделать выводы и предположения.
* Построить точечный график количества заказов по пользователям. Сделать выводы и предположения.
* Посчитать 95-й и 99-й перцентили количества заказов на пользователя. Выберать границу для определения аномальных пользователей.
* Построить точечный график стоимостей заказов. Сделать выводы и предположения.
* Посчитать 95-й и 99-й перцентили стоимости заказов. Выберать границу для определения аномальных заказов.
* Посчитать статистическую значимость различий в среднем количестве заказов на посетителя между группами по «сырым» данным. Сделать выводы и предположения.
* Посчитать статистическую значимость различий в среднем чеке заказа между группами по «сырым» данным. Сделать выводы и предположения.
* Посчитать статистическую значимость различий в среднем количестве заказов на посетителя между группами по «очищенным» данным. Сделать выводы и предположения.
* Посчитать статистическую значимость различий в среднем чеке заказа между группами по «очищенным» данным. Сделать выводы и предположения.
* Принять решение по результатам теста и объяснить его. Варианты решений:
    1. Остановить тест, зафиксировать победу одной из групп.
    2. Остановить тест, зафиксировать отсутствие различий между группами.
    3. Продолжить тест.

In [None]:
# импортирую библиотеки
import pandas as pd #импортировал библиотеку pandas
import matplotlib.pyplot as plt #импортировал библиотеку mathplotlib
import seaborn as sns #импортировал библиотеку seaborn
import numpy as np #импортировал библиотеку numpy
from scipy import stats as st # из библиотеки scipy импортировал модуль stats
import datetime as dt  #импортировал библиотеку datetime

### Часть 1. Приоритизация гипотез.

In [None]:
# загружаю данные о гипотезах
try:
    hypothesis = pd.read_csv(r"D:\DOCS\datasets\Проект принятие решений/hypothesis.csv")
except FileNotFoundError:
    hypothesis = pd.read_csv('/datasets/hypothesis.csv')

In [None]:
pd.set_option('display.max_colwidth', None)
# вывел данные о гипотезах
hypothesis

In [None]:
# привел названия столбцов датафрейма hypothesis к нижнему регистру
hypothesis.columns = hypothesis.columns.str.lower()

In [None]:
# провожу ICE Scoring для представленных гипотез
hypothesis['ICE'] = hypothesis['impact'] * hypothesis['confidence'] / hypothesis['efforts']
hypothesis['ICE'] = np.round(hypothesis['ICE'], decimals = 2)

In [None]:
# Вывожу названия гипотез отсортированные по ICE Scorе
hypothesis[['hypothesis','ICE']].sort_values(by='ICE', ascending=False)

#### Самыми перспективными по ICE Scorе показали себя 8, 0 и 7 гипотезы. Они обладают высокими показателями влияния и уверенности, а также относительно низким показателем затрат на реализацию в сравнении с остальными.

In [None]:
# провожу RICE Scoring для представленных гипотез
hypothesis['RICE'] = hypothesis['reach'] * hypothesis['impact'] * hypothesis['confidence'] / hypothesis['efforts']

In [None]:
# Вывожу названия гипотез отсортированные по RICE Scorе
hypothesis[['hypothesis','RICE']].sort_values(by='RICE', ascending=False)

#### По RICE Scorе самыми перспективными показали себя 7 и 2 гипотезы, 0 и 6 гипотезы имеют равное количество очков. Помимо критериев, использованных в ICE Score, в RICE учитывается предполагаемый охват аудитории. Данный показатель наивысший у гипотезы под номером 7.

### Вывод: 
#### По результатам ICE_Score лидирующими гипотезами признаем:
* №8 Запустить акцию, дающую скидку на товар в день рождения - 16,20 баллов
* №0 Добавить два новых канала привлечения трафика, что позволит привлекать на 30% больше пользователей - 13,33 балла
* №7 Добавить форму подписки на все основные страницы, чтобы собрать базу клиентов для email-рассылок - 11,20 балла
#### По результатам RICE_Score лидирующими гипотезами признаем:
* №7 Добавить форму подписки на все основные страницы, чтобы собрать базу клиентов для email-рассылок - 112,0 баллов
* №2 Добавить блоки рекомендаций товаров на сайт интернет магазина, чтобы повысить конверсию и средний чек заказа - 56,0 баллов
* №0 Добавить два новых канала привлечения трафика, что позволит привлекать на 30% больше пользователей - 40 баллов
* №6 Показать на главной странице баннеры с актуальными акциями и распродажами, чтобы увеличить конверсию - 40 баллов
#### По результатам обеих фреймворков наиболее приоритетной гипотезой можно признать гипотезу №7

### Часть 2. Анализ A/B-теста

In [None]:
# загружаю данные о заказах
try:
    orders = pd.read_csv(r"D:\DOCS\datasets\Проект принятие решений/orders.csv")
except FileNotFoundError:
    orders = pd.read_csv('/datasets/orders.csv')

In [None]:
# вывожу первые 10 строк датафрейма orders
orders.head(10)

In [None]:
# вывожу информацию о датафрейме orders
orders.info()

In [None]:
# привожу столбец date к формату datetime
orders['date'] = orders['date'].map(lambda x: dt.datetime.strptime(x, '%Y-%m-%d'))

In [None]:
# Сheck
orders.info()

In [None]:
# выполнил проверку на пропуски в датафрейме orders
orders.isna().sum()

In [None]:
# выполнил проверку на дубликаты в датафрейме orders
orders.duplicated().sum()

In [None]:
# загружаю данные о посетителях
try:
    visitors = pd.read_csv(r"D:\DOCS\datasets\Проект принятие решений/visitors.csv")
except FileNotFoundError:
    visitors = pd.read_csv('/datasets/visitors.csv')

In [None]:
# вывожу первые 10 строк датафрейма visitors
visitors.head(10)

In [None]:
# вывожу информацию о датафрейме visitors
visitors.info()

In [None]:
# привожу столбец date к формату datetime
visitors['date'] = visitors['date'].map(lambda x: dt.datetime.strptime(x, '%Y-%m-%d'))

In [None]:
# Check
visitors.info()

In [None]:
# выполнил проверку на пропуски в датафрейме visitors
visitors.isna().sum()

In [None]:
# выполнил проверку на дубликаты в датафрейме visitors
visitors.duplicated().sum()

In [None]:
# отображаю количество уникальных групп в датафрейме visitors
print('Количество уникальных групп в колонке group датафрейма visitors равно:', visitors['group'].nunique())

In [None]:
# отображаю количество уникальных групп в датафрейме orders
print('Количество уникальных групп в колонке group датафрейма orders равно:', orders['group'].nunique())

In [None]:
print('Минимальная дата заказа:', orders['date'].dt.date.min(), 'Максимальная дата заказа:', orders['date'].dt.date.max())

In [None]:
print('Минимальная дата посещения сайта:', visitors['date'].dt.date.min(), 'Максимальная дата посещения сайта:', visitors['date'].dt.date.max())

In [None]:
# делаю срез данных датафрейма orders по группе тестирования А
groupA = orders.loc[orders['group'].values == 'A']
# вывожу количество уникальных Id пользователей группы А
groupA['visitorId'].nunique()

In [None]:
# делаю срез данных датафрейма orders по группе тестирования В
groupB = orders.loc[orders['group'].values == 'B']
# вывожу количество уникальных Id пользователей группы В
groupB['visitorId'].nunique()

In [None]:
print('Количество пользователей в группе А совершивших заказ:', groupA['visitorId'].nunique(),
      'Количество пользователей в группе B совершивших заказ:', groupB['visitorId'].nunique())

In [None]:
# соединяю оба среза групп А и В таким образом, чтобы в таблицы остались только записи с Id пользователей, 
# встречающихся в обеих срезах
coincid = pd.merge(groupA, groupB, on=['visitorId'], how='inner')
# Вывожу количество уникальных visitorId, встречающихся в обеих группах
coincid['visitorId'].nunique()

### Вывод по итогу подготовки данных:
* Датафрейм orders содержит 5 колонок: transactionId — идентификатор заказа, visitorId — идентификатор пользователя, совершившего заказ date — дата, когда был совершён заказ, revenue — выручка заказа, group — группа A/B-теста, в которую попал заказ.
* Выполнено преобразование столбеца date к формату datetime.
* Пропусков и дубликатов в датафрейме orders не обнаружено.
* Количество уникальных групп в колонке group датафрейма orders равно: 2
* Минимальная дата заказа по данным колонки date, датафрейма orders: 2019-08-01. Максимальная дата заказа по данным колонки date, датафрейма orders: 2019-08-31.

* Датафрейм visitors содержит 3 колонки: date — дата. group — группа A/B-теста, visitors — количество пользователей в указанную дату в указанной группе A/B-теста.
* Выполнено преобразование столбеца date к формату datetime.
* Пропусков и дубликатов в датафрейме visitors не обнаружено.
* Количество уникальных групп в колонке group датафрейма visitors равно: 2
* Минимальная дата посещения сайта по данным колонки date, датафрейма visitors: 2019-08-01. Максимальная дата посещения сайта по данным колонки date, датафрейма visitors: 2019-08-31

### Информация о проводимом А/В тесте 
* На основе данных дата начала тестирования 2019-08-01, дата окончания тестирования 2019-08-31.
* Исследуются 2 группы пользователей
* В группах обнаружены дубликаты - 58 пользователей. Чтобы получить доставерные результаты предпочтительно избавиться от дубликатов. Однако в нашем случае иформация о пользователях - visitorId имеется только в датафрейме orders. В виду того, что данная информация отсутствует в датафрейме visitors, полностью избавиться от дубликатов не предсталяется возможным. Решено проводить анализ по имеющимся данным.

In [None]:
# создаю массив уникальных пар значений дат и групп теста
datesGroups = orders[['date','group']].drop_duplicates() 

In [None]:
# получаю агрегированные кумулятивные по дням данные о заказах 
ordersAggregated = datesGroups.apply(
    lambda x: orders[np.logical_and(
            orders['date'] <= x['date'], orders['group'] == x['group'])
                    ].agg({'date' : 'max', 
                           'group' : 'max', 
                           'transactionId' : 'nunique', 
                           'visitorId' : 'nunique', 
                           'revenue' : 'sum'}
                          ), axis=1
).sort_values(by=['date','group'])

In [None]:
# получаю агрегированные кумулятивные по дням данные о посетителях 
visitorsAggregated = datesGroups.apply(
    lambda x: visitors[np.logical_and(
        visitors['date'] <= x['date'], visitors['group'] == x['group'])
                      ].agg({'date' : 'max', 
                             'group' : 'max', 
                             'visitors' : 'sum'}
                           ), axis=1
).sort_values(by=['date','group'])

In [None]:
# объединяю кумулятивные данные в одной таблице
cumulativeData = ordersAggregated.merge(visitorsAggregated, left_on=['date', 'group'], right_on=['date', 'group'])

In [None]:
#присваиваю столбцам датафрейма cumulativeData новые названия
cumulativeData.columns = ['date', 'group', 'orders', 'buyers', 'revenue', 'visitors']

In [None]:
# вывожу первые 5 строк датафрейма cumulativeData
cumulativeData.head(5)

In [None]:
# создаю датафрейм с кумулятивным количеством заказов и кумулятивной выручкой по дням в группе А
cumulativeRevenueA = cumulativeData[cumulativeData['group']=='A'][['date','revenue', 'orders','visitors']]

In [None]:
# создаю датафрейм с кумулятивным количеством заказов и кумулятивной выручкой по дням в группе B
cumulativeRevenueB = cumulativeData[cumulativeData['group']=='B'][['date','revenue', 'orders','visitors']]

In [None]:
# Строю график с кумулятивной выручкой по дням в группе А
plt.plot(cumulativeRevenueA['date'].dt.day, cumulativeRevenueA['revenue'], label='A')
# Строю график с кумулятивной выручкой по дням в группе В
plt.plot(cumulativeRevenueB['date'].dt.day, cumulativeRevenueB['revenue'], label='B')
# добавляю подписи к осям и заголовок диаграммы
plt.xlabel('дата', fontsize=10)
plt.ylabel(r'выручка', fontsize=10)
plt.title(r'Кумулятивная выручка по группам', fontsize=12)
# включаю основную сетку
plt.grid(which='major')
plt.legend();

#### В группе А мы видим постепенное плавное увеличение выручки в течение всего времени наблюдения. В группе В наблюдается резкий рост выручки 18 числа. Это может говорить о росте числа заказовили или о появлении очень дорогих заказов в этот день. Необходимо анализировать выбросы.

In [None]:
# Строю график с кумулятивным средним чеком в группе А
plt.plot(cumulativeRevenueA['date'].dt.day, cumulativeRevenueA['revenue']/cumulativeRevenueA['orders'], label='A')
# Строю график с кумулятивным средним чеком в группе В
plt.plot(cumulativeRevenueB['date'].dt.day, cumulativeRevenueB['revenue']/cumulativeRevenueB['orders'], label='B')
# добавляю подписи к осям и заголовок диаграммы
plt.xlabel('дата', fontsize=10)
plt.ylabel(r'средний чек', fontsize=10)
plt.title(r'Кумулятивный средний чек по группам', fontsize=12)
# включаю основную сетку
plt.grid(which='major')
plt.legend();

#### На этом графике мы видим, что в группе А с начала наблюдения до 6 числа наблюдался спад, что говорит о большом числе дешевых заказов. Затем рост до 14 числа говорит о том, что заказы в этой группе стали дороже. С 14 числа и до 26 средний чек в данной группе установился на значении 6800-7000 с положительной динамикой до конца наблюдения. 
#### В группе В наблюдается скачкообразный рост с начала наблюдения до 4 числа, затем с 5 до 8, с 14 до 16. 18 числа наблюдается разкий подъем. Данные подъемы говорят о приходе дорогостоящих заказов- выбросов, которые повлияли на средний чек. С 19 числа до конча наблюдения мы видим постепенный спад суммы среднего чека в группе В.

In [None]:
# собираем данные в одном датафрейме
mergedCumulativeRevenue = cumulativeRevenueA.merge(cumulativeRevenueB, left_on='date', right_on='date', how='left', suffixes=['A', 'B'])
# cтроим отношение средних чеков группы В к группе А
plt.plot(mergedCumulativeRevenue['date'].dt.day, (mergedCumulativeRevenue['revenueB']/mergedCumulativeRevenue['ordersB'])/(mergedCumulativeRevenue['revenueA']/mergedCumulativeRevenue['ordersA'])-1)
plt.xlabel(r'день', fontsize=10)
plt.ylabel(r'отношение чеков', fontsize=10)
plt.title(r'Относительное изменение кумулятивного среднего чека группы B к группе A', fontsize=12)
# включаем сетку
plt.grid(which='major')
# добавляем ось X
plt.axhline(y=0, color='black', linestyle='--');

#### Места пересечения отметка 0 по оси у говорият об отсутствии различий между группами в значении среднего кумутятивного чека в момент пересечения. Эпизоды подъема графика говорят либо об относительном повышении среднего чека в группе В, в момент снижения среднего чера в группе А, как на предыдущем графике с 1 по 4 день. Либо о резком повышении среднего чека в группе В относительно стагнирующего или незначительно меняющегося в группе А, как мы наблюдали на предыдущем графике 18 числа. Эпизоды снижения графика говорят о повышении среднего чека в группе А в сравнении со стагирующим или снижающимся в группе В. Налисчие подобных скачков графика говорит о наличии заказов, резко изменивших средний чек в дату наблюдения.

In [None]:
# Строю график кумулятивного среднего количества заказов на посетителя в группе А
plt.plot(cumulativeRevenueA['date'].dt.day, cumulativeRevenueA['orders']/cumulativeRevenueA['visitors'], label='A')
# Строю график кумулятивного среднего количества заказов на посетителя в группе В
plt.plot(cumulativeRevenueB['date'].dt.day, cumulativeRevenueB['orders']/cumulativeRevenueB['visitors'], label='B')
# добавляю подписи к осям и заголовок диаграммы
plt.xlabel('дата', fontsize=10)
plt.ylabel(r'количество заказов', fontsize=10)
plt.title(r'Кумулятивное среднего количества заказов на посетителя по группам', fontsize=12)
# включаю основную сетку
plt.grid(which='major')
plt.legend();

#### Кумулятивное среднее значение заказов на одного посетителя в группе А ниже в сравнении с группой В. Это говорит о том, что посетители в группе А менее охотно оформляют заказы в сравнении с посетителями из группы В 

In [None]:
# cтроим отношение средних чеков группы В к группе А
plt.plot(mergedCumulativeRevenue['date'].dt.day, (mergedCumulativeRevenue['ordersB']/mergedCumulativeRevenue['visitorsB'])/(mergedCumulativeRevenue['ordersA']/mergedCumulativeRevenue['visitorsA'])-1)
plt.xlabel(r'день', fontsize=10)
plt.ylabel(r'отношение среднего количества заказов', fontsize=10)
plt.title(r'Относительное изменение кумулятивного среднего количества заказов группы B к группе A', fontsize=12)
# включаем сетку
plt.grid(which='major')
# добавляем ось X
plt.axhline(y=0, color='black', linestyle='--');

#### Кумлятивное среднее количество заказов в группе В больше в сравнении с группой А.

### Оценка количества заказов по пользователям

In [None]:
# считаю количество уникальных заказов в разбивке по пользователям
ordersByUsers = (orders.groupby('visitorId', as_index=False).agg({'transactionId': 'nunique'}))
# переименовываю столбцы датафрейма ordersByUsers
ordersByUsers.columns = ['userId', 'orders']
# сортирую пользователей по количеству заказов, по убыванию
ordersByUsers.sort_values(by='orders', ascending=False).head(10)

In [None]:
# по оси Х задам количество строк датафрейма ordersByUsers
x_values = pd.Series(range(0,len(ordersByUsers)))
# строю точечную диаграмму количества заказов пользователями
plt.scatter(x_values, ordersByUsers['orders']);
# добавил подписи и название графика
plt.xlabel(r'номер записи пользователя в датафрейме ordersByUsers', fontsize=10)
plt.ylabel(r'количество заказов', fontsize=10)
plt.title(r'Количество заказов по пользователям', fontsize=12)
# включаю дополнительную разметку графика
plt.minorticks_on()
#  определяю внешний вид линий основной сетки
plt.grid(which='major',
         color = 'k', 
         linewidth = 0.5)
# определяю внешний вид дополнительной сетки
plt.grid(which='minor', 
         color = 'k', 
         linestyle = ':')

#### Большинство пользователей делают на сайте до 3 заказов включительно.

In [None]:
# считаю 95-й и 99-й перцентили количества заказов на пользователя
print('95-й и 99-й перцентили количества заказов на пользователя:', np.percentile(ordersByUsers['orders'], [95, 99]))

#### За верхниюю границу количества заказов возьмем 3. Таким образом аномальными значениями будем считать 4 и выше.

### Оценка стоимости заказов пользователей

In [None]:
# считаю стоимость заказов в разбивке по пользователям
revenueByUsers = (orders.groupby('visitorId', as_index=False).agg({'revenue': 'sum'}))
# переименовываю столбцы датафрейма revenueByUsers
revenueByUsers.columns = ['userId', 'revenue']
# сортирую пользователей по стоимости заказов, по убыванию
revenueByUsers.sort_values(by='revenue', ascending=False).head(10)

In [None]:
# по оси Х задам количество строк датафрейма revenueByUsers
x_values = pd.Series(range(0,len(revenueByUsers)))
# строю точечную диаграмму стоимости заказов пользователей
plt.scatter(x_values, revenueByUsers['revenue']);
# добавил подписи и название графика
plt.xlabel(r'номер записи пользователя в датафрейме ordersByUsers', fontsize=10)
plt.ylabel(r'сумма заказа', fontsize=10)
plt.title(r'Стоимость заказов по пользователям', fontsize=12)
# включаю дополнительную разметку графика
plt.minorticks_on()
#  определяю внешний вид линий основной сетки
plt.grid(which='major',
         color = 'k', 
         linewidth = 0.5)
# определяю внешний вид дополнительной сетки
plt.grid(which='minor', 
         color = 'k', 
         linestyle = ':')

In [None]:
# делаю срез данных датафрейма revenueByUsers со стоимостью заказов ниже 50000
revenueByUsers_slice = revenueByUsers.loc[revenueByUsers['revenue'].values < 50000]
# вывожу первые 5 записей полученного среза
revenueByUsers_slice.sort_values(by='revenue', ascending=False).head(5)

In [None]:
# по оси Х задам количество строк датафрейма revenueByUsers_slice
x_values = pd.Series(range(0,len(revenueByUsers_slice)))
# строю точечную диаграмму стоимости заказов пользователей
plt.scatter(x_values, revenueByUsers_slice['revenue']);
# добавил подписи и название графика
plt.xlabel(r'номер записи пользователя в датафрейме revenueByUsers_slice', fontsize=10)
plt.ylabel(r'сумма заказа', fontsize=10)
plt.title(r'Стоимость заказов по пользователям', fontsize=12)
# включаю дополнительную разметку графика
plt.minorticks_on()
#  определяю внешний вид линий основной сетки
plt.grid(which='major',
         color = 'k', 
         linewidth = 0.5)
# определяю внешний вид дополнительной сетки
plt.grid(which='minor', 
         color = 'k', 
         linestyle = ':')

#### По графику видно, что большинство пользователей делают заказы на сумму не превышающую 30000

In [None]:
# считаю 95-й и 99-й перцентили стоимости заказов пользователей
print('95-й и 99-й перцентили стоимости заказов на пользователя:', np.percentile(revenueByUsers['revenue'], [95, 99]))

#### Менее 5% пользователей заказывали на сумму выше 33000. Аномальными будем считать значения выше этой суммы.

### Статистическая значимость различий

In [None]:
# создал таблицу пользователей группы А, заходивших на сайт, с сортировкой по дням
visitorsADaily = visitors[visitors['group'] == 'A'][['date', 'visitors']]
# # переименовал колонки таблицы и вывел первые 5 строк
visitorsADaily.columns = ['date', 'visitorsPerDateA']
visitorsADaily.head(5)

In [None]:
# создал таблицу пользователей группы В, заходивших на сайт, с сортировкой по дням
visitorsBDaily = visitors[visitors['group'] == 'B'][['date', 'visitors']]
# переименовал колонки таблицы и вывел первые 5 строк
visitorsBDaily.columns = ['date', 'visitorsPerDateB']
visitorsBDaily.head(5)

In [None]:
# создал таблицу ordersByUsersA в которой каждому пользователю из группы А, совершившиму хотя бы один заказ 
# будет соответствовать количество заказов
ordersByUsersA = (
    orders[orders['group'] == 'A']
    .groupby('visitorId', as_index=False)
    .agg({'transactionId': pd.Series.nunique})
)
# переименовал колонки таблицы и вывел первые 5 строк
ordersByUsersA.columns = ['userId', 'orders']
ordersByUsersA.head(5)

In [None]:
# создал таблицу ordersByUsersВ в которой каждому пользователю из группы В, совершившиму хотя бы один заказ 
# будет соответствовать количество заказов
ordersByUsersB = (
    orders[orders['group'] == 'B']
    .groupby('visitorId', as_index=False)
    .agg({'transactionId': pd.Series.nunique})
)
# переименовал колонки таблицы и вывел первые 5 строк
ordersByUsersB.columns = ['userId', 'orders'] 
ordersByUsersB.head(5)

In [None]:
# Создал таблицу sampleA, в которой пользователям группы А будет соответствовать количество заказов. 
# Тем, кто ничего не заказал, будут соответствовать нули.
sampleA = pd.concat([ordersByUsersA['orders'],pd.Series(0, index=np.arange(visitorsADaily['visitorsPerDateA'].sum() - len(ordersByUsersA['orders'])), name='orders')],axis=0)

In [None]:
# Создал таблицу sampleB, в которой пользователям группы B будет соответствовать количество заказов. 
# Тем, кто ничего не заказал, будут соответствовать нули.
sampleB = pd.concat([ordersByUsersB['orders'],pd.Series(0, index=np.arange(visitorsBDaily['visitorsPerDateB'].sum() - len(ordersByUsersB['orders'])), name='orders')],axis=0)

### Относительные различия в среднем количестве заказов на посетителя по "сырым" данным

#### Считаю статистическую значимость различий в среднем числе заказов на пользователя по «сырым» данным — без удаления аномальных пользователей.
#### Сформулируем гипотезы: 
* H0: различий в среднем количестве заказов между группами нет. 
* H1: различия в среднем между группами есть.
##### С целью проверки гипотез используем непараметрический тест Уилкоксона-Манна-Уитни. В связи с тем, что данные о покупках имеют не упорядоченный характер, работа критерия происходит не на основании значений, а на основании их рангов. Проверке подлежат сдвиги рангов одинаковых значенийю На основании их сходства или различия принимается решение о сходстве или различии совокупности

In [None]:
alpha = .05 # критический уровень статистической значимости
p_value = st.mannwhitneyu(sampleA, sampleB)[1]
print('p-значение: ',"{0:.3f}".format(p_value))
if p_value < alpha:
    print('Отвергаем нулевую гипотезу: между долями есть значимая разница')
else:
    print(
        'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными'
    ) 
print('Относительные различия в среднем количестве заказов на посетителя по "сырым" данным: составляет: ',"{0:.1%}".format(sampleB.mean() / sampleA.mean() - 1))

#### p-value = 0.017 меньше 0.05. Значит, нулевую гипотезу о том, что статистически значимых различий в среднем числе заказов между группами нет, отвергаем. В группах есть статичтически значимые различия в среднем количестве заказов. Относительный показатель количества заказов в группе В на 13,8% выше, чем в группе А.

### Относительные различия в среднем чеке между группами по "сырым" данным

#### Считаю статистическую значимость различий в  среднем чеке между группами по «сырым» данным — без удаления аномальных пользователей.
#### Сформулируем гипотезы: 
* H0: различий в среднем чеке между группами нет. 
* H1: различия в среднем между группами есть.

In [None]:
alpha = .05 # критический уровень статистической значимости
p_value = st.mannwhitneyu(orders[orders['group']=='A']['revenue'], orders[orders['group']=='B']['revenue'])[1]
print('p-значение: ',"{0:.3f}".format(p_value))
if p_value < alpha:
    print('Отвергаем нулевую гипотезу: между долями есть значимая разница')
else:
    print(
        'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными'
    ) 
print('Относительные различия в среднем чеке между группами по "сырым" данным: ',"{0:.1%}".
      format(orders[orders['group']=='B']['revenue'].mean()/orders[orders['group']=='A']['revenue'].mean()-1)) 

#### p-value = 0.729 больше 0.05. Значит, нулевую гипотезу о том, что статистически значимых различий в среднем чеке между группами нет, не отвергаем. Относительный показатель среднего чека в группе В на 25.9% выше, чем в группе А.

In [None]:
# делаю срез пользователей с числом заказов более 3 и суммой заказов более 33000
usersWithManyOrders = pd.concat([ordersByUsersA[ordersByUsersA['orders'] > np.percentile(ordersByUsersA['orders'],95)]['userId'],
        ordersByUsersB[ordersByUsersB['orders'] > np.percentile(ordersByUsersB['orders'],95)]['userId']], axis=0)

usersWithExpensiveOrders = orders[orders['revenue'] > np.percentile(orders['revenue'],95)]['visitorId']
abnormalUsers = (pd.concat([usersWithManyOrders, usersWithExpensiveOrders], axis=0)
    .drop_duplicates()
    .sort_values())

print('Количество пользователей с аномальным количеством заказов и с аномальной суммой заказов равно: ',
      abnormalUsers.nunique()) 

In [None]:
abnormalUsers_pepcent = (groupA['visitorId'].nunique() + groupB['visitorId'].nunique()) / abnormalUsers.nunique()
print('Процент пользователей с аномальным количеством заказов и с аномальной суммой заказов равен: ',
      "{0:.1f}".format(abnormalUsers_pepcent))

#### Пользователей с аномальной большим количеством и суммой заказа в группах оказалось 74, что составляет 14,7%

In [None]:
# делаю выборку пользователей без аномальных значений в группе А
sampleAFiltered = pd.concat([ordersByUsersA[np.logical_not(ordersByUsersA['userId'].isin(abnormalUsers))]['orders'],
        pd.Series(0, index=np.arange(visitorsADaily['visitorsPerDateA'].sum() - len(ordersByUsersA['orders'])), name='orders')], axis=0)

In [None]:
# делаю выборку пользователей без аномальных значений в группе В
sampleBFiltered = pd.concat([ordersByUsersB[np.logical_not(ordersByUsersB['userId'].isin(abnormalUsers))]['orders'],
        pd.Series(0, index=np.arange(visitorsBDaily['visitorsPerDateB'].sum() - len(ordersByUsersB['orders'])), name='orders')], axis=0) 

### Относительные различия  в среднем количестве заказов на посетителя по "очищенным" данным

#### Считаю статистическую значимость различий в среднем числе заказов на пользователя по «очищенным» данным — без аномальных пользователей.
#### Сформулируем гипотезы: 
* H0: различий в среднем количестве заказов между группами нет. 
* H1: различия в среднем между группами есть.

In [None]:
alpha = .05 # критический уровень статистической значимости
p_value = st.mannwhitneyu(sampleAFiltered, sampleBFiltered)[1]
print('p-значение: ',"{0:.3f}".format(p_value))
if p_value < alpha:
    print('Отвергаем нулевую гипотезу: между долями есть значимая разница')
else:
    print(
        'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными'
    ) 
print('Относительные различия  в среднем количестве заказов на посетителя по "очищенным" данным: ',"{0:.1%}".
      format(sampleBFiltered.mean()/sampleAFiltered.mean()-1))

#### p-value = 0.016 меньше 0.05. Значит, нулевую гипотезу о том, что статистически значимых различий в среднем числе заказов между группами нет, отвергаем. В группах есть статичтически значимые различия в среднем количестве заказов.  Относительный показатель количества заказов в группе В на 15,2% выше, чем в группе А.

### Относительные различия  в среднем чеке на посетителя по "очищенным" данным

#### Считаю статистическую значимость различий в  среднем чеке между группами по «очищенным» данным — без аномальных пользователей.
#### Сформулируем гипотезы: 
* H0: различий в среднем чеке между группами нет. 
* H1: различия в среднем между группами есть.

In [None]:
alpha = .05 # критический уровень статистической значимости
p_value = st.mannwhitneyu(
            orders[np.logical_and(orders['group'] == 'A', np.logical_not(orders['visitorId'].isin(abnormalUsers)))]['revenue'],
            orders[np.logical_and(orders['group'] == 'B', np.logical_not(orders['visitorId'].isin(abnormalUsers)))]['revenue'])[1]
print('p-значение: ',"{0:.3f}".format(p_value))
if p_value < alpha:
    print('Отвергаем нулевую гипотезу: между долями есть значимая разница')
else:
    print(
        'Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными'
    ) 
print('Относительные различия в среднем чеке между группами по "сырым" данным: ',"{0:.1%}".
      format(
        orders[np.logical_and(orders['group'] == 'B', np.logical_not(orders['visitorId'].isin(abnormalUsers)))]['revenue'].mean()
      / orders[np.logical_and(orders['group'] == 'A', np.logical_not(orders['visitorId'].isin(abnormalUsers)))]['revenue'].mean()
        - 1))  

#### p-value = 0.738 больше 0.05. Значит, нулевую гипотезу о том, что статистически значимых различий в среднем чеке между группами нет, не отвергаем. Относительный показатель среднего чека в группе В на 2% ниже, чем в группе А.

### Вывод по проведенному А/В тесту
* Относительные различия в среднем количестве заказов на посетителя имело статистическую значимость как по "сырым" данным p-value = 0,017, так и по "очищенным" данным p-value = 0,016. В группе В по "сырым данным" пользователи делали на 13,8% заказов больше, по "очищенным" данным среднее количество заказов на пользователя увеличилось до 15,2%
* Относительные различия  в среднем чеке не имело статистической значимости как по "сырым" данным p-value = 0,729, так и по "очищенным" данным p-value = 0,738. В группе В по "сырым" данным средний чек на пользователя был выше на 25,9% , по "очищенным" данным средний чек на пользователя в группе В оказался ниже на 2%
* Данное различие среднего чека по "сырым" данным в группах, судя по всему, имело место в связи в бОльшим количеством пользователей совершивших аномально дорогие заказы в группе В
* Исходя из вышеизложенных фактов, А/В тест стоит остановить и признать успешным. Так как доказано различие групп. Группа В показала себя лучше группы А.

### Вывод
* Кумулятивная выручка в обеих группах росла равномерно, однако с середины теста группа В значительно превзошла группу А и до конца теста имела более успешные показатели
* Среднее количество заказов в группе В также превосходит этот показатель в группе А
* Более 95 % пользователей не делают более 3 заказов. Максимальное количество заказов пользователем = 11
* Более 95 % пользователей не тратят на заказы более 33000. Максимальная трата на заказы пользователем = 1294500
* Выявлены статистичестки значимые раличия в среднем количестве заказов на посетителя как по"сырым", так и по "очищенным" данным. Относительные различия  в среднем чеке не имело статистической значимости как по "сырым" так и по "очищенным" данным.