# Принятие решений в бизнесе

**Описание проекта**

Мы выступаем в качестве аналитика крупного интернет-магазина. Вместе с отделом маркетинга мы подготовили список гипотез для увеличения выручки

**Описание данных. Часть 1**

В файле "/datasets/hypothesis.csv" 9 гипотез по увеличению выручки интернет-магазина с указанными параметрами Reach, Impact, Confidence, Effort.

**Задача**

Применим фреймворк ICE для приоритизации гипотез. Отсортируем их по убыванию приоритета.
Применим фреймворк RICE для приоритизации гипотез. Отсортируем их по убыванию приоритета.
Укажим, как изменилась приоритизация гипотез при применении RICE вместо ICE. Объясним, почему так произошло.

**Описание данных. Часть 2**

Провели A/B-тест и получили результаты, которые описаны в файлах "/datasets/orders.csv" и "/datasets/visitors.csv".

**Задача**

Проанализировать A/B-тест:

Построить график кумулятивной выручки по группам. Сделаем выводы и предположения.

Построить график кумулятивного среднего чека по группам. Сделаем выводы и предположения.

Построить график относительного изменения кумулятивного среднего чека группы B к группе A. Сделаем выводы и предположения.

Построить график кумулятивного среднего количества заказов по группам. Сделаем выводы и предположения.

Построить график относительного изменения кумулятивного среднего количества заказов группы B к группе A. Сделаем выводы и предположения.

Построить точечный график количества заказов по пользователям. Сделаем выводы и предположения.

Посчитать 95-й и 99-й перцентили количества заказов на пользователя. Выберем границу для определения аномальных пользователей.

Построить точечный график стоимостей заказов. Сделаем выводы и предположения.

Посчитать 95-й и 99-й перцентили стоимости заказов. Выберем границу для определения аномальных заказов.

Посчитать статистическую значимость различий в среднем количестве заказов между группами по «сырым» данным. Сделаем выводы и предположения.

Посчитать статистическую значимость различий в среднем чеке заказа между группами по «сырым» данным. Сделаем выводы и предположения.

Посчитать статистическую значимость различий в среднем количестве заказов между группами по «очищенным» данным. Сделаем выводы и предположения.

Посчитать статистическую значимость различий в среднем чеке заказа между группами по «очищенным» данным. Сделаем выводы и предположения.

**Примем решение по результатам теста и объясним его**

Варианты решений: 
1. Остановить тест, зафиксировать победу одной из групп. 
2. Остановить тест, зафиксировать отсутствие различий между группами. 
3. Продолжить тест.

**Импортируем библиотеки для дальнейшей работы**

In [None]:
import pandas as pd
from matplotlib import pyplot as plt
from IPython.display import display
import seaborn as sns
import datetime as dt
import numpy as np
from scipy import stats as st
import warnings
warnings.filterwarnings('ignore')

## Приоритизация гипотез

### Сохраним в переменную и прочитаем имеющиеся у нас гипотезы

In [None]:
data = pd.read_csv('/datasets/hypothesis.csv', sep = ',')
data

Немного расширим таблицы, чтобы иметь возможность читать полную формулировку гипотез

In [None]:
pd.set_option('display.max_colwidth', None)
data

### Способ приоритизации ICE

In [None]:
data['ICE'] = data['Impact'] * data['Confidence'] / data['Efforts']
data[['Hypothesis', 'ICE']].sort_values(by = 'ICE', ascending = False)

**Вывод**

Согласно техники приоритизации гипотез ICE (от англ. impact, confidence, effort / ease «влияние, уверенность, усилия / простота») можно категоризировать наши гипотезы следующим образом:

Высокий приоритет: гипотезы 8, 0, 7

Средний приоритет: гипотезы 6, 2

Низкий приоритет: гипотезы 1, 5, 3, 4

### Способ приоритизации RICE

In [None]:
data['RICE'] = data['Reach'] * data['Impact'] * data['Confidence'] / data['Efforts']
data[['Hypothesis', 'RICE']].sort_values(by = 'RICE', ascending = False)

**Вывод**

Согласно техники приоритизации гипотез RICE (от англ. reach, impact, confidence, effort / ease «охват, влияние, уверенность, усилия / простота»), наиболее приоритетной для исследования становится **7-я** гипотеза.

Средний приоритет: гипотезы 2, 0, 6

Низкий приоритет: гипотезы 3, 1, 5, 4

### В чём разница и каков итог?

**Почему результаты различны?**

Отличия в результатах приоритезации возникают потому, что в методе приоритизации RICE учитывает такой показатель как Reach (охват). Поэтому, гипотеза об акции "скидка в день рождения" (**8-я**) обладает невысоким приоритетом, учитывая, что охват пользователей, затронутых этой акцией не так высок. При этом, гипотеза о добавлении формы подписки на все основные страницы (**7-я**) укрепила свои позиции, так как она очевидно обладает максимальным охватом.


**Общий вывод:**

По итогам можно выделить гипотезы, проверка которых обладает самым высоким приоритетом:

7. Добавить форму подписки на все основные страницы, чтобы собрать базу клиентов для email-рассылок.

0. Добавить два новых канала привлечения трафика, что позволит привлекать на 30% больше пользователей.

Две эти гипотезы можно считать приоритетными как с учетом их охвата, так и без.

Если же говорить об охвате аудитории, то также необходимо упомянуть следующие гипотезы, обладающие высоким приоритетом по RICE:

2. Добавить блоки рекомендаций товаров на сайт интернет магазина, чтобы повысить конверсию и средний чек заказа.

6. Показать на главной странице баннеры с актуальными акциями и распродажами, чтобы увеличить конверсию 40.0.

## Подготовка данных к анализу

Для начала ознакомимся с новыми датасетами, в которых содержатся результаты проведенных A/B тестов и подготовим данные к анализу

In [None]:
orders = pd.read_csv('/datasets/orders.csv', sep=',')
display(orders.head())
orders.info()

In [None]:
visitors = pd.read_csv('/datasets/visitors.csv', sep=',')
display(visitors.head())
visitors.info()

Для файла *orders* переименуем столбцы, чтобы те соотвествовали змеиному регистру, изменим тип данных в столбце с датой и проверим датасет на наличие дубликатов

In [None]:
orders = orders.rename(columns = {"transactionId": "transaction_id", "visitorId": "visitor_id"})
orders['date'] = pd.to_datetime(orders['date'])
orders.duplicated().sum()

Для файла *visitors* изменим тип данных в столбце с датой и проверим датасет на наличие дубликатов

In [None]:
visitors['date'] = pd.to_datetime(visitors['date'])
visitors.duplicated().sum()

Проверим, есть ли в группах "А" и "В" пользователи, которые попали в обе группы

In [None]:
duplicated_users = orders.groupby('visitor_id').agg({'group':['nunique', 'unique']})
duplicated_users.columns = ['groups', 'group_name']
duplicated_users = duplicated_users.query('groups > 1')
duplicated_users.head()
print('Пересекающихся пользователей = {}'.format(len(duplicated_users)))

58 пользователей попали в обе группы. Нужно исправлять

In [None]:
orders_old = orders.copy()
orders = orders.query('visitor_id not in @duplicated_users.index')
orders.head()

In [None]:
duplicated_users = orders.groupby('visitor_id').agg({'group':['nunique', 'unique']})
duplicated_users.columns = ['groups', 'group_name']
duplicated_users = duplicated_users.query('groups > 1')
duplicated_users.head()
print('Пересекающихся пользователей = {}'.format(len(duplicated_users)))

**Вывод:**

1. Названия столбцов приведены к змеиному регистру
2. Тип данных в столбцах с датой изменен на datetime
3. Пропусков и дубликатов в датасетах не обнаружено
4. Пересакающиеся пользователи обнаружены и больше не повлияют на наши результаты

## Анализ A/B-теста

### Построим график кумулятивной выручки по группам

Создадим массив с уникальными парами значений из столбцов с датой и группой

In [None]:
date_group = orders[['date', 'group']].drop_duplicates()
date_group

Соберём агрегированные кумулятивные по дням данные в таблице о заказах *orders*

In [None]:
orders_Aggregated = date_group.apply(lambda x : orders[np.logical_and(orders['group'] == x['group'], \
                                                                      orders['date'] <= x['date'])].agg({
    'date' : 'max',
    'group' : 'max',
    'visitor_id' : 'nunique',
    'transaction_id' : 'nunique',
    'revenue' : 'sum'
                                    }), axis = 1).sort_values(by = ['date', 'group'])

Аналогично соберём агрегированные кумулятивные по дням данные в таблице о посетителях *visitors*

In [None]:
visitors_Aggregated = date_group.apply(lambda x : visitors[np.logical_and(visitors['group'] == x['group'], \
                                                                          visitors['date'] <= x['date'])].agg({
    'date' : 'max',
    'group' : 'max',
    'visitors' : 'sum',
                                    }), axis = 1).sort_values(by = ['date', 'group'])

Теперь объединим собранные кумулятивные данные в одной таблице

In [None]:
cumulative_Data = orders_Aggregated.merge(visitors_Aggregated, on = ['date', 'group'])
cumulative_Data.columns = ['date', 'group', 'buyers', 'orders', 'revenue', 'visitors']
cumulative_Data.head()

Разделяем датафрейм с кумулятивным количеством заказов и кумулятивной выручкой по дням по группам и строим графики выручки каждой из групп

In [None]:
cumulative_Data_A = cumulative_Data[cumulative_Data['group'] == "A"]
cumulative_Data_B = cumulative_Data[cumulative_Data['group'] == "B"]

plt.figure(figsize = (10,5))
plt.plot(cumulative_Data_A['date'], cumulative_Data_A['revenue'], label = 'A')
plt.plot(cumulative_Data_B['date'], cumulative_Data_B['revenue'], label = 'B')
plt.xlabel('Дата')
plt.ylabel('Выручка')

plt.title('График кумулятивной выручки по группам')
plt.legend()
print()

Выручка на протяжении всего периода растет в каждой из групп, но в какой то момент (в районе 18 августа 2019) группа "B" резко возрастает и дальше группе "А" её уже не догнать. Есть вероятность, что это является следствием выброса (Возможно тут имел место аномально дорогой заказ)

### Построим график кумулятивного среднего чека по группам

In [None]:
plt.figure(figsize = (10,5))
plt.plot(cumulative_Data_A['date'], cumulative_Data_A['revenue'] / cumulative_Data_A['orders'], label = 'A')
plt.plot(cumulative_Data_B['date'], cumulative_Data_B['revenue'] / cumulative_Data_B['orders'], label = 'B')

plt.xlabel('Дата')
plt.ylabel('Выручка')
plt.title('График кумулятивного среднего чека по группам')
plt.legend()
print()

Очень похоже на то, что мы видели на графике кумулятивной выручки. В группе "А" через две недеи после начала тестирования произошел резкий подъём среднего чека, после чего его значения опустились. В группе "В" (всё также в районе 18 августа 2019) наблюдаем резкое увеличение среднего чека, после чего его размер стал уменьшаться. Вероятность того, что мы увидим здесь аномальные показатели для некоторых из пользователей растёт

### Построим график относительного изменения кумулятивного среднего чека группы B к группе A

Для этого соберём данные обеих групп в обной выборке

In [None]:
merged_Cumulative_Revenue = cumulative_Data_A.merge(cumulative_Data_B, on = 'date', how = 'left', suffixes = ['A', 'B'])
merged_Cumulative_Revenue.head(5)

In [None]:
plt.figure(figsize = (10,5))
plt.plot(merged_Cumulative_Revenue['date'],\
         (merged_Cumulative_Revenue['revenueB'] / merged_Cumulative_Revenue['ordersB']) / \
         (merged_Cumulative_Revenue['revenueA'] / merged_Cumulative_Revenue['ordersB']) - 1)
plt.axhline(y = 0.4, color = 'black', linestyle = '--')

plt.xlabel('Дата')
plt.title('График относительного изменения кумулятивного среднего чека группы B к группе A')
print()

Видим моменты, в которых происходят очень резкие перепады. Особенно заметен скачок 18-19 числа (Тогда то и делались аномально крупные заказы). Если сравнивать погруппно, в начале гуппа "В" проигрывала, но в итоге вырывается вперёд.

### Построим график кумулятивного среднего количества заказов по группам

Построим графики кумулятивного среднего количества заказов по группам

In [None]:
cumulative_Data['conversion'] = cumulative_Data['orders'] / cumulative_Data['visitors']
cumulative_Data_A = cumulative_Data[cumulative_Data['group'] == 'A']
cumulative_Data_B = cumulative_Data[cumulative_Data['group'] == 'B']

In [None]:
plt.figure(figsize = (10, 5)) 

plt.plot(cumulative_Data_A['date'], cumulative_Data_A['conversion'], label='A')
plt.plot(cumulative_Data_B['date'], cumulative_Data_B['conversion'], label='B')

plt.legend()

plt.title('График кумулятивной конверсии по группам')
plt.ylabel('Конверсия')
plt.xlabel('Даты')
plt.show()

В начале теста группа "А" имела большую конверсию, но примерно через 4 дня с начала эксперимента группа "В" вырвалась в лидеры и в дальнейшем имеет стабильно бОльшие значения конверсии, чем группа "А"

### Построим график относительного изменения кумулятивного среднего количества заказов группы B к группе A

In [None]:
plt.figure(figsize = (10, 5))
plt.plot(merged_Cumulative_Revenue['date'], (merged_Cumulative_Revenue['ordersB']) / (merged_Cumulative_Revenue['ordersA']) - 1)
plt.axhline(y = 0, color = 'black', linestyle = '--') 

plt.xlabel('Дата')
plt.title('График относительного изменения кумулятивной конверсии группы B к группе A')
print()

Итак, что мы наблюдаем: 

- в период с 5 по 11 августа 2019 в группе "В" среднее количество заказов стремительно выросло. Возможно появились пользователи, сделавшие довольно много заказов
- после 11 августа 2019 дальнейшем разница в среднем количестве заказов остается на стабильном уровне, однако в группе "В" их стабильно больше

### Построим точечный график количества заказов по пользователям

In [None]:
ordersByUsers = (
    orders.groupby('visitor_id', as_index=False)
    .agg({'transaction_id': 'nunique'})
)
ordersByUsers.columns = ['visitor_id', 'orders']
x_values = pd.Series(range(0,len(ordersByUsers)))

plt.scatter(x_values, ordersByUsers['orders']) 
plt.title('Точечный график количества заказов по пользователям')
print()

На точечной диаграмме мы видим, что стандартное число заказов на одного пользователя с реднем 1 или 2. Также встречаются пользователи с 3-мя заказами. Случаи с большим количеством заказов, чем 3 встречаются, но редко

### Посчитаем 95-й и 99-й перцентили количества заказов на пользователя. Выберем границу для определения аномальных пользователей

In [None]:
p_1 = np.percentile(ordersByUsers['orders'], [95, 99])
print('95 процентиль = {} . 99 процентиль = {}'.format(p_1[0], p_1[1]))

Пусть границей будет 2 заказа. Пользователей, которые совершают *больше чем 3* заказа, будем считать нашими любимыми, но всё же аномальными

### Построим точечный график стоимостей заказов

In [None]:
revenueByUsers = (
    orders.groupby('visitor_id', as_index=False)
    .agg({'revenue': 'sum'})
)
revenueByUsers.columns = ['visitor_id', 'revenue']
x_values = pd.Series(range(0,len(revenueByUsers)))

plt.scatter(x_values, revenueByUsers['revenue']) 
plt.title('Точечный график количества стоимостей заказов')
print()

Итак, что мы видим:

- несколько пользователей с суммой заказов превышающих 100 тыс. 
- одного очень щедрого клиента, потратившего на свой заказ более 1 млн. 200 тыс. 

Есть все основания предполагать, что это явно выбросы

### Посчитаем 95-й и 99-й перцентили стоимости заказов. Выберем границу для определения аномальных заказов

In [None]:
p_2 = np.percentile(revenueByUsers['revenue'], [95, 99])
print('95 процентиль = {} . 99 процентиль = {}'.format(p_2[0], p_2[1]))

95 процентов пользователей укладываются в сумму в размере 28 910 (предположим рублей), 99 процентов - в 59 082.

Аномальными будем считать тех, кто тратит больше 29 000. Мы их также любим, но в дальнейших исследованиях они будут только искажать результаты

## Посчитаем статистическую значимость различий в среднем количестве заказов и среднем чеке между группами по «сырым» данным

Для для дальнейших расчётов нам понадобится узнать:

- количество посетителей сайта из группы А в каждый из дней исследования;
- кумулятивное количество посетителей сайта из группы А в каждый из дней исследования;
- количество посетителей сайта из группы В в каждый из дней исследования;
- количество посетителей сайта из группы В в каждый из дней исследования;
- количество заказов и их стоимость из группы А в каждый из дней исследования;
- кумулятивное количество заказов и их стоимость из группы А в каждый из дней исследования;
- количество заказов и их стоимость из группы В в каждый из дней исследования;
- кумулятивное количество заказов и их стоимость из группы В в каждый из дней исследования.

In [None]:
visitorsADaily = visitors[visitors['group'] == 'A'][['date', 'visitors']] 
visitorsADaily.columns = ['date', 'visitorsPerDateA']

visitorsACummulative = visitorsADaily.apply(
    lambda x: visitorsADaily[visitorsADaily['date'] <= x['date']].agg(
        {'date': 'max', 'visitorsPerDateA': 'sum'}), axis = 1, )
visitorsACummulative.columns = ['date', 'visitorsCummulativeA']

visitorsBDaily = visitors[visitors['group'] == 'B'][['date', 'visitors']]
visitorsBDaily.columns = ['date', 'visitorsPerDateB']

visitorsBCummulative = visitorsBDaily.apply(
    lambda x: visitorsBDaily[visitorsBDaily['date'] <= x['date']].agg(
        {'date': 'max', 'visitorsPerDateB': 'sum'}), axis = 1,)
visitorsBCummulative.columns = ['date', 'visitorsCummulativeB']

ordersADaily = (
    orders[orders['group'] == 'A'][['date', 'transaction_id', 'visitor_id', 'revenue']]
    .groupby('date', as_index = False)
    .agg({'transaction_id': pd.Series.nunique, 'revenue': 'sum'}))
ordersADaily.columns = ['date', 'ordersPerDateA', 'revenuePerDateA']

ordersACummulative = ordersADaily.apply(
    lambda x: ordersADaily[ordersADaily['date'] <= x['date']].agg(
        {'date': 'max', 'ordersPerDateA': 'sum', 'revenuePerDateA': 'sum'}), axis = 1,).sort_values(by = ['date'])
ordersACummulative.columns = [
    'date',
    'ordersCummulativeA',
    'revenueCummulativeA']

ordersBDaily = (
    orders[orders['group'] == 'B'][['date', 'transaction_id', 'visitor_id', 'revenue']]
    .groupby('date', as_index = False)
    .agg({'transaction_id': pd.Series.nunique, 'revenue': 'sum'}))
ordersBDaily.columns = ['date', 'ordersPerDateB', 'revenuePerDateB']

ordersBCummulative = ordersBDaily.apply(
    lambda x: ordersBDaily[ordersBDaily['date'] <= x['date']].agg(
        {'date': 'max', 'ordersPerDateB': 'sum', 'revenuePerDateB': 'sum'}),axis=1,).sort_values(by = ['date'])
ordersBCummulative.columns = [
    'date',
    'ordersCummulativeB',
    'revenueCummulativeB']

Создадим таблицу, в которой объединим все полученные от расчётов данные

In [None]:
AB_data = (
    ordersADaily.merge(
        ordersBDaily, left_on = 'date', right_on = 'date', how = 'left'
    )
    .merge(ordersACummulative, left_on = 'date', right_on = 'date', how = 'left')
    .merge(ordersBCummulative, left_on = 'date', right_on = 'date', how = 'left')
    .merge(visitorsADaily, left_on = 'date', right_on='date', how = 'left')
    .merge(visitorsBDaily, left_on = 'date', right_on='date', how = 'left')
    .merge(visitorsACummulative, left_on = 'date', right_on = 'date', how = 'left')
    .merge(visitorsBCummulative, left_on = 'date', right_on = 'date', how = 'left')
)

AB_data.head()

Объявим переменные со столбцами для пользователей, которые заказывали хотя бы 1 раз, и укажем число совершённых заказов

In [None]:
ordersByUsersA = (
    orders[orders['group'] == 'A']
    .groupby('visitor_id', as_index=False)
    .agg({'transaction_id': pd.Series.nunique})
)
ordersByUsersA.columns = ['visitor_id', 'orders']

ordersByUsersB = (
    orders[orders['group'] == 'B']
    .groupby('visitor_id', as_index=False)
    .agg({'transaction_id': pd.Series.nunique})
)
ordersByUsersB.columns = ['visitor_id', 'orders']

Затем объявим переменные, в которых пользователям из разных групп будет соответствовать количество заказов

In [None]:
sampleA = pd.concat([ordersByUsersA['orders'],pd.Series(0,
index = np.arange(AB_data['visitorsPerDateA'].sum() - len(ordersByUsersA['orders'])), name = 'orders')],axis = 0)

sampleB = pd.concat([ordersByUsersB['orders'],pd.Series(0,
index = np.arange(AB_data['visitorsPerDateB'].sum() - len(ordersByUsersB['orders'])), name = 'orders')],axis = 0) 

### Посчитаем статистическую значимость различий в среднем количестве заказов между группами по «сырым» данным

Сформулируем гипотезы:

H0: различий в среднем количестве заказов между группами нет.

H1: различия в среднем между группами есть.

Для определния статистической значимости, используем критерий Манна-Уитни

In [None]:
display("{0:.3f}".format(st.mannwhitneyu(sampleA, sampleB)[1]))

"{0:.3f}".format(sampleB.mean() / sampleA.mean() - 1)

**Вывод:**

P-value = 0.011, что меньше 0.05. Это означает, что мы отвергаем нулевую гипотезу о том, что статистически значимых различий в среднем числе заказов между группами нет

Относительный выигрыш группы "B" равен 16%

### Посчитаем статистическую значимость различий в среднем чеке заказа между группами по «сырым» данным

Сформулируем гипотезы:

H0: различий в среднем чеке между группами нет.

Н1: различия в среднем чеке между группами есть.

In [None]:
display('{0:.3f}'.format(st.mannwhitneyu(orders[orders['group'] == 'A']['revenue'], orders[orders['group'] == 'B']['revenue'])[1]))
'{0:.3f}'.format(orders[orders['group'] == 'B']['revenue'].mean() / orders[orders['group'] == 'A']['revenue'].mean()-1)

**Вывод:**

P-value = 0.829, что значительно больше 0.05. Следовательно, причин отвергать нулевую гипотезу нет

Более того, средний чек группы "B" на 28,7% выше среднего чека группы "A". Это наводит на размышления о выбросах за счёт "аномальных" пользователей

## Посчитаем статистическую значимость различий в среднем количестве заказов и среднем чеке между группами по «очищенным» данным

Очищенные данные, это данные без "аномальных" пользователей, оказывающих значительное влияние на общую выборку.

Поэтому перед тем как применить статитический критерий, сделаем срезы(на основании уже выявленных процентилей):

- пользователей с числом заказов больше 2;
- пользователей совершивших заказы стоимостью больше 29 000.

In [None]:
usersWithManyOrders = pd.concat(
    [
        ordersByUsersA[ordersByUsersA['orders'] > 2]['visitor_id'],
        ordersByUsersB[ordersByUsersB['orders'] > 2]['visitor_id'],
    ],
    axis=0,
)


usersWithExpensiveOrders = orders[orders['revenue'] > 29000]['visitor_id']

Объединим срезы в список "аномальных пользователей". А также удалим дубликаты, т.к. пользователи одновременно могут и делать много заказов, и тратить много денег.

In [None]:
abnormalUsers = (
    pd.concat([usersWithManyOrders, usersWithExpensiveOrders], axis=0)
    .drop_duplicates()
    .sort_values())
len(abnormalUsers)

Обнаружены аж 51 наш любимый пользователь, которые много заказывают, а также делают заказы на большие суммы. Но в дальнейших исследованиях, дабы не искажать объективность результатов, их мы в расчёт брать не станем

Дальше подготовим выборки количества заказов по группам, где пользователям из разных групп соответствовало бы количество заказов, а тем кто заказов не делал - приписывались бы нули. Кроме того, из выборки мы уберём "аномальных" пользователей

In [None]:
sampleAFiltered = pd.concat([ordersByUsersA[np.logical_not(ordersByUsersA['visitor_id'].isin(abnormalUsers))]['orders'],
pd.Series(0, index = np.arange(AB_data['visitorsPerDateA'].sum() - len(ordersByUsersA['orders'])), name = 'orders')], axis = 0)

sampleBFiltered = pd.concat([ordersByUsersB[np.logical_not(ordersByUsersB['visitor_id'].isin(abnormalUsers))]['orders'],
pd.Series(0, index = np.arange(AB_data['visitorsPerDateB'].sum() - len(ordersByUsersB['orders'])), name = 'orders')], axis = 0)

### Посчитаем статистическую значимость различий в среднем количестве заказов между группами по «очищенным» данным

Сформулируем гипотезы:

H0: различий в среднем количестве заказов между группами нет.

Н1: различия в среднем между группами есть.

Применим статистический критерий Манна-Уитни к полученным выборкам

Выведем относительный прирост среднего числа заказов группы "B"

In [None]:
display('{0:.3f}'.format(st.mannwhitneyu(sampleAFiltered, sampleBFiltered)[1]))
display('{0:.3f}'.format(sampleBFiltered.mean() / sampleAFiltered.mean() - 1)) 

**Вывод:**

P-value = 0,010, что меньше 0,05: нулевую гипотезу отвергаем. В данном случае "очищенные" данные дают примерно те же результаты, что и "сырые"

Относительный выигрыш группы "B" равен 18,8%

### Посчитаем статистическую значимость различий в среднем чеке заказа между группами по «очищенным» данным

Сформулируем гипотезы:

H0: различий в среднем чеке между группами нет.

Н1: различия в среднем чеке между группами есть.

In [None]:
display('{0:.3f}'.format(st.mannwhitneyu(orders[np.logical_and(orders['group'] == 'A',
np.logical_not(orders['visitor_id'].isin(abnormalUsers)))]['revenue'],
orders[np.logical_and(orders['group'] == 'B', np.logical_not(orders['visitor_id'].isin(abnormalUsers)))]['revenue'])[1]))

display("{0:.3f}".format(orders[np.logical_and(orders['group'] == 'B',np.logical_not(orders['visitor_id'].isin(abnormalUsers)))]
['revenue'].mean() / orders[np.logical_and(orders['group'] == 'A', np.logical_not(orders['visitor_id'].isin(abnormalUsers)))]
['revenue'].mean() - 1)) 

**Вывод:**

P-value = 0,748: Нулевую гипотезу отвергнуть нельзя

В выборке с "очищенными" данными средний чек группы "B" на 2,5% ниже, чем у группы "А". На "сырых" данных средний чек группы "B" был на 28,7% **выше**. Всётаки "аномальные" пользователи значительно повлияли на общую картину среднего чека

## Примем решение по результатам теста 

**Общий вывод анализу результатов A/B тестов:**

Из всех графиков явно видно, что пользователи из группы "В" приносят больше выручки нежели пользователи из группы "А".
При этом мы видим выбросы в данных, которые мы связываем с поведением "аномальных" пользователей, которые делают больше заказов и тратят бОльшие суммы, чем средний пользователь

В процессе исследования мы проверили гипотезы о различиях в среднем количестве заказов и среднем чеке в изучаемых группах в двух видах:

1. По сырым данным (без удаления аномальных пользователей)
2. По очищенным данным (без учета аномальных пользователей)

**Итого:**

Различия в среднем количестве заказов между группами есть. Показатели группы "В" превышают показатели группы "А":

- по "сырым" данным на 16%
- по "очищенным" данным на 18,8%


Различий в среднем чеке между группами нет. Показатели группы "В" превышают показатели группы "А":

- по "сырым" данным на 28,7%
- по "очищенным" данным на -2,5%

Напомним, у нас имеются 3 варианта решения: 

1. Остановить тест, зафиксировать победу одной из групп. 

2. Остановить тест, зафиксировать отсутствие различий между группами. 

3. Продолжить тест.

Задача, которая стоит перед интернет-магазином это увеличение выручки

**Таким образом, считаю целесообразным принять решение об остановке А/В-теста и зафиксировать победу группы "В"**

Изменения, которые должны произойти в случае победы группы "В", исходя из проведённых исследований, приведут к увеличению количества заказов примерно на 15%, что в свою очередь поможет увеличить выручку, не теряя в размере среднего чека.