# A/B-тестирование

**Цель работы** - оценка изменения бизнес метрик после введения новой системы рекомендаций пользователям.

На изучение поставлены следующие задачи:
1. Определение корректности проведения теста:
  * соответствие условий требованиям технического задания;
  * пересечение с конкурирующими тестами;
  * совпадение маркетинговых событий;
  * равномерность распределения по тестовым группам;
  * особенности проведения A/B-теста.
2. Исследовательский анализ:
* воронку взаимодействия пользователя с системой;
* разница взаимодействий по событиям в выборках;
* изменение конверсии на разных этапах;
3. Анализ результатов A/B-тестирования:
* исследование результатов A/B-эксперимента после смены системы рекомендаций;
* статистическая разница долей z-критерий.


**Техническое задание**

- Название теста: `recommender_system_test`;
- группы: А — контрольная, B — новая платёжная воронка;
- дата запуска: 2020-12-07;
- дата остановки набора новых пользователей: 2020-12-21;
- дата остановки: 2021-01-04;
- аудитория: 15% новых пользователей из региона EU;
- назначение теста: тестирование изменений, связанных с внедрением улучшенной рекомендательной системы;
- ожидаемое количество участников теста: 6000.
- ожидаемый эффект: за 14 дней с момента регистрации пользователи покажут улучшение каждой метрики не менее, чем на 10%:
    - конверсии в просмотр карточек товаров — событие `product_page`,
    - просмотры корзины — `product_cart`,
    - покупки — `purchase`.

**Описание данных**

<<data>>

### Шаг 1. Изучение общей информации. Подготовка данных.

In [1]:
# импрортируем библиотеки
<<код>>

In [2]:
# считываем данные csv-файла в датафреймы и сохраняем в переменные
<<код>>

Выведем первые строчки датафреймов на экран и основную информацию о датафреймах с помощью метода `info()` для ознакомления с исследуемыми данными.

<вывод> final_ab_events.head()

<вывод> final_ab_events.info()

<вывод> ab_project_marketing_events.head()

<вывод> ab_project_marketing_events.info()

<вывод> final_ab_new_users.head()

<вывод> final_ab_new_users.info()

<вывод> final_ab_participants.head()

<вывод> final_ab_participants.info()

#### Работа с пропусками

Выведем количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов `isnull()` и `sum()`.

In [None]:
<<код>>

Обнаруженно большое количество пропусков по столбцу с дополнением к событию, проверим, какие события есть в таблице, и к чему относятся пропуски.

In [None]:
<<код>>

Пропуски обнаружены только по столбцу дополнительных данных о событии датафрейма `final_ab_events`, так он имеет данные только на побытии покупка.


#### Изменение типов данных

In [None]:
# изменяем тип данных о дате события датафрейма final_ab_events на `datetime`
<<код>>
# добавление столбца с днем
<<код>>

In [18]:
# изменяем тип данных о дате начала и завершения компании датафрейма ab_project_marketing_events на `datetime`
<<код>>

In [19]:
# изменяем тип данных о дате регестрации датафрейма final_ab_new_users на `datetime`
<<код>>

#### Поиск дубликатов

<<код>>

Явных дубликатов необнаружено.

#### Изучение тестов

In [None]:
# количество проводимых тестов

<<код>>

In [None]:
# количество пользователей в каждом тесте

<<код>>

Представлены два теста, по изменению интерфейса на европейскую аудиторию и изменение системы рекомендаций. В первый тест вовлечена большая часть пользователей 11567, во втором тесте участвует 6701 пользователь.

### Шаг 2. Корректность проведения теста

Проверяем соответствие данных требованиям технического задания

#### Соответствие дат требованиям технического задания

Дата запуска теста: 07.12.2020

In [None]:
# определяем минимальную дату начала набора пользователей в группы

<<код>>

Дата запуска теста совпадает с началом набора пользователей.

Дата остановки набора новых пользователей: 2020-12-21

In [None]:
# определяем максимальную дату начала набора пользователей в группы

<<код>>

Дата остановки надора пользователей в группы исследуемого теста соответствует заданию.

Оценка теста определяется по достижению повешения метрик на 14й день после регистрации, т.е. события пользователей учитываются до даты окончания теста по 04.01.2021.

In [None]:
# день последней регистрации событий пользователей

<<код>>

Тест продолжиется до 4 января, но последнее событие зарегестроравано 30 декабря. В данном случае следовало бы проверить систему сбора данных, либо возникновение технических ошибок, т.к. маловероятно, что все пользователи разом прекратили осуществление покупок.


#### Аудитория: 15% новых пользователей из региона EU

1. Определить долю участвующих в тесте от всех новых пользователей.
2. Проверить, являются ли аудитория теста 15% новых пользователей из региона EU.

In [29]:
# пользователи участвующие в исследуемом тесте

<<код>>

Количество новых пользователей составляет 61733
Количество пользователей, участвующих в тесте - 6701, что составляет 10.85% от всех новых пользователей.

In [31]:
# количество новых пользователей из Евросоюза, пришедших в период набора пользователей в тест

<<код>>

# пользователи Евросоюза, участвующие в тесте

<<код>>

Количество новых пользователей из региона EU составляет 42340
Количество пользователей из региона EU, участвующих в тесте - 6351, что составляет 15.0% от всех новых пользователей из региона EU.

Количество новых пользователей составляет 61733, из них 42340 являются представителями европейской аудитории. Количество пользователей, участвующих в тесте - 6701, что составляет 10.85% от всех новых пользователей. Количество пользователей из региона EU, участвующих в тесте - 6351, что составляет 15.0% от всех новых пользователей из региона EU.

По ТЗ ожидаемое количество участников теста: 6000. В таком случае пересмотрим соотношение по пользователям из Евросоюза.

In [None]:
<<код>>

Пользователей из Евросоюза 6351, что составляет 105.85% от ожидаемого числа участников теста и 94.78% от фактического числа участников теста

При соблюдении условия, что участников теста должно быть 6000 пользователей, то требования соблюдаются, т.к. пользователей, участвующих в тесте, из Евросоюза 6351. В целом, новых клиентов региона EU 42340, и доля участвующих в тесте среди них составляет 15%, что соответсвует требованиям.

#### Маркетинговые события

In [None]:
# выводим маркетинговые события, дата которых попадает на время теста

<<код>>

На дату теста выпадает два маркетинговых события, что может исказить результаты. Так как такие события влияют на обе группы, можно пренебречь данным обстоятельтсвом, но следует отметить, что в таком случае не будет точной уверенности, что повлияло на активность пользователей, события или изменения в системе рекомендаций. К тому же, даже без этих маркетинговых событий, конец года в предверии праздничных дней характеризуется повышенной активностью пользователей. Прием пользователей оканчивается до начала компаний.

#### Аудитория теста

Представлены ли пользователи в двух группах

In [None]:
# проверим пересечение групп по пользователям

<<код>>

Пользователи теста не пересекаются в группах.

In [None]:
# формируем таблицу по группам теста и посчитаем количество уникальных клиентов
<<код>>
                 
# строим круговую диаграмму 
<<код>>

В группу `A` входит 3824 пользователя, в группу `B` - 2877. Распределение в долях по группам 57% к 43% соответственно.

#### Динамика регистраций пользователей теста 

In [37]:
# таблица пользователей теста с датой регистрации и группой

<<код>>

In [None]:
# подготавливаем таблицу сгруппированную по дням и группе теста с расчетом уникальных пользователей
<<код>>

# строим линейный график изменения количества количества событий по дням
<<код>>

Особых различий в динамике регистраций не наблюдается. Пользователи разных групп приходили с одинаковым темпом.

#### Параллельные тесты

In [None]:
# подготавливаем таблицу количества пользователей в разбивке по типу теста
<<код>>

# строим столбчатую диаграмму 
<<код>>

Проверим пересечение пользователей в разных тестах

In [None]:
<<код>>

# строим круговую диаграмму

<<код>>

Из всех пользователей, вовлеченных в проведение теста, 1602 пользователя или 10% принимают участие в двух тестах.

In [41]:
# пользователи, принимающие участие в разных тестах

<<код>>

##### Распределение двойных участников по тесту `interface_eu_test`

In [42]:
# участники теста "interface_eu_test"
<<код>>

In [None]:
# какое количество пользователей, участвующих в обоих тестах,
# принимает участие в рассматриваемом
<<код>>

Количество пользователей, участвующих в двух тестах, составляет 1602, что представляет 13.85% от общего числа участников теста "interface_eu_test".

In [None]:
# формируем таблицу по группам теста и посчитаем количество уникальных клиентов, участвующих в нескольких тестах
<<код>>

# строим круговую диаграмму 
<<код>>

Т.е. пользователи, принимающие участие в двух тестах, практически в равной доли распределены в тесте "interface_eu_test". 

##### Распределение двойных участников по тесту `recommender_system_test`

In [None]:
# какое количество пользователей, участвующих в обоих тестах,
# принимает участие в рассматриваемом
<<код>>

Количество пользователей, участвующих в двух тестах, составляет 1602, что представляет 23.91% от общего числа участников исследуемого теста.

In [None]:
# формируем таблицу по группам теста и посчитаем количество уникальных клиентов, участвующих в нескольких тестах
<<код>>

# строим круговую диаграмму 
<<код>>

Двойные участники принадлежат разным группам теста "recommender_system_test", 57% в группе "А" и 43% в группе "В". 

In [None]:
# проверим, в разные ли группы исследуемого теста попадают участники группы "B" теста "interface_eu_test"
<<код>>
    
# строим круговую диаграмму 
<<код>>

В соответствии с полученными данными, у нас происходит смешивание разных групп по тестам: участники группы "B" теста "interface_eu_test" присутствуют в обоих группах теста"recommender_system_test". Пользователи группы "В" по первому тесту, с измененным интерфейсом, будут присутствовать и в контрольной группе, и в группе с измененной системой рекомендаций исследуемого теста. При этом если делается акцент на европейскую аудиторию, активность некоторых участников, состоящих в группах "В" по обоим тестам, может отличаться от активности участников исследуемого теста группы "В".

#### Преобразования по требованиям ТЗ

Учитывая, что требования указывают на определенный регион, то оставляем в тесте пользователей Евросоюза, при таком сокращении, аудитория теста все равно остается выше ожидаемого числа в 6000 пользователей.

In [49]:
# оставляем в аудитории теста пользователей из Евросоюза
# добавляем аудитории теста действия
<<код>>

# добавляем каждому пользователю лайфтайм
<<код>>

Проверим соответствие событий временному интервалу в 14 дней

In [None]:
# сколько записей событий не соответствует требованиям ТЗ по периоду событий
<<код>>

In [None]:
# количество пользователей, действия которых превышают лайфтайм в 14 дней
<<код>>

В данных присутствуют записи о событиях, превышающих 14 дней, совершенных 255 пользователями. Нам эти данные не требуются, т.к. в ТЗ прописано про увеличение показателя максимус на 14й день, так что исключаем эти данные.

In [52]:
# исключаем не соответствующие данные
<<код>>

In [None]:
# итоговое количество пользователей
<<код>>

Итоговое количество пользователей Евросоюза, участвующих в тесте составляет 3481 пользователей, совершивших хотя бы одно действие, составляет 54.81% от европейских пользователей, заявленных в тест.

К группе "А" относится 2604 пользователей, что составляет 74.81% от участников теста, совершивших хотя бы одно действие.

К группе "B" относится 877 пользователей, что составляет 25.19% от участников теста, совершивших хотя бы одно действие.

#### Вывод по данным для теста

Зарегестрировано 61 733 новых пользователя, из них у исследуемом тесте участвует 6 701 человек или 10.85%. Из региона EU зарегестрировалось 42 340 пользователей, из них 6 351 участвует в тесте, что соответствует 15% и требованиям ТЗ.

Количество пользователей между группами теста распределено не равномерно, к группе "А" отнесено на 15% больше пользователей.

Динамика регистраций новых пользователей по группам не отличается.

Параллельно в нашим тестом проводится еще один, на изменение интерфейса и направлен на аудиторию Евросоюза. Данных по второму тесту нет, но в нем принимает участие 1602 пользователя нашего теста. Участники двух тестов равномерно распределены в группах параллельного теста, а в нашем с небольшим преимуществом в группе "А" (57.5%). Группы параллельных тестов перемешаны, таким образом пользователи группы "В" второго теста составляют 44% группы "В" исследуемого теста.

Участников теста, совершивших хотя бы одно действие за 14 дней, равно 3481 пользователь, в группе "А" 75%, в группе "В" 25%.

### Шаг 3. Исследовательский анализ данных

#### Характеристика событий

In [None]:
<<код>>

* Количество подльзователей, совершивших хотя бы одно действие, 3481;
* Среднее количество событий на одного пользователя: 6-7;
* Медианное количество событий на одного пользователя: 6;
* Минимальное количество событий на одного пользователя: 1;
* Максимальное количество событий на одного пользователя: 28;
* Количество пользователей, совершаваших действия в приложении более 9 раз: 25%.

Медиана и среднее отличаются практически равны, но учитывая значение максимального числа событий, пользователей совершивших большие количество событий немного, иначе среднее было бы значительно больше. Для полной картины пользователей можно определить 95 и 99 перцентили количества событий.

In [None]:
<<код>>

Таким образом, пользователей совершивших действия более 15 раз - 5% от общего числа, а более 20 раз - 1%.

In [None]:
# определим количество каждого события
<<код>>

Пользователи могут совершать несколько событий:
- вход/ввод логина — `login`,
- просмотр карточек товаров — событие `product_page`,
- просмотры корзины — `product_cart`,
- покупка — `purchase`.

Все уникальные пользователи, совершившие хотя бы одно действие, прошли через ввод логина. 62% пользователей перешло на страницу товара. Дальше идет несоответствие количества событий логичной последовательности шагов воронки, т.к. совершение покупки составляет 31% от всех пользователей, а просмотр корзины меньше, 29%. Соответственно мы имеем либо путь, с которого пользователь попадает может купуть товар в один клик, либо ошибка сбора данных. 

Большое количество пользователей теряется после регистрации, возможно проблемы со входом.

#### Распределение количество событий на пользователя в выборках

In [None]:
# подготавливаем таблицу сгруппированную по дням и группе теста с расчетом событий
<<код>>

In [None]:
# задаём размер сетки для графиков
<<код>>

# в таблице графиков —  одна строка и два столбца, две ячейки
# в первой строим диаграмму размаха общей продолжительности звонков с учетом времени ожидания
<<код>>

# во второй ячейке гистограмму распределения общей продолжительности звонков с учетом времени ожидания
<<код>>

Количество событий на пользователя в группе "В" меньше, чем у пользователей группы "А", так в первой клиенты редко совершают больше 12 действий, во втором случае больший процент пользователей совершает 15 количество событий и больше. При этом среднее количество событий на пользователя в группах незначительно отличается.

In [None]:
# подготовим таблицу для изучения распределения события по группам
<<код>>

# строим столбчатую диаграмму 
<<код>>

Количество событий на группу "В" приходится значительно меньше, во всех типах события пользователи группы "А" совершают в несколько раз больше действий.

In [None]:
# формируем таблицу по группам теста и посчитаем количество уникальных клиентов, не совершивших действий
<<код>>

# строим круговую диаграмму 
<<код>>

In [None]:
# строим линейный график изменения количества количества событий по дням
<<код>>

Большая часть пользователей, не совершивших действий, относится к группе "В". Может ли это быть связано с изменениями в системе рекомендаций, либо с техническими ошибками сказать сложно. В динамике регистраций, такие пользователи приходили до 13 декабря в обе группы, после попадали только в группу "В". Осебенностей в устройством входа также не обнаружено, неактивные пользователи регестрировались с разных устройств.

#### Распределение событий по дням

In [None]:
# подготавливаем таблицу сгруппированную по дням и группе теста с расчетом событий
<<код>>

# строим линейный график изменения количества количества событий по дням
<<код>>

Изначально особых различий по группам не было, но начиная с 13 декабря пользователи группы "А" резко повышают активность, сохраняя и увеличивая ее до 21 декабря. Затем резкий спад, и окончание полной активности, что подозрительно. Пользователи группы "В" показывают достаточно низкую активность, есть небольшие пики 9, 16 и 21 декабря, после постепенное снижение. 

При этом помним, что 25 декабря запускалась маркетинговая компания, посвященнов рождественским событиям, но какой-либо положительной динамике по событиям не наблюдается.

Проведя параллели с динамикой регистраций новых пользователей из исследовательского анализа с 11 по 14 декабря росло количество пользователей, также с 16 по 21 декабря повышение количества регистраций, что и отображается на графике количества событий.

#### Конверсия в воронке в выборках на разных этапах

In [65]:
# соберем таблицы для каждой группы с группировкой пользователей по событиям для визуализации воронки
# группа "A"
<<код>>

# группа "B"
<<код>>

# строим график воронки
<<код>>

Воронка представляет собой цепь событий: вход ➡ посещение главной товара ➡ корзина ➡ покупка. 

Первый шаг включает в себя всех пользователей. 
Далее теряется более 30% пользователей, и на просмотр товара уже попадает 65% пользователей от группы "А" и 56% пользователей от группы "В". В корзину уже попадает 46% пользователей группы "А" и 49,5% группы "В". Делаем вывод о непоследовательной воронки событий, т.к. количество пользователей, оформавших покупку, больше пользователей, прошедших через корзину, и составляет по группе "А" 32%, по группе "В" 28%.

#### Какие особенности данных нужно учесть, прежде чем приступать к A/B-тестированию?

Критерии успешного теста: 
- Для всех групп фиксируют и отправляют в системы аналитики данные об одном и том же;
- Попавший в одну из групп посетитель остаётся в этой группе до конца теста. 
- Если пользователь видит разные версии исследуемой страницы в ходе одного исследования, неизвестно, какая именно повлияла на его решения. Значит, и результаты такого теста нельзя интерпретировать однозначно;
- Следует подготовить данные в соответствием с ТЗ;
- Предусмотреть время проведение теста, сочетание и возможное влияние маркетинговых событий.

### Шаг 4. Анализ результатов теста


#### Что можно сказать про результаты A/В-тестирования?

Количество участников теста, соверающих действия не соответствует требованиям задания. 

Распредение участников на группы также не равномерно, группа "А" по размеру в несколько раз превышает группы "В". 

Конверсия в группе "В" превышает группу "А" на переходе от сабытия просмотра какрточки товара к корзине на 3%.

#### Проверьте статистическую разницу долей z-критерием.

**Гипотезы**
 
 Нулевая гипотеза: различий в долях пользователей, совершивших событие, между группами нет. 
 
 Альтернативная гипотеза: различия долей по совершению события между группами есть.

Используем статистический критерий для проверки - `z-тест для пропорций`


In [None]:
# таблица для первой группы
<<код>>
    
# таблица для второй группы
<<код>>

# таблица с количеством уникальных пользователей на группу
<<код>>

# уникальные пользователи первой группы    
<<код>>

# уникальные пользователи второй группы      
<<код>>
<<код>>
    # количество пользователей на событие
    <<код>>

    <<код>>

    # пропорция успехов в первой группе:
    <<код>>

    # пропорция успехов во второй группе:
    <<код>>
    
    # пропорция успехов в комбинированном датасете:
    <<код>>

    # разница пропорций в датасетах
    <<код>> 
    
    # считаем статистику в ст.отклонениях стандартного нормального распределения
    <<код>>

    # задаем стандартное нормальное распределение (среднее 0, ст.отклонение 1)
    <<код>>

    # статистический уровнь значимости alpha 
    # применеие поправки на множественную проверку гипотез - поправку Бонферони
    <<код>>

1685 493 2604 877
Событие  product_page
p-значение:  6.942739359416805e-06
Отвергаем нулевую гипотезу: между долями есть значимая разница
2604 876 2604 877
Событие  login
p-значение:  0.08481837035887363
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными
833 249 2604 877
Событие  purchase
p-значение:  0.04652482738393027
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными
782 244 2604 877
Событие  product_cart
p-значение:  0.21469192029582396
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными

### Общие выводы

Воронка представляет собой цепь событий: вход ➡ посещение главной товара ➡ корзина ➡ покупка. 

Все пользователи начинают взаимодействие со входа, но затем более 30% теряется. Поток пользователей с шага на шаг воронки неравномерный, также присутствует не прямой переход с шага на шаг, т.к. количество пользователей, оформивших покупку, больше пользователей, прошедших через корзину, и составляет по группе "А" 32%, по группе "В" 28%.

Проверка гипотезы о равенстве долей показала, что между группами теста - "А" и "В"  нет статистически значимых различий по всем событиям, кроме просмотра корзины. На просмотр корзины в группе "В" конверсия на 3% больше, чем в группе "А".

В данном случае, полагалось бы сделать вывод о том, что новая система рекомендаций не повлияла на действия пользователя, т.к. повышение метрик на 10% не наблюдается ни по одному из событий. 

Однако, следует учитывать комплекс проблем, связанных с проведением теста:

1. Аудитория теста

Обнаружено 45% неактивных пользователей от европейских участников теста, большая часть которых относится к группе "В", что значительно изменило распределение пользователей по тестовым группам в пользу группы "А". Регистрация неактивных пользователей выполнялась весь период набора в тестовые группы, с устройством входа нет аномальных результатов, следует проверить на факт наличия технических ошибок в логировании таких пользователей.

Итого, в результате произошло сокращение выборок. 

Часть пользователей участвует в параллельном тесте, к тому же пользователи группы "В" являются участниками группы "В" другого теста.

2. Время проведения теста

Время теста определено было на конец года, а новогодние праздники характеризуются повышенной активностью. Но даже этот факт не отражен в динамике активности пользователей.

Также вся активность прекращена 30 декабря, за 5 дней до окончания теста, что не характерно для обычного поведения пользователей, также следует проверить на технические ошибки либо со стороны взаимодействия пользователя с платформой либо в сборе данных.

3. Увеличесние бизнес-метрик на 10%

Увеличение конверсии в группе "В" относительно группы "А" замечено только на шаге перехода к корзине, в остальных событиях меньше.

4. Результаты теста

Статистическая разница обнаружена только на событии перехода пользователя в корзину. В остальном между выборками нет различий. Также следует учитывать, что размер выборок уменьшился, что могло повлиять на фиксацию различий.

Принято решение не доверять результатам теста, исследовать возникающие проблемы во взаимодейтвие пользователей с ситемой, при устранении технических проблем и учете сезонности повторить проведение теста.