# EDA-5. A/B-тестирование 

## 2. Суть и сферы применения A/B-тестирования

A/B-тестирование — это метод, пришедший к нам из маркетинга. Он заключается в сравнении текущей версии продукта (версии А) с его изменённой версией (версией B) на основании данных, полученных до введения обновления в продукт и после него. 

Метод основан на проверке статистической значимости результатов эксперимента и позволяет заранее задать границу уверенности в результатах исследования (уровень надёжности). 

### МЕХАНИЗМ A/B-ТЕСТИРОВАНИЯ

A/B-тестирование и все производные от него (A/A, A/A/B, A/B/C) также принято называть сплит-тестами (от англ. split, разделять), что объясняется основополагающим принципом их проведения.

Чтобы протестировать какую-либо гипотезу при помощи A/B-теста, аудиторию разделяют на две части: 

    - группа A продолжает использовать (видеть) старую версию продукта;
    - группа B начинает использовать новую. 


В реальном времени собирается информация об обеих группах теста, проводятся замеры важных показателей. После этого проводится сравнение этих показателей и принимается решение об эффективности влияния гипотезы на показатели продукта. 

### A/B-ТЕСТИРОВАНИЕ ML-МОДЕЛЕЙ

Помимо того, что A/B-тестирование позволяет отвечать на вопросы бизнеса о пользователях, оно может стать очень важным инструментом выявления эффективности построенной дата-сайентистом модели и позволить понять, как она показывает себя в реальных условиях.

На основании результатов A/B-тестирования мы можем сделать вывод о том, стоит ли производить замену текущей модели на новую или же результат новой модели статистически незначим.

Таким образом, A/B-тестирование позволяет нам оценить работу модели в реальных условиях и понять, имеет ли смысл вводить её в продакшен.

## 3. Алгоритм, принципы и параметры A/B-тестирования

→ A/B-тестирование — это настоящий эксперимент, в котором вы выдвигаете гипотезу (например: «Варианты А и B равнозначны» (помним, что нулевая гипотеза в статистике — это всегда про «равенство») против альтернативной гипотезы «Вариант B лучше, чем вариант А по показателю Y на Z %»), ставите «опыты» над пользователями и смотрите на изменение определённой заранее метрики.


### 1. Определение метрик и выдвижение гипотез

На этом этапе мы определяем, какую метрику мы будем пытаться оптимизировать при внедрении варианта продукта B (дизайна, функциональности, модели, препарата и так далее). 

Это могут быть специализированные метрики задач машинного обучения, если мы сравниваем две модели между собой, или маркетинговые и SMM-метрики: средний чек, конверсия покупки товара, количество лайков или репостов, количество просмотров, количество негативных комментариев, отток клиентов и так далее.

При определении метрики важно соблюдать несколько правил:

✔️ Метрика должна быть измерима, то есть должна иметь численное выражение, и у вас должна быть возможность как можно более точно измерить этот показатель.

✔️ У вас есть возможность влиять на метрику.

Как и к метрике, к гипотезе тоже есть свои требования:

✔️ Гипотеза должна быть проверяемой, если предположение нельзя проверить, то это не гипотеза, а фантазия.

✔️ Гипотеза должна не иметь логических противоречий.

✔️ Должно быть понятно, на что влияет гипотеза, то есть она должна быть связана с конкретным показателем.

### 2. Подготовка к тестированию

Определение размера выборки и длительности теста
Принятие решения о целесообразности проведения тестирования
Разработка варианта B

### 3. Настройка распределения на группы

Этот этап намного сложнее, чем кажется, так как существует вероятность того, что полученные группы могут оказаться неравнозначны.

Вы должны постараться сделать так, чтобы группы были максимально схожи по всем возможным признакам. Идеального результата добиться никогда не получится, однако нужно попытаться учесть как можно больше факторов.

### 4. Проверка корректности эксперимента

На этом этапе мы проверяем, что все условия для проведения эксперимента работают корректно:

    -группа А использует (видит) вариант продукта А, а группа B использует (видит) вариант продукта B; отсутствуют пересечения между этими группами;
    -отсутствует внезапное влияние внешних факторов (не появляются неожиданные масштабные события, которые могут повлиять на результаты эксперимента);
    -результаты централизованно поступают в подсистему хранения данных о процессе проведения эксперимента (если такая предусмотрена);
    -другие специфичные условия.


### 5. Сбор результатов

Когда процесс тестирования доходит до своей финальной точки, нам необходимо выгрузить результаты: данные об изменении целевого показателя (метрики) на заданном промежутке времени.

### 6. Анализ результатов

На этом этапе мы производим сравнение метрик в двух группах на основе собранных данных. Для этого могут использоваться методы визуализации и визуальное сравнение показателей («на глаз»).

Однако, когда значимость разницы показателей неочевидна, то есть нельзя с большой долей уверенности сказать, какой вариант продукта (А или B) оказался «лучше», мы должны воспользоваться статистическими тестами. Они позволяют с заданным уровнем значимости ответить на вопрос: имеет ли статистическую значимость полученная разница в показателях или же она является случайной?

Помимо статистических тестов, для анализа результатов часто используются доверительные интервалы, которые позволяют построить возможные границы для истинного значения метрики в группах и для разницы между показателями в группах.

### 7. Формирование выводов и принятие решения

На основании анализа результатов A/B-тестирования мы принимаем или отклоняем первоначальную гипотезу и формируем один из трёх возможных выводов:

    1) Вариант продукта А является более эффективным (по заданной метрике), чем вариант B.
    2) Вариант продукта B является более эффективным (по заданной метрике), чем вариант А.
    3) Варианты А и B являются идентичными, то есть между ними нет разницы с точки зрения заданной метрики.

Когда сделан вывод, сформирован отчёт о проведении A/B-теста и его результатах, принимается решение о внедрении варианта B или необходимости дальнейшего исследования.

Хотелось бы отметить, что не существует хорошего или плохого результата. Цель A/B-тестирования — это сделать верные выводы в целях рационального использования средств бизнеса. Если в результате получилось так, что новый вариант не оправдал себя, нужно с чистой совестью принять такой исход событий.

### ПРИНЦИПЫ A/B-ТЕСТИРОВАНИЯ

#### Принцип 1: Исключить влияние извне
для качественного результата тестирования необходимо разделить группы так, чтобы пользователь, который попал в одну из групп, в течение всего теста находился только в ней. Это даёт нам уверенность в том, что на принятие решения о совершении целевого действия его подтолкнул только тот вариант продукта, который был ему показан.

Если всё-таки оказалось так, что некоторые пользователи попали в обе группы теста, то нужно смотреть на их количество. Как правило, если их число невелико (менее 5-10 %), их исключают из анализа.

#### Принцип 2: Данных должно быть много
Согласно закону больших чисел, чем больше раз повторяется эксперимент, тем ближе будет частота события к его вероятности.

Иначе говоря, если наблюдений мало, их разброс будет больше, а если наблюдений много, случайные выбросы будут друг друга компенсировать.

#### Принцип 3: Правильный инструмент анализа
Как мы уже говорили, проверка гипотез — статистический инструмент. Она позволяет судить о больших совокупностях по меньшим выборкам.

То есть, измеряя результаты групп A и B, мы на самом деле хотим понять различие не самих этих групп (выборок), а различие генеральной совокупности (всех пользователей).

Важно определиться с показателями, по которым производится сравнение в группах, и правильно выбрать статистические инструменты (тип теста и доверительного интервала) для проверки гипотезы. Неправильные инструменты — неверный результат.


### РАСЧЁТ ПАРАМЕТРОВ A/B-ТЕСТА

Для расчёта размера выборки и длительности проведения теста обычно используют специальные калькуляторы. В интернете можно найти много подобных калькуляторов. Мы рассмотрим некоторые их них.

#### Калькулятор Эвана Миллера 
https://www.evanmiller.org/ab-testing/sample-size.html

На вход подаются такие параметры, как:

    1) Baseline Conversion Rate: базовая конверсия (конверсия существующего варианта);
    2) Minimum Detectable Effect: минимально желаемый результат изменения метрики (относительно базовой конверсии или абсолютный);
    3) Statistical Power 1−β: мощность теста (вероятность не допустить ошибку II рода);
    4) Significance Level α: уровень значимости (вероятность ошибки I рода).

#### Калькулятор VWO
https://vwo.com/tools/ab-test-duration-calculator/

На вход подаются следующие данные:

    1) Estimated Existing Conversion Rate (%): базовый уровень конверсии;
    2) Minimum Improvement in Conversion Rate you want to detect (%): минимально желаемый результат изменения метрики;
    3) Number of Variations/Combinations (including control): общее количество групп в тесте;
    4) Average Number of Daily Visitors: среднее ожидаемое количество посетителей в день в обеих группах;
    5) Percent Visitors Included in Test: процент посетителей, включенных в тест.


## 4. Анализ результатов A/B-тестирования: кумулятивные метрики