# Algorithm, principles and parameters of A/B testing

**A/B-тестирование** — это эксперимент, в котором вы выдвигаете *гипотезу* (например: «Варианты А и B равнозначны» (помним, что нулевая гипотеза в статистике — это всегда про «равенство») против альтернативной гипотезы «Вариант B лучше, чем вариант А по показателю Y на Z %»), ставите «опыты» над пользователями и смотрите 

Как и в любом эксперименте, при проведении A/B-тестирования очень важно соблюдать «правила безопасности»: тестирование необходимо проводить по определённым канонам, которые были разработаны на практике другими специалистами.

Если не соблюдать эти правила, эксперимент может пойти не по плану и произойдёт «бум»! Ничего, конечно, не взорвётся, но из-за сильного отклонения от установленных правил существенно повышается вероятность совершить следующие типичные ошибки:

* **Отвергнуть верную нулевую гипотезу — совершить ошибку I рода**. Например, на основе полученных данных вы можете принять решение, что вариант B является более предпочтительным, однако такая разница была обусловлена лишь случайностью или внешними факторами. В таком случае, помимо времени и денег, потраченных на A/B-тестирование, вы бессмысленно тратите деньги и время ещё и на глобальную интеграцию варианта B, а его эффективность оказывается на уровне или даже хуже варианта A.
* **Принять неверную нулевую гипотезу — совершить ошибку II рода**. Например, на основе полученных данных вы можете принять решение, что для пользователей нет разницы между вариантами А и В, хотя на самом деле вы произвели некорректное сравнение и вариант В был лучшим. В таком случае вы теряете только время и деньги, потраченные на проведение A/B-тестирования, и упустите возможный дополнительный доход от улучшения.на изменение определённой заранее метрики.

**Кейс**

Платформа онлайн-образования, посмотрев на отзывы своих студентов, принимает решение запустить новый вариант некоторого модуля.

Нулевая гипотеза состояла в том, что модули одинаково эффективны по значению метрики. Альтернативная гипотеза – новый вариант модуля увеличит текущее значение метрики (зависящей от обратной связи студентов) в 1,5 раза.

A/B-тестирование показало, что новый вариант модуля в два раза превосходит по метрике старый вариант, поэтому «на радостях» старый вариант безвозвратно удалили с платформы, заменив его новым.

⛔️ По прошествии некоторого времени оказывается, что новый вариант модуля стал показывать ещё более низкие оценки, чем старый.

Выяснилось, что тест проводился некорректно: показатели метрики по новому варианту модуля оценивались на выборке из 10 человек, а тестирование проводилось всего неделю на людях, которые уже знакомы с изучаемой в модуле темой.

Какую ошибку допустила команда курса?

Ошибку первого рода, потому что первые данные оказались случайными и не были проверены в реальных условиях.

## АЛГОРИТМ A/B-ТЕСТИРОВАНИЯ

Рассмотрим алгоритм проведения A/B-тестирования на следующей задаче. 

Представьте, что ваша команда занимается разработкой рекомендательной системы, которая подбирает пользователям персональные предложения по продажам. Сейчас ваш заказчик производит рассылку предложений по почте и делает это, не опираясь на информацию о пользователе: все возможные предложения сыплются одним потоком. 

Цель нашего исследования — проверить эффективность работы построенной рекомендательной системы и понять, какой из вариантов лучше: персонализировать предложения с помощью искусственного интеллекта или рассылать все возможные предложения всем клиентам.

Схематично A/B-тестирование можно разделить на следующие этапы.

### <p style="text-align: center;"> Этапы А/В-тестирования </p>

#### 1. Определение метрик и выдвижение гипотезы 
#### 2. Подготовка тестированию
#### 3. Настройка распределения на группы
#### 4. Проверка корректности
#### 5. Сбор результатов
#### 6. Анализ результатов
#### 7. Формулирование выводов и принятие решения

### 1. ОПРЕДЕЛЕНИЕ МЕТРИК И ВЫДВИЖЕНИЕ ГИПОТЕЗ

На этом этапе мы определяем, какую метрику мы будем пытаться оптимизировать при внедрении варианта продукта B (дизайна, функциональности, модели, препарата и так далее). 

Это могут быть специализированные метрики задач машинного обучения, если мы сравниваем две модели между собой, или маркетинговые и SMM-метрики: средний чек, конверсия покупки товара, количество лайков или репостов, количество просмотров, количество негативных комментариев, отток клиентов и так далее.

При определении метрики важно соблюдать несколько правил:

✔️ Метрика должна быть измерима, то есть должна иметь численное выражение, и у вас должна быть возможность как можно более точно измерить этот показатель.

✔️ У вас есть возможность влиять на метрику.

⛔️ Плохие примеры метрик: 
   * Уровень счастья пользователя в момент совершения покупки (метрика неизмерима).
   * Курс доллара (вы не можете повлиять на курс доллара, только если ваша компания не является международным финансовым гигантом).

***Примечание***. Очень часто в компаниях есть своя метрика, которая высчитывается специальным образом и включает в себя сразу несколько показателей.

Итак, предположим, что в качестве метрики для нашей задачи оценки эффективности системы рекомендаций мы придумали свою комплексную метрику, которую назвали «вовлечённость пользователей». Она измеряется от 0 до 100 и учитывает сразу несколько показателей: долю перешедших по рекламной ссылке пользователей, средний чек, конверсию покупки…

Как только мы определились с метрикой, мы выдвигаем гипотезу о том, что вариант продукта B увеличит (уменьшит) нашу метрику на Z единиц. Если вы выбрали несколько метрик, то количество выдвигаемых гипотез должно быть не меньше количества метрик.

Как и к метрике, к гипотезе тоже есть свои требования:

✔️ Гипотеза должна быть проверяемой, если предположение нельзя проверить, то это не гипотеза, а фантазия.

✔️ Гипотеза должна не иметь логических противоречий.

✔️ Должно быть понятно, на что влияет гипотеза, то есть она должна быть связана с конкретным показателем.

⛔️ *Плохие примеры гипотез*:
   * «Добавление искусственного интеллекта в приложение уменьшит уровень стресса пользователей в 3 раза» (вы не можете проверить данную гипотезу, если вы не заставите пользователей принудительно проходить психологический тест на уровень стресса).
   * «Смена цвета кнопки продажи с красного на зелёный увеличит средний чек в 150 раз» (гипотеза является нереальной, дизайн не может так сильно влиять на показатель среднего чека).
   * «Цветные изображения товаров в приложении в 1,5 раза эффективнее, чем чёрно-белые» (непонятно, на что влияет гипотеза, к какой метрике она привязана, по какому критерию определяется «эффективность»).

