+ https://www.dataquest.io/blog/a-b-testing-the-definitive-guide-to-improving-your-product/
+ https://www.codecamp.ru/blog/binomial-confidence-interval-python/
+ https://cxl.com/blog/statistical-power/
+ https://habr.com/ru/company/glowbyte/blog/696540/
+ https://towardsdatascience.com/ab-testing-with-python-e5964dd66143
+ https://towardsdatascience.com/simple-and-complet-guide-to-a-b-testing-c34154d0ce5a
+ https://vwo.com/ab-testing/
+ https://habr.com/ru/post/562380/
+ https://medium.com/budding-data-scientist/data-analytics-using-python-part-5-2c9c44bf10ea
+ https://towardsdatascience.com/the-ultimate-guide-to-hypothesis-testing-and-confidence-intervals-in-different-scenarios-70bcc0d846b2

# Обзор A/B-тестирования

**A/B тест** - методология тестирования нового продукта или фичи в *онлайн-сервисе*, позволяющая принимать решения о запуске нового изменения на основе *статистических данных*, измеряя влияние изменений на *метрики*, с целью увеличить эффективность *онлайн-сервиса*

+ **Контрольная группа (A)** - текущая версия продукта
+ **Экспериментальная группа (B)** - новая версия продукта

![](img/ab-testing.png)  

Примеры изменений:
+ Новый алгоритм рекомендаций
+ Новый макет лендинговой страницы
+ Уменьшение времени прогрузки страницы

Факторы мешающие A/B тесту:
+ Новый пользовательскй опыт (эффект новизны)
+ Большие временные затраты на сбор данных (реферальные фичи)

Метрики:
+ CTR (Click Through Rate) 
  - usebality 
  - *#number of clicks/#number of page views*
+ CTP (Click Through Propabality) 
  - impact 
  - *#unique visitors who click/#unique visitors to page*
+ ...
  


  
## Доверительный интервал
+ https://aegis4048.github.io/comprehensive_confidence_intervals_for_python_developers

Общая формула:
$$\widetilde{\theta}-\varepsilon \lt \theta\lt \widetilde{\theta}+\varepsilon$$
где: 
+ $\theta$ - параметр 
+ $\widetilde{\theta}$ - оцениваемый параметр по выборке
+ $\varepsilon$ - предельная ошибка выборки

$$\varepsilon = const\cdot se$$
где:
+ $const$ - число, зависящее от *уровня доверия* и *распределения*
+ $se$ - стандартная ошибка

### ДИ для доли
$$\tilde{p} - z\cdot \sqrt{\frac{\tilde{p}(1-\tilde{p}))}{n}}\lt p \lt \tilde{p} + z\cdot \sqrt{\frac{\tilde{p}(1-\tilde{p}))}{n}}$$
где:
+ $p$ - вероятность успеха в генеральной совокупности
+ $\tilde{p}$ - вероятность успеха по выборке
+ $z$ - z-статистика для выбранного *уровня доверия*
+ $n$ - кол-во наблюдений

### ДИ для среднего
$$\tilde{x} - t\cdot \frac{s}{\sqrt{n}}\lt \mu \lt \tilde{x} + t\cdot \frac{s}{\sqrt{n}}$$
где:
+ $\mu$ - среднее генеральной совокупности
+ $\tilde{x}$ - среднее по выборке
+ $t$ - t-статистика для выбранного *уровня доверия*
+ $s$ - стандартное отклонение по выборке
+ $n$ - кол-во наблюдений

  
## Распределения
+ https://www.datacamp.com/tutorial/probability-distributions-python
+ https://mkdtycl97.medium.com/discrete-probability-distribution-with-python-7213a6a9042c

### Нормальное
### Биномиальное
- Когда есть два исхода: успех, провал
- Независимые события
- Вероятность событий одинакова
   
 $$p = \frac{x}{n}$$
 
 $$SE = \sqrt{\frac{p(1-p)}{n}}$$
 
### Пуасона 

## Гипотезы 
+ **Нулевая гипотеза H0**: при внесении изменений ничего не поменяется
+ **Альтернативная гипотеза H1**: после внесения изменений будет получен минимальный эффект *(minimum detectable effect, MDE)*
![](img/h01.png)
![](img/h0_h1.png)

+ **Ошибка 1 рода (уровень статистической значимости)**, $\alpha$ (5%)  - вероятность ошибочного выявления эффекта, когда его нет.
+ **Ошибка 2 рода**, $\beta$ (20%) - вероятность не выявить эффект, который на самом деле есть.
+ **Мощность теста (чувствительность)**, $1 - \beta$ - вероятность правильного обнаружения эффекта
+ **Уровень доверия**, $1 - \alpha$ - уверенномть в различиях между группами

![](img/hypotheses.png)

Метрика является статистически значимой, если доверительный интервал не включает 0 (то есть вы можете быть уверены, что изменение было), и практически значимым, если доверительный интервал не включает границу практической значимости (то есть вы можете уверен, что есть изменение, которое имеет значение для бизнеса.)

## Размер выборки
+ [калькулятор](https://www.evanmiller.org/ab-testing/sample-size.html)
+ Вручную 

## Сравнение двух групп

### Доли

📌 Когда $P_{1} = P_{2}$

$${P_{pool}} = \frac{X_{1}+X_{2}}{N_{1}+N_{2}}$$

$$SE_{pool} = \sqrt{P_{pool}(1-P_{pool})\cdot (\frac{1}{N_{1}}+\frac{1}{N_{2}})}$$

![](img/comare_sets.png)
![](img/results.png)

### Средние

$$SE_{pool} = \sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}$$

# Политика и этика экспериментов
Принципы:
+ **Риск**
  + Какой риск принимает на себя участник (физические, психологические и эмоциональные, социальные и экономические проблемы)?
  + Если риск превышает минимальный риск, то требуется информированное согласие.
+ **Польза**
  + Какую пользу принесет завершение исследования?
+ **Альтернатива**
  + Какие другие альтернативные услуги могут быть у пользователя, и каковы могут быть затраты на переключение с точки зрения времени, денег, информации и т. д.?
+ **Конфиденциальность данных**  
  + Насколько конфиденциальными являются данные и каковы внутренние меры безопасности для обработки этих данных?
  + Как они будут использоваться и как будут защищены данные участников? 
  + Как участникам гарантируется, что их данные, собранные для использования в исследовании, не будут использованы для какой-либо другой цели?
  + Какие данные могут быть опубликованы более публично, и создает ли это какой-либо дополнительный риск для участников?

# Выбор и характеристика метрик

## Определение метрик

**Метрики**:
+ **Инвариатные** - не изменяются в экспериментальной и контрольной группах. Нужны для проверки здравомыслия эксперимента
  + количество пользователей
  + распределение
+ **Измерительные** - для сравнения групп 
  + высокоуровневые (бизнес)
    + прибыль
    + доля рынка
    + кол-во пользователей
    + получил работу после курса или нет
  + детальные (UX)
    + время проведенное на страницы
    + время загрузки видео
    
**Шаги к определению метрики**:
1. Сформулировать всем понятную метрику
    + Активные пользователи
    + СTR
2. Как измерить эту метрику. Точно определить какие данные позволят вычислить метрику
    + За последнюю неделю, месяц
    + Фильтрация и сегментация
3. Как аггрегировать метрику
    + sum, count
    + mean, median, percentile
    + propabality, rate
    + ratio
     
**Трудноизмеримые метрики**:
+ Нет доступа к данным
+ Измеряются долго 

📌 Множественные метрики могут быть скомбинированы в композитную метрику, *общий критерий оценки (OEC)*  

📌 Выбрать метрику такую чтобы она была *чувствительна* к тестируемым изменениям, а также была *надежна* к изменениям, которые не волнуют в эксперименте (A/A test).
 
![](img/metrics.png)    

## Методы мозгового штурма и проверки метрик

📌 Могут помочь получить представление о пользователях для генерации новых идей для метрик

+ <span style="color: blue; font-weight: bold; font-size: 16px;">Внешние данные</span> - готовые исследования других компаний
    + ✅ Подтверждающие данные для ваших бизнес-показателей
    + ✅ Получить идеи, для которых измеримые показатели могут быть хорошими прокси для других трудноизмеримых величин

+ <span style="color: blue; font-weight: bold; font-size: 16px;">Сбор собственных подробных данных</span>
    + <span style="color: rgb(153,0,102); font-weight: bold">Исследование пользовательского опыта (UER)</span>
    
        ✅Исследования UER являются глубокими и качественными, и вы изучите максимум десятки пользователей

        Варианты:
        - Наблюдения за пользователями в лабораторных условиях, выполняющими задачи, и задавания им вопросов.
        - Дневниковые исследования, пользователи самостоятельно документируют свое поведение

    + <span style="color: rgb(153,0,102); font-weight: bold">Фокус группы</span>
        + ✅Большее количество пользователей чем в исследовании UER (сотни)
        + ✅Общение с группой пользователей с демонстрацией продукта и задавания вопросов с целью получить обратную связь
        + ❌Групповое мышление

    + <span style="color: rgb(153,0,102); font-weight: bold">Опросы</span>
        + ✅ Может охватить тысячи пользователей
        + ❌ Пользователи не всегда дают полную или правдивую информацию

        Необходимо:
        + Позаботиться о репрезентативности группы опрашиваемого населения
        + Тщательно сформулировать вопросы

+ <span style="color: blue; font-weight: bold; font-size: 16px;">Ретроспективный анализ</span>
    - Анализ существующего набора данных (логи)

+ <span style="color: blue; font-weight: bold; font-size: 16px;">Долгосрочные перспективные эксперименты</span>
    - Метрика поддается измерению только в долгосрочной перспективе
    - Какие краткосрочные показатели лучше всего предсказывают долгосрочные последствия.

+ <span style="color: blue; font-weight: bold; font-size: 16px;">Человеческая оценка</span>
    - Человеческая оценка или «краудсорсинг» может быть полезна для получения большого количества размеченных данных.




## Изменчивость
Изучить распределение метрики.

Способы вычислить:
+ Аналитически
+ Эмперически
  + бутстреп
  + A/A-тест

![](img/variability.png)

# Планирование эксперимента
Дизайн эксперимента:
+ Выбор объекта
+ Выбор популяции 
+ Размер
+ Продолжительность

## Объект эксперимента (unit diversion):
+ **User id**
    - стабильный, неизменный
    - Персонально идентифицируемый
+ **Anonymous id (Cookies)**
    - Изменяется при смене браузера или устройства
    - Пользователь может очистить куки
+ **Event**
    - Не содержит пользовательского опыта
    - Используется для невидимых пользователю изменений


На что стоит обратить внимание при выборе *unit diversion*:
+ Постоянство пользователя 
+ Этическое рассмотрение
+ Изменчивость    

## Популяция 
+ **Целевой пользователь**
    - Браузер
    - Локация
    - Страна
    - Язык
    - Демографическая информация
+ **Когорта** - объединение пользователей по признаку
    - пользователи вошедшие в эксперимент в определенное время
    - пользователи имеющие мобильное и десктопное приложение 
    
## Размер
Как уменьшить размер выборки эксперимента?
+ Увеличить
    + $\alpha$
    + $\beta$
    + MDE
+ изменить *unit diversion*, если изначально она не совпадает с единицей анализа (единица анализа: знаменатель вашей оценочной метрики)

## Продолжительность
+ Когда начать
+ Доля трафика - дозировать трафик несколько дней, включая будни и выходные (вместо одного дня)
+ Эффект обучения - пользователи адаптируются к изменениям (требуется время)

# Анализ результатов

1. **Проверка работоспособности (sanity check)** - проверить изменились ли инвариантные метрики    
    Если да, то дальше не идти:
    + Проанализирвать почему изменилиь
    + Может эффект обучения
2. **Одна метрика**   
    Если метрика не значима:
    + Разбейте на разные платформы или дни недели.
    + Парадокс Симпсона (тенденция появляться в разных группах данных, но исчезать или меняться на противоположную при объединении этих групп)
3. **Много метрик**    
    Можно случайно увидеть значительный результат
    
    Решение:
    - Bootstrap
    - Bonferroni correction
    - FDR
    - FWER
    
4. **Сделать выводы**
    + Есть ли у меня статистически значимый и практически значимый результат, чтобы оправдать изменение? 
    + Понимаю ли я, какое изменение на самом деле произошло с нашим пользовательским интерфейсом? 
    + Стоит ли запускать?

📌 Делайте постепенное наращивание, когда хотите запустить изменение после A/B-теста. Начните с 1% трафика, а затем увеличивайте его, пока изменение не будет полностью запущено.
+ сезонность
+ новизна