# A/B тесты

## **Что такое A/B тестирование** 

A/B тестирование — это метод эксперимента, используемый для сравнения двух версий продукта, чтобы определить, какая из них лучше с точки зрения определённых ключевых показателей (например, конверсий, дохода или вовлечённости пользователей). Это важный инструмент в арсенале специалистов по анализу данных и продуктов, так как позволяет принимать решения, основанные на данных.

Основные шаги проведения A/B тестирования:

![image.png](attachment:image.png)

1. **Формулировка гипотезы**
   Перед запуском A/B теста необходимо чётко сформулировать гипотезу. Например, гипотеза может звучать так: «Изменение цвета кнопки с красного на зелёный увеличит конверсию на странице».

2. **Определение целевых показателей (метрик)**
   Выбор метрики, по которой будет оцениваться успех. Это могут быть такие метрики, как конверсия, время на сайте, количество покупок, средний чек и т.д.

3. **Разделение аудитории на группы**
   Аудитория делится на две (или более) группы: группа **A** получает текущую версию (контрольную группу), а группа **B** — новую версию с изменениями (экспериментальную группу). Важно, чтобы распределение было случайным для исключения систематической ошибки.

4. **Запуск эксперимента**
   На этом этапе изменения вносятся только для экспериментальной группы. Тест проводится до тех пор, пока не будет собрано достаточно данных для анализа.

5. **Анализ результатов**
   После завершения теста производится анализ данных, собранных с обеих групп. Обычно для анализа используется статистическая проверка гипотез — например, t-тест, чтобы определить, является ли различие между группами статистически значимым.

Статистические аспекты A/B тестирования:

- **P-value** (уровень значимости) — вероятность того, что наблюдаемая разница между группами возникла случайно. Обычно p-value ниже 0.05 указывает на статистическую значимость.
  
- **Статистическая мощность** — вероятность того, что тест корректно обнаружит эффект, если он существует. Чем больше выборка и чем больше эффект, тем выше мощность теста.

- **Контроль ошибок первого рода** — вероятность отвергнуть нулевую гипотезу, когда она истинна (ложноположительный результат).

- **Минимальный детектируемый эффект (MDE)** — минимальное изменение метрики, которое можно обнаружить с заданной мощностью теста.

Типичные ошибки при проведении A/B тестов:

- **Тестирование слишком маленьких выборок**. Если выборка слишком мала, велика вероятность, что результаты будут статистически незначимыми, или же можно пропустить реальный эффект (недостаточная мощность).
  
- **Подглядывание результатов до завершения теста**. Постоянный анализ данных до того, как тест завершится, может привести к преждевременным выводам и ложным результатам.

- **Игнорирование внешних факторов**. Сезонные колебания, маркетинговые кампании, изменение поведения пользователей могут влиять на результаты теста, что усложняет интерпретацию данных.

Пример A/B теста:

Предположим, что компания хочет протестировать изменение дизайна кнопки на странице заказа. Они проводят A/B тест, где 50% пользователей видят старую версию (группа A), а остальные 50% видят новую версию (группа B). Основная метрика — процент пользователей, завершивших покупку. По завершении теста, если группа B показывает значительное улучшение по сравнению с группой A, то изменения вносятся в основной продукт.

Этот подход помогает принимать решения на основе данных и уменьшить риск внедрения неэффективных изменений.

**Ссылки**
https://habr.com/ru/companies/plarium/articles/526706/

## Как вычисдить размер выборок для A/B теста


Для вычисления размера выборки в A/B тесте учитываются следующие факторы:
- Базовая конверсия (baseline conversion rate)
- Минимальный детектируемый эффект (minimum detectable effect)
- Уровень значимости (significance level)
- Мощность теста (power)

Размер выборки можно рассчитать через специальные формулы или онлайн-калькуляторы, учитывающие эти параметры.

## Как понять как долго проводить A/B тест?

Время проведения A/B теста зависит от ожидаемого объёма трафика и целевой метрики. Используются такие факторы как:
- Размер выборки
- Скорость трафика
- Целевые показатели статистической значимости и мощности теста.

Часто используют формулы или инструменты для расчёта минимального времени теста на основе этих факторов.

## Как будем считать эффект от нашего A/B тест?

Эффект измеряется сравнением контрольной и тестовой групп по целевым метрикам, например, конверсии. Рассчитывают относительное изменение и проверяют его на статистическую значимость с помощью t-теста или других статистических тестов.

## Как проводить t-тест

T-тест (тест Стьюдента) используется для сравнения средних значений двух выборок (групп) и проверки, являются ли различия между ними статистически значимыми. Этот тест предполагает, что данные распределены нормально и подходит для небольших выборок (меньше 30 наблюдений). 

Шаги проведения t-теста:

 1. **Формулировка гипотез**
   - **Нулевая гипотеза (H0):** Средние значения двух групп равны, то есть нет значимой разницы между ними.
   - **Альтернативная гипотеза (H1):** Средние значения двух групп различаются.

   Пример гипотез:
   - **H0:** Среднее значение конверсии в группе A равно среднему значению в группе B.
   - **H1:** Среднее значение конверсии в группе A не равно среднему значению в группе B.

 2. **Выбор типа t-теста**
   Существует три типа t-тестов в зависимости от характера данных и групп:

   - **Независимый t-тест (Independent t-test):** Используется, если группы независимы (например, два разных набора данных).
   - **Парный t-тест (Paired t-test):** Используется, если сравниваются данные до и после изменения в одной и той же группе (например, производительность до и после улучшения модели).
   - **Одновыборочный t-тест (One-sample t-test):** Сравнивает среднее значение выборки с известным значением (например, со средним по популяции).

 3. **Выбор уровня значимости (α)**
   Уровень значимости определяет вероятность ложноположительной ошибки (ошибка первого рода). Наиболее часто используемое значение — 0.05 (5%). Это означает, что если p-value меньше 0.05, то разница между группами считается статистически значимой.

 4. **Расчет t-статистики**
   T-статистика вычисляется по формуле:

   ![image.png](attachment:image.png)

   Значение t-статистики показывает, насколько сильно различаются средние значения выборок относительно их вариативности.

5. **Расчет степеней свободы (df)**
   Степени свободы (degrees of freedom) для t-теста рассчитываются как сумма размеров выборок минус 2:
   
   \[
   df = n_1 + n_2 - 2
   \]

   Это число нужно для поиска критического значения t в таблицах распределения Стьюдента или для оценки p-value с использованием статистических пакетов.

 6. **Оценка p-value**
   P-value — это вероятность получить различие между группами, равное или большее наблюдаемого, при условии, что нулевая гипотеза верна. Если p-value меньше уровня значимости (обычно 0.05), то нулевая гипотеза отвергается, и делается вывод, что средние значения различаются.

 7. **Принятие решения**
   Если **p-value** меньше уровня значимости (например, 0.05), отвергаем нулевую гипотезу и принимаем альтернативную гипотезу. Это означает, что различие между средними значениями групп статистически значимо.
   
   Если **p-value** больше уровня значимости, нулевая гипотеза не отвергается, и делается вывод, что разница между группами статистически незначима.

Пример применения t-теста:

Предположим, вы хотите сравнить средние значения двух групп: конверсию на старом и новом дизайне сайта.

1. **Формулируем гипотезы:**
   - H0: Средняя конверсия на старом сайте = средней конверсии на новом сайте.
   - H1: Средняя конверсия на старом сайте ≠ средней конверсии на новом сайте.

2. **Собираем данные:**
   - Группа A (старый сайт): 30 наблюдений с конверсией.
   - Группа B (новый сайт): 30 наблюдений с конверсией.

3. **Выбираем тип теста:**
   Поскольку группы независимы (пользователи разных версий сайта), используется **независимый t-тест**.

4. **Рассчитываем t-статистику и p-value** (обычно это делается автоматически при помощи программных средств, таких как Python или R).

5. **Сравниваем p-value с уровнем значимости:**
   - Если p-value < 0.05, то нулевая гипотеза отвергается, и можно утверждать, что конверсии на старом и новом сайте действительно различаются.
   - Если p-value > 0.05, то нулевая гипотеза не отвергается, и разница между конверсиями не является статистически значимой.

 Как провести t-тест в Python

Для выполнения t-теста можно использовать библиотеку `scipy` в Python. Пример кода для независимого t-теста:

```python
import numpy as np
from scipy import stats

# Данные для двух групп
group_a = np.array([5, 6, 7, 8, 9, 10, 11, 12])
group_b = np.array([8, 9, 10, 11, 12, 13, 14, 15])

# Выполнение независимого t-теста
t_stat, p_value = stats.ttest_ind(group_a, group_b)

print(f"T-statistic: {t_stat}")
print(f"P-value: {p_value}")

# Сравнение p-value с уровнем значимости
alpha = 0.05
if p_value < alpha:
    print("Отвергаем нулевую гипотезу. Средние значения различаются.")
else:
    print("Не отвергаем нулевую гипотезу. Средние значения не различаются.")
```

Этот код выполнит t-тест для двух независимых групп и выведет значение t-статистики и p-value, на основе которых можно принять решение.

 Ключевые моменты:

- **Независимый t-тест** используется для сравнения двух независимых выборок.
- **Парный t-тест** — для зависимых (парных) выборок, например, до и после теста на одних и тех же объектах.
- Уровень значимости обычно выбирается 0.05.
- P-value помогает решить, отклонять или принимать нулевую гипотезу.
  
Тест Стьюдента — это один из самых популярных статистических методов, который помогает убедиться, что различия между группами действительно значимы, а не случайны.

## Какие выборки будут переданы в t-test, что там конкретно будет (физически)?

В t-тесте выборки представляют собой данные по двум группам: контрольной и тестовой. Это могут быть, например, значения конверсий, времени на сайте или других метрик, которые мы хотим сравнить.

## Что происходит внутри t-test?

t-test вычисляет средние значения двух выборок и проверяет гипотезу о равенстве средних значений. Также, важно учитывать дисперсию выборок для точного расчёта.

# Статистические распределения

## Как проверить, что распределение нормальное?

Для проверки нормальности распределения можно использовать статистические тесты, такие как тесты Колмогорова-Смирнова, Шапиро-Уилка, или анализ квантилей (Q-Q plot). В кратком варианте:
1. Тест Колмогорова-Смирнова: Проверяет, насколько хорошо ваше распределение соответствует нормальному распределению. Если p-value низкое (обычно меньше 0.05), то это говорит о том, что распределение значимо отличается от нормального.
2. Тест Шапиро-Уилка: Этот тест также проверяет нормальность данных. Если p-value меньше выбранного уровня значимости, то гипотеза о нормальности отвергается.
3. Q-Q plot: Этот график сравнивает квантили вашего распределения с квантилями нормального распределения. Если точки на графике лежат примерно на прямой линии, то распределение близко к нормальному. Если они значительно отклоняются, то распределение отличается от нормального.

Если распределение данных прошло все три теста (p-value высокое, график Q-Q близок к прямой), то оно может быть признано как нормальное.

# Описательные статистики


## Что представляют собой среднее, медиана и мода? Как их можно определить на графике?

Определения:
- **Среднее**: это сумма всех значений в выборке, разделенная на количество значений. Он представляет собой "среднюю" или "типичную" точку данных.
- **Медиана**: это значение, которое делит упорядоченный список данных на две равные половины. Если количество значений нечетное, то медиана - это значение, находящееся посередине; если количество значений четное, то медиана - это среднее значение двух средних значений.
- **Мода**: это значение или значения, которые встречаются наиболее часто в выборке. Мода может быть одна или несколько.
На графике среднее можно определить как центр масс точек данных, медиану - как значение, в котором половина данных находится выше, а другая половина - ниже, и моду - как пик или пики в гистограмме, представляющие наиболее часто встречающиеся значения.

## Как изменится среднее, медиана и мода при добавлении 1-2 значений, которые являются большими по модулю?

При добавлении 1-2 значений, которые являются большими по модулю:
- Среднее: может измениться сильно в сторону добавленных значений, особенно если они значительно отличаются от других значений в выборке.
- Медиана: обычно меняется не так сильно, особенно если новые значения находятся далеко от центра распределения.
- Мода: может остаться неизменной, если новые значения не повторяются или не повторяются достаточное количество раз для создания новых мод. Если новые значения повторяются и являются большинством, то мода изменится на эти значения

## Какой критерий используется для сравнения средних?

Для сравнения средних значений между двумя или более группами обычно используется t-критерий (например, t-тест Стьюдента) или его вариации, такие как:
- **t-тест для независимых выборок** (или t-тест Стьюдента): Используется для сравнения средних значений двух независимых групп. Он предполагает, что данные в обеих группах распределены нормально и имеют одинаковую дисперсию. Если эти предположения не выполняются, можно использовать непараметрические аналоги, такие как U-критерий Манна-Уитни или критерий Краскела-Уоллиса.
- **t-тест для зависимых выборок**: Применяется для сравнения средних значений в парных выборках, например, до и после вмешательства.
- **ANOVA (анализ дисперсии)**: Позволяет сравнивать средние значения более чем в двух группах.

## Написать формулу кросс-энтропии. Как происходит минимизация ошибки?

![image.png](attachment:image.png)

## Для чего используется коэффициент корреляции Пирсона? Напишите формулу.

Коэффициент корреляции Пирсона используется для измерения степени линейной взаимосвязи между двумя переменными. Формула:

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

## Поправка Бонферрони

**Поправка Бонферрони** - это метод коррекции уровня значимости при множественном сравнении гипотез, чтобы уменьшить вероятность совершения ошибки первого рода. Она заключается в том, что уровень значимости 
**𝛼** делится на количество сравниваемых гипотез **m**, чтобы скорректировать его в соответствии с числом проверок. Таким образом, скорректированный уровень значимости

α ′  = α / m


## Что такое p-value

p-value (уровень значимости) - это вероятность получить наблюдаемый результат или более экстремальный, если нулевая гипотеза верна. В статистике p-value используется для проверки статистической значимости эффекта или различий между группами в эксперименте. Чем меньше p-value, тем сильнее аргументы против нулевой гипотезы и тем более статистически значимы результаты. Обычно уровень значимости выбирают заранее (например, 0.05), и если p-value меньше этого уровня, то нулевая гипотеза отвергается.

## Что такое уровень значимости

 Уровень значимости - это предельно допустимая вероятность ошибки первого рода (ложноположительной ошибки) при проведении статистического теста. Другими словами, это вероятность того, что мы отклоняем нулевую гипотезу, когда на самом деле она верна.

# ЦПТ

## Опишите основное понятие центральной предельной теоремы.

Центральная предельная теорема (ЦПТ) утверждает, что если провести множество случайных выборок из любого распределения с конечным средним и конечной дисперсией, и взять их средние значения, то распределение этих средних будет приближаться к нормальному распределению с увеличением размера выборки, независимо от формы исходного распределения. Это означает, что при выполнении определенных условий средние значения выборок становятся нормально распределенными, что делает возможным применение статистических методов, основанных на предположении нормальности данных.

## Что такое техника Bootstrap


**Техника Bootstrap** — это метод статистического моделирования, который используется для оценки распределения статистик (например, среднего, медианы, коэффициента корреляции) путём повторной выборки с возвращением из исходных данных. Это позволяет оценить характеристики распределения данных, такие как среднее значение, дисперсия, доверительные интервалы и p-value, без необходимости делать предположения о виде исходного распределения.

**Основная идея Bootstrap** заключается в том, что мы создаем множество случайных выборок из исходных данных с возвращением (т.е. каждый раз выбираем случайный элемент из данных и возвращаем его обратно в набор данных), затем вычисляем статистику интереса (например, среднее значение) для каждой выборки и строим распределение этих статистик. Это позволяет нам оценить дисперсию статистики, построить доверительные интервалы и провести статистические тесты без предположения о виде исходного распределения данных.


## Расскажите формулировку ЗБЧ

 **Закон больших чисел** - это теорема теории вероятностей, которая утверждает, что по мере увеличения числа независимых наблюдений средней величины (или суммы) этих наблюдений, их среднее значение будет стремиться к математическому ожиданию этих случайных величин.

# Полезные ссылки

1. https://proglib.io/p/40-voprosov-po-statistike-s-sobesedovaniya-na-dolzhnost-data-scientist-2020-09-24
