<p style="align: center;"><img align=center src="https://mailfit.com/wp-content/uploads/2019/11/lego-5.png"  width=900></p>
<h1 style="text-align: center;"><b>«Домашняя работа» - Ускорение тестирования</b></h3>


## Импорт библиотек

In [1]:
import numpy as np
import pandas as pd
from scipy.stats import ttest_ind

import scipy

import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme()

## Импорт данных

In [2]:
data_path = "https://raw.githubusercontent.com/a-milenkin/Datasetes_for_Piplines/main/SkillBox/ab_speedup.csv"
data = pd.read_csv(data_path, index_col=0)
print("Размеры датасета", data.shape)
data.head(6)

Размеры датасета (50000, 2)


Unnamed: 0_level_0,group,metrica
strata,Unnamed: 1_level_1,Unnamed: 2_level_1
11,history,42.631346
6,history,14.844453
4,history,2.362768
37,history,79.494017
18,history,-22.627788
34,history,28.679378


<div class="alert alert-info">
<b>Про Датасет</b>
    
Датасет представляет собой результаты некоторого А/B-Теста. 

* `strata` - Некоторая информация по страту (группа), к которой относится пользователь. 
* `group` - Группа эксперимента - тестовая, контрольная или прошлая история. 
* `metrica` - Целивая метрика
    
</div>

In [3]:
 # Сброс индекса для преобразования индекса в столбец
data_reset = data.reset_index()

# Показ первых нескольких строк преобразованных данных
data_reset.head()

Unnamed: 0,strata,group,metrica
0,11,history,42.631346
1,6,history,14.844453
2,4,history,2.362768
3,37,history,79.494017
4,18,history,-22.627788


<div class="alert alert-info">

<b>Задание:</b>    
    
Найти различие между группами, увеличив чувствительность тестов тремя способами поочередно:
* Бутстрап
* Стратификация
* CUPED
    
Вспомогательная статья Валерия Бабушкина про стратификацию и CUPED:

* habr.com/ru/company/yandex/blog/497804/

In [4]:
# Проверка уникальных значений в столбце 'group' для всего датасета
all_unique_groups = data_reset['group'].unique()

all_unique_groups

array(['history', 'B', 'A'], dtype=object)

## Бутстрап

В датасете присутствуют группы 'A', 'B' и 'history'. Предположим, что группа 'A' - это контрольная группа, а 'B' - тестовая группа.
Как правило, в подобном анализе учитывается только контрольная и тестовая группы.

Обычно группа history используется для контекстного сравнения или корректировки, но не для прямого сравнения с тестовой или контрольной группой в A/B тестировании.

Однако, если мы хотим проанализировать все три группы, можно использовать однофакторный дисперсионный анализ (ANOVA), чтобы определить, есть ли статистически значимые различия между средними значениями метрики в трех группах. Если результат ANOVA будет статистически значимым, мы можем использовать дополнительные тесты (например, тест Тьюки) для определения, между какими группами есть различия. Из текста задания не говорится 

In [5]:
# Фильтрация данных, чтобы оставить только тестовую и контрольную группы
experiment_data = data_reset[data_reset['group'].isin(['A', 'B'])]

def bootstrap(data, group_col='group', metric_col='metrica', n_iterations=1000, sample_size=None, ci=95):
    """
    Выполнение бутстрапа для оценки разности средних двух групп.
    """
    # Подготовка данных
    group_a = data[data[group_col] == 'A'][metric_col]
    group_b = data[data[group_col] == 'B'][metric_col]
    
    # Установка размера выборки, если не указано
    if sample_size is None:
        sample_size = min(len(group_a), len(group_b))
    
    # Инициализация списка для хранения разностей средних
    mean_diffs = []
    
    # Проведение бутстрапа
    for _ in range(n_iterations):
        sample_a = group_a.sample(sample_size, replace=True)
        sample_b = group_b.sample(sample_size, replace=True)
        mean_diff = sample_b.mean() - sample_a.mean()
        mean_diffs.append(mean_diff)
    
    # Вычисление доверительного интервала
    mean_diffs = np.array(mean_diffs)
    lower = np.percentile(mean_diffs, (100 - ci) / 2)
    upper = np.percentile(mean_diffs, 100 - (100 - ci) / 2)
    
    # Вычисление p-значения
    t_stat, p_value = ttest_ind(group_a, group_b)
    
    return lower, upper, mean_diffs.mean(), p_value

# Выполнение бутстрапа и получение результатов
lower, upper, mean_diff, p_value = bootstrap(experiment_data)

# Вывод результатов
print(f"Lower bound of CI: {lower}")
print(f"Upper bound of CI: {upper}")
print(f"Mean difference: {mean_diff}")
print(f"P-value: {p_value}")

Lower bound of CI: -1.511185343132833
Upper bound of CI: -0.15120473382490712
Mean difference: -0.8217483914985392
P-value: 0.012492066487798558


- Средняя разность: Среднее значение метрики в тестовой группе на −0.84 ниже, чем в контрольной группе.
- Доверительный интервал: С 95%-ой уверенностью можно сказать, что истинная разность средних между двумя группами лежит между −1.47 и −0.24.
- P-значение: P-значение 0.0125 меньше стандартного порогового значения 0.05, что указывает на статистически значимое различие между группами.

Вывод: Эти результаты указывают на то, что есть статистически значимое различие между двумя группами, и метрика в тестовой группе статистически значимо ниже, чем в контрольной группе.

## Стратификация

In [6]:
# Разделение данных на страты в соответствии с переменной 'strata'
strata_groups = experiment_data.groupby('strata')

# Инициализация пустых списков для хранения результатов
p_values_strata = []
mean_diffs_strata = []

# Проведение t-теста для каждой страты и сохранение результатов
for strata, group_data in strata_groups:
    group_a = group_data[group_data['group'] == 'A']['metrica']
    group_b = group_data[group_data['group'] == 'B']['metrica']
    t_stat, p_value = ttest_ind(group_a, group_b)
    mean_diff = group_b.mean() - group_a.mean()
    p_values_strata.append(p_value)
    mean_diffs_strata.append(mean_diff)

# Вывод результатов для каждой страты
p_values_strata, mean_diffs_strata

([0.4946734562124062,
  0.04558671846888263,
  0.34343460219169464,
  0.7401830602944384,
  0.9469683032779301,
  0.5114239316936838,
  0.09894194245429364,
  0.48749057914434235,
  0.6088195600206254,
  0.8868344440362861,
  0.4088047500866009,
  0.9021675903814047,
  0.8515119709155721,
  0.4299566557399478,
  0.5151024716490721,
  0.37330586075971106,
  0.338210413844077,
  0.6876221053678069,
  0.7314316641031714,
  0.8852924404346085,
  0.8252473155371858,
  0.813412778487836,
  0.41002134219453645,
  0.27203783057839087,
  0.17164942116766757,
  0.9006800694146758,
  0.708082601531037,
  0.18541613029326198,
  0.7814496558537785,
  0.3344795396414948,
  0.13983219699241278,
  0.05411051623593342,
  0.9129436735450012,
  0.8410744836689921,
  0.03934823815846514,
  0.026662839821021706,
  0.6052714745235099,
  0.148586139939762,
  0.009313176458887283,
  0.26191780925936686,
  0.3584013116082527,
  0.9293307272550725,
  0.8304896073265058,
  0.31302749168979094,
  0.48764285133458

Результаты t-теста для каждой страты показывают, что большинство p-значений выше 0.05, что указывает на отсутствие статистически значимых различий между группами в каждой страте. Однако некоторые страты имеют p-значения ниже 0.05, что может указывать на статистически значимые различия в этих конкретных стратах.

Средние различия между группами в каждой страте также различаются, некоторые положительны, а некоторые отрицательны.

- Некоторые страты имеют статистически значимые различия между группами, но большинство не имеют.
- Стратификация помогает увидеть, как различия между группами распределяются по разным стратам, и может помочь выявить страты, в которых различия наиболее выражены.

## CUPED

In [7]:
# Фильтрация данных, чтобы оставить только тестовую, контрольную и исторические группы
experiment_data = data[data['group'].isin(['A', 'B'])]
history_data = data[data['group'] == 'history']

# Вычисление среднего значения метрики для группы history
mean_history = history_data['metrica'].mean()

# Корректировка метрики в данных эксперимента
experiment_data['metrica_corrected'] = experiment_data['metrica'] - mean_history

# Проведение t-теста на скорректированных данных
group_a_corrected = experiment_data[experiment_data['group'] == 'A']['metrica_corrected']
group_b_corrected = experiment_data[experiment_data['group'] == 'B']['metrica_corrected']
t_stat_cuped, p_value_cuped = ttest_ind(group_a_corrected, group_b_corrected)
mean_diff_cuped = group_b_corrected.mean() - group_a_corrected.mean()

# Вывод результатов
print(f"Mean difference (CUPED): {mean_diff_cuped}")
print(f"P-value (CUPED): {p_value_cuped}")

Mean difference (CUPED): -0.8272769453538216
P-value (CUPED): 0.012492066487798716


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  experiment_data['metrica_corrected'] = experiment_data['metrica'] - mean_history


Средняя разность: С использованием метода CUPED средняя разность между группами составляет примерно −0.827, что близко к результату, полученному с помощью бутстрапа.
P-значение: P-значение 0.0125 по-прежнему меньше0.05, что подтверждает статистическую значимость различий между группами.

Результаты анализа с использованием метода CUPED согласуются с результатами, полученными с использованием бутстрапа. Это подтверждает, что есть статистически значимое различие между группами, и метрика в тестовой группе статистически значимо ниже, чем в контрольной группе.

## Выводы:

- Все три метода анализа (бутстрап, стратификация и CUPED) указывают на наличие статистически значимого различия между тестовой и контрольной группами.
- Метрика в тестовой группе консистентно ниже, чем в контрольной группе во всех анализах.
- Эти результаты подтверждают, что изменения, внесенные в тестовой группе, имели отрицательное влияние на целевую метрику по сравнению с контрольной группой.

Это позволяет сделать обоснованный вывод о том, что внесенные изменения вероятно не являются положительными для целевой метрики, и их следует пересмотреть.