# A/B тестирование
# Семинар 5.    
# Применение математической статистики для проверки гипотез в реальной жизни для популярных метрик

## Задание 1.
Мы запустили АБ-тест на увеличение среднего дохода за сеанс. По итогам тестирования мы получили следующие данные. Является ли результат статистически значимым с уровнем доверия 95%? Какую версию мы выкатим в продакшн?   
Версия A: Среднее (mean) - 260, Стандартное отклонение (SD) - 20, количество испытаний (N) - 100   
Версия B: Среднее (mean) - 270, Стандартное отклонение (SD) - 40, количество испытаний (N) - 120 

In [2]:
# импорт необходимых библиотек
import plotly.graph_objects as go # Для построения графиков
from scipy import stats # Для расчёта ститистик
import numpy as np # Для работы с массивами данных

In [30]:
#np.random.seed(42)   # чтобы значения были одинаковые всегда
# Вводим исходные данные по выборкам
sample_1_mean, sample_2_mean = 260, 270 
sample_1_se, sample_2_se = 20, 40
sample_1_size, sample_2_size = 100, 120

In [36]:
# Генерируем нормальное распределение на основе введенных данных через numpy
sample_1 = np.random.normal(loc=sample_1_mean, scale=sample_1_se, size=sample_1_size)
sample_2 = np.random.normal(loc=sample_2_mean, scale=sample_2_se, size=sample_2_size)

In [37]:
# Генерируем нормальное распределение на основе введенных данных через stats (альтернативный вариант)
#stats.norm(loc=sample_1_mean, scale=sample_1_se).rvs(size=sample_1_size)

In [38]:
fig = go.Figure()
fig.add_trace(go.Histogram(x=sample_1, name='sample_1'))
fig.add_trace(go.Histogram(x=sample_2, name='sample_2'))

# Overlay both histograms
fig.update_layout(barmode='overlay')
# Reduce opacity to see both histograms
fig.update_traces(opacity=0.5)
fig.show()

Проверим разнице между группами.   
Для проверки при **нормальном** распределении и непрерывной метрике будем использовать **T-test**

In [39]:
# Считаем статистику по выборкам
tvalue, pvalue = stats.ttest_ind(sample_1, sample_2, equal_var=False)  # equal_var=False - дисперсии групп не равны, будет применена поправка Уэлша.
#pvalue
md = sample_1_mean - sample_2_mean
se = md / tvalue

print(f"Difference between samples: {md}, standart error: {se}, p_value: {pvalue}")

if pvalue < .05:
    print(f"Sample # {1 if md > 0 else 2} mean is greater")
else:
    print("No significant difference")

Difference between samples: -10, standart error: 3.4397453432984926, p_value: 0.004075391130446199
Sample # 2 mean is greater


Проверка при **экспоненциальном** распределении и непрерывной метрике

In [40]:
# Генерируем экспоненципльное распределение
expon_1 = stats.expon(loc=sample_1_mean, scale=sample_1_se).rvs(sample_1_size)
expon_2 = stats.expon(loc=sample_2_mean, scale=sample_2_se).rvs(sample_2_size)

In [41]:
fig = go.Figure()
fig.add_trace(go.Histogram(x=expon_1, name='expon_1'))
fig.add_trace(go.Histogram(x=expon_2, name='expone_2'))

# Overlay both histograms
fig.update_layout(barmode='overlay')
# Reduce opacity to see both histograms
fig.update_traces(opacity=0.5)
fig.show()

Для сравнения **экспоненциальных** выборок нужно использовать **критерий Манна-Уитни**   
Большая часть данных собрана у значения 0.    
Выручка, средний чек

In [44]:
tvalue, pvalue = stats.mannwhitneyu(expon_1, expon_2)

md = expon_1.mean() - expon_2.mean()
se = md / tvalue

print(f"Difference between samples: {md}, standart error: {se}, p_value: {pvalue}")

if pvalue < .05:
    print(f"Sample # {1 if md > 0 else 2} mean is greater")
else:
    print("No significant difference")

Difference between samples: -28.665251806779395, standart error: -0.011438647967589543, p_value: 1.0753805510087068e-13
Sample # 2 mean is greater


## Задание 2.
Мы провели АБ-тест на увеличение ARPU. По итогам тестирования мы получили следующие данные.    
Является ли результат статистически значимым с уровнем доверия 95%? Какую версию мы выкатим в продакшн ?   
Версия A: Среднее (mean) - 300, Стандартное отклонение (SD) - 20, количество испытаний (N) - 600   
Версия B: Среднее (mean) - 301, Стандартное отклонение (SD) - 5, количество испытаний (N) - 620 

In [49]:
#np.random.seed(42)   # чтобы значения были одинаковые всегда
# Вводим исходные данные по выборкам
sample_1_mean, sample_2_mean = 300, 301 
sample_1_se, sample_2_se = 20, 5
sample_1_size, sample_2_size = 600, 620

In [53]:
# Генерируем нормальное распределение на основе введенных данных через numpy
sample_1 = np.random.normal(loc=sample_1_mean, scale=sample_1_se, size=sample_1_size)
sample_2 = np.random.normal(loc=sample_2_mean, scale=sample_2_se, size=sample_2_size)

In [54]:
fig = go.Figure()
fig.add_trace(go.Histogram(x=sample_1, name='sample_1'))
fig.add_trace(go.Histogram(x=sample_2, name='sample_2'))

# Overlay both histograms
fig.update_layout(barmode='overlay')
# Reduce opacity to see both histograms
fig.update_traces(opacity=0.5)
fig.show()

In [55]:
# Считаем статистику по выборкам
tvalue, pvalue = stats.ttest_ind(sample_1, sample_2, equal_var=False)  # equal_var=False - дисперсии групп не равны, будет применена поправка Уэлша.
#pvalue
md = sample_1_mean - sample_2_mean
se = md / tvalue

print(f"Difference between samples: {md}, standart error: {se}, p_value: {pvalue}")

if pvalue < .05:
    print(f"Sample # {1 if md > 0 else 2} mean is greater")
else:
    print("No significant difference")

Difference between samples: -1, standart error: 0.9317013052882477, p_value: 0.2835228389966099
No significant difference


In [56]:
# Генерируем экспоненципльное распределение
expon_1 = stats.expon(loc=sample_1_mean, scale=sample_1_se).rvs(sample_1_size)
expon_2 = stats.expon(loc=sample_2_mean, scale=sample_2_se).rvs(sample_2_size)

In [58]:
fig = go.Figure()
fig.add_trace(go.Histogram(x=expon_1, name='expon_1'))
fig.add_trace(go.Histogram(x=expon_2, name='expone_2'))

# Overlay both histograms
fig.update_layout(barmode='overlay')
# Reduce opacity to see both histograms
fig.update_traces(opacity=0.5)
fig.show()

In [60]:
tvalue, pvalue = stats.mannwhitneyu(expon_1, expon_2)

md = expon_1.mean() - expon_2.mean()
se = md / tvalue

print(f"Difference between samples: {md}, standart error: {se}, p_value: {pvalue}")

if pvalue < .05:
    print(f"Sample # {1 if md > 0 else 2} mean is greater")
else:
    print("No significant difference")

Difference between samples: 15.330889987541696, standart error: 5.396243611486572e-05, p_value: 3.0559469996373646e-57
Sample # 1 mean is greater


## Задание 3. 
Мы провели АБ-тест на увеличение average timespent  per user. По итогам тестирования мы получили следующие данные.    
Является ли результат статистически значимым с уровнем доверия 95%? Какую версию мы выкатим на продакшн?    
Версия A: Среднее (mean) - 478, Стандартное отклонение (SD) - 20, количество испытаний (N) - 92   
Версия B: Среднее (mean) - 470, Стандартное отклонение (SD) - 30, количество испытаний (N) - 93

In [72]:
#np.random.seed(42)   # чтобы значения были одинаковые всегда
# Вводим исходные данные по выборкам
sample_1_mean, sample_2_mean = 478, 470 
sample_1_se, sample_2_se = 20, 30
sample_1_size, sample_2_size = 92, 93

In [73]:
# Генерируем нормальное распределение на основе введенных данных через numpy
sample_1 = np.random.normal(loc=sample_1_mean, scale=sample_1_se, size=sample_1_size)
sample_2 = np.random.normal(loc=sample_2_mean, scale=sample_2_se, size=sample_2_size)

In [74]:
fig = go.Figure()
fig.add_trace(go.Histogram(x=sample_1, name='sample_1'))
fig.add_trace(go.Histogram(x=sample_2, name='sample_2'))

# Overlay both histograms
fig.update_layout(barmode='overlay')
# Reduce opacity to see both histograms
fig.update_traces(opacity=0.5)
fig.show()

In [75]:
# Считаем статистику по выборкам
tvalue, pvalue = stats.ttest_ind(sample_1, sample_2, equal_var=False)  # equal_var=False - дисперсии групп не равны, будет применена поправка Уэлша.
#pvalue
md = sample_1_mean - sample_2_mean
se = md / tvalue

print(f"Difference between samples: {md}, standart error: {se}, p_value: {pvalue}")

if pvalue < .05:
    print(f"Sample # {1 if md > 0 else 2} mean is greater")
else:
    print("No significant difference")

Difference between samples: 8, standart error: 3.906081675147515, p_value: 0.04214055128537478
Sample # 1 mean is greater


In [69]:
# Генерируем экспоненципльное распределение
expon_1 = stats.expon(loc=sample_1_mean, scale=sample_1_se).rvs(sample_1_size)
expon_2 = stats.expon(loc=sample_2_mean, scale=sample_2_se).rvs(sample_2_size)

In [70]:
fig = go.Figure()
fig.add_trace(go.Histogram(x=expon_1, name='expon_1'))
fig.add_trace(go.Histogram(x=expon_2, name='expone_2'))

# Overlay both histograms
fig.update_layout(barmode='overlay')
# Reduce opacity to see both histograms
fig.update_traces(opacity=0.5)
fig.show()

In [71]:
tvalue, pvalue = stats.mannwhitneyu(expon_1, expon_2)

md = expon_1.mean() - expon_2.mean()
se = md / tvalue

print(f"Difference between samples: {md}, standart error: {se}, p_value: {pvalue}")

if pvalue < .05:
    print(f"Sample # {1 if md > 0 else 2} mean is greater")
else:
    print("No significant difference")

Difference between samples: -0.2720278662803821, standart error: -5.958989403732357e-05, p_value: 0.43144240125790023
No significant difference


## Задание 4. 
Укажите, как соотносятся между собой медиана и среднее арифметическое для следующих величин. И кратко расскажите почему вы так думаете.

- Рост взрослых женщин(старше 18 лет) в России  - Нормальное распределение. Медиана и среднее совпадают.
- Зарплата людей, работающих в системе здравохранения в России - Экспоненциальное (длок-нормальное) распределение. Медиана в начале графика, где большенство значений, среднее смещено вправо
- Время на юзера в день, которое люди проводят в VK - Равномерное распредедение. Медиана и среднее совпадают. 

## Задание 5. 
Вычислите  выборочную дисперсию, выборочное  среднее, стандартное отклонение , моду и медиану для следующего множества значений: [5, 5, 5, 18, 10, 8, 9, 10, 19, 21 ]

In [76]:
a = np.array([5, 5, 5, 18, 10, 8, 9, 10, 19, 21 ])

In [83]:
np.mean(a)

11.0

In [88]:
np.median(a)

9.5

In [87]:
np.std(a, ddof=1)  # стандартное отклонение   ddof - степени свободы

6.110100926607787

In [89]:
np.var(a, ddof=1)  # дисперсия 

37.333333333333336

In [91]:
stats.mode(a, keepdims=True)   # мода , keepdims - уточняет куда мы смотрим при одномерном подсчёте.

ModeResult(mode=array([5]), count=array([3]))

## Задание 6
Постройте 95% доверительный интервал для  конверсии = 11% с выборкой 1500 человек -  напишите кратко как вы будете интерпретировать результат.

Воспользовавшись калькулятором https://www.surveysystem.com/sscalc.htm получили доверительный интервал 1,58   
Наш доверительный интервал будет [9,42%; 12,58%]   
В 95% случаев в наш интервал попадут значения конверсии в 11%

In [None]:
n_users =  1500
conv = 0.11

К ДЗ

In [95]:
n_users_1, n_users_2 = 15550, 15550
n_users_1_conv, n_users_2_conv = 164, 228
conv_1 = n_users_1_conv / n_users_1
conv_2 = n_users_2_conv / n_users_2

In [124]:
var_1 = conv_1 * (1 - conv_1) / n_users_1
var_2 = conv_2 * (1 - conv_2) / n_users_2
left = np.round((conv_2 - conv_1 - 1.96 * (var_1 + var_2) ** 0.5) * 100, 3)
right = np.round((conv_2 - conv_1 + 1.96 * (var_1 + var_2) ** 0.5) * 100, 3)
ci = [f"{left}%", f"{right}%"]
print(ci)

['0.164%', '0.66%']


In [126]:
from math import sqrt
import scipy.stats

def calc_z_di(total_control, total_test, n_control, n_test):
    
    conv_control = n_control / total_control
    conv_test = n_test / total_test
    
    lift = (conv_test - conv_control) / conv_control
    
    SE_control = sqrt(conv_control * (1 - conv_control) / total_control)
    SE_test = sqrt(conv_test * (1 - conv_test) / total_test)
    SE_diff = sqrt(SE_control ** 2 + SE_test ** 2)
    z_score = (conv_test - conv_control) / SE_diff
    pvalue = scipy.stats.norm.sf(abs(z_score)) * 2
    
    left = conv_test - conv_control - 1.96 * SE_diff
    right = conv_test - conv_control + 1.96 * SE_diff
    result = {'lift': lift,
             'se_control': SE_control,
             'se_test': SE_test, 
             'se_difference': SE_diff, 
             'z_score': z_score, 
             'p_value': pvalue, 
             'ci':[left, right]}
    
    return result

calc_z_di(15500, 15500, 164, 228)

{'lift': 0.3902439024390243,
 'se_control': 0.0008218270404826454,
 'se_test': 0.0009669807620454625,
 'se_difference': 0.0012690356490794444,
 'z_score': 3.253677121726018,
 'p_value': 0.0011392168150319737,
 'ci': [0.0016417223858688043, 0.006616342130260227]}

***Подсчитаем доверительный интервал для непрерывной метрики***

In [114]:
# Вводим исходные данные по выборкам
control_mean, test_mean = 470, 490 
control_se, test_se = 20, 30
control_size, test_size = 1000, 1000

In [115]:
control = np.random.normal(loc=control_mean, scale=control_se, size=control_size)
test = np.random.normal(loc=test_mean, scale=test_se, size=test_size)

In [116]:
fig = go.Figure()
fig.add_trace(go.Histogram(x=control, name='coltrol_group'))
fig.add_trace(go.Histogram(x=test, name='test_group'))

# Overlay both histograms
fig.update_layout(barmode='overlay')
# Reduce opacity to see both histograms
fig.update_traces(opacity=0.5)
fig.show()

**Бутстрап**

In [117]:
from tqdm import tqdm_notebook   ## чтобы посмотреть прогресс выполнения

In [118]:
n_iter = 10_000
max_len = max(len(control), len(test))
sample_mean = []
for _ in tqdm_notebook(range(n_iter)):
    sample_control = np.random.choice(control, size=max_len, replace=True)
    sample_test = np.random.choice(test, size=max_len, replace=True)
    sample_mean.append(np.mean(sample_test - sample_control))


This function will be removed in tqdm==5.0.0
Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`



  0%|          | 0/10000 [00:00<?, ?it/s]

In [119]:
fig = go.Figure()
fig.add_trace(go.Histogram(x=sample_mean, name='sample_mean'))

# Overlay both histograms
fig.update_layout(barmode='overlay')
# Reduce opacity to see both histograms
fig.update_traces(opacity=0.5)
fig.show()

In [123]:
np.percentile(sample_mean, [0.025, 0.5, 0.975])  # некорректно считает !!!

array([16.97617058, 17.94780536, 18.21296634])

In [122]:
import pandas as pd
pd.Series(sample_mean).quantile([.025, .5, .975])

0.025    18.650923
0.500    20.876011
0.975    23.074710
dtype: float64