## Two sample test для среднего

С помощью двухвыборочного теста для среднего мы можем узнать, есть ли значимая разница средних для двух выборок. 

Проверяем нулевую гипотезу: разница средних двух выборок равна нулю (т.е. они не отличаются). Для этого: 
1. извлекаем две выборки
2. считаем их среднее
3. считаем разницу средних
4. считаем вероятность получения разницы средних из пункта 3, предполагая, что нулевая гипотеза верна. Т.е. считаем p-value.
5. если p-value меньше некоторого уровня значимости alpha (который мы задали заранее), то отвергаем нулевую гипотезу

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats as st

Допустим, мы интернет-магазин и мы хотим узнать, как работает наша новая система рекомендаций в письмах. 
Для этого, мы отправили письма с рекомендациями тестовой группе. И также отправили письма без рекомендаций контрольной группе. Выборки не пересекаются, т.е. они независимы.

Проверять будем метрику среднее количество товаров в корзине.

In [2]:
# Сгенерируем две незавимые выборки. И пусть рекомендации правда работают, но аналитик пока этого не знает.
control_mean = 2
test_mean = 2.15
control_std = 1
test_std = 1.3
n_control = 1000
n_test = 1000

np.random.seed(100)
control = np.random.normal(control_mean, control_std, n_control)
test = np.random.normal(test_mean, test_std, n_test)

Определимся с гипотезой

H0: Рекомендации никак не влияют на среднее количество товаров в корзине. Разница средних равна нулю.

H1: Разница средних не равна нулю.

Уровень значимости alpha = 5%

In [3]:
# Посчитаем среднее выборок, стандартное отклонение и размер
mean1, mean2 = np.mean(control), np.mean(test)
std1, std2 = np.std(control), np.std(test)
n1, n2 = len(control), len(test)

In [4]:
# Посчитаем стандартную ошибку (стандартное отклонение выборочного среднего)
se1, se2 = std1/np.sqrt(n1), std2/np.sqrt(n2)

In [5]:
# Стандартное отклонение разницы средних
sed = np.sqrt(se1**2 + se2**2)

In [6]:
# Стандартизируем разницу средних
t_score = (mean1 - mean2) / sed
print(t_score)

-3.3653372141274898


In [7]:
# степень свободы для расчетов p-value
df = n_test + n_control - 2

In [8]:
p_value = (1 - st.t.cdf(np.abs(t_score), df)) * 2
print(p_value)

0.0007789664051371936


In [9]:
if p_value < 0.05:
    print(p_value, 'reject H0')
else:
    print(p_value, 'Do not reject H0')

0.0007789664051371936 reject H0


### Провека с помощью пакета scipy.stats

In [10]:
st.ttest_ind(control,test)

Ttest_indResult(statistic=-3.3636541246428093, pvalue=0.0007837048253564439)

## Paired T-test

Данный тест нужен, чтобы обнаружить значимую разницу в связанных воборках. 
Например, мы предложили скидку клиентам и нужно посмотреть, есть ли значимая разница в среднем чеке до и псоле скидки.

In [11]:
# Сгенерируем две зависые выборки.
control_mean = 100
control_std = 20
n_control = 200

np.random.seed(100)
control = np.random.normal(control_mean, control_std, n_control)

# Допустим скидка действительно подействовала и средний чек увеличился (но мы пока об этом не знаем).
test = np.random.normal(control_mean, control_std, n_control) + 1

In [12]:
st.ttest_rel(control, test)

Ttest_relResult(statistic=-2.141713461871372, pvalue=0.033432123641533425)