In [1]:
# Загрузка библиотек
import pandas as pd
import numpy as np

import scipy.stats as stats

In [2]:
# Загрузка данных
df_cleaned = pd.read_csv('data/df_cleaned.csv')
df_cleaned.head()

Unnamed: 0,user_id,timestamp,group,landing_page,converted
0,851104,11:48.6,control,old_page,0
1,804228,01:45.2,control,old_page,0
2,661590,55:06.2,treatment,new_page,0
3,853541,28:03.1,treatment,new_page,0
4,864975,52:26.2,control,old_page,1


## 2. Критерий хи-квадрат Пирсона

Мы можем оценить значимость различий между двумя группами, используя критерий хи-квадрат Пирсона. Для начала построим таблицу сопряженности.

Посмотрим на количество и процент пользователей, совершивших покупку и не совершивших покупку, отдельно в контрольной и экспериментальной группах.

In [3]:
df_counts = pd.DataFrame({'Кол-во в контр. группе': df_cleaned[df_cleaned.group=='control'].converted.value_counts(),
              'Кол-во в эксп. группе': df_cleaned[df_cleaned.group=='treatment'].converted.value_counts(),
              '% в контр. группе': df_cleaned[df_cleaned.group=='control'].converted.value_counts()/ len(df_cleaned[df_cleaned.group=='control']),
              '% в эксп. группе': df_cleaned[df_cleaned.group=='treatment'].converted.value_counts() / len(df_cleaned[df_cleaned.group=='treatment'])})
df_counts

Unnamed: 0_level_0,Кол-во в контр. группе,Кол-во в эксп. группе,% в контр. группе,% в эксп. группе
converted,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,127785,128049,0.879614,0.881194
1,17489,17264,0.120386,0.118806


Для исследования возьмем из таблицы первые две колонки с количеством пользователей.

In [4]:
count_table = df_counts.iloc[:,0:2].to_numpy()
count_table

array([[127785, 128049],
       [ 17489,  17264]], dtype=int64)

Нулевая гипотеза H0: Распределение не отличается от ожидаемого.

Альтернативная гипотеза H1: Распределение отличается (существует статистически значимая разница между конверсиями в зависимости от версии посадочной страницы).

In [5]:
stat, p, dof, expected = stats.chi2_contingency(count_table) # результаты теста
print(f'Число степеней свободы: {dof}')
print('#######################################', '\n')

print('Ожидаемое распределение: ')
print(expected)
print('#######################################', '\n')

prob = 0.95
critical = stats.chi2.ppf(prob, dof)
print(f'Критическое значение статистики: {round(critical, 2)}')
print(f'Полученное значение статистики: {round(stat, 2)}')
print('#######################################', '\n')

alpha = 1-prob
print(f'Критическое значение p-уровня значимости: {round(alpha, 2)}')
print(f'Полученное значение p-уровня значимости: {round(p, 2)}')
print('#######################################', '\n')

Число степеней свободы: 1
####################################### 

Ожидаемое распределение: 
[[127899.83211912 127934.16788088]
 [ 17374.16788088  17378.83211912]]
####################################### 

Критическое значение статистики: 3.84
Полученное значение статистики: 1.71
####################################### 

Критическое значение p-уровня значимости: 0.05
Полученное значение p-уровня значимости: 0.19
####################################### 



Наблюдаемое значение p-уровня значимости больше критического значения, поэтому можно сделать вывод, что статистически значимой разницы между конверсиями нет.