In [1]:
import pandas as pd
import datetime as dt
import numpy as np
import matplotlib.pyplot as plt
from pandas.plotting import register_matplotlib_converters
import scipy.stats as st
import warnings

In [2]:
try:
    data = pd.read_csv('/Users/aleksandrstrokov/Downloads/logs_exp.csv', sep='\t')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/logs_exp.csv', sep='\t')

In [3]:
data.columns = ['event_name', 'user_id', 'event_time', 'exp_id']

In [4]:
data.drop_duplicates()

Unnamed: 0,event_name,user_id,event_time,exp_id
0,MainScreenAppear,4575588528974610257,1564029816,246
1,MainScreenAppear,7416695313311560658,1564053102,246
2,PaymentScreenSuccessful,3518123091307005509,1564054127,248
3,CartScreenAppear,3518123091307005509,1564054127,248
4,PaymentScreenSuccessful,6217807653094995999,1564055322,248
...,...,...,...,...
244121,MainScreenAppear,4599628364049201812,1565212345,247
244122,MainScreenAppear,5849806612437486590,1565212439,246
244123,MainScreenAppear,5746969938801999050,1565212483,246
244124,MainScreenAppear,5746969938801999050,1565212498,246


In [5]:
data['event_dt'] = pd.to_datetime(data['event_time'], unit='s')

In [6]:
data['event_date'] = pd.to_datetime(data['event_dt']).dt.date 

In [7]:
data = data.query('event_dt >= "2019-08-01"')

In [8]:
data_new = data.query('event_name != "Tutorial"')

In [9]:
exp = data_new.pivot_table(index='exp_id', values='user_id', aggfunc='nunique').reset_index()
exp.columns = ['Номер эксперимента', 'Число пользователей']

In [10]:
events_funnel = data_new.pivot_table(
    index=['exp_id','user_id'], 
    columns='event_name', 
    values='event_dt',
    aggfunc='first')
events_funnel.reset_index().head(5)

event_name,exp_id,user_id,CartScreenAppear,MainScreenAppear,OffersScreenAppear,PaymentScreenSuccessful
0,246,6888746892508752,NaT,2019-08-06 14:06:34,NaT,NaT
1,246,6922444491712477,2019-08-04 14:19:40,2019-08-04 14:19:33,2019-08-04 14:19:46,2019-08-04 14:19:40
2,246,8740973466195562,NaT,2019-08-02 09:16:48,2019-08-02 09:43:59,NaT
3,246,12692216027168046,NaT,2019-08-02 16:28:49,2019-08-05 04:06:02,NaT
4,246,15708180189885246,2019-08-01 11:06:19,2019-08-01 16:08:23,2019-08-01 05:38:55,2019-08-01 11:06:19


In [11]:
exp_id = [246, 247, 248]
users = data_new.pivot_table(
        index=['user_id', 'exp_id'], 
        columns='event_name', 
        values='event_dt',
        aggfunc='first').reset_index()

funnel ={}
for group in exp_id:
    funnel[group] =[]
    step_1 = (users['exp_id']== group) & (~users['MainScreenAppear'].isna())
    step_2 = step_1 & (users['OffersScreenAppear'] > users['MainScreenAppear'])
    step_3 = step_2 & (users['CartScreenAppear'] > users['OffersScreenAppear'])
    step_4 = step_3 & (users['PaymentScreenSuccessful'] > users['CartScreenAppear'])
    funnel[group].append(users[step_1].shape[0])
    funnel[group].append(users[step_2].shape[0])
    funnel[group].append(users[step_3].shape[0])
    funnel[group].append(users[step_4].shape[0])

In [12]:
all_step = pd.DataFrame(funnel, index = ['Просмотр главной страницы', 'Просмотр предложений', 'Просмотр корзины', 'Оплата']).transpose()
all_step['Номер эксперимента']=[246,247,248]

In [13]:
all_step.reset_index(drop=True)
all_step = exp.merge(all_step, on='Номер эксперимента')

In [14]:
df = pd.melt(all_step, id_vars=['Номер эксперимента'], value_vars=['Число пользователей','Просмотр главной страницы', 'Просмотр предложений', 'Просмотр корзины', 'Оплата'])

In [15]:
df.columns =['group', 'variable', 'value']
df

Unnamed: 0,group,variable,value
0,246,Число пользователей,2483
1,247,Число пользователей,2512
2,248,Число пользователей,2535
3,246,Просмотр главной страницы,2450
4,247,Просмотр главной страницы,2476
5,248,Просмотр главной страницы,2493
6,246,Просмотр предложений,1411
7,247,Просмотр предложений,1379
8,248,Просмотр предложений,1411
9,246,Просмотр корзины,584


In [80]:
def z_test(df, group1, group2, event, alpha):
    alpha = alpha
    df1 = df[df['group'] == group1]
    df2 = df[df['group'] == group2]
    trials = np.array([df1[df1['variable']=='Число пользователей']['value'], df2[df2['variable']=='Число пользователей']['value']]).ravel()
    success = np.array([df1[df1['variable'] == event]['value'], df2[df2['variable'] == event]['value']]).ravel()
    p1 = success[0]/trials[0]
    p2 = success[1]/trials[1] 
    p_combined = (success[0] + success[1]) / (trials[0] + trials[1])
    differ = p1 - p2 
    z_value = differ / np.sqrt(p_combined * (1 - p_combined) * (1/trials[0] + 1/trials[1]))
    distr = st.norm(0, 1)  
    p_value = (1 - distr.cdf(abs(z_value))) * 2
    print('\n'+'\033[1m' + 'При сравнении групп', group1, 'и', group2, 'по событию <' + event + '>:''\033[0m')
    print('\033[4m' + 'p-значение: ', round(p_value,2),'\033[0m')
    if (p_value < alpha):
        print("Отвергаем нулевую гипотезу: между долями есть значимая разница")
    else:
        print("Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными")

In [81]:
event = df.query('variable != "Число пользователей"')['variable'].unique()

In [82]:
for event in event:
    z_test(df, 246, 247, event, alpha)


[1mПри сравнении групп 246 и 247 по событию <Просмотр главной страницы>:[0m
[4mp-значение:  0.75 [0m
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными

[1mПри сравнении групп 246 и 247 по событию <Просмотр предложений>:[0m
[4mp-значение:  0.17 [0m
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными

[1mПри сравнении групп 246 и 247 по событию <Просмотр корзины>:[0m
[4mp-значение:  0.76 [0m
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными

[1mПри сравнении групп 246 и 247 по событию <Оплата>:[0m
[4mp-значение:  0.87 [0m
Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными
