In [1]:
import pandas as pd
import seaborn as sns
import scipy.stats as stats
import numpy as np
from statsmodels.stats.proportion import proportions_ztest

### Загружаем данные:

In [2]:
df = pd.read_csv("cookie_cats.csv")
df.head()

Unnamed: 0,userid,version,sum_gamerounds,retention_1,retention_7
0,116,gate_30,3,False,False
1,337,gate_30,38,True,False
2,377,gate_40,165,True,False
3,483,gate_40,1,False,False
4,488,gate_40,179,True,True


### Проверка типов данных и наличия пустых ячеек:

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90189 entries, 0 to 90188
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   userid          90189 non-null  int64 
 1   version         90189 non-null  object
 2   sum_gamerounds  90189 non-null  int64 
 3   retention_1     90189 non-null  bool  
 4   retention_7     90189 non-null  bool  
dtypes: bool(2), int64(2), object(1)
memory usage: 2.2+ MB


### Проверка на наличие дубликатов:

In [4]:
df.duplicated().sum()

0

Дубликатов нет

### Выкидываем игроков, которые прошли меньше 30 уровней:

In [5]:
df = df[df['sum_gamerounds'] >= 30]

In [6]:
df.shape[0]

33269

### Уникальные пользователи:

In [7]:
df["userid"].nunique()

33269

Все пользователи уникальны

## Анализируем retention_1

### Разделяем на тестовую и контрольную группы:

In [8]:
control_1 = df[df['version'] == 'gate_30'][['retention_1']]
test_1 = df[df['version'] == 'gate_40'][['retention_1']]

### Доли игроков игравших через 1 день после утановки в группах:

In [9]:
 control_1['retention_1'].mean(), test_1['retention_1'].mean()

(0.8009726224783862, 0.8018419310178776)

### Используем односторонний z-критерий для долей:
H0: нет статистически значимых различий </br>
H1: доля retention_1 в тестовой группе больше </br>
уровень значимости: 0.05

In [10]:
args = {
    "count": (control_1['retention_1'].sum(), test_1['retention_1'].sum()),
    "nobs": (control_1.shape[0], test_1.shape[0]),
    "alternative": "smaller"
}

In [11]:
proportions_ztest(**args)

(-0.19872600068259946, 0.4212385420258285)

p_value > 0.05 </br>
__Вывод: статистически значимых отличий  нет__

## Анализируем retention_7

### Разделяем на тестовую и контрольную группы:

In [12]:
control_7 = df[df['version'] == 'gate_30'][['retention_7']]
test_7 = df[df['version'] == 'gate_40'][['retention_7']]

### Доли игроков игравших через 7 дней после утановки в группах:

In [13]:
control_7['retention_7'].mean(), test_7['retention_7'].mean()

(0.4387608069164265, 0.4300246794678866)

### Используем односторонний z-критерий для долей:
H0: нет статистически значимых различий </br>
H1: доля retention_7 в тестовой группе меньше </br>
уровень значимости: 0.05

In [19]:
args_7 = {
    "count": (control_7['retention_7'].sum(), test_7['retention_7'].sum()),
    "nobs": (control_7.shape[0], test_7.shape[0]),
    "alternative": "larger"
}

In [21]:
proportions_ztest(**args_7)

(1.6073448180176597, 0.05398937393767328)

p_value > 0.05 </br>
__Вывод: статистически значимых отличий  нет__