<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#AB-Testing" data-toc-modified-id="AB-Testing-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>AB-Testing</a></span></li></ul></div>

# AB-Testing

![cats](images/cats.jpeg)


Imaginad que somos los cientificos de datos de la empresa de videojuegos Tactile Entertainment. Los desarrolladores del juego Cookie Cats pretenden introducir un cambio en el juego para aumentar la retencion de los jugadores. En cierto nivel del juego los jugadores se encuentran una puerta que les obliga a esperar o a pagar la app. Actualmente la puerta se encuentra en nivel 30 y se pretende pasar al nivel 40, para comprobar la retencion a 1 y 7 dias. Antes de realizar el cambio definitivo en el juego se raliza un test AB.

Los datos estan alojados en `data/cookie_cats.csv`. Nuestro grupo de control sera la version actual `gate_30` y el grupo de tratamiento sera la version `gate_40`. Debemos realizar el test para 1 dia de retencion `retention_1` y para 7 dias `retention_7`.

In [1]:
# librerias

import pandas as pd
import numpy as np

from statsmodels.stats.proportion import proportions_ztest, proportion_confint
from scipy.stats import norm, sem, stats

import pylab as plt

In [2]:
# datos
df = pd.read_csv('data/cookie_cats.csv')
df.head()

Unnamed: 0,userid,version,sum_gamerounds,retention_1,retention_7
0,116,gate_30,3,False,False
1,337,gate_30,38,True,False
2,377,gate_40,165,True,False
3,483,gate_40,1,False,False
4,488,gate_40,179,True,True


In [3]:
# transformacion

pd.crosstab(df.version, df.retention_1)

retention_1,False,True
version,Unnamed: 1_level_1,Unnamed: 2_level_1
gate_30,24666,20034
gate_40,25370,20119


In [4]:
pd.crosstab(df.version, df.retention_7)

retention_7,False,True
version,Unnamed: 1_level_1,Unnamed: 2_level_1
gate_30,36198,8502
gate_40,37210,8279


In [5]:
# muestreo
control = df[df.version == 'gate_30']

tratamiento = df[df.version == 'gate_40']
                 
ab_test = pd.concat([control, tratamiento], axis=0)

ab_test.reset_index(drop=True, inplace=True)

ab_test.head()

Unnamed: 0,userid,version,sum_gamerounds,retention_1,retention_7
0,116,gate_30,3,False,False
1,337,gate_30,38,True,False
2,1066,gate_30,0,False,False
3,2101,gate_30,0,False,False
4,2179,gate_30,39,True,False


In [6]:
ab_test.tail()

Unnamed: 0,userid,version,sum_gamerounds,retention_1,retention_7
90184,9998733,gate_40,10,True,False
90185,9999441,gate_40,97,True,False
90186,9999479,gate_40,30,False,False
90187,9999768,gate_40,51,True,False
90188,9999861,gate_40,16,False,False


In [7]:
ab_test.version.value_counts()

gate_40    45489
gate_30    44700
Name: version, dtype: int64

In [22]:
# cálculos descriptivos para retencion día 1.

tasas_conversion=ab_test.groupby('version')['retention_1']

std=lambda x: np.std(x, ddof=0)    # std
error_std=lambda x: stats.sem(x, ddof=0) 

tasas_conversion=tasas_conversion.agg([np.mean, std, error_std])
tasas_conversion.columns=['conversion_rate', 'std', 'std_error']


tasas_conversion.style.format('{:.3f}')

Unnamed: 0_level_0,conversion_rate,std,std_error
version,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
gate_30,0.448,0.497,0.002
gate_40,0.442,0.497,0.002


In [23]:
# cálculos descriptivos para retencion día 7.

tasas_conversion7=ab_test.groupby('version')['retention_7']

std=lambda x: np.std(x, ddof=0)    # std
error_std=lambda x: stats.sem(x, ddof=0) 

tasas_conversion7=tasas_conversion7.agg([np.mean, std, error_std])
tasas_conversion7.columns=['conversion_rate', 'std', 'std_error']


tasas_conversion7.style.format('{:.3f}')

Unnamed: 0_level_0,conversion_rate,std,std_error
version,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
gate_30,0.19,0.392,0.002
gate_40,0.182,0.386,0.002


In [24]:
# testeo para retention_1
from statsmodels.stats.proportion import proportions_ztest, proportion_confint

In [25]:
control_res=ab_test[ab_test.version=='gate_30']['retention_1']

trat_res=ab_test[ab_test.version=='gate_40']['retention_1']

In [31]:
observaciones = [control_res.count(), trat_res.count()]

conversiones=[control_res.sum(), trat_res.sum()]  # conversiones por grupo

z_score, p_valor = proportions_ztest(conversiones, nobs=observaciones)


# intervalos de confianza

(control_a, tratamiento_a), (control_b, tratamiento_b) = proportion_confint(conversiones, 
                                                                            nobs=observaciones,
                                                                            alpha=0.05)

In [32]:
print(f'z-score: {z_score:.2f}')
print(f'p-valor: {p_valor:.3f}')
print(f'intervalo conf 95% para grupo control: [{control_a:.3f}, {control_b:.3f}]')
print(f'intervalo conf 95% para grupo tratamiento: [{tratamiento_a:.3f}, {tratamiento_b:.3f}]')

z-score: 1.78
p-valor: 0.074
intervalo conf 95% para grupo control: [0.444, 0.453]
intervalo conf 95% para grupo tratamiento: [0.438, 0.447]


In [28]:
# testeo para retention_7
control_res7=ab_test[ab_test.version=='gate_30']['retention_7']

trat_res7=ab_test[ab_test.version=='gate_40']['retention_7']

In [33]:
observaciones7 = [control_res7.count(), trat_res.count()]

conversiones7=[control_res7.sum(), trat_res7.sum()]  # conversiones por grupo

z_score, p_valor = proportions_ztest(conversiones7, nobs=observaciones7)


# intervalos de confianza

(control_a, tratamiento_a), (control_b, tratamiento_b) = proportion_confint(conversiones, 
                                                                            nobs=observaciones,
                                                                            alpha=0.05)

In [34]:
print(f'z-score: {z_score:.2f}')
print(f'p-valor: {p_valor:.3f}')
print(f'intervalo conf 95% para grupo control: [{control_a:.3f}, {control_b:.3f}]')
print(f'intervalo conf 95% para grupo tratamiento: [{tratamiento_a:.3f}, {tratamiento_b:.3f}]')

z-score: 3.16
p-valor: 0.002
intervalo conf 95% para grupo control: [0.444, 0.453]
intervalo conf 95% para grupo tratamiento: [0.438, 0.447]


In [None]:

# Sobre los resultados del día 1, vemos que el pvalue es de 0.74, p>0.05, por lo tanto interpretamos que no habría impacto.
# No rechazamos H0. La gente no dejará de jugar en el día 1

# Y con respecto a la puerta del día 7, el pvalue es de 0.002, es muy bajo, por debajo de 0.05. Por tanto, rechazamos H0 y 
# nos quedamos con H1.

# Conclusión: A un día se mantiene el número de jugadores, pero a 7 días merecería la pena cambiar la puerta a nivel 40.