<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#AB-Testing" data-toc-modified-id="AB-Testing-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>AB-Testing</a></span></li></ul></div>

# AB-Testing

![cats](images/cats.jpeg)


Imaginad que somos los cientificos de datos de la empresa de videojuegos Tactile Entertainment. Los desarrolladores del juego Cookie Cats pretenden introducir un cambio en el juego para aumentar la retencion de los jugadores. En cierto nivel del juego los jugadores se encuentran una puerta que les obliga a esperar o a pagar la app. Actualmente la puerta se encuentra en nivel 30 y se pretende pasar al nivel 40, para comprobar la retencion a 1 y 7 dias. Antes de realizar el cambio definitivo en el juego se raliza un test AB.

Los datos estan alojados en `data/cookie_cats.csv`. Nuestro grupo de control sera la version actual `gate_30` y el grupo de tratamiento sera la version `gate_40`. Debemos realizar el test para 1 dia de retencion `retention_1` y para 7 dias `retention_7`.

In [1]:
# librerias

import pandas as pd
import numpy as np

from statsmodels.stats.proportion import proportions_ztest, proportion_confint
from scipy.stats import norm, sem

import pylab as plt

In [4]:
cookie_cats = pd.read_csv('data/cookie_cats.csv')

In [5]:
cookie_cats

Unnamed: 0,userid,version,sum_gamerounds,retention_1,retention_7
0,116,gate_30,3,False,False
1,337,gate_30,38,True,False
2,377,gate_40,165,True,False
3,483,gate_40,1,False,False
4,488,gate_40,179,True,True
...,...,...,...,...,...
90184,9999441,gate_40,97,True,False
90185,9999479,gate_40,30,False,False
90186,9999710,gate_30,28,True,False
90187,9999768,gate_40,51,True,False


In [None]:
#clean

In [15]:
control = cookie_cats.loc[cookie_cats['version'] == 'gate_30']

In [16]:
control

Unnamed: 0,userid,version,sum_gamerounds,retention_1,retention_7
0,116,gate_30,3,False,False
1,337,gate_30,38,True,False
6,1066,gate_30,0,False,False
11,2101,gate_30,0,False,False
13,2179,gate_30,39,True,False
...,...,...,...,...,...
90179,9998576,gate_30,14,True,False
90180,9998623,gate_30,7,False,False
90182,9999178,gate_30,21,True,False
90183,9999349,gate_30,10,False,False


In [50]:
treatment = cookie_cats.loc[cookie_cats['version'] == 'gate_40']


userid            45489
version           45489
sum_gamerounds    45489
retention_1       45489
retention_7       45489
dtype: int64

In [51]:
cookie_cats.version.value_counts()

gate_40    45489
gate_30    44700
Name: version, dtype: int64

In [73]:
control_results = cookie_cats[cookie_cats['version']=='gate_30']['retention_1']

In [74]:
treatment_results = cookie_cats[cookie_cats['version']=='gate_40']['retention_1']

In [None]:
impresiones = [control_results.shape[0], treatment_results.shape[0]]   # entrar en al pagina 

conversiones = [sum(control_res), sum(trat_res)]  # comprar en la pagina



z_score, p_value = proportions_ztest(conversiones, 
                                     nobs=impresiones)


(control_a, trata_a), (control_b, trata_b) = proportion_confint(conversiones, 
                                                                nobs=impresiones,
                                                                alpha=0.05)

In [78]:
impresiones = [control_results.shape[0], treatment_results.shape[0]]  
conversiones = [sum(control_results), sum(treatment_results)] 
z_score, p_value = proportions_ztest(conversiones, nobs=impresiones)

In [81]:
z_score, p_value

(1.7840862247974725, 0.07440965529691913)

In [82]:
(control_a, trata_a), (control_b, trata_b) = proportion_confint(conversiones, 
                                                                nobs=impresiones,
                                                                alpha=0.05)

In [83]:
print(f'z-score: {z_score:.2f}')

print(f'p-valor: {p_value:.3f}')

print(f'intervalo conf 95% para grupo control: [{control_a:.3f}, {control_b:.3f}]')

print(f'intervalo conf 95% para grupo tratamiento: [{trata_a:.3f}, {trata_b:.3f}]')

z-score: 1.78
p-valor: 0.074
intervalo conf 95% para grupo control: [0.444, 0.453]
intervalo conf 95% para grupo tratamiento: [0.438, 0.447]


Dado que el p-valor= 0.074 es ligeramente mayor que α =0.05, no podemos rechazar la hipótesis nula H 0. Es decir, el rendimiento de H1 y el de H0 no son signifcativamente distintos.

In [84]:
control_results = control['retention_7']
treatment_results = treatment['retention_7']

impresiones = [control_results.shape[0], treatment_results.shape[0]]
conversiones = [sum(control_results), sum(treatment_results)]

# Realiza el test de hipótesis y obtén los resultados
z_score, p_value = proportions_ztest(conversiones, nobs=impresiones)

# Calcula los intervalos de confianza
(control_a, control_b), (tratamiento_a, tratamiento_b) = proportion_confint(conversiones, nobs=impresiones, alpha=0.05)


# Imprime los resultados
print(f'z-score: {z_score:.2f}')
print(f'p-valor: {p_value:.3f}')
print(f'intervalo conf 95% para grupo control: [{control_a:.3f}, {control_b:.3f}]')
print(f'intervalo conf 95% para grupo tratamiento: [{tratamiento_a:.3f}, {tratamiento_b:.3f}]')

z-score: 3.16
p-valor: 0.002
intervalo conf 95% para grupo control: [0.187, 0.178]
intervalo conf 95% para grupo tratamiento: [0.194, 0.186]


En este caso, la hipotesis H0 se tiene que rechazar. El resultado es menor a α = 0.05. Es decir, si tiene un rendimiento significativamente distinto H1 a H0. Es decir, la retencion incrementa sustancialmente con la nueva modalidad y es evidente en el septimo dia, cuando al comparar la retención es mayor.