<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#AB-Testing" data-toc-modified-id="AB-Testing-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>AB-Testing</a></span></li></ul></div>

# AB-Testing

![cats](images/cats.jpeg)


Imaginad que somos los cientificos de datos de la empresa de videojuegos Tactile Entertainment. Los desarrolladores del juego Cookie Cats pretenden introducir un cambio en el juego para aumentar la retencion de los jugadores. En cierto nivel del juego los jugadores se encuentran una puerta que les obliga a esperar o a pagar la app. Actualmente la puerta se encuentra en nivel 30 y se pretende pasar al nivel 40, para comprobar la retencion a 1 y 7 dias. Antes de realizar el cambio definitivo en el juego se raliza un test AB.

Los datos estan alojados en `data/cookie_cats.csv`. Nuestro grupo de control sera la version actual `gate_30` y el grupo de tratamiento sera la version `gate_40`. Debemos realizar el test para 1 dia de retencion `retention_1` y para 7 dias `retention_7`.

In [1]:
# librerias

import pandas as pd
import numpy as np
from bayes import *
from statsmodels.stats.proportion import proportions_ztest, proportion_confint
from scipy.stats import norm, sem
from scipy.stats import bernoulli, beta  
import pylab as plt

In [2]:
# datos
cc = pd.read_csv("data/cookie_cats.csv")
cc.head()

Unnamed: 0,userid,version,sum_gamerounds,retention_1,retention_7
0,116,gate_30,3,False,False
1,337,gate_30,38,True,False
2,377,gate_40,165,True,False
3,483,gate_40,1,False,False
4,488,gate_40,179,True,True


In [3]:
cc.version.value_counts()


gate_40    45489
gate_30    44700
Name: version, dtype: int64

In [4]:
cc.info(memory_usage = "deep")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90189 entries, 0 to 90188
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   userid          90189 non-null  int64 
 1   version         90189 non-null  object
 2   sum_gamerounds  90189 non-null  int64 
 3   retention_1     90189 non-null  bool  
 4   retention_7     90189 non-null  bool  
dtypes: bool(2), int64(2), object(1)
memory usage: 7.1 MB


In [5]:
# transformacion
cross1 = pd.crosstab(cc.version, cc.retention_1)
cross1

retention_1,False,True
version,Unnamed: 1_level_1,Unnamed: 2_level_1
gate_30,24666,20034
gate_40,25370,20119


In [6]:
cross7 = pd.crosstab(cc.version, cc.retention_7)
cross7

retention_7,False,True
version,Unnamed: 1_level_1,Unnamed: 2_level_1
gate_30,36198,8502
gate_40,37210,8279


In [7]:
control_res = cc[cc.version=='gate_30']['retention_1']

test_res = cc[cc.version=='gate_40']['retention_1']

In [8]:
sum(control_res), sum(test_res)

(20034, 20119)

In [9]:

instalaciones = [control_res.shape[0], test_res.shape[0]]  # se instalan el juego

retenciones = [sum(control_res), sum(test_res)]     # tienen retención en 1 día



z_score, p_value = proportions_ztest(retenciones, nobs=instalaciones)

(control_a, test_a), (control_b, test_b) = proportion_confint(retenciones, 
                                                                nobs=instalaciones,
                                                                alpha=0.05)

In [10]:

print(f'z-score: {z_score:.2f}')

print(f'p-valor: {p_value:.3f}')

print(f'intervalo conf 95% para grupo control: [{control_a:.3f}, {control_b:.3f}]')

print(f'intervalo conf 95% para grupo tratamiento: [{test_a:.3f}, {test_b:.3f}]')

z-score: 1.78
p-valor: 0.074
intervalo conf 95% para grupo control: [0.444, 0.453]
intervalo conf 95% para grupo tratamiento: [0.438, 0.447]


In [11]:
control_res = cc[cc.version=='gate_30']['retention_7']

test_res = cc[cc.version=='gate_40']['retention_7']

sum(control_res), sum(test_res)


instalaciones = [control_res.shape[0], test_res.shape[0]]  # se instalan el juego

retenciones = [sum(control_res), sum(test_res)]     # tienen retención en 1 día



z_score, p_value = proportions_ztest(retenciones, nobs=instalaciones)

(control_a, test_a), (control_b, test_b) = proportion_confint(retenciones, 
                                                                nobs=instalaciones,
                                                                alpha=0.05)


print(f'z-score: {z_score:.2f}')

print(f'p-valor: {p_value:.3f}')

print(f'intervalo conf 95% para grupo control: [{control_a:.3f}, {control_b:.3f}]')

print(f'intervalo conf 95% para grupo tratamiento: [{test_a:.3f}, {test_b:.3f}]')

z-score: 3.16
p-valor: 0.002
intervalo conf 95% para grupo control: [0.187, 0.194]
intervalo conf 95% para grupo tratamiento: [0.178, 0.186]


# Conclusiones
- En el primer test (retención a 1 día) al ser el p-valor mayor que 0,05 no podemos descartar la hipótesis nula que en este caso dice que ambas versiones (puerta en nivel 30 y puerta en nivel 40) son iguales.
- En el segundo test (retención a 7 días) al ser el p-valor menor que 0,05 rechazamos la hipótesis nula y aceptamos H1, es decir, hay diferencias en términos de retención entre ambas versiones. Del valor de las médias se puede inferir que esta diferencia en en ventaja de la versión de control u original(puerta en nivel 30)