<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#AB-Testing" data-toc-modified-id="AB-Testing-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>AB-Testing</a></span></li></ul></div>

# AB-Testing

![cats](images/cats.jpeg)


Imaginad que somos los cientificos de datos de la empresa de videojuegos Tactile Entertainment. Los desarrolladores del juego Cookie Cats pretenden introducir un cambio en el juego para aumentar la retencion de los jugadores. En cierto nivel del juego los jugadores se encuentran una puerta que les obliga a esperar o a pagar la app. Actualmente la puerta se encuentra en nivel 30 y se pretende pasar al nivel 40, para comprobar la retencion a 1 y 7 dias. Antes de realizar el cambio definitivo en el juego se raliza un test AB.

Los datos estan alojados en `data/cookie_cats.csv`. Nuestro grupo de control sera la version actual `gate_30` y el grupo de tratamiento sera la version `gate_40`. Debemos realizar el test para 1 dia de retencion `retention_1` y para 7 dias `retention_7`.

In [1]:
# librerias

import pandas as pd
import numpy as np

from statsmodels.stats.proportion import proportions_ztest, proportion_confint
from scipy.stats import norm, sem

import pylab as plt

In [3]:
data = pd.read_csv('data/cookie_cats.csv')
print (data)

        userid  version  sum_gamerounds  retention_1  retention_7
0          116  gate_30               3        False        False
1          337  gate_30              38         True        False
2          377  gate_40             165         True        False
3          483  gate_40               1        False        False
4          488  gate_40             179         True         True
...        ...      ...             ...          ...          ...
90184  9999441  gate_40              97         True        False
90185  9999479  gate_40              30        False        False
90186  9999710  gate_30              28         True        False
90187  9999768  gate_40              51         True        False
90188  9999861  gate_40              16        False        False

[90189 rows x 5 columns]


In [5]:
# Segmentación de los grupos de control y tratamiento:

#Utilizaremos el grupo de control gate_30 para la versión actual del juego.
#El grupo de tratamiento gate_40 para la nueva versión del juego.

control_group = data[data['version'] == 'gate_30']
treatment_group = data[data['version'] == 'gate_40']



In [9]:
# testeo para la retención de un día para ambos grupos:

retention_1_control = control_group['retention_1'].mean()
retention_1_treatment = treatment_group['retention_1'].mean()

print(retention_1_control) #VERSIÓN ACTUAL
print(retention_1_treatment) #VERSIÓN NUEVA

0.4481879194630872
0.44228274967574577


In [8]:
# Calculamos la retención de 7 días para ambos grupos
retention_7_control = control_group['retention_7'].mean()
retention_7_treatment = treatment_group['retention_7'].mean()

print(retention_7_control) #VERSIÓN ACTUAL
print(retention_7_treatment) #VERSIÓN NUEVA



0.19020134228187918
0.18200004396667327


In [11]:
# Realizamos las pruebas de hipótesis para comparar los grupos de control y tratamiento:
from scipy.stats import ttest_ind

t_stat_1, p_value_1 = ttest_ind(control_group['retention_1'], treatment_group['retention_1'])
t_stat_7, p_value_7 = ttest_ind(control_group['retention_7'], treatment_group['retention_7'])


In [12]:

#Imprimir resultados del test A/B:
print("Retención de 1 día:")
print("Grupo de control:", retention_1_control)
print("Grupo de tratamiento:", retention_1_treatment)
print("p-value:", p_value_1)
print("")

print("Retención de 7 días:")
print("Grupo de control:", retention_7_control)
print("Grupo de tratamiento:", retention_7_treatment)
print("p-value:", p_value_7)


Retención de 1 día:
Grupo de control: 0.4481879194630872
Grupo de tratamiento: 0.44228274967574577
p-value: 0.07441111525563184

Retención de 7 días:
Grupo de control: 0.19020134228187918
Grupo de tratamiento: 0.18200004396667327
p-value: 0.0015540151201088365


In [None]:
#Conclusión:
#RETENCIÓN DE 1 DÍA:
#En el grupo de control (versión actual del juego, gate_30) es de aproximadamente 0.448, 
#Grupo de tratamiento (nueva versión del juego, gate_40) es de aproximadamente 0.442. 
#Esto indica que la retención de 1 día es ligeramente mayor en el grupo de control, pero la diferencia no es estadísticamente significativa ya que el valor de p es de 0.074.

#RETENCIÓN DE 7 DÍAS: muestra una diferencia más notable. 
#En el grupo de control: la retención de 7 días es de aproximadamente 0.190.
#Grupo de tratamiento es de aproximadamente 0.182. En este caso, la diferencia es estadísticamente significativa ya que el valor de p es menor a 0.05 (0.00155). 
#Esto indica que existe una disminución en la retención de 7 días en el grupo de tratamiento.

#CONCLUSIÓN: hay más retención en la versión actual del juego en la puerta 30.