In [23]:

# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Evaluar linealidad de las relaciones entre las variables
# y la distribución de las variables
# ------------------------------------------------------------------------------
import scipy.stats as stats
from scipy.stats import chi2_contingency, ttest_ind

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Gestión de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

In [24]:
df = pd.read_csv("marketing_AB.csv", sep =",", index_col= 0)
df.sample(10)


Unnamed: 0,user id,test group,converted,total ads,most ads day,most ads hour
406740,1532155,ad,False,15,Thursday,8
308972,1564013,ad,False,4,Sunday,12
562799,1497952,ad,False,1,Thursday,10
346443,1187375,ad,False,1,Monday,12
98126,1190215,ad,False,19,Tuesday,18
552898,1031244,ad,False,6,Tuesday,14
571463,1248067,ad,False,7,Saturday,11
529202,1265912,ad,False,6,Friday,18
274410,1423148,ad,False,14,Wednesday,13
252396,919312,psa,False,22,Monday,10


In [25]:
df['test group'].unique()

array(['ad', 'psa'], dtype=object)

In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 588101 entries, 0 to 588100
Data columns (total 6 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   user id        588101 non-null  int64 
 1   test group     588101 non-null  object
 2   converted      588101 non-null  bool  
 3   total ads      588101 non-null  int64 
 4   most ads day   588101 non-null  object
 5   most ads hour  588101 non-null  int64 
dtypes: bool(1), int64(3), object(2)
memory usage: 27.5+ MB


In [28]:
df.describe(exclude= 'O').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
user id,588101.0,,,,1310692.215793,202225.983128,900000.0,1143190.0,1313725.0,1484088.0,1654483.0
converted,588101.0,2.0,False,573258.0,,,,,,,
total ads,588101.0,,,,24.820876,43.715181,1.0,4.0,13.0,27.0,2065.0
most ads hour,588101.0,,,,14.469061,4.834634,0.0,11.0,14.0,18.0,23.0


In [27]:
df.isnull().sum()


user id          0
test group       0
converted        0
total ads        0
most ads day     0
most ads hour    0
dtype: int64

In [29]:
# una vez que tengamos nuestro DataFrame preparado con todas las columnas que queremos vamos a crear una función que no haga una exploración inicial del conjunto de datos
def exploracion_df(df, columna_control):
    """
    Realiza un análisis exploratorio básico de un DataFrame, mostrando información sobre duplicados,
    valores nulos, tipos de datos, valores únicos para columnas categóricas y estadísticas descriptivas
    para columnas categóricas y numéricas, agrupadas por la columna de control.

    Parámetros:
    - dataframe (DataFrame): El DataFrame que se va a explorar.
    - columna_control (str): El nombre de la columna que se utilizará como control para dividir el DataFrame.

    Returns: 
    No devuelve nada directamente, pero imprime en la consola la información exploratoria.
    """
    
    print(f"Los duplicados que tenemos en el conjunto de datos son: {df.duplicated().sum()}")
    print("\n ..................... \n")
    
    
    # generamos un DataFrame para los valores nulos
    print("Los nulos que tenemos en el conjunto de datos son:")
    df_nulos = pd.DataFrame(df.isnull().sum() / df.shape[0] * 100, columns = ["%_nulos"])
    display(df_nulos[df_nulos["%_nulos"] > 0])
    
    print("\n ..................... \n")
    print(f"Los tipos de las columnas son:")
    display(pd.DataFrame(df.dtypes, columns = ["tipo_dato"]))
    
    
    print("\n ..................... \n")
    print("Los valores que tenemos para las columnas categóricas son: ")
    df_categoricas = df.select_dtypes(include = "O")
    
    for col in df_categoricas.columns:
        print(f"La columna {col.upper()} tiene las siguientes valore únicos:")
        display(pd.DataFrame(df[col].value_counts()).head())    
    
    # como estamos en un problema de A/B testing y lo que realmente nos importa es comparar entre el grupo de control y el de test, los principales estadísticos los vamos a sacar de cada una de las categorías
    
    for categoria in df[columna_control].unique():
        
        dataframe_filtrado = df[df[columna_control] == categoria]
    
        print("\n ..................... \n")
        print(f"Los principales estadísticos de las columnas categóricas para el {categoria.upper()} son: ")
        display(dataframe_filtrado.describe(include = "O").T)
        
        print("\n ..................... \n")
        print(f"Los principales estadísticos de las columnas numéricas para el {categoria.upper()} son: ")
        display(dataframe_filtrado.describe().T)

In [30]:
exploracion_df(df,"test group")

Los duplicados que tenemos en el conjunto de datos son: 0

 ..................... 

Los nulos que tenemos en el conjunto de datos son:


Unnamed: 0,%_nulos



 ..................... 

Los tipos de las columnas son:


Unnamed: 0,tipo_dato
user id,int64
test group,object
converted,bool
total ads,int64
most ads day,object
most ads hour,int64



 ..................... 

Los valores que tenemos para las columnas categóricas son: 
La columna TEST GROUP tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
test group,Unnamed: 1_level_1
ad,564577
psa,23524


La columna MOST ADS DAY tiene las siguientes valore únicos:


Unnamed: 0_level_0,count
most ads day,Unnamed: 1_level_1
Friday,92608
Monday,87073
Sunday,85391
Thursday,82982
Saturday,81660



 ..................... 

Los principales estadísticos de las columnas categóricas para el AD son: 


Unnamed: 0,count,unique,top,freq
test group,564577,1,ad,564577
most ads day,564577,7,Friday,88805



 ..................... 

Los principales estadísticos de las columnas numéricas para el AD son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
user id,564577.0,1327314.0,188918.061566,1000000.0,1163686.0,1327362.0,1490914.0,1654483.0
total ads,564577.0,24.82337,43.750456,1.0,4.0,13.0,27.0,2065.0
most ads hour,564577.0,14.4759,4.841808,0.0,11.0,14.0,18.0,23.0



 ..................... 

Los principales estadísticos de las columnas categóricas para el PSA son: 


Unnamed: 0,count,unique,top,freq
test group,23524,1,psa,23524
most ads day,23524,7,Thursday,3905



 ..................... 

Los principales estadísticos de las columnas numéricas para el PSA son: 


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
user id,23524.0,911761.5,6790.938202,900000.0,905880.75,911761.5,917642.25,923523.0
total ads,23524.0,24.761138,42.86072,1.0,4.0,12.0,26.0,907.0
most ads hour,23524.0,14.304923,4.656239,0.0,11.0,14.0,18.0,23.0


In [31]:
# remplazo espacios por '_'
columnas = [col.replace(" ", "_") for col in df.columns]
df.columns = columnas
df.head(1)

Unnamed: 0,user_id,test_group,converted,total_ads,most_ads_day,most_ads_hour
0,1069124,ad,False,130,Monday,20


In [34]:
nulos_esta_num = df[df.columns[df.isnull().any()]].select_dtypes(include = np.number).columns
print("Las columnas numéricas que tienen nulos son : \n ")
print(nulos_esta_num)

Las columnas numéricas que tienen nulos son : 
 
Index([], dtype='object')


# Definición de las hipótesis:
Hipótesis nula (H0): No hay diferencia significativa en la tasa de conversión entre los grupos de prueba "ad" y "psa".
Hipótesis alternativa (H1): Existe una diferencia significativa en la tasa de conversión entre los grupos de prueba "ad" y "psa".

In [None]:
# Cálculo de la tasa de conversión: Calcula la tasa de conversión para cada grupo:

#Para el grupo "ad", la tasa de conversión es el número de usuarios convertidos dividido por el número total de usuarios en ese grupo.

# calculamos la Tasa de coversion 'ad'
df['t_conversion_ad'] = df['converted'] / df[df['test_group'] == 'ad']

# calculamos la Tasa de coversion 'psa'
df['t_conversion_psa'] = df['converted'] / df[df['test_group'] == 'psa']


