### 0. Imports

In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd



# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames


# Ignorar los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings('ignore')


import numpy as np

# Para la visualización 
# -----------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Otros objetivos
# -----------------------------------------------------------------------
import math
from itertools import combinations


# Para pruebas estadísticas
# -----------------------------------------------------------------------
from scipy import stats
from statsmodels.stats.multicomp import pairwise_tukeyhsd

# Para la codificación de las variables numéricas
# -----------------------------------------------------------------------
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, LabelEncoder, TargetEncoder # para poder aplicar los métodos de OneHot, Ordinal,  Label y Target Encoder 

# Traer funciones de soporte
# -----------------------------------------------------------------------
import sys
sys.path.append("..")
import src.ab_testing_support as ab_ts
import src.ab_testing_support_clase as ab_tsc

### 1. Importar datos

In [2]:
df = pd.read_csv("../datos/online_shoppers_intention_clase_nonulls_estan_sinout.csv", index_col=0)

In [3]:
lista_col_categ = df.select_dtypes(include="O")

In [4]:
def visualizar_categoricas(dataframe,vr, lista_col_cat, metrica_barplot = "mean", bigote=1.5, tipo_grafica="boxplot", tamanio_grafica = (15, 10), paleta="mako"):
    num_filas = math.ceil(len(lista_col_cat) / 2)

    fig, axes = plt.subplots(ncols=2, nrows=num_filas, figsize= tamanio_grafica)
    axes = axes.flat

    for ax, columna in zip(axes, lista_col_cat):
        if tipo_grafica.lower() == "boxplot":
            sns.boxplot(date=dataframe,
                        y = vr,
                        x=columna,
                        hue = columna,
                        whis=bigote,
                        ax=ax)
        
        elif tipo_grafica.lower() == "barplot":
            sns.barplot(date=dataframe,
                        y = vr,
                        x=columna,
                        hue = columna,
                        palette= paleta,
                        estimator=metrica_barplot,
                        ax=ax)
            
        else:
            print("No has elegido una gráfica correcta")

        ax.set_title(f"Relacion {columna} con la variable respuesta {vr}.")
        ax.set_xlabel(None)



In [5]:
# instanciamos la clase de Asunciones, para poder decir qué método usar para el análisis estadístico
asunciones = ab_tsc.Asunciones(dataframe = df, columna_numerica = "PageValues")
print("\n-------------\n")


for categoria in lista_col_categ:   

    print(f"Estamos analizando la variable {categoria.upper()}")
    
    asunciones.identificar_normalidad(metodo = "kolmogorov") 

    # comprobamos la homogeneidad de varianzas
    asunciones.identificar_homogeneidad(columna_categorica = categoria)

    # instanciamos la clase para evaluar si hay diferencias entre los distintos grupos de las variables categóricas
    test = ab_tsc.TestEstadisticos(df, "PageValues", categoria)
    test.run_all_tests()
    print("\n###########################\n")


-------------

Estamos analizando la variable MONTH
Para la columna PageValues, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Month las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Feb', 'Unknown', 'Mar', 'May', 'Oct', 'Jul', 'Aug', 'Nov', 'Sep', 'Dec']



Realizando test de Kruskal...
Estadístico de prueba: 110.87951902355692
Valor p: 9.734841340762416e-20
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
9,-4.9924,0.0036,-9.0248,-0.9599,Dec-Feb
11,-2.508,0.0002,-4.2403,-0.7757,Dec-Mar
19,4.0417,0.0385,0.1061,7.9774,Feb-May
20,4.8404,0.0042,0.892,8.7888,Feb-Nov
21,6.3293,0.0003,1.8974,10.7612,Feb-Oct
22,4.9729,0.0198,0.4162,9.5296,Feb-Sep
27,3.3702,0.0463,0.0268,6.7135,Jul-Oct
30,1.5574,0.0327,0.0643,3.0505,Mar-May
31,2.356,0.0,0.8296,3.8824,Mar-Nov
32,3.845,0.0001,1.3187,6.3712,Mar-Oct



###########################

Estamos analizando la variable OPERATINGSYSTEMS
Para la columna PageValues, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable OperatingSystems las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['MacOS', 'Windows', 'iOS', 'Linux', 'ChromeOS', 'Android']

Realizando test de Kruskal...
Estadístico de prueba: 95.3949229412871
Valor p: 4.931138293924995e-19
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,-14.816,0.026,-28.5641,-1.0679,Android-ChromeOS
1,-13.9458,0.0,-18.7401,-9.1514,Android-Linux
2,-12.2487,0.0,-17.042,-7.4555,Android-MacOS
3,-11.0562,0.0,-15.796,-6.3165,Android-Windows
4,-10.5558,0.0,-15.7206,-5.391,Android-iOS
9,1.697,0.0027,0.3977,2.9963,Linux-MacOS
10,2.8895,0.0,1.8043,3.9747,Linux-Windows
11,3.39,0.0005,1.0689,5.711,Linux-iOS
12,1.1925,0.0207,0.1118,2.2732,MacOS-Windows



###########################

Estamos analizando la variable BROWSER
Para la columna PageValues, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Browser las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Mozilla Firefox', 'Google Chrome', 'Tor', 'Safari', 'Microsoft Edge', 'Opera', 'Maxthon', 'Brave', 'Vivaldi', 'Midori', 'Lynx', 'Avant Browser', 'Dolphin Browser']

Realizando test de Kruskal...
Estadístico de prueba: 24.796094846683086
Valor p: 0.015819225687218597
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,-20.9562,0.0,-29.0855,-12.827,Avant Browser-Brave
2,-21.4452,0.0,-28.4063,-14.4841,Avant Browser-Google Chrome
3,-24.1471,0.0011,-42.6249,-5.6693,Avant Browser-Lynx
4,-23.0369,0.0,-33.427,-12.6468,Avant Browser-Maxthon
5,-20.1117,0.0,-27.4853,-12.7381,Avant Browser-Microsoft Edge
7,-21.4663,0.0,-28.4863,-14.4464,Avant Browser-Mozilla Firefox
8,-21.5564,0.0,-29.6154,-13.4975,Avant Browser-Opera
9,-20.1784,0.0,-27.3947,-12.9622,Avant Browser-Safari
10,-24.083,0.0,-32.8023,-15.3637,Avant Browser-Tor
11,-21.0358,0.0,-29.3915,-12.6801,Avant Browser-Vivaldi



###########################

Estamos analizando la variable REGION
Para la columna PageValues, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Region las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Region1', 'Region9', 'Unknown', 'Region2', 'Region3', 'Region4', 'Region5', 'Region6', 'Region7', 'Region8']

Realizando test de Kruskal...
Estadístico de prueba: 14.258700252477434
Valor p: 0.11341576108923737
No hay evidencia suficiente para concluir que hay una diferencia significativa.
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
3,4.3739,0.003,0.8787,7.8691,Region1-Region5
7,4.0606,0.0001,1.3253,6.7959,Region1-Region9
11,4.6813,0.0042,0.8602,8.5024,Region2-Region5
15,4.3679,0.0005,1.2268,7.5091,Region2-Region9
18,5.1006,0.0003,1.4978,8.7034,Region3-Region5
22,4.7873,0.0,1.9157,7.6589,Region3-Region9
24,3.8235,0.046,0.0327,7.6144,Region4-Region5
28,3.5102,0.0128,0.4059,6.6145,Region4-Region9
30,-4.4268,0.016,-8.412,-0.4415,Region5-Region6
31,-4.249,0.0285,-8.2696,-0.2285,Region5-Region7



###########################

Estamos analizando la variable TRAFFICTYPE
Para la columna PageValues, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable TrafficType las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['DT', 'OT', 'RT', 'SMT', 'CMCT', 'Unknown', 'AT', 'IST', 'ET', 'IMT', 'PST', 'LST', 'MAT', 'PMCT', 'FT', 'BCT', 'VT', 'VST', 'PRT', 'GMT', 'DAT']

Realizando test de Kruskal...
Estadístico de prueba: 229.98262241344295
Valor p: 1.2055470094087857e-37
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
2,9.111,0.0,4.0823,14.1398,AT-DAT
21,13.2859,0.0008,2.9738,23.5981,BCT-DAT
27,13.7827,0.0331,0.4582,27.1072,BCT-IST
39,5.6915,0.0393,0.1133,11.2697,CMCT-DAT
40,-4.5341,0.005,-8.401,-0.6672,CMCT-DT
49,-5.75,0.0003,-10.02,-1.4801,CMCT-PMCT
52,-4.7834,0.0022,-8.6849,-0.8818,CMCT-RT
57,-10.2256,0.0,-14.5816,-5.8695,DAT-DT
58,-5.4648,0.0308,-10.7192,-0.2103,DAT-ET
63,-8.6758,0.0,-14.289,-3.0625,DAT-LST



###########################

Estamos analizando la variable VISITORTYPE
Para la columna PageValues, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable VisitorType las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Returning_Visitor', 'New_Visitor', 'Other']

Realizando test de Kruskal...
Estadístico de prueba: 18.55396131342189
Valor p: 9.355316658387552e-05
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,9.9769,0.0,5.5489,14.4048,New_Visitor-Other
1,-5.6041,0.0,-6.6518,-4.5563,New_Visitor-Returning_Visitor
2,-15.5809,0.0,-19.9145,-11.2474,Other-Returning_Visitor



###########################

