In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames
import pickle

# Ignorar los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings('ignore')
import numpy as np
# Para la visualización 
# -----------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns
# Otros objetivos
# -----------------------------------------------------------------------
import math
from itertools import combinations
# Para pruebas estadísticas
# -----------------------------------------------------------------------
from scipy import stats
from statsmodels.stats.multicomp import pairwise_tukeyhsd
# Para la codificación de las variables numéricas
# -----------------------------------------------------------------------
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, LabelEncoder # para poder aplicar los métodos de OneHot, Ordinal,  Label y Target Encoder 
from sklearn.model_selection import train_test_split
from category_encoders import TargetEncoder, CountEncoder
import sys
sys.path.append("../../../")
import src.soporte_encoding  as se
from src.soporte_graficas import (
    visualizar_categoricas
)
from src.SupportPreProcesamiento import (
    separarar_df
)

In [2]:
df = pd.read_pickle("../../../datos/02_regresiones/cluster_0/02_datos_gestionados.pkl").reset_index(drop=True)

# Ver el orden de las categóricas
- Para decidir el tipo de encoding

In [3]:
numericas, categoricas = separarar_df(df)

In [4]:
categoricas

Unnamed: 0,Ship Mode,Segment,Market,Region,Category,Sub-Category,Order Priority
0,Same Day,Consumer,US,East,Technology,Accessories,Critical
1,Same Day,Consumer,US,East,Technology,Accessories,Critical
2,Same Day,Consumer,US,East,Technology,Accessories,Critical
3,Same Day,Consumer,US,East,Technology,Accessories,Critical
4,Same Day,Consumer,US,East,Technology,Accessories,Critical
...,...,...,...,...,...,...,...
297241,Second Class,Consumer,LATAM,Central,Office Supplies,Paper,High
297242,Second Class,Consumer,LATAM,Central,Office Supplies,Paper,High
297243,Second Class,Consumer,LATAM,Central,Office Supplies,Paper,High
297244,Second Class,Consumer,LATAM,Central,Office Supplies,Paper,High


In [5]:
# instanciamos la clase de Asunciones, para poder decir qué método usar para el análisis estadístico
asunciones = se.Asunciones(dataframe = df, columna_numerica = "Profit")
print("\n-------------\n")


for categoria in categoricas:   

    print(f"Estamos analizando la variable {categoria.upper()}")
    
    asunciones.identificar_normalidad(metodo = "kolmogorov") 

    # comprobamos la homogeneidad de varianzas
    asunciones.identificar_homogeneidad(columna_categorica = categoria)

    # instanciamos la clase para evaluar si hay diferencias entre los distintos grupos de las variables categóricas
    test = se.TestEstadisticos(df, "Profit", categoria)
    test.run_all_tests()
    print("\n###########################\n")


-------------

Estamos analizando la variable SHIP MODE
Para la columna Profit, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Ship Mode las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Same Day', 'Second Class', 'First Class', 'Standard Class']

Realizando test de Kruskal...
Estadístico de prueba: 6.490489801305901
Valor p: 0.09003831818819039
No hay evidencia suficiente para concluir que hay una diferencia significativa.
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,-0.2946,0.9971,-4.058,3.4689,First Class-Same Day
1,-2.3422,0.0805,-4.8679,0.1835,First Class-Second Class
2,-1.6844,0.1772,-3.8169,0.448,First Class-Standard Class
3,-2.0476,0.4705,-5.6852,1.59,Same Day-Second Class
4,-1.3898,0.7154,-4.7662,1.9865,Same Day-Standard Class
5,0.6578,0.8108,-1.2437,2.5592,Second Class-Standard Class



###########################

Estamos analizando la variable SEGMENT
Para la columna Profit, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Segment las varianzas son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Consumer', 'Corporate', 'Home Office']

Realizando test de Kruskal...
Estadístico de prueba: 36.12740914574214
Valor p: 1.4290018178800182e-08
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,2.1432,0.003,0.6091,3.6772,Consumer-Corporate
1,1.8428,0.0487,0.0081,3.6775,Consumer-Home Office
2,-0.3004,0.934,-2.3003,1.6995,Corporate-Home Office



###########################

Estamos analizando la variable MARKET
Para la columna Profit, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Market las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['US', 'APAC', 'EU', 'LATAM']

Realizando test de Kruskal...
Estadístico de prueba: 1450.6988668904742
Valor p: 0.0
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,-6.0744,0.0,-8.1191,-4.0297,APAC-EU
1,-15.2266,0.0,-17.3603,-13.0929,APAC-LATAM
2,-10.3703,0.0,-12.4981,-8.2424,APAC-US
3,-9.1522,0.0,-11.1851,-7.1193,EU-LATAM
4,-4.2959,0.0,-6.3227,-2.2691,EU-US
5,4.8563,0.0,2.7398,6.9728,LATAM-US



###########################

Estamos analizando la variable REGION
Para la columna Profit, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Region las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['East', 'Oceania', 'Central', 'West', 'South', 'Central Asia', 'North Asia', 'North', 'Caribbean', 'Southeast Asia']

Realizando test de Kruskal...
Estadístico de prueba: 9903.69207854835
Valor p: 0.0
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,5.4952,0.0109,0.6965,10.2939,Caribbean-Central
1,41.1535,0.0,35.0133,47.2937,Caribbean-Central Asia
2,8.1062,0.0003,2.4355,13.7769,Caribbean-East
3,13.6061,0.0,8.4321,18.7801,Caribbean-North
4,44.6959,0.0,38.7313,50.6606,Caribbean-North Asia
5,14.7128,0.0,8.9697,20.456,Caribbean-Oceania
6,3.5573,0.4291,-1.4669,8.5815,Caribbean-South
7,-16.3063,0.0,-21.9409,-10.6717,Caribbean-Southeast Asia
8,13.1399,0.0,7.5871,18.6926,Caribbean-West
9,35.6583,0.0,31.1645,40.1521,Central-Central Asia



###########################

Estamos analizando la variable CATEGORY
Para la columna Profit, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Category las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Technology', 'Furniture', 'Office Supplies']

Realizando test de Kruskal...
Estadístico de prueba: 9820.184984215757
Valor p: 0.0
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,-18.0515,0.0,-19.7914,-16.3117,Furniture-Office Supplies
1,37.8749,0.0,35.6258,40.124,Furniture-Technology
2,55.9264,0.0,54.0861,57.7668,Office Supplies-Technology



###########################

Estamos analizando la variable SUB-CATEGORY
Para la columna Profit, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Sub-Category las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Accessories', 'Chairs', 'Phones', 'Tables', 'Binders', 'Supplies', 'Appliances', 'Copiers', 'Machines', 'Bookcases', 'Storage', 'Furnishings', 'Art', 'Paper', 'Envelopes', 'Labels', 'Fasteners']

Realizando test de Kruskal...
Estadístico de prueba: 18674.681897359606
Valor p: 0.0
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,39.2303,0.00,31.5136,46.9470,Accessories-Appliances
1,-31.5626,0.00,-36.5637,-26.5615,Accessories-Art
2,-35.2272,0.00,-39.9742,-30.4802,Accessories-Binders
3,27.7300,0.00,21.3495,34.1105,Accessories-Bookcases
4,-4.1238,0.37,-9.4478,1.2002,Accessories-Chairs
...,...,...,...,...,...
131,-60.3244,0.00,-66.5907,-54.0582,Phones-Supplies
132,-143.8290,0.00,-153.9121,-133.7459,Phones-Tables
133,-13.1970,0.00,-18.7836,-7.6105,Storage-Supplies
134,-96.7016,0.00,-106.3770,-87.0262,Storage-Tables



###########################

Estamos analizando la variable ORDER PRIORITY
Para la columna Profit, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Order Priority las varianzas son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Critical', 'Medium', 'High', 'Low']

Realizando test de Kruskal...
Estadístico de prueba: 57.15676394459566
Valor p: 2.379296344311833e-12
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,-3.3817,0.0188,-6.3641,-0.3993,Critical-High
1,-9.4125,0.0,-13.6754,-5.1496,Critical-Low
2,-2.7124,0.0668,-5.5481,0.1234,Critical-Medium
3,-6.0308,0.0001,-9.6165,-2.445,High-Low
4,0.6693,0.7251,-0.9819,2.3206,High-Medium
5,6.7001,0.0,3.2354,10.1648,Low-Medium



###########################



### Ordinales
- Segment
- Market
- Region
- Category
- SubCategory
- Order Priority
- lista: ['Segment', 'Market', 'Region', 'Category', 'Sub-Category', 'Order Priority']
### Nominales
- Ship Mode
- lista: ['Ship Mode']

# Encoding Ordinales
- Usaremos Target Encoder

In [6]:
cols_ordinales = ['Segment', 'Market', 'Region', 'Category', 'Sub-Category', 'Order Priority']
target_encoder = TargetEncoder(cols=cols_ordinales)
df = target_encoder.fit_transform(df,df[["Profit"]])

In [7]:
### Guardar el encoder en pickle
with open("../../../datos/03_encoders/target_encoder.pkl", "wb") as f:
    pickle.dump(target_encoder,f)

In [8]:
df.sample()

Unnamed: 0,Ship Mode,Segment,Market,Region,Category,Sub-Category,Quantity,Discount,Profit,Shipping Cost,Order Priority
43880,Standard Class,29.909613,23.532412,24.922435,74.331135,126.999673,3,0.002,78.43956,43.82,31.203963


# Encoding Nominales
- Usando OneHot Encoder

In [9]:
cols_nominales = ["Ship Mode"]
one_hot_encoder = OneHotEncoder(categories='auto', 
                        drop=None, 
                        sparse_output=True, 
                        dtype='float', 
                        handle_unknown='error')

# Ajustar el codificador a los datos y transformarlos
encoder_trans = one_hot_encoder.fit_transform(df[cols_nominales])

# lo siguiente que hacemos es convertir el objeto devuelto por el fit_transform a array para poder verlo
encoder_array = encoder_trans.toarray()

# usaremos el método '.get_feature_names_out()' para extraer el nombre de las columnas
nombre_columnas = one_hot_encoder.get_feature_names_out()

# creamos un DataFrame con los resultados obtenidos de la transformación
encoder_df = pd.DataFrame(encoder_array, columns = nombre_columnas)

# concatenamos estos resultados con el DataFrame original
df = pd.concat([df, encoder_df], axis = 1)


In [10]:
### Guardar el encoder en pickle
with open("../../../datos/03_encoders/one_hot_encoder.pkl", "wb") as f:
    pickle.dump(one_hot_encoder,f)

In [11]:
df.sample()

Unnamed: 0,Ship Mode,Segment,Market,Region,Category,Sub-Category,Quantity,Discount,Profit,Shipping Cost,Order Priority,Ship Mode_First Class,Ship Mode_Same Day,Ship Mode_Second Class,Ship Mode_Standard Class
225946,Standard Class,29.909613,38.759016,66.06108,18.404704,20.190033,2,0.0,10.74,2.68,31.203963,0.0,0.0,0.0,1.0


# Eliminar cols nominales

In [12]:
# Eliminamos las columnas nominales sin encodear
df.drop(columns=cols_nominales,inplace=True)

In [13]:
df.sample()

Unnamed: 0,Segment,Market,Region,Category,Sub-Category,Quantity,Discount,Profit,Shipping Cost,Order Priority,Ship Mode_First Class,Ship Mode_Same Day,Ship Mode_Second Class,Ship Mode_Standard Class
218813,32.052787,32.684603,34.971238,18.404704,24.363928,1,0.0,4.11,3.02,30.534636,1.0,0.0,0.0,0.0


# Guardamos

In [14]:
df.to_pickle("../../../datos/02_regresiones/cluster_0/03_datos_encoded.pkl")