In [25]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames
import pickle

# Ignorar los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings('ignore')
import numpy as np
# Para la visualización 
# -----------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns
# Otros objetivos
# -----------------------------------------------------------------------
import math
from itertools import combinations
# Para pruebas estadísticas
# -----------------------------------------------------------------------
from scipy import stats
from statsmodels.stats.multicomp import pairwise_tukeyhsd
# Para la codificación de las variables numéricas
# -----------------------------------------------------------------------
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, LabelEncoder # para poder aplicar los métodos de OneHot, Ordinal,  Label y Target Encoder 
from sklearn.model_selection import train_test_split
from category_encoders import TargetEncoder, CountEncoder
import sys
sys.path.append("../../../")
import src.soporte_encoding  as se
from src.soporte_graficas import (
    visualizar_categoricas
)
from src.SupportPreProcesamiento import (
    separarar_df
)

In [26]:
df = pd.read_pickle("../../../datos/02_regresiones/cluster_1/02_datos_gestionados.pkl").reset_index(drop=True)

# Ver el orden de las categóricas
- Para decidir el tipo de encoding

In [27]:
numericas, categoricas = separarar_df(df)

In [28]:
categoricas

Unnamed: 0,Ship Mode,Segment,Market,Region,Category,Sub-Category,Order Priority
0,Same Day,Consumer,Africa,Africa,Technology,Copiers,Critical
1,Second Class,Consumer,EMEA,EMEA,Technology,Phones,Critical
2,Second Class,Consumer,EMEA,EMEA,Technology,Phones,Critical
3,Second Class,Consumer,EMEA,EMEA,Technology,Phones,Critical
4,Second Class,Consumer,EMEA,EMEA,Technology,Phones,Critical
...,...,...,...,...,...,...,...
78061,First Class,Home Office,EMEA,EMEA,Office Supplies,Art,Medium
78062,First Class,Home Office,EMEA,EMEA,Office Supplies,Art,Medium
78063,First Class,Home Office,EMEA,EMEA,Office Supplies,Art,Medium
78064,First Class,Home Office,EMEA,EMEA,Office Supplies,Art,Medium


In [29]:
# instanciamos la clase de Asunciones, para poder decir qué método usar para el análisis estadístico
asunciones = se.Asunciones(dataframe = df, columna_numerica = "Profit")
print("\n-------------\n")


for categoria in categoricas:   

    print(f"Estamos analizando la variable {categoria.upper()}")
    
    asunciones.identificar_normalidad(metodo = "kolmogorov") 

    # comprobamos la homogeneidad de varianzas
    asunciones.identificar_homogeneidad(columna_categorica = categoria)

    # instanciamos la clase para evaluar si hay diferencias entre los distintos grupos de las variables categóricas
    test = se.TestEstadisticos(df, "Profit", categoria)
    test.run_all_tests()
    print("\n###########################\n")


-------------

Estamos analizando la variable SHIP MODE
Para la columna Profit, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Ship Mode las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Same Day', 'Second Class', 'First Class', 'Standard Class']



Realizando test de Kruskal...
Estadístico de prueba: 59.20273025537676
Valor p: 8.700810106707644e-13
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,1.4857,0.9034,-4.0983,7.0697,First Class-Same Day
1,15.4608,0.0,11.5682,19.3533,First Class-Second Class
2,5.4286,0.0002,2.0895,8.7676,First Class-Standard Class
3,13.9751,0.0,8.6392,19.311,Same Day-Second Class
4,3.9429,0.1706,-1.0037,8.8895,Same Day-Standard Class
5,-10.0322,0.0,-12.9373,-7.1271,Second Class-Standard Class



###########################

Estamos analizando la variable SEGMENT
Para la columna Profit, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Segment las varianzas son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Consumer', 'Corporate', 'Home Office']

Realizando test de Kruskal...
Estadístico de prueba: 18.893020029563804
Valor p: 7.896467046871551e-05
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,-2.1548,0.0884,-4.5519,0.2424,Consumer-Corporate
1,-0.2201,0.9814,-3.0183,2.5781,Consumer-Home Office
2,1.9347,0.2981,-1.1186,4.988,Corporate-Home Office



###########################

Estamos analizando la variable MARKET
Para la columna Profit, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Market las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Africa', 'EMEA', 'Canada']

Realizando test de Kruskal...
Estadístico de prueba: 1186.2713320975695
Valor p: 2.5377755857160783e-258
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,22.9943,0.0,17.6214,28.3671,Africa-Canada
1,-10.981,0.0,-13.1062,-8.8559,Africa-EMEA
2,-33.9753,0.0,-39.3281,-28.6225,Canada-EMEA



###########################

Estamos analizando la variable REGION
Para la columna Profit, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Region las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Africa', 'EMEA', 'Canada']

Realizando test de Kruskal...
Estadístico de prueba: 1186.2713320975695
Valor p: 2.5377755857160783e-258
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,22.9943,0.0,17.6214,28.3671,Africa-Canada
1,-10.981,0.0,-13.1062,-8.8559,Africa-EMEA
2,-33.9753,0.0,-39.3281,-28.6225,Canada-EMEA



###########################

Estamos analizando la variable CATEGORY
Para la columna Profit, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Category las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Technology', 'Office Supplies', 'Furniture']

Realizando test de Kruskal...
Estadístico de prueba: 1875.2502270066163
Valor p: 0.0
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,-12.3275,0.0,-16.0234,-8.6316,Furniture-Office Supplies
1,17.3084,0.0,12.7488,21.868,Furniture-Technology
2,29.6359,0.0,26.4936,32.7782,Office Supplies-Technology



###########################

Estamos analizando la variable SUB-CATEGORY
Para la columna Profit, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Sub-Category las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Copiers', 'Phones', 'Appliances', 'Tables', 'Chairs', 'Storage', 'Machines', 'Bookcases', 'Accessories', 'Art', 'Furnishings', 'Paper', 'Envelopes', 'Fasteners', 'Supplies', 'Binders', 'Labels']

Realizando test de Kruskal...
Estadístico de prueba: 3446.2315846236015
Valor p: 0.0
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,7.8050,0.9539,-7.8945,23.5046,Accessories-Appliances
1,-18.6764,0.0000,-27.8791,-9.4738,Accessories-Art
2,-18.4279,0.0000,-27.6626,-9.1932,Accessories-Binders
3,20.8890,0.0000,8.1631,33.6149,Accessories-Bookcases
4,-14.7042,0.0068,-27.3746,-2.0338,Accessories-Chairs
...,...,...,...,...,...
131,-34.1686,0.0000,-45.5383,-22.7988,Phones-Supplies
132,42.3746,0.0061,6.0891,78.6601,Phones-Tables
133,-10.3825,0.0154,-19.8327,-0.9323,Storage-Supplies
134,66.1607,0.0000,30.4301,101.8913,Storage-Tables



###########################

Estamos analizando la variable ORDER PRIORITY
Para la columna Profit, los datos no siguen una distribución normal según el test de Kolmogorov-Smirnov.
En la variable Order Priority las varianzas NO son homogéneas entre grupos.
Generando grupos...
Grupos generados: ['Critical', 'High', 'Medium', 'Low']

Realizando test de Kruskal...
Estadístico de prueba: 27.086867585032067
Valor p: 5.645573974943891e-06
Hay una diferencia significativa entre los grupos
Los resultados del test de Tukey son: 



Unnamed: 0,meandiff,p-adj,lower,upper,group_diff
0,-0.7625,0.973,-5.2966,3.7715,Critical-High
1,2.3616,0.7991,-4.2993,9.0224,Critical-Low
2,0.9858,0.9356,-3.3181,5.2897,Critical-Medium
3,3.1241,0.4935,-2.5715,8.8198,High-Low
4,1.7483,0.2985,-0.8201,4.3168,High-Medium
5,-1.3758,0.9187,-6.89,4.1384,Low-Medium



###########################



### Ordinales
- Ship Mode
- Segment
- Market
- Region
- Category
- SubCategory
- Order Priority
- lista: ['Ship Mode','Segment', 'Market', 'Region', 'Category', 'Sub-Category', 'Order Priority']

# Encoding Ordinales
- Usaremos Target Encoder

In [30]:
cols_ordinales = ['Ship Mode','Segment', 'Market', 'Region', 'Category', 'Sub-Category', 'Order Priority']
target_encoder = TargetEncoder(cols=cols_ordinales)
df = target_encoder.fit_transform(df,df[["Profit"]])

In [31]:
### Guardar el encoder en pickle
with open("../../../datos/03_encoders/target_encoder_cluster1.pkl", "wb") as f:
    pickle.dump(target_encoder,f)

In [32]:
df.sample()

Unnamed: 0,Ship Mode,Segment,Market,Region,Category,Sub-Category,Quantity,Discount,Profit,Shipping Cost,Order Priority
39470,11.338907,13.103566,6.014692,6.014692,7.577899,15.094982,2,0.0,4.14,4.21,11.210984


In [33]:
df.sample()

Unnamed: 0,Ship Mode,Segment,Market,Region,Category,Sub-Category,Quantity,Discount,Profit,Shipping Cost,Order Priority
57731,11.338907,10.94879,6.014692,6.014692,7.577899,4.469043,8,0.6,-27.456,1.64,11.210984


In [34]:
df.to_pickle("../../../datos/02_regresiones/cluster_1/03_datos_encoded.pkl")