In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import numpy as np
import pandas as pd

# Otros objetivos
# -----------------------------------------------------------------------
import math

# Gráficos
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt
import sys
sys.path.append("../../")
import src.soporte_logistica_preprocesamiento as pre
import src.soporte_encoding_logistica as se


pd.set_option('display.float_format', '{:.2f}'.format)


# Imputación de nulos usando métodos avanzados estadísticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer
from sklearn.ensemble import RandomForestRegressor

# Para la codificación de las variables numéricas
# -----------------------------------------------------------------------
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, LabelEncoder # para poder aplicar los métodos de OneHot, Ordinal,  Label y Target Encoder 
from category_encoders import TargetEncoder


import warnings
warnings.filterwarnings("ignore")
pd.set_option('display.max_columns',100)


In [2]:
df = pd.read_pickle("../../datos/02_datos_gestionados.plk")

# Encoding
- Como tenemos que hacer desbalanceo, primero encodeamos todas las columnas

# Veamos el orden

In [3]:
# sacamos la lista de columnas categóricas
lista_col_categ = df.select_dtypes(include = ["O", "category"])

for columna in lista_col_categ:

    print(f"Analizando la relación entre Attrition y {columna.upper()}")
    # Inicializar la clase
    analisis_chi2 = se.AnalisisChiCuadrado(df, variable_predictora = columna, variable_respuesta = 'Attrition')

    # Generar la tabla de contingencia
    tabla_contingencia = analisis_chi2.generar_tabla_contingencia()

    # Realizar la prueba de Chi-cuadrado
    resultado_chi2 = analisis_chi2.realizar_prueba_chi_cuadrado()

    print("\n ##################################### \n")

Analizando la relación entre Attrition y ATTRITION
Tabla de contingencia:


Attrition,0,1
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1
0,3611,0
1,0,711



Resultado de la prueba de Chi-cuadrado:
Chi2: 4314.727401291552, p-valor: 0.0
El p-valor < 0.05, parece que hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y BUSINESSTRAVEL
Tabla de contingencia:


BusinessTravel,Non-Travel,Travel_Frequently,Travel_Rarely
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,405,611,2595
1,36,207,468



Resultado de la prueba de Chi-cuadrado:
Chi2: 71.76117034861802, p-valor: 2.613724756093178e-16
El p-valor < 0.05, parece que hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y DEPARTMENT
Tabla de contingencia:


Department,Human Resources,Research & Development,Sales
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,132,2368,1111
1,57,453,201



Resultado de la prueba de Chi-cuadrado:
Chi2: 27.375946600640795, p-valor: 1.136027193149291e-06
El p-valor < 0.05, parece que hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y DISTANCEFROMHOME
Tabla de contingencia:


DistanceFromHome,1 km,10 km,11 km,12 km,13 km,14 km,15 km,16 km,17 km,18 km,19 km,2 km,20 km,21 km,22 km,23 km,24 km,25 km,26 km,27 km,28 km,29 km,3 km,4 km,5 km,6 km,7 km,8 km,9 km
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1
0,519,196,78,45,53,59,45,80,48,62,46,502,64,47,46,65,71,67,71,27,55,68,215,155,157,151,198,203,218
1,96,60,9,15,3,3,33,15,12,15,18,114,9,6,9,12,9,6,3,9,12,12,30,33,30,21,48,33,36



Resultado de la prueba de Chi-cuadrado:
Chi2: 100.15504714527309, p-valor: 4.779618731933227e-10
El p-valor < 0.05, parece que hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y EDUCATION
Tabla de contingencia:


Education,Bachelor,Below College,College,Doctor,Master
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,1413,422,669,120,987
1,267,78,159,21,186



Resultado de la prueba de Chi-cuadrado:
Chi2: 5.756526423300711, p-valor: 0.21808382230880455
El p-valor >= 0.05, no hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y EDUCATIONFIELD
Tabla de contingencia:


EducationField,Human Resources,Life Sciences,Marketing,Medical,Other,Technical Degree
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,48,1476,395,1146,207,339
1,33,303,75,225,30,45



Resultado de la prueba de Chi-cuadrado:
Chi2: 44.02880654084289, p-valor: 2.28524481450505e-08
El p-valor < 0.05, parece que hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y GENDER
Tabla de contingencia:


Gender,Female,Male
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1466,2145
1,270,441



Resultado de la prueba de Chi-cuadrado:
Chi2: 1.5938153725423652, p-valor: 0.2067818694038942
El p-valor >= 0.05, no hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y JOBLEVEL
Tabla de contingencia:


JobLevel,Level 1,Level 2,Level 3,Level 4,Level 5
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,1337,1289,546,262,177
1,252,285,96,51,27



Resultado de la prueba de Chi-cuadrado:
Chi2: 6.132835380814808, p-valor: 0.1894452427119481
El p-valor >= 0.05, no hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y JOBROLE
Tabla de contingencia:


JobRole,Healthcare Representative,Human Resources,Laboratory Technician,Manager,Manufacturing Director,Research Director,Research Scientist,Sales Executive,Sales Representative
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,322,133,636,260,377,181,701,795,206
1,57,21,126,42,48,57,159,165,36



Resultado de la prueba de Chi-cuadrado:
Chi2: 24.23520229867611, p-valor: 0.0020926146770790157
El p-valor < 0.05, parece que hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y MARITALSTATUS
Tabla de contingencia:


MaritalStatus,Divorced,Married,Single
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,857,1722,1032
1,99,252,360



Resultado de la prueba de Chi-cuadrado:
Chi2: 135.0446536119785, p-valor: 4.7361566990742294e-30
El p-valor < 0.05, parece que hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y NUMCOMPANIESWORKED
Tabla de contingencia:


NumCompaniesWorked,1 companies,2 companies,3 companies,4 companies,5 companies,6 companies,7 companies,8 companies,9 companies,None
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
0,1247,380,418,356,140,156,169,123,118,504
1,294,48,48,51,48,48,51,18,36,69



Resultado de la prueba de Chi-cuadrado:
Chi2: 74.49417049695568, p-valor: 1.9887383153289925e-12
El p-valor < 0.05, parece que hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y PERCENTSALARYHIKE
Tabla de contingencia:


PercentSalaryHike,11 %,12 %,13 %,14 %,15 %,16 %,17 %,18 %,19 %,20 %,21 %,22 %,23 %,24 %,25 %
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
0,526,491,518,499,234,202,194,222,183,132,116,137,68,50,39
1,90,90,102,87,63,30,45,39,42,27,27,30,15,9,15



Resultado de la prueba de Chi-cuadrado:
Chi2: 18.400258768931074, p-valor: 0.1891542239885845
El p-valor >= 0.05, no hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y STOCKOPTIONLEVEL
Tabla de contingencia:


StockOptionLevel,Level 0,Level 1,Level 2,Level 3
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,1538,1477,383,213
1,318,270,84,39



Resultado de la prueba de Chi-cuadrado:
Chi2: 2.8659831322107494, p-valor: 0.41275278293677387
El p-valor >= 0.05, no hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y TRAININGTIMESLASTYEAR
Tabla de contingencia:


TrainingTimesLastYear,0 Times,1 Times,2 Times,3 Times,4 Times,5 Times,6 Times
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,131,180,1325,1187,314,296,178
1,30,30,282,258,48,51,12



Resultado de la prueba de Chi-cuadrado:
Chi2: 22.412237530284862, p-valor: 0.001019236203718649
El p-valor < 0.05, parece que hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y ENVIRONMENTSATISFACTION
Tabla de contingencia:


EnvironmentSatisfaction,High,Low,Medium,Very High
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,1140,619,715,1137
1,186,214,131,180



Resultado de la prueba de Chi-cuadrado:
Chi2: 65.40328281862628, p-valor: 4.112365287973303e-14
El p-valor < 0.05, parece que hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y JOBSATISFACTION
Tabla de contingencia:


JobSatisfaction,High,Low,Medium,Very High
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,1085,653,689,1184
1,219,198,138,156



Resultado de la prueba de Chi-cuadrado:
Chi2: 51.45688282324583, p-valor: 3.909744036637459e-11
El p-valor < 0.05, parece que hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y WORKLIFEBALANCE
Tabla de contingencia:


WorkLifeBalance,High,Low,Medium,Very High
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,2240,163,838,370
1,381,75,174,81



Resultado de la prueba de Chi-cuadrado:
Chi2: 47.425265751288826, p-valor: 2.822040845861497e-10
El p-valor < 0.05, parece que hay diferencias entre los grupos.

 ##################################### 

Analizando la relación entre Attrition y JOBINVOLVEMENT
Tabla de contingencia:


JobInvolvement,High,Low,Medium,Very High
Attrition,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,2150,191,927,343
1,399,54,180,78



Resultado de la prueba de Chi-cuadrado:
Chi2: 8.099975172679988, p-valor: 0.043990081040370575
El p-valor < 0.05, parece que hay diferencias entre los grupos.

 ##################################### 



# Ordinales
- BusinessTravel
- Department
- DistanceFromHome
- EducationField
- JobRole
- MaritalStatus
- NumCompaniesWorked
- TrainingTimesLastYear
- EnvironmentSatisfaction
- JobSatisfaction
- WorkLifeBalance
- JobInvolvement
- lista = ["BusinessTravel", "Department", "DistanceFromHome", "EducationField", "JobRole", "MaritalStatus", "NumCompaniesWorked", "TrainingTimesLastYear", "EnvironmentSatisfaction", "JobSatisfaction", "WorkLifeBalance", "JobInvolvement"]

# Nominales
- Education
- Gender
- JobLevel	
- PercentSalaryHike
- StockOptionLevel
- lista = ["Education", "Gender", "JobLevel", "PercentSalaryHike", "StockOptionLevel"]


In [4]:
dictio_encoding = {
    "target" : ["BusinessTravel", "Department", "DistanceFromHome", "EducationField", "JobRole", "MaritalStatus", "NumCompaniesWorked", "TrainingTimesLastYear", "EnvironmentSatisfaction", "JobSatisfaction", "WorkLifeBalance", "JobInvolvement"],
    "onehot" : ["Education", "Gender", "JobLevel", "PercentSalaryHike", "StockOptionLevel"]
}
encoding = se.Encoding(df,"Attrition",dictio_encoding,"../../datos/encoders_y_modelos")

### Ordinales 

In [5]:
df_target = encoding.target_encoding()

In [6]:
df_target.sample()

Unnamed: 0,Age,Attrition,BusinessTravel,Department,DistanceFromHome,Education,EducationField,Gender,JobLevel,JobRole,MaritalStatus,MonthlyIncome,NumCompaniesWorked,PercentSalaryHike,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,YearsAtCompany,YearsSinceLastPromotion,YearsWithCurrManager,EnvironmentSatisfaction,JobSatisfaction,WorkLifeBalance,JobInvolvement
1741,36,0,0.08,0.16,0.2,College,0.17,Male,Level 5,0.17,0.26,116310,0.19,18 %,Level 1,10,0.18,10,0,9,0.26,0.23,0.15,0.22


### Nominales

In [7]:
encoding = se.Encoding(df_target,"Attrition",dictio_encoding,"../../datos/encoders_y_modelos")
df = encoding.one_hot_encoding()

# Guardamos

In [8]:
df.to_pickle("../../datos/03_datos_encoded.plk")