# Grupo 05: Transformación de Variables Categóricas

## Cargar los últimos datos a un dataframe

In [None]:
import os

os.chdir("..")
from src.features.feedback_jefes import procesar_feedback_jefes
#Llamar al metodo procesar_feedback_jefes y asignarlo a una variable
df_feedback_jefes = procesar_feedback_jefes()
df_feedback_jefes.head(2)

Unnamed: 0,Age,Attrition,BusinessTravel,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeID,Gender,...,YearsAtCompany,YearsSinceLastPromotion,YearsWithCurrManager,EnvironmentSatisfaction,JobSatisfaction,WorkLifeBalance,average_employee_satisfaction,JobInvolvement,PerformanceRating,average_manager_feedback
0,51,No,Travel_Rarely,Sales,6,2,Life Sciences,1,1,Female,...,1,0,0,3.0,4.0,2.0,3.0,3,3,3.0
1,31,Yes,Travel_Frequently,Research & Development,10,1,Life Sciences,1,2,Female,...,5,1,4,3.0,2.0,4.0,3.0,2,4,3.0


## PASO 1: Identificar las variables categóricas

In [3]:
import pandas as pd

cat_cols = df_feedback_jefes.select_dtypes(include=["object"]).columns.tolist()

print("Variables categóricas detectadas:")
print(cat_cols)

Variables categóricas detectadas:
['Attrition', 'BusinessTravel', 'Department', 'EducationField', 'Gender', 'JobRole', 'MaritalStatus', 'Over18']


## PASO 2: Aplica técnicas de encoding

## Análisis de Variables Categóricas

A continuación, se presenta el análisis de las variables categóricas presentes en el dataset, así como la decisión sobre la técnica de codificación más adecuada para cada una.

| Variable         | Tipo       | Técnica sugerida         | Justificación |
|------------------|------------|---------------------------|---------------|
| `Attrition`       | Binaria    | LabelEncoder              | Solo tiene 2 valores: `"Yes"` / `"No"`. Al ser binaria, puede codificarse como 0 y 1 sin pérdida de información. |
| `BusinessTravel`  | Nominal    | OneHotEncoder             | Tiene múltiples categorías sin un orden lógico, por lo que es mejor representarlas como variables dummy. |
| `Department`      | Nominal    | OneHotEncoder             | Las categorías como `"Sales"`, `"Research & Development"` no tienen jerarquía, por lo tanto OneHot es más apropiado. |
| `EducationField`  | Nominal    | OneHotEncoder             | Al igual que `Department`, no hay un orden implícito entre las categorías. |
| `Gender`          | Binaria    | LabelEncoder              | Tiene dos clases (`"Male"`, `"Female"`), por lo que puede codificarse fácilmente como 0 y 1. |
| `JobRole`         | Nominal    | OneHotEncoder             | Contiene múltiples roles con significados distintos pero sin orden jerárquico, ideal para codificación one-hot. |
| `MaritalStatus`   | Nominal    | OneHotEncoder             | Las categorías como `"Single"`, `"Married"` y `"Divorced"` no representan una escala ordenada. |
| `Over18`          | Binaria    | LabelEncoder               | Contiene 2 valores. |


In [4]:
import os
os.chdir("..")
from src.preprocessing.config import RUTA_ENCODED_DATA
from src.preprocessing.encoding import apply_label_encoding, apply_one_hot_encoding

# Label Encoding a columnas binarias
binary_cols = ['Attrition', 'Gender', 'Over18']
df_encoded, label_encoders = apply_label_encoding(df_feedback_jefes, binary_cols)

# One Hot Encoding a columnas nominales
one_hot_cols = ['BusinessTravel', 'Department', 'EducationField', 'JobRole', 'MaritalStatus']
df_encoded = apply_one_hot_encoding(df_encoded, one_hot_cols)

# Guardar dataset limpio
df_encoded.to_csv(RUTA_ENCODED_DATA, index=False)