## **LIMPIEZA Y TRANSFORMACI√ìN DE LOS DATOS**

Este notebook realiza el proceso completo de limpieza y preparaci√≥n de datos de recursos humanos.

**Pasos principales:**
1. Importaci√≥n de librer√≠as necesarias
2. Carga de datos originales
3. Normalizaci√≥n de nombres de columnas
4. Limpieza de duplicados y columnas sin valor
5. Normalizaci√≥n de datos categ√≥ricos
6. Conversi√≥n de tipos de datos
7. Mapeo de variables ordinales
8. Imputaci√≥n de valores nulos
9. Exportaci√≥n de datos limpios

In [31]:
# ============================================================================
# INSTALACI√ìN E IMPORTACI√ìN DE LIBRER√çAS
# ============================================================================

# Librer√≠as para manipulaci√≥n de datos
import pandas as pd  # Trabajo con DataFrames y an√°lisis de datos
import numpy as np   # Operaciones num√©ricas y arrays
import re            # Expresiones regulares para procesamiento de texto

# Librer√≠as de scikit-learn para imputaci√≥n y escalado
from sklearn.impute import SimpleImputer, KNNImputer  # M√©todos de imputaci√≥n de nulos
from sklearn.preprocessing import StandardScaler      # Estandarizaci√≥n de variables num√©ricas

# Librer√≠a del sistema operativo
import os  # Gesti√≥n de rutas y archivos del sistema

In [32]:
# ============================================================================
# CONFIGURACI√ìN DE VISUALIZACI√ìN DE PANDAS
# ============================================================================

# Mostrar todas las columnas al visualizar DataFrames (sin truncar)
pd.set_option("display.max_columns", None)

# Mostrar hasta 100 filas (por defecto son 60)
pd.set_option("display.max_rows", 100)

In [33]:
# ============================================================================
# CARGA DE DATOS ORIGINALES
# ============================================================================

# Leer el archivo CSV con los datos de recursos humanos desde la carpeta raw
df = pd.read_csv('../data/raw/hr.csv')

# Mostrar las primeras 3 filas para verificar la carga correcta
df.head(3)

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,EnvironmentSatisfaction,Gender,HourlyRate,JobInvolvement,JobLevel,JobRole,JobSatisfaction,MaritalStatus,MonthlyIncome,MonthlyRate,NumCompaniesWorked,Over18,OverTime,PercentSalaryHike,PerformanceRating,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41.0,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,2,Female,94,3,2,sALES eXECUTIVE,4.0,Single,5993.0,19479,8,Y,Yes,11,3,1,80.0,0,8,0.0,1,6,4,0,5.0
1,49.0,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,3,Male,61,2,2,rESEARCH sCIENTIST,2.0,Married,5130.0,24907,1,Y,No,23,4,4,,1,10,3.0,3,10,7,1,7.0
2,37.0,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,4,Male,92,2,1,lABORATORY tECHNICIAN,3.0,Single,2090.0,2396,6,Y,Yes,15,3,2,,0,7,3.0,3,0,0,0,0.0


In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1474 entries, 0 to 1473
Data columns (total 35 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Age                       1401 non-null   float64
 1   Attrition                 1474 non-null   object 
 2   BusinessTravel            1357 non-null   object 
 3   DailyRate                 1474 non-null   int64  
 4   Department                1445 non-null   object 
 5   DistanceFromHome          1474 non-null   int64  
 6   Education                 1474 non-null   int64  
 7   EducationField            1416 non-null   object 
 8   EmployeeCount             1474 non-null   int64  
 9   EmployeeNumber            1474 non-null   int64  
 10  EnvironmentSatisfaction   1474 non-null   int64  
 11  Gender                    1474 non-null   object 
 12  HourlyRate                1474 non-null   int64  
 13  JobInvolvement            1474 non-null   int64  
 14  JobLevel

---
## **1. NORMALIZACI√ìN DE NOMBRES DE COLUMNAS**

Transformamos los nombres de las columnas a un formato est√°ndar (snake_case) para:
- Facilitar el acceso a las columnas sin errores de may√∫sculas
- Mejorar la legibilidad del c√≥digo
- Seguir las mejores pr√°cticas de nomenclatura en Python

In [35]:
def normalizar_nombres_columnas(lista_columnas, mostrar_resumen=True):
    """
    Normaliza los nombres de las columnas de un DataFrame a formato snake_case.
    
    El proceso de normalizaci√≥n incluye:
    - Eliminar espacios al inicio y al final
    - Eliminar caracteres especiales (excepto guiones bajos)
    - Convertir de CamelCase o PascalCase a snake_case
    - Convertir todo a min√∫sculas
    
    Par√°metros:
    -----------
    lista_columnas : list
        Lista con los nombres originales de las columnas
    mostrar_resumen : bool, default=True
        Si True, imprime un resumen de los cambios realizados
    
    Retorna:
    --------
    list
        Lista de nombres de columnas normalizados en formato snake_case
        
    Ejemplo:
    --------
    >>> normalizar_nombres_columnas(['EmployeeNumber', 'BusinessTravel'])
    ['employee_number', 'business_travel']
    """
    nombres_normalizados = []
    
    for nombre in lista_columnas:
        # Paso 1: Eliminar espacios al inicio y al final
        limpia = nombre.strip()
        
        # Paso 2: Eliminar caracteres especiales, conservando solo letras, n√∫meros y guiones bajos
        limpia = re.sub(r'[^0-9a-zA-Z_]', '', limpia)
        
        # Paso 3: Insertar gui√≥n bajo entre min√∫scula/n√∫mero y may√∫scula
        # Ejemplo: 'BusinessTravel' -> 'Business_Travel'
        limpia = re.sub(r'([a-z0-9])([A-Z])', r'\1_\2', limpia)
        
        # Paso 4: Convertir todo a min√∫sculas
        nombres_normalizados.append(limpia.lower())

    # Mostrar resumen de cambios si se solicita
    if mostrar_resumen:
        print("Normalizaci√≥n de nombres de columnas finalizada.")
        print(f"Total columnas procesadas: {len(nombres_normalizados)}")
        print("Resumen de cambios:")
        for orig, nuevo in zip(lista_columnas, nombres_normalizados):
            print(f"'{orig}' -> '{nuevo}'")
    
    return nombres_normalizados

In [36]:
# Aplicar la normalizaci√≥n de nombres a todas las columnas del DataFrame
df.columns = normalizar_nombres_columnas(df.columns.tolist(), mostrar_resumen=True)

Normalizaci√≥n de nombres de columnas finalizada.
Total columnas procesadas: 35
Resumen de cambios:
'Age' -> 'age'
'Attrition' -> 'attrition'
'BusinessTravel' -> 'business_travel'
'DailyRate' -> 'daily_rate'
'Department' -> 'department'
'DistanceFromHome' -> 'distance_from_home'
'Education' -> 'education'
'EducationField' -> 'education_field'
'EmployeeCount' -> 'employee_count'
'EmployeeNumber' -> 'employee_number'
'EnvironmentSatisfaction' -> 'environment_satisfaction'
'Gender' -> 'gender'
'HourlyRate' -> 'hourly_rate'
'JobInvolvement' -> 'job_involvement'
'JobLevel' -> 'job_level'
'JobRole' -> 'job_role'
'JobSatisfaction' -> 'job_satisfaction'
'MaritalStatus' -> 'marital_status'
'MonthlyIncome' -> 'monthly_income'
'MonthlyRate' -> 'monthly_rate'
'NumCompaniesWorked' -> 'num_companies_worked'
'Over18' -> 'over18'
'OverTime' -> 'over_time'
'PercentSalaryHike' -> 'percent_salary_hike'
'PerformanceRating' -> 'performance_rating'
'RelationshipSatisfaction' -> 'relationship_satisfaction'
'

---
## **2. ESTABLECER COLUMNA IDENTIFICADORA COMO √çNDICE**

Usamos la columna de n√∫mero de empleado como √≠ndice del DataFrame para:
- Facilitar el acceso a registros individuales
- Mejorar la eficiencia en b√∫squedas
- Dar estructura l√≥gica al dataset

In [37]:
def usar_columna_como_indice(df, columna_original='employee_number', indice='id'):
    """
    Establece una columna del DataFrame como √≠ndice y la renombra.
    
    Esta funci√≥n es √∫til para identificar de forma √∫nica cada registro
    y facilitar el acceso a los datos.
    
    Par√°metros:
    -----------
    df : pd.DataFrame
        DataFrame a modificar
    columna_original : str, default='employee_number'
        Nombre de la columna que se usar√° como √≠ndice
    indice : str, default='id'
        Nuevo nombre para el √≠ndice (normalmente 'id')
    
    Retorna:
    --------
    pd.DataFrame
        DataFrame con la columna establecida como √≠ndice y renombrada
        
    Raises:
    -------
    ValueError
        Si la columna especificada no existe en el DataFrame
    """
    # Crear copia para no modificar el DataFrame original
    df = df.copy()
    
    # Verificar que la columna existe antes de intentar usarla
    if columna_original not in df.columns:
        raise ValueError(f"La columna '{columna_original}' no existe en el DataFrame.")
    
    # Renombrar la columna al nombre corto deseado
    df.rename(columns={columna_original: indice}, inplace=True)
    
    # Establecer la columna renombrada como √≠ndice del DataFrame
    df.set_index(indice, inplace=True)
    
    print(f"Columna '{columna_original}' renombrada a '{indice}' y establecida como √≠ndice correctamente.")
    
    return df

In [38]:
# Establecer employee_number como √≠ndice y renombrarlo a 'id'
df = usar_columna_como_indice(df, columna_original='employee_number', indice='id')

Columna 'employee_number' renombrada a 'id' y establecida como √≠ndice correctamente.


---
## **3. ELIMINACI√ìN DE FILAS DUPLICADAS**

Identificamos y eliminamos registros duplicados para:
- Evitar sesgos en el an√°lisis
- Mantener la integridad de los datos
- Mejorar la calidad del dataset

In [39]:
def eliminar_filas_duplicadas(df, keep='first'):
    """
    Elimina filas duplicadas del DataFrame.
    
    Los duplicados son filas que tienen valores id√©nticos en todas las columnas.
    Esta funci√≥n permite controlar qu√© ocurrencia del duplicado se conserva.

    Par√°metros:
    -----------
    df : pd.DataFrame
        DataFrame a procesar
    keep : {'first', 'last', False}, default='first'
        Determina qu√© duplicados conservar:
        - 'first'  : conserva la primera aparici√≥n de cada duplicado
        - 'last'   : conserva la √∫ltima aparici√≥n de cada duplicado
        - False    : elimina todas las filas duplicadas (ninguna se conserva)

    Retorna:
    --------
    pd.DataFrame
        DataFrame sin filas duplicadas
    """
    # Crear copia para no modificar el DataFrame original
    df = df.copy()
    
    # Guardar el n√∫mero de filas antes de la limpieza
    num_filas_antes_limpieza = df.shape[0]

    # Eliminar filas duplicadas seg√∫n el criterio especificado
    df.drop_duplicates(keep=keep, inplace=True)

    # Calcular cu√°ntas filas fueron eliminadas
    filas_eliminadas = num_filas_antes_limpieza - df.shape[0]

    # Mostrar resumen del proceso
    print(f"Filas antes de eliminar duplicados: {num_filas_antes_limpieza}")
    print(f"Filas eliminadas por duplicados: {filas_eliminadas}")
    print(f"Filas en el DataFrame tras el procesamiento: {df.shape[0]}")

    return df

In [40]:
# Eliminar duplicados conservando la primera aparici√≥n de cada registro
df = eliminar_filas_duplicadas(df, keep='first')

Filas antes de eliminar duplicados: 1474
Filas eliminadas por duplicados: 4
Filas en el DataFrame tras el procesamiento: 1470


---
## **4. ELIMINACI√ìN DE COLUMNAS SIN APORTE ANAL√çTICO**

Eliminamos columnas que no aportan informaci√≥n √∫til:
- **Columnas constantes**: todas las filas tienen el mismo valor
- **Columnas con alta cardinalidad**: casi todos los valores son √∫nicos

Esto reduce dimensionalidad y mejora la eficiencia del an√°lisis.

In [41]:
def eliminar_columnas_sin_aporte_analitico(df, umbral_cardinalidad=0.95):
    """
    Elimina columnas del DataFrame que no aportan valor anal√≠tico.
    
    Se consideran sin aporte anal√≠tico:
    - Columnas constantes: todos los valores son iguales (no aportan variabilidad)
    - Columnas con alta cardinalidad: la proporci√≥n de valores √∫nicos es muy alta

    Par√°metros:
    -----------
    df : pd.DataFrame
        DataFrame a limpiar
    umbral_cardinalidad : float, default=0.95
        Proporci√≥n m√°xima de valores √∫nicos permitida (entre 0 y 1)
        Si la cardinalidad supera este umbral, la columna se elimina
        Por defecto 0.95 significa que si m√°s del 95% de valores son √∫nicos, se elimina

    Retorna:
    --------
    pd.DataFrame
        DataFrame con las columnas problem√°ticas eliminadas
    """
    # Crear copia para no modificar el DataFrame original
    df = df.copy()
    
    # Lista para almacenar nombres de columnas a eliminar
    columnas_a_eliminar = []

    # Revisar cada columna del DataFrame
    for columna in df.columns:
        # Caso 1: Columna constante (todos los valores son iguales)
        # nunique() cuenta cu√°ntos valores √∫nicos hay
        if df[columna].nunique() == 1:
            columnas_a_eliminar.append(columna)
            
        # Caso 2: Columna con alta cardinalidad
        # Calculamos la proporci√≥n de valores √∫nicos respecto al total de filas
        elif df[columna].nunique() / len(df) > umbral_cardinalidad:
            columnas_a_eliminar.append(columna)

    # Eliminar todas las columnas identificadas
    df.drop(columns=columnas_a_eliminar, inplace=True)

    # Mostrar resumen de la operaci√≥n
    print(f"Columnas eliminadas por no aportar valor anal√≠tico: {columnas_a_eliminar}")
    print(f"Total columnas eliminadas: {len(columnas_a_eliminar)}")
    print(f"Columnas restantes en el DataFrame: {df.shape[1]}")

    return df

In [42]:
# Eliminar columnas constantes y con alta cardinalidad (>95% valores √∫nicos)
df = eliminar_columnas_sin_aporte_analitico(df, umbral_cardinalidad=0.95)

Columnas eliminadas por no aportar valor anal√≠tico: ['employee_count', 'monthly_rate', 'over18', 'standard_hours']
Total columnas eliminadas: 4
Columnas restantes en el DataFrame: 30


---
## **5. NORMALIZACI√ìN DE COLUMNAS DE TEXTO**

Estandarizamos los valores de texto para:
- Eliminar espacios innecesarios
- Unificar formato (Title Case)
- Corregir errores tipogr√°ficos
- Simplificar categor√≠as

In [43]:
def normalizar_columnas_texto(df, mapeos_reemplazo=None, mostrar_resumen=True):
    """
    Normaliza columnas de texto o categ√≥ricas y aplica correcciones espec√≠ficas.
    
    El proceso incluye:
    1. Eliminar espacios en blanco al inicio y al final de cada valor
    2. Convertir texto a Title Case (Primera Letra May√∫scula)
    3. Aplicar mapeos de reemplazo personalizados (correcciones, simplificaciones)

    Par√°metros:
    -----------
    df : pd.DataFrame
        DataFrame a procesar
    mapeos_reemplazo : dict, optional
        Diccionario de mapeos para corregir valores espec√≠ficos
        Formato: {'nombre_columna': {'valor_antiguo': 'valor_nuevo', ...}, ...}
        Ejemplo: {'marital_status': {'Marreid': 'Married'}}
    mostrar_resumen : bool, default=True
        Si True, imprime resumen de columnas procesadas y categor√≠as finales

    Retorna:
    --------
    pd.DataFrame
        DataFrame con columnas de texto normalizadas
    """
    # Crear copia para no modificar el DataFrame original
    df = df.copy()
    
    # Identificar columnas de texto/categ√≥ricas
    columnas_texto = df.select_dtypes(include=['object', 'category']).columns.tolist()
    
    # Lista para rastrear columnas donde se aplicaron reemplazos
    columnas_con_reemplazo = []

    for col in columnas_texto:
        # Paso 1: Eliminar espacios al inicio/final y convertir a Title Case
        # .str.strip() elimina espacios en blanco
        # .str.title() convierte a formato "Primera Letra May√∫scula"
        df[col] = df[col].str.strip().str.title()

        # Paso 2: Aplicar mapeos de reemplazo espec√≠ficos si existen
        if mapeos_reemplazo and col in mapeos_reemplazo:
            df[col] = df[col].replace(mapeos_reemplazo[col])
            columnas_con_reemplazo.append(col)

    # Mostrar resumen del proceso
    if mostrar_resumen:
        print("Normalizaci√≥n de columnas de texto finalizada.")
        print(f"Columnas procesadas: {columnas_texto}")

        if columnas_con_reemplazo:
            print(f"Se aplicaron mapeos de reemplazo en: {columnas_con_reemplazo}")
            for col in columnas_con_reemplazo:
                print(f"Categor√≠as finales de '{col}': {df[col].unique().tolist()}")

    return df

In [44]:
# Definir mapeos para corregir errores tipogr√°ficos y simplificar valores
mapeos_reemplazo = {
    # Corregir error tipogr√°fico en estado civil
    'marital_status': {'Marreid': 'Married'},
    
    # Simplificar categor√≠as de frecuencia de viaje
    'business_travel': {
        'Travel_Rarely': 'Rarely',
        'Travel_Frequently': 'Frequently',
        'Non-Travel': 'Non'
    }
}

# Aplicar normalizaci√≥n de texto con los mapeos definidos
df = normalizar_columnas_texto(df, mapeos_reemplazo=mapeos_reemplazo)

Normalizaci√≥n de columnas de texto finalizada.
Columnas procesadas: ['attrition', 'business_travel', 'department', 'education_field', 'gender', 'job_role', 'marital_status', 'over_time']
Se aplicaron mapeos de reemplazo en: ['business_travel', 'marital_status']
Categor√≠as finales de 'business_travel': ['Rarely', 'Frequently', 'Non', nan]
Categor√≠as finales de 'marital_status': ['Single', 'Married', 'Divorced', nan]


---
## **6. CONVERSI√ìN DE TIPOS DE DATOS**

Convertimos columnas a los tipos de datos apropiados para:
- Reducir consumo de memoria
- Permitir operaciones matem√°ticas correctas
- Manejar valores nulos de forma adecuada (Int64 vs int64)

In [45]:
def convertir_tipos_columnas(df, mapeo_tipos, mostrar_resumen=True):
    """
    Convierte columnas de un DataFrame a tipos de datos espec√≠ficos.
    
    Esta funci√≥n es √∫til para optimizar el uso de memoria y asegurar
    que cada columna tenga el tipo de dato correcto para su an√°lisis.

    Par√°metros:
    -----------
    df : pd.DataFrame
        DataFrame a modificar
    mapeo_tipos : dict
        Diccionario con nombres de columnas como claves y tipos de datos como valores
        Tipos comunes: int, float, 'Int64', 'Float64', 'category', 'str'
        Nota: 'Int64' (may√∫scula) permite valores nulos, 'int64' (min√∫scula) no
        Ejemplo: {'age': 'Int64', 'salary': float}
    mostrar_resumen : bool, default=True
        Si True, imprime resumen de conversiones y tabla de tipos finales

    Retorna:
    --------
    pd.DataFrame
        DataFrame con columnas convertidas a los tipos especificados
    """
    # Crear copia para no modificar el DataFrame original
    df = df.copy()
    
    # Lista para rastrear columnas convertidas exitosamente
    columnas_convertidas = []

    # Intentar convertir cada columna especificada
    for columna, tipo in mapeo_tipos.items():
        # Verificar que la columna existe en el DataFrame
        if columna in df.columns:
            try:
                # Intentar la conversi√≥n de tipo
                # errors='ignore' evita errores si la conversi√≥n falla en algunos valores
                df[columna] = df[columna].astype(tipo, errors='ignore')
                columnas_convertidas.append(columna)
            except Exception as e:
                # Si falla, informar del error pero continuar con otras columnas
                print(f"No se pudo convertir la columna '{columna}' a {tipo}: {e}")

    # Mostrar resumen del proceso
    if mostrar_resumen:
        print("Conversi√≥n de tipos finalizada.")
        if columnas_convertidas:
            print(f"Columnas convertidas: {columnas_convertidas}")
        else:
            print("No se convirti√≥ ninguna columna.")

        # Mostrar tabla con todos los tipos de datos finales
        print("\nTipos de datos finales por columna:")
        tipos_finales = pd.DataFrame({
            "Columna": df.columns,
            "Tipo de dato": [df[col].dtype for col in df.columns]
        })
        display(tipos_finales)
            
    return df

In [46]:
# Definir el mapeo de tipos de datos para cada columna
mapeo_tipos = {
    "age": "Int64",                      # Int64 permite valores nulos (nullable integer)
    "daily_rate": float,                 # Tasa diaria como n√∫mero decimal
    "hourly_rate": float,                # Tasa horaria como n√∫mero decimal
    "training_times_last_year": "Int64", # N√∫mero de entrenamientos (puede tener nulos)
    "years_with_curr_manager": "Int64",  # A√±os con el manager actual (puede tener nulos)
}

# Aplicar la conversi√≥n de tipos
df = convertir_tipos_columnas(df, mapeo_tipos)

Conversi√≥n de tipos finalizada.
Columnas convertidas: ['age', 'daily_rate', 'hourly_rate', 'training_times_last_year', 'years_with_curr_manager']

Tipos de datos finales por columna:


Unnamed: 0,Columna,Tipo de dato
0,age,Int64
1,attrition,object
2,business_travel,object
3,daily_rate,float64
4,department,object
5,distance_from_home,int64
6,education,int64
7,education_field,object
8,environment_satisfaction,int64
9,gender,object


---
## **7. MAPEO DE VARIABLES ORDINALES**

Convertimos valores num√©ricos codificados en etiquetas sem√°nticas para:
- Mejorar la interpretabilidad (1‚Üí"Becario" es m√°s claro que 1)
- Facilitar la comunicaci√≥n de resultados
- Mantener el orden l√≥gico de las categor√≠as

In [47]:
def mapear_columnas_ordinales(df, mapeos_columnas, mostrar_resumen=True):
    """
    Aplica mapeo sem√°ntico a columnas ordinales del DataFrame.
    
    Las variables ordinales son aquellas que tienen un orden natural
    (ej: 1=Bajo, 2=Medio, 3=Alto). Esta funci√≥n las convierte de c√≥digos
    num√©ricos a etiquetas textuales m√°s comprensibles.

    Par√°metros:
    -----------
    df : pd.DataFrame
        DataFrame a modificar
    mapeos_columnas : dict
        Diccionario con nombres de columnas como claves y diccionarios de mapeo como valores
        Formato: {'columna': {valor_numerico: 'etiqueta_texto', ...}, ...}
        Ejemplo:
        {
            "education": {1: "Sin estudios", 2: "Educaci√≥n b√°sica", ...},
            "job_level": {1: "Becario", 2: "Junior", ...}
        }
    mostrar_resumen : bool, default=True
        Si True, imprime resumen de columnas mapeadas y sus valores √∫nicos

    Retorna:
    --------
    pd.DataFrame
        DataFrame con columnas ordinales mapeadas a etiquetas textuales
    """
    # Crear copia para no modificar el DataFrame original
    df = df.copy()
    
    # Lista para rastrear columnas mapeadas
    columnas_mapeadas = []

    # Aplicar cada mapeo especificado
    for columna, mapa in mapeos_columnas.items():
        # Verificar que la columna existe
        if columna in df.columns:
            # .map() reemplaza cada valor seg√∫n el diccionario proporcionado
            # Ej: si mapa = {1: "Bajo", 2: "Alto"}, entonces 1 se convierte en "Bajo"
            df[columna] = df[columna].map(mapa)
            columnas_mapeadas.append(columna)

    # Mostrar resumen del proceso
    if mostrar_resumen:
        print("üîπ Mapeo de columnas ordinales finalizado.")
        print(f"Columnas mapeadas: {columnas_mapeadas}")
        # Mostrar valores √∫nicos de cada columna mapeada para verificaci√≥n
        for col in columnas_mapeadas:
            print(f"{col}: {df[col].unique()}")

    return df

In [48]:
# ============================================================================
# DEFINICI√ìN DE MAPEOS PARA VARIABLES ORDINALES
# ============================================================================

# Mapeo para variables de satisfacci√≥n (escala 1-4)
satisfaction_map = {
    1: "Nada satisfecho",
    2: "Insatisfecho",
    3: "Satisfecho",
    4: "Muy satisfecho",
}

# Mapeo para nivel educativo (escala 1-5)
education_map = {
    1: "Sin estudios",
    2: "Educaci√≥n b√°sica",
    3: "FP/Bachiller",
    4: "Estudios universitarios",
    5: "Postgrado",
}

# Mapeo para nivel de puesto (escala 1-5)
job_level_map = {
    1: "Becario",
    2: "Junior",
    3: "Senior",
    4: "Manager",
    5: "Director",
}

# Lista de columnas que usan la escala de satisfacci√≥n
satisfaction_cols = [
    "env_satisfaction",      # Satisfacci√≥n con el ambiente
    "job_involvement",       # Involucramiento en el trabajo
    "job_satisfaction",      # Satisfacci√≥n laboral
    "performance_score",     # Autoevaluaci√≥n de desempe√±o
    "rel_satisfaction",      # Satisfacci√≥n con relaciones
    "work_life_balance",     # Balance vida-trabajo
]

# Construir diccionario completo de mapeos
# Todas las columnas de satisfacci√≥n usan el mismo mapeo
mapeos_ordinales = {col: satisfaction_map for col in satisfaction_cols}

# A√±adir mapeos espec√≠ficos para educaci√≥n y nivel de puesto
mapeos_ordinales["education"] = education_map
mapeos_ordinales["job_level"] = job_level_map

# Aplicar todos los mapeos al DataFrame
df = mapear_columnas_ordinales(df, mapeos_ordinales)

üîπ Mapeo de columnas ordinales finalizado.
Columnas mapeadas: ['job_involvement', 'job_satisfaction', 'work_life_balance', 'education', 'job_level']
job_involvement: ['Satisfecho' 'Insatisfecho' 'Muy satisfecho' 'Nada satisfecho']
job_satisfaction: ['Muy satisfecho' 'Insatisfecho' 'Satisfecho' 'Nada satisfecho' nan]
work_life_balance: ['Nada satisfecho' 'Satisfecho' 'Insatisfecho' 'Muy satisfecho']
education: ['Educaci√≥n b√°sica' 'Sin estudios' 'Estudios universitarios'
 'FP/Bachiller' 'Postgrado']
job_level: ['Junior' 'Becario' 'Senior' 'Manager' 'Director']


---
## **8. IMPUTACI√ìN DE VALORES NULOS EN VARIABLES CATEG√ìRICAS**

Rellenamos valores faltantes en variables categ√≥ricas siguiendo reglas basadas en:
- **Porcentaje de nulos**: alto (>20%), medio (5-20%), bajo (<5%)
- **Dominancia de la moda**: qu√© tan frecuente es la categor√≠a m√°s com√∫n
- **Ventaja de la moda**: diferencia con la segunda categor√≠a m√°s frecuente

**Estrategias:**
- Muchos nulos (>20%) ‚Üí `Unknown`
- Pocos nulos con moda dominante ‚Üí Moda
- Resto de casos ‚Üí `Unknown`

In [49]:
def imputar_categoricas(df, columnas, umbral_nulos_alto=0.20, umbral_nulos_bajo=0.05,
                        umbral_moda_bajo=0.50, umbral_moda_medio=0.60, umbral_ventaja=0.20,
                        etiqueta_unknown="Unknown"):
    """
    Imputa valores nulos en variables categ√≥ricas siguiendo reglas justificables estad√≠sticamente.
    
    L√ìGICA DE IMPUTACI√ìN:
    
    1) % de nulos ALTO (> 20%):
       ‚Üí Imputar con 'Unknown'
       ‚Üí Justificaci√≥n: Con muchos nulos, imputar por moda inventa demasiada informaci√≥n
    
    2) % de nulos BAJO (‚â§ 5%) o MEDIO (5-20%):
       ‚Üí Imputar con MODA solo si hay una categor√≠a verdaderamente dominante
       ‚Üí Condiciones para usar moda:
          a) La moda debe superar un umbral m√≠nimo:
             - Nulos bajos: moda ‚â• 50% del total
             - Nulos medios: moda ‚â• 60% del total (m√°s exigente)
          b) La moda debe tener ventaja sobre la 2¬™ categor√≠a:
             - (% moda - % segunda) ‚â• 20 puntos porcentuales
       ‚Üí Si NO se cumplen estas condiciones ‚Üí 'Unknown'

    Par√°metros:
    -----------
    df : pd.DataFrame
        DataFrame a procesar (se modifica)
    columnas : list[str]
        Lista de columnas categ√≥ricas donde imputar nulos
    umbral_nulos_alto : float, default=0.20
        Umbral para considerar % de nulos como "alto"
    umbral_nulos_bajo : float, default=0.05
        Umbral para considerar % de nulos como "bajo"
    umbral_moda_bajo : float, default=0.50
        % m√≠nimo que debe tener la moda cuando los nulos son bajos
    umbral_moda_medio : float, default=0.60
        % m√≠nimo que debe tener la moda cuando los nulos son medios
    umbral_ventaja : float, default=0.20
        Ventaja m√≠nima (en puntos porcentuales) entre moda y 2¬™ categor√≠a
    etiqueta_unknown : str, default="Unknown"
        Etiqueta para imputar cuando no se usa la moda

    Retorna:
    --------
    pd.DataFrame
        DataFrame con nulos imputados en las columnas especificadas
    """

    total = len(df)

    for col in columnas:
        print(f"\nüìå Analizando columna: {col}")
        
        # Validar que la columna existe
        if col not in df.columns:
            print(f"‚ùå La columna {col} no existe en el DataFrame. Se omite.")
            continue

        # Contar nulos y calcular porcentaje
        nulos = df[col].isnull().sum()
        porcentaje_nulos = nulos / total if total > 0 else 0

        print(f"   ‚Üí Nulos: {nulos} de {total} ({porcentaje_nulos:.2%})")

        # ================================================================
        # REGLA 1: Muchos nulos ‚Üí Unknown directamente
        # ================================================================
        if porcentaje_nulos > umbral_nulos_alto:
            print(
                f"   üî¥ Porcentaje de nulos > {umbral_nulos_alto:.0%} "
                f"‚Üí se crea la categor√≠a '{etiqueta_unknown}'"
            )
            df[col] = df[col].fillna(etiqueta_unknown)
            continue
        
        # Calcular frecuencias de categor√≠as (sin contar nulos)
        valores = df[col].value_counts(dropna=True)

        # Si no hay valores no nulos, imputar con Unknown
        if len(valores) == 0:
            print(
                f"   üî¥ No hay valores no nulos para decidir moda "
                f"‚Üí se crea la categor√≠a '{etiqueta_unknown}'"
            )
            df[col] = df[col].fillna(etiqueta_unknown)
            continue

        # Obtener moda (categor√≠a m√°s frecuente)
        primero = valores.iloc[0]  # Frecuencia absoluta de la moda
        pct_primero = primero / total  # Proporci√≥n sobre el total de filas

        # Obtener segunda categor√≠a m√°s frecuente (si existe)
        if len(valores) > 1:
            segundo = valores.iloc[1]
            pct_segundo = segundo / total
        else:
            pct_segundo = 0.0

        # Calcular ventaja de la moda sobre la 2¬™ categor√≠a
        ventaja = pct_primero - pct_segundo

        # Mostrar informaci√≥n de las categor√≠as principales
        print(f"   ‚Üí Moda: {valores.index[0]} ({pct_primero:.2%})")
        print(f"   ‚Üí 2¬™ categor√≠a: {valores.index[1] if len(valores) > 1 else 'No existe'} ({pct_segundo:.2%})")
        print(f"   ‚Üí Ventaja de la moda: {ventaja:.2%}")

        # ================================================================
        # REGLA 2: Determinar umbral de moda seg√∫n % de nulos
        # ================================================================
        if porcentaje_nulos <= umbral_nulos_bajo:
            umbral_moda = umbral_moda_bajo
            print(
                f"   ‚Üí Nulos bajos (‚â§ {umbral_nulos_bajo:.0%}), "
                f"umbral de moda requerido: {umbral_moda:.0%}"
            )
        else:  # Nulos medios (entre bajo y alto)
            umbral_moda = umbral_moda_medio
            print(
                f"   ‚Üí Nulos medios (> {umbral_nulos_bajo:.0%} y ‚â§ {umbral_nulos_alto:.0%}), "
                f"umbral de moda requerido: {umbral_moda:.0%}"
            )
        
        # ================================================================
        # REGLA 3: Imputar por moda solo si es dominante Y tiene ventaja
        # ================================================================
        if (pct_primero >= umbral_moda) and (ventaja >= umbral_ventaja):
            moda = df[col].mode(dropna=True)[0]
            print(
                f"   üü¢ La moda es dominante y con ventaja suficiente "
                f"(‚â• {umbral_ventaja:.0%}) ‚Üí se imputan nulos con '{moda}'"
            )
            df[col] = df[col].fillna(moda)
        else:
            print(
                f"   üü° La moda NO es lo suficientemente dominante "
                f"‚Üí se crea la categor√≠a '{etiqueta_unknown}'"
            )
            df[col] = df[col].fillna(etiqueta_unknown)

    return df

In [50]:
# ============================================================================
# PREPARACI√ìN Y APLICACI√ìN DE IMPUTACI√ìN CATEG√ìRICA
# ============================================================================

# Paso 1: Identificar columnas categ√≥ricas (object o category)
cols_cat = df.select_dtypes(include=["object", "category"]).columns.tolist()

# Paso 2: Excluir la variable objetivo 'attrition' de la imputaci√≥n
# (no queremos imputar la variable que es objeto de an√°lisis)
cols_cat = [c for c in cols_cat if c.lower() != "attrition"]

# Paso 3: Normalizar espacios en blanco vac√≠os a NaN
# Algunos datasets tienen celdas con solo espacios que pandas no detecta como nulos
# El regex r'^\s*$' busca cadenas que solo contengan espacios (o est√©n vac√≠as)
df[cols_cat] = df[cols_cat].replace(r'^\s*$', pd.NA, regex=True)

# Paso 4: Aplicar imputaci√≥n con las reglas definidas
df = imputar_categoricas(df, cols_cat)


üìå Analizando columna: business_travel
   ‚Üí Nulos: 117 de 1470 (7.96%)
   ‚Üí Moda: Rarely (64.69%)
   ‚Üí 2¬™ categor√≠a: Frequently (17.89%)
   ‚Üí Ventaja de la moda: 46.80%
   ‚Üí Nulos medios (> 5% y ‚â§ 20%), umbral de moda requerido: 60%
   üü¢ La moda es dominante y con ventaja suficiente (‚â• 20%) ‚Üí se imputan nulos con 'Rarely'

üìå Analizando columna: department
   ‚Üí Nulos: 29 de 1470 (1.97%)
   ‚Üí Moda: Research & Development (63.88%)
   ‚Üí 2¬™ categor√≠a: Sales (29.86%)
   ‚Üí Ventaja de la moda: 34.01%
   ‚Üí Nulos bajos (‚â§ 5%), umbral de moda requerido: 50%
   üü¢ La moda es dominante y con ventaja suficiente (‚â• 20%) ‚Üí se imputan nulos con 'Research & Development'

üìå Analizando columna: education
   ‚Üí Nulos: 0 de 1470 (0.00%)
   ‚Üí Moda: FP/Bachiller (38.91%)
   ‚Üí 2¬™ categor√≠a: Estudios universitarios (27.07%)
   ‚Üí Ventaja de la moda: 11.84%
   ‚Üí Nulos bajos (‚â§ 5%), umbral de moda requerido: 50%
   üü° La moda NO es lo suficientemente

---
## **9. IMPUTACI√ìN DE VALORES NULOS EN VARIABLES NUM√âRICAS**

Rellenamos valores faltantes en variables num√©ricas usando estrategias robustas:

**Estrategias seg√∫n % de nulos:**
- **Nulos bajos (‚â§5%)**: Mediana (robusta a outliers)
- **Nulos medios (5-20%)**: KNN con escalado (usa informaci√≥n de registros similares)
- **Nulos altos (>20%)**: Mediana + indicador de missingness

**¬øPor qu√© escalado con KNN?**
KNN calcula distancias entre filas. Si una variable est√° en escala 0-10 y otra en 0-10,000,
la segunda dominar√≠a el c√°lculo. El escalado (StandardScaler) pone todas las variables
en la misma escala antes de calcular similitudes.

In [51]:
def imputar_numericas(df, columnas, umbral_nulos_bajo=0.05, umbral_nulos_alto=0.20,
                      n_neighbors=5, crear_indicador_missing=True, usar_knn_en_alto=False):
    """
    Imputa valores nulos en variables num√©ricas con estrategias robustas.
    
    L√ìGICA DE IMPUTACI√ìN:
    
    1) % de nulos BAJO (‚â§ 5%):
       ‚Üí Imputar con MEDIANA (SimpleImputer)
       ‚Üí Justificaci√≥n: Con pocos nulos, la mediana es estable y robusta a outliers
    
    2) % de nulos MODERADO (5-20%):
       ‚Üí Imputar con KNN (KNNImputer) usando escalado
       ‚Üí Justificaci√≥n: KNN aprovecha informaci√≥n de registros similares
       ‚Üí Requiere escalado porque KNN usa distancias entre filas
    
    3) % de nulos ALTO (> 20%):
       ‚Üí Crear variable indicadora de missingness (col_missing: 0/1)
       ‚Üí Imputar con MEDIANA (por defecto) o KNN (si usar_knn_en_alto=True)
       ‚Üí Justificaci√≥n: La presencia de nulo puede ser informativa
    
    IMPORTANTE SOBRE KNN Y ESCALADO:
    KNN calcula similitud entre filas usando distancias. Si las columnas est√°n en
    escalas diferentes (ej: una en 0-10, otra en 0-10000), la de mayor rango
    dominar√≠a el c√°lculo. Por eso:
      1. Escalamos (StandardScaler): (x - media) / desviaci√≥n
      2. Aplicamos KNN en el espacio escalado
      3. Desescalamos para volver a unidades originales

    Par√°metros:
    -----------
    df : pd.DataFrame
        DataFrame a procesar (se modifica)
    columnas : list[str]
        Lista de columnas num√©ricas donde imputar nulos
    umbral_nulos_bajo : float, default=0.05
        Umbral para % de nulos "bajo"
    umbral_nulos_alto : float, default=0.20
        Umbral para % de nulos "alto"
    n_neighbors : int, default=5
        N√∫mero de vecinos (k) para KNNImputer
    crear_indicador_missing : bool, default=True
        Si True, crea columna col_missing cuando % nulos es alto
    usar_knn_en_alto : bool, default=False
        Si True, usa KNN tambi√©n cuando % nulos es alto (m√°s costoso)

    Retorna:
    --------
    pd.DataFrame
        DataFrame con nulos imputados en las columnas especificadas
    """
    
    #Guardar los tipos originales para restaurar a int de nuevo tras la imputaci√≥n
    dtypes_originales = df.dtypes.copy()
    total = len(df)

    # Filtrar solo columnas que existen 
    columnas_validas = df[columnas].select_dtypes(include=[np.number]).columns.tolist()
    columnas_no_encontradas = [c for c in columnas if c not in df.columns]
    
    for c in columnas_no_encontradas:
        print(f"{c} no existe en el DataFrame. Se omite.")

    # Verificar que son num√©ricas
    cols_num_df = df.select_dtypes(include=[np.number]).columns.tolist()
    columnas_validas = [c for c in columnas_validas if c in cols_num_df]

    if len(columnas_validas) == 0:
        print("No hay columnas num√©ricas v√°lidas para imputar.")
        return df

    # Preparar imputador de mediana (se reutiliza)
    imputer_mediana = SimpleImputer(strategy="median")

    # Para KNN usamos todas las num√©ricas como contexto (mejora la similitud)
    cols_num_contexto = cols_num_df

    for col in columnas_validas:
        print(f"\nüìå Analizando columna num√©rica: {col}")

        nulos = df[col].isnull().sum()
        porcentaje_nulos = nulos / total if total > 0 else 0
        print(f"   ‚Üí Nulos: {nulos} de {total} ({porcentaje_nulos:.2%})")

        # ================================================================
        # CASO 1: Nulos bajos ‚Üí MEDIANA
        # ================================================================
        if porcentaje_nulos <= umbral_nulos_bajo:
            print(
                f"   üü¢ Nulos bajos (‚â§ {umbral_nulos_bajo:.0%}) "
                f"‚Üí imputaci√≥n con MEDIANA (SimpleImputer)"
            )
            df[[col]] = imputer_mediana.fit_transform(df[[col]])
            continue

        # ================================================================
        # CASO 2: Nulos moderados ‚Üí KNN con ESCALADO
        # ================================================================
        if porcentaje_nulos <= umbral_nulos_alto:
            print(
                f"   üü° Nulos moderados (> {umbral_nulos_bajo:.0%} y ‚â§ {umbral_nulos_alto:.0%}) "
                f"‚Üí imputaci√≥n con KNN (k={n_neighbors}) + ESCALADO"
            )

            # Paso 1: Extraer bloque num√©rico completo (para contexto de similitud)
            X = df[cols_num_contexto].copy()

            # Paso 2: ESCALAR - poner todas las columnas en escala comparable
            # StandardScaler: z = (x - media) / desviaci√≥n_est√°ndar
            scaler = StandardScaler()
            X_scaled = scaler.fit_transform(X)

            # Paso 3: Imputar usando KNN en el espacio escalado
            knn = KNNImputer(n_neighbors=n_neighbors)
            X_imputed_scaled = knn.fit_transform(X_scaled)

            # Paso 4: DESESCALAR - volver a las unidades originales
            X_imputed = scaler.inverse_transform(X_imputed_scaled)

            # Paso 5: Convertir de vuelta a DataFrame
            X_imputed = pd.DataFrame(X_imputed, columns=cols_num_contexto, index=df.index)

            # Paso 6: Guardar solo la columna objetivo (no tocamos otras num√©ricas)
            df[col] = X_imputed[col]

            print(f"   ‚úÖ {col} imputada con KNN + escalado (solo se asigna esta columna).")
            continue

        # ================================================================
        # CASO 3: Nulos altos ‚Üí INDICADOR + MEDIANA/KNN
        # ================================================================
        print(
            f"   üî¥ Nulos altos (> {umbral_nulos_alto:.0%}) "
            f"‚Üí se considera missingness + imputaci√≥n robusta"
        )

        # Crear variable indicadora de nulo (1 si era nulo, 0 si no)
        if crear_indicador_missing:
            indicador = f"{col}_missing"
            df[indicador] = df[col].isnull().astype(int)
            print(f"   ‚Üí Se crea indicador de missingness: {indicador} (1=nulo, 0=no nulo)")

        # Decidir m√©todo de imputaci√≥n
        if usar_knn_en_alto:
            print(
                f"   üü† usar_knn_en_alto=True "
                f"‚Üí imputaci√≥n con KNN (k={n_neighbors}) + ESCALADO"
            )

            X = df[cols_num_contexto].copy()
            scaler = StandardScaler()
            X_scaled = scaler.fit_transform(X)

            knn = KNNImputer(n_neighbors=n_neighbors)
            X_imputed_scaled = knn.fit_transform(X_scaled)

            X_imputed = scaler.inverse_transform(X_imputed_scaled)
            X_imputed = pd.DataFrame(X_imputed, columns=cols_num_contexto, index=df.index)

            df[col] = X_imputed[col]
            print(f"   ‚úÖ {col} imputada con KNN + escalado (solo se asigna esta columna).")

        else:
            print("   üü† Se imputa con MEDIANA (SimpleImputer) por estabilidad.")
            df[[col]] = imputer_mediana.fit_transform(df[[col]])


    # Restaurar tipos de datos orginales (int + redondear + convertir)
    for col in columnas_validas:
        if col in dtypes_originales:
            # Si originalmente era entero ‚Üí restaurar
            if pd.api.types.is_integer_dtype(dtypes_originales[col]):
                print(f"   üîÑ Restaurando tipo entero en: {col}")
                df[col] = (
                    df[col]
                    .round()          # eliminar decimales de KNN
                    .astype("Int64")  # volver a int
                )
    return df

In [52]:
# ============================================================================
# PREPARACI√ìN Y APLICACI√ìN DE IMPUTACI√ìN NUM√âRICA
# ============================================================================

# Paso 1: Identificar columnas num√©ricas (int o float)
cols_num = df.select_dtypes(include=[np.number]).columns[df.select_dtypes(include=[np.number]).isnull().any()].tolist()

# Paso 2: Definir las columnas espec√≠ficas que queremos procesar
# (Podemos usar todas las num√©ricas detectadas o una lista personalizada)
# cols_a_imputar_num = ['age', 'monthly_income', 'total_working_years', ...] 
cols_a_imputar_num = cols_num 

# Paso 3: Aplicar imputaci√≥n con l√≥gica de escenarios (Mediana / KNN / Indicador)
df = imputar_numericas(
    df, 
    columnas=cols_a_imputar_num,
    umbral_nulos_bajo=0.05, 
    umbral_nulos_alto=0.20,
    n_neighbors=5,
    crear_indicador_missing=True,
    usar_knn_en_alto=False
)

# Paso 4: Verificaci√≥n final de la limpieza
# Comprobamos que no queden nulos en las columnas procesadas
nulos_restantes = df[cols_a_imputar_num].isnull().sum().sum()
print(f"‚úÖ Proceso finalizado. Nulos num√©ricos restantes: {nulos_restantes}")


üìå Analizando columna num√©rica: age
   ‚Üí Nulos: 73 de 1470 (4.97%)
   üü¢ Nulos bajos (‚â§ 5%) ‚Üí imputaci√≥n con MEDIANA (SimpleImputer)

üìå Analizando columna num√©rica: monthly_income
   ‚Üí Nulos: 14 de 1470 (0.95%)
   üü¢ Nulos bajos (‚â§ 5%) ‚Üí imputaci√≥n con MEDIANA (SimpleImputer)

üìå Analizando columna num√©rica: training_times_last_year
   ‚Üí Nulos: 88 de 1470 (5.99%)
   üü° Nulos moderados (> 5% y ‚â§ 20%) ‚Üí imputaci√≥n con KNN (k=5) + ESCALADO
   ‚úÖ training_times_last_year imputada con KNN + escalado (solo se asigna esta columna).

üìå Analizando columna num√©rica: years_with_curr_manager
   ‚Üí Nulos: 147 de 1470 (10.00%)
   üü° Nulos moderados (> 5% y ‚â§ 20%) ‚Üí imputaci√≥n con KNN (k=5) + ESCALADO
   ‚úÖ years_with_curr_manager imputada con KNN + escalado (solo se asigna esta columna).
   üîÑ Restaurando tipo entero en: age
   üîÑ Restaurando tipo entero en: training_times_last_year
   üîÑ Restaurando tipo entero en: years_with_curr_manager
‚ú

In [53]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1470 entries, 1 to 2068
Data columns (total 30 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   age                         1470 non-null   Int64  
 1   attrition                   1470 non-null   object 
 2   business_travel             1470 non-null   object 
 3   daily_rate                  1470 non-null   float64
 4   department                  1470 non-null   object 
 5   distance_from_home          1470 non-null   int64  
 6   education                   1470 non-null   object 
 7   education_field             1470 non-null   object 
 8   environment_satisfaction    1470 non-null   int64  
 9   gender                      1470 non-null   object 
 10  hourly_rate                 1470 non-null   float64
 11  job_involvement             1470 non-null   object 
 12  job_level                   1470 non-null   object 
 13  job_role                    1470 non-n

---
## **10. FUNCI√ìN DE LIMPIEZA GENERAL**

Esta funci√≥n integra todos los pasos anteriores en un solo proceso automatizado.
Es √∫til cuando quieres aplicar todo el flujo de limpieza de una sola vez.

In [54]:
def limpieza_general(
    df,
    id_columna='employee_number',
    mapeo_tipos=None,
    mapeos_texto=None,
    mapeos_ordinales=None,
    columnas_categoricas_nulos=None,
    columnas_numericas_nulos=None,
    mostrar_resumen=True
):
    """
    Ejecuta el proceso completo de limpieza de datos en un DataFrame.
    
    Esta funci√≥n orquesta todos los pasos de limpieza en el orden correcto:
    1. Normalizaci√≥n de nombres de columnas (snake_case)
    2. Establecer columna ID como √≠ndice
    3. Eliminaci√≥n de filas duplicadas
    4. Eliminaci√≥n de columnas sin aporte anal√≠tico
    5. Conversi√≥n de tipos de datos
    6. Normalizaci√≥n de columnas de texto
    7. Mapeo de columnas ordinales
    8. Imputaci√≥n de nulos en categ√≥ricas
    9. Imputaci√≥n de nulos en num√©ricas

    Par√°metros:
    -----------
    df : pd.DataFrame
        DataFrame original a limpiar
    id_columna : str, default='employee_number'
        Nombre de la columna que se usar√° como √≠ndice
    mapeo_tipos : dict, optional
        Diccionario de conversi√≥n de tipos {'columna': tipo}
    mapeos_texto : dict, optional
        Diccionario de reemplazos en texto {'columna': {'viejo': 'nuevo'}}
    mapeos_ordinales : dict, optional
        Diccionario de mapeos ordinales {'columna': {1: 'etiqueta'}}
    columnas_categoricas_nulos : list, optional
        Lista de columnas categ√≥ricas donde imputar nulos
    columnas_numericas_nulos : list, optional
        Lista de columnas num√©ricas donde imputar nulos
    mostrar_resumen : bool, default=True
        Si True, imprime resumen de cada paso

    Retorna:
    --------
    pd.DataFrame
        DataFrame limpio y listo para an√°lisis
    """

    # Crear copia para no modificar el DataFrame original
    df = df.copy()

    # PASO 1: Normalizar nombres de columnas
    df.columns = normalizar_nombres_columnas(df.columns.tolist(), mostrar_resumen=mostrar_resumen)

    # PASO 2: Establecer ID como √≠ndice
    df = usar_columna_como_indice(df, columna_original=id_columna, indice='id')

    # PASO 3: Eliminar duplicados
    df = eliminar_filas_duplicadas(df)

    # PASO 4: Eliminar columnas sin aporte anal√≠tico
    df = eliminar_columnas_sin_aporte_analitico(df)

    # PASO 5: Conversi√≥n de tipos (si se proporcion√≥ mapeo)
    if mapeo_tipos:
        df = convertir_tipos_columnas(df, mapeo_tipos, mostrar_resumen=mostrar_resumen)

    # PASO 6: Normalizaci√≥n de texto (si se proporcionaron mapeos)
    if mapeos_texto:
        df = normalizar_columnas_texto(df, mapeos_reemplazo=mapeos_texto, mostrar_resumen=mostrar_resumen)

    # PASO 7: Mapeo de ordinales (si se proporcionaron mapeos)
    if mapeos_ordinales:
        df = mapear_columnas_ordinales(df, mapeos_ordinales, mostrar_resumen=mostrar_resumen)

    # PASO 8: Imputaci√≥n de categ√≥ricas (si se especificaron columnas)
    if columnas_categoricas_nulos:
        df = imputar_categoricas(df, columnas_categoricas_nulos)

    # PASO 9: Imputaci√≥n de num√©ricas (si se especificaron columnas)
    if columnas_numericas_nulos:
        df = imputar_numericas(df, columnas_numericas_nulos)

    if mostrar_resumen:
        print("\nüü¢ Limpieza general completada.")

    return df

---
## **11. EXPORTACI√ìN DE DATOS LIMPIOS**

Guardamos el DataFrame procesado para su uso en an√°lisis posteriores.

In [55]:
# Guardar el DataFrame limpio en la carpeta de datos procesados
# Este archivo ser√° la fuente para an√°lisis exploratorio y modelado
df.to_csv('../data/processed/hr_processed.csv')

print("\n‚úÖ Datos limpios exportados exitosamente a '../data/processed/hr_processed.csv'")
print(f"üìä Dimensiones finales del dataset: {df.shape[0]} filas x {df.shape[1]} columnas")


‚úÖ Datos limpios exportados exitosamente a '../data/processed/hr_processed.csv'
üìä Dimensiones finales del dataset: 1470 filas x 30 columnas
