# Proyecto: Optimizaci√≥n de Talento ‚Äî **v6 (super comentado)**


# Optimizaci√≥n de Talento ‚Äî 

- **Imputamos nulos**: num√©ricas ‚Üí **mediana**; categ√≥ricas ‚Üí **"desconocido"**.
- Mantenemos:
  - Texto en **min√∫sculas**, espacios ‚Üí `_`, y `__` ‚Üí `_`.
  - Limpieza de n√∫meros con s√≠mbolos/formatos: **coma ‚Üí punto** para decimal.
  - Columnas no negativas donde tenga sentido.
  - Columna **`sameasmonthlyincome`** con el mismo tratamiento que `monthlyincome`.

**√çndice:**
1) Importaciones  
2) Preparar carpetas  
3) Leer CSV  
4) EDA b√°sico  
5) Copia para limpieza  
6) Normalizaci√≥n de TEXTO  
7) Funci√≥n de limpieza de N√öMEROS con s√≠mbolos  
8) Aplicar limpieza a N√öMEROS (incluye `sameasmonthlyincome`)  
9) Reglas adicionales (no negativos)  
10) Correcciones espec√≠ficas (`gender`, `maritalstatus`)  
11) **Imputaci√≥n de nulos** (mediana / "desconocido")  
12) Duplicados y guardado del CSV limpio  
13) Visualizaciones

In [234]:
# =========================
# 1) IMPORTACIONES
# =========================
# Importamos las librer√≠as que vamos a usar a lo largo del cuaderno.
# - os: para trabajar con rutas y carpetas.
# - re: para expresiones regulares (nos ayudan a buscar patrones en texto).
# - sqlite3: para crear/usar una base de datos SQLite (.db) local.
# - numpy y pandas: para manipular datos.
# - matplotlib.pyplot: para hacer gr√°ficos sencillos.

import os
import re
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Ajustes de impresi√≥n para ver m√°s columnas en pantalla (opcional).
pd.set_option("display.max_columns", 120)
pd.set_option("display.width", 160)

print("Importaciones listas.")


Importaciones listas.


In [235]:
# =========================
# 2) PREPARAR CARPETAS
# =========================

# Imprimo la carpeta donde est√° corriendo el cuaderno para orientarnos.
print("Carpeta de trabajo:", os.getcwd())

# Defino la carpeta ra√≠z donde guardaremos los datos del proyecto.
carpeta_data = "data"

# Dentro de 'data', creo una subcarpeta para los datos en bruto (sin tocar).
carpeta_raw = os.path.join(carpeta_data, "raw")

# Otra subcarpeta para los datos procesados/limpios (los resultados de la limpieza).
carpeta_processed = os.path.join(carpeta_data, "processed")

# Carpeta para guardar salidas varias (informes, textos, etc.).
carpeta_outputs = "outputs"

# Dentro de 'outputs', una subcarpeta espec√≠fica para im√°genes/gr√°ficos.
carpeta_plots = os.path.join(carpeta_outputs, "plots")


# Recorro la lista de todas las carpetas que quiero que existan
# y las creo si no existen. 'exist_ok=True' evita error si ya estaban creadas.
for p in [carpeta_raw, carpeta_processed, carpeta_outputs, carpeta_plots]:
    os.makedirs(p, exist_ok=True)

# Mensaje final para confirmar las rutas que han quedado listas.
print("Carpetas listas:", [carpeta_raw, carpeta_processed, carpeta_outputs, carpeta_plots])


Carpeta de trabajo: /Users/clarabueno/Desktop/-project-da-promo-54-modulo-3-team-2
Carpetas listas: ['data/raw', 'data/processed', 'outputs', 'outputs/plots']


# Notas: LEER ANTES DE EJECUTAR LA LECTURA DE csv
- **Guardad el fichero como hr_raw_data.csv y ponedlo junto al notebook o en data/raw/. Si no, usad la celda del bot√≥n de p√°nico pegando vuestra ruta completa.**

In [236]:
# =========================
# 3) LEER CSV (versi√≥n simple y portable)
# =========================
# Reglas para el equipo:
# - Guardad el fichero como: hr_raw_data.csv
# - Ponedlo o bien junto al notebook, o bien en data/raw/

import os
import pandas as pd
from pathlib import Path

# 1) Rutas est√°ndar del proyecto
ruta_local = Path("hr_raw_data.csv")                  # mismo sitio que el notebook
ruta_raw   = Path("data") / "raw" / "hr_raw_data.csv" # carpeta del proyecto

# 2) Elegimos qu√© ruta usar (primero local, si no, data/raw)
ruta_csv = ruta_local if ruta_local.is_file() else ruta_raw

# 3) Si no existe en ninguna, mensaje claro y listado de pistas
if not ruta_csv.is_file():
    print("‚ö†Ô∏è No encuentro 'hr_raw_data.csv'.")
    print("   Col√≥calo junto al cuaderno O en 'data/raw/hr_raw_data.csv'.")
    print("\nCarpeta de trabajo actual:", Path.cwd())
    print("\nCSVs que veo aqu√≠:")
    for p in Path.cwd().glob("*.csv"):
        print(" -", p.name)
    raise FileNotFoundError("Falta 'hr_raw_data.csv' en las rutas esperadas.")

# 4) Leemos el CSV y copiamos una copia can√≥nica en data/raw (para estandarizar)
df_raw = pd.read_csv(ruta_csv)

# nos aseguramos de que data/raw existe y guardamos la copia ordenada
ruta_raw.parent.mkdir(parents=True, exist_ok=True)
df_raw.to_csv(ruta_raw, index=False)

print("‚úÖ Archivo le√≠do desde:", ruta_csv)
print("üìÇ Copia est√°ndar guardada en:", ruta_raw)
print("Tama√±o DF bruto:", df_raw.shape)
df_raw.head(10)


‚úÖ Archivo le√≠do desde: hr_raw_data.csv
üìÇ Copia est√°ndar guardada en: data/raw/hr_raw_data.csv
Tama√±o DF bruto: (1678, 42)


Unnamed: 0.1,Unnamed: 0,age,attrition,businesstravel,dailyrate,department,distancefromhome,education,educationfield,employeecount,employeenumber,environmentsatisfaction,gender,hourlyrate,jobinvolvement,joblevel,jobrole,jobsatisfaction,maritalstatus,monthlyincome,monthlyrate,numcompaniesworked,over18,overtime,percentsalaryhike,performancerating,relationshipsatisfaction,standardhours,stockoptionlevel,totalworkingyears,trainingtimeslastyear,worklifebalance,yearsatcompany,yearsincurrentrole,yearssincelastpromotion,yearswithcurrmanager,sameasmonthlyincome,datebirth,salary,roledepartament,numberchildren,remotework
0,0,51,No,,2015.722222,,6,3,,1,1,1,0,,3,5,resEArch DIREcToR,3,,"16280,83$","42330,17$",7,Y,No,13,30,3,Full Time,0,,5,30.0,20,,15,15,"16280,83$",1972,"195370,00$",,,Yes
1,1,52,No,,2063.388889,,1,4,Life Sciences,1,2,3,0,,2,5,ManAGeR,3,,,"43331,17$",0,,,14,30,1,,1,340.0,5,30.0,33,,11,9,,1971,"199990,00$",,,1
2,2,42,No,travel_rarely,1984.253968,Research & Development,4,2,Technical Degree,1,3,3,0,,3,5,ManaGER,4,Married,,"41669,33$",1,,No,11,30,4,,0,220.0,3,,22,,11,15,,1981,"192320,00$",ManaGER - Research & Development,,1
3,3,47,No,travel_rarely,1771.404762,,2,4,Medical,1,4,1,1,,3,4,ReseArCH DIrECtOr,3,Married,"14307,50$","37199,50$",3,Y,,19,30,2,Full Time,2,,2,,20,,5,6,"14307,50$",1976,"171690,00$",,,False
4,4,46,No,,1582.771346,,3,3,Technical Degree,1,5,1,1,,4,4,sAleS EXECUtIve,1,Divorced,"12783,92$","33238,20$",2,Y,No,12,30,4,,1,,5,30.0,19,,2,8,"12783,92$",1977,,,,0
5,5,48,No,,1771.920635,Research & Development,22,3,Medical,1,6,4,1,,3,4,MANAger,4,,"14311,67$","37210,33$",3,,No,11,30,2,,1,,3,30.0,22,,4,7,"14311,67$",1975,,MANAger - Research & Development,,Yes
6,6,59,No,,1032.487286,,25,3,Life Sciences,1,7,1,1,,3,3,Sales ExeCutIVe,1,,"8339,32$","21682,23$",7,Y,,11,30,4,Part Time,0,280.0,3,20.0,21,,7,9,"8339,32$",1964,"100071,84$",,,True
7,7,42,No,travel_rarely,556.256661,,1,1,,1,8,2,0,69.532083,3,2,Sales eXEcUTiVe,3,Married,,"11681,39$",1,,No,25,40,3,Part Time,0,200.0,3,30.0,20,,11,6,,1981,"53914,11$",,,0
8,8,41,No,,1712.18254,,2,5,,1,9,2,1,,3,4,mANAGEr,1,Married,"13829,17$","35955,83$",7,,No,16,30,2,Full Time,1,220.0,2,30.0,18,,11,8,"13829,17$",1982,"165950,00$",,,True
9,9,41,No,travel_frequently,1973.984127,,9,3,,1,10,1,0,,3,5,reSEaRCH DIrectoR,3,,"15943,72$","41453,67$",2,,No,17,30,2,,1,210.0,2,40.0,18,,0,11,"15943,72$",1982,,,,0


In [237]:
# # =========================
# # 3) LEER CSV (ruta absoluta f√°cil)
# # =========================
# import pandas as pd
# from pathlib import Path
# import os

# # üëá Pega aqu√≠ tu ruta completa entre r""
# ruta_csv_abs = r"ruta absoluta del file"

# ruta_csv = Path(ruta_csv_abs)
# if not ruta_csv.is_file():
#     raise FileNotFoundError(f"No existe el archivo en: {ruta_csv}")

# df_raw = pd.read_csv(ruta_csv)

# # Guardamos copia can√≥nica en data/raw para el proyecto
# carpeta_raw = "data/raw"
# os.makedirs(carpeta_raw, exist_ok=True)
# destino = Path(carpeta_raw) / "hr_raw_data.csv"
# df_raw.to_csv(destino, index=False)

# print("‚úÖ Archivo le√≠do desde:", ruta_csv)
# print("üìÇ Copia est√°ndar guardada en:", destino)
# print("Tama√±o DF bruto:", df_raw.shape)
# df_raw.head(10)


In [238]:
# =========================
# 4) EDA B√ÅSICO
# =========================

# 1) Mostramos los tipos de datos de cada columna
# Esto nos sirve para ver si una columna que deber√≠a ser num√©rica est√° como texto, o al rev√©s.
print("Tipos de columnas:")
print(df_raw.dtypes)

# 2) Mostramos el n√∫mero de valores nulos por cada columna
# Esto nos ayuda a detectar qu√© columnas necesitan imputaci√≥n o limpieza.
print("\nNulos por columna:")
print(df_raw.isna().sum())

# 3) Contamos cu√°ntas filas duplicadas exactas hay en el DataFrame
# Esto es importante para evitar contar empleados m√°s de una vez.
print("\nDuplicados exactos:", df_raw.duplicated().sum())

# 4) Guardamos esta misma informaci√≥n en un archivo de texto dentro de 'outputs'.
# As√≠ tenemos un registro que podemos revisar sin necesidad de ejecutar el notebook.
with open(os.path.join(carpeta_outputs, "eda_basico_v6.txt"), "w", encoding="utf-8") as f:
    # Guardamos los tipos de columnas
    f.write("TIPOS:\n")
    f.write(str(df_raw.dtypes))
    f.write("\n\n")
    # Guardamos los nulos por columna
    f.write("NULOS:\n")
    f.write(str(df_raw.isna().sum()))
    f.write("\n")
    # Guardamos el n√∫mero de duplicados
    f.write("DUPLICADOS:\n")
    f.write(str(df_raw.duplicated().sum()))

print("EDA b√°sico guardado en 'outputs/eda_basico_v6.txt'")


Tipos de columnas:
Unnamed: 0                    int64
age                          object
attrition                    object
businesstravel               object
dailyrate                   float64
department                   object
distancefromhome              int64
education                     int64
educationfield               object
employeecount                 int64
employeenumber                int64
environmentsatisfaction       int64
gender                        int64
hourlyrate                  float64
jobinvolvement                int64
joblevel                      int64
jobrole                      object
jobsatisfaction               int64
maritalstatus                object
monthlyincome                object
monthlyrate                  object
numcompaniesworked            int64
over18                       object
overtime                     object
percentsalaryhike             int64
performancerating            object
relationshipsatisfaction      int64
standardh

In [239]:
# =========================
# 4.1) EDA INFO
# =========================

# La funci√≥n .info() nos da un resumen muy √∫til del DataFrame:
# - El n√∫mero total de filas y columnas
# - El nombre de cada columna
# - Cu√°ntos valores NO nulos tiene cada columna
# - El tipo de dato de cada columna (int, float, object, etc.)
# - Y al final, el consumo aproximado de memoria

df_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1678 entries, 0 to 1677
Data columns (total 42 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Unnamed: 0                1678 non-null   int64  
 1   age                       1678 non-null   object 
 2   attrition                 1678 non-null   object 
 3   businesstravel            877 non-null    object 
 4   dailyrate                 1678 non-null   float64
 5   department                312 non-null    object 
 6   distancefromhome          1678 non-null   int64  
 7   education                 1678 non-null   int64  
 8   educationfield            904 non-null    object 
 9   employeecount             1678 non-null   int64  
 10  employeenumber            1678 non-null   int64  
 11  environmentsatisfaction   1678 non-null   int64  
 12  gender                    1678 non-null   int64  
 13  hourlyrate                411 non-null    float64
 14  jobinvol

In [240]:
# =========================
# 5) COPIA PARA LIMPIEZA
# =========================

# 1) Creamos una copia del DataFrame original 'df_raw'.
# Esto lo hacemos para no modificar los datos originales mientras limpiamos.
# As√≠, si nos equivocamos o necesitamos comparar, siempre tenemos el dataset original intacto.
df = df_raw.copy()

# 2) Mostramos el tama√±o (n√∫mero de filas y columnas) del DataFrame de trabajo.
# df.shape devuelve una tupla (n_filas, n_columnas).
print("Tama√±o inicio limpieza:", df.shape)

# 3) Mostramos las primeras 5 filas del DataFrame.
# Esto nos sirve para echar un vistazo r√°pido al estado inicial antes de aplicar transformaciones.
df.head(5)


Tama√±o inicio limpieza: (1678, 42)


Unnamed: 0.1,Unnamed: 0,age,attrition,businesstravel,dailyrate,department,distancefromhome,education,educationfield,employeecount,employeenumber,environmentsatisfaction,gender,hourlyrate,jobinvolvement,joblevel,jobrole,jobsatisfaction,maritalstatus,monthlyincome,monthlyrate,numcompaniesworked,over18,overtime,percentsalaryhike,performancerating,relationshipsatisfaction,standardhours,stockoptionlevel,totalworkingyears,trainingtimeslastyear,worklifebalance,yearsatcompany,yearsincurrentrole,yearssincelastpromotion,yearswithcurrmanager,sameasmonthlyincome,datebirth,salary,roledepartament,numberchildren,remotework
0,0,51,No,,2015.722222,,6,3,,1,1,1,0,,3,5,resEArch DIREcToR,3,,"16280,83$","42330,17$",7,Y,No,13,30,3,Full Time,0,,5,30.0,20,,15,15,"16280,83$",1972,"195370,00$",,,Yes
1,1,52,No,,2063.388889,,1,4,Life Sciences,1,2,3,0,,2,5,ManAGeR,3,,,"43331,17$",0,,,14,30,1,,1,340.0,5,30.0,33,,11,9,,1971,"199990,00$",,,1
2,2,42,No,travel_rarely,1984.253968,Research & Development,4,2,Technical Degree,1,3,3,0,,3,5,ManaGER,4,Married,,"41669,33$",1,,No,11,30,4,,0,220.0,3,,22,,11,15,,1981,"192320,00$",ManaGER - Research & Development,,1
3,3,47,No,travel_rarely,1771.404762,,2,4,Medical,1,4,1,1,,3,4,ReseArCH DIrECtOr,3,Married,"14307,50$","37199,50$",3,Y,,19,30,2,Full Time,2,,2,,20,,5,6,"14307,50$",1976,"171690,00$",,,False
4,4,46,No,,1582.771346,,3,3,Technical Degree,1,5,1,1,,4,4,sAleS EXECUtIve,1,Divorced,"12783,92$","33238,20$",2,Y,No,12,30,4,,1,,5,30.0,19,,2,8,"12783,92$",1977,,,,0


In [241]:
# =========================
# 6) LIMPIEZA: ELIMINAR COLUMNAS
# =========================

# Lista de columnas que queremos eliminar
columnas_a_eliminar = [
    "employeecount",
    "yearsincurrentrole",
    "sameasmonthlyincome",
    "roledepartament",
    "numberchildren",
    "over18"
]

# Comprobamos cu√°les de esas columnas est√°n realmente en el DataFrame
columnas_presentes = [col for col in columnas_a_eliminar if col in df.columns]

# Si hay columnas presentes, las eliminamos
if columnas_presentes:
    df.drop(columns=columnas_presentes, inplace=True)
    print(f"Columnas eliminadas: {columnas_presentes}")
else:
    print("Ninguna de las columnas especificadas est√° presente en el DataFrame.")

Columnas eliminadas: ['employeecount', 'yearsincurrentrole', 'sameasmonthlyincome', 'roledepartament', 'numberchildren', 'over18']


In [242]:
mask = df.duplicated(subset="employeenumber")
df[mask]

Unnamed: 0.1,Unnamed: 0,age,attrition,businesstravel,dailyrate,department,distancefromhome,education,educationfield,employeenumber,environmentsatisfaction,gender,hourlyrate,jobinvolvement,joblevel,jobrole,jobsatisfaction,maritalstatus,monthlyincome,monthlyrate,numcompaniesworked,overtime,percentsalaryhike,performancerating,relationshipsatisfaction,standardhours,stockoptionlevel,totalworkingyears,trainingtimeslastyear,worklifebalance,yearsatcompany,yearssincelastpromotion,yearswithcurrmanager,datebirth,salary,remotework
1614,1614,35,No,,1032.487286,,18,5,Life Sciences,178,2,0,,3,3,sAlES eXeCuTIVe,1,Married,"8339,32$","21682,23$",1,,22,40,4,,1,90,3,20,9,1,8,1988,,True
1615,1615,59,No,travel_rarely,290.035510,Human Resources,6,2,Medical,853,2,0,,3,1,humAN resoURCEs,3,Married,"2342,59$","6090,75$",8,,17,30,4,Part Time,0,,2,20,2,2,2,1964,"28111,13$",False
1616,1616,30,No,travel_rarely,1032.487286,,5,3,,112,2,1,129.060911,3,3,SalES ExeCuTIVe,4,,"8339,32$","21682,23$",2,No,12,30,3,Part Time,1,,2,30,10,7,4,1993,"100071,84$",True
1617,1617,34,Yes,travel_rarely,556.256661,,24,4,,159,1,1,,2,2,sAles EXecutiVE,2,Single,,"11681,39$",0,Yes,23,40,3,Part Time,0,160,2,40,15,10,10,1989,"53914,11$",0
1618,1618,47,No,,290.035510,,2,4,Life Sciences,969,4,1,,2,1,SALeS RePreSenTATiVe,4,Single,"2342,59$","6090,75$",1,Yes,18,30,1,,0,30,3,20,3,1,2,1976,,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1673,1673,43,No,,488.944444,,-26,3,Medical,824,2,1,,4,1,rESEaRcH SciEnTiST,3,Single,"3949,17$","10267,83$",4,,12,30,4,,0,,2,30,3,1,2,1980,,Yes
1674,1674,47,No,,1973.984127,,26,4,,1087,4,1,,3,5,mANager,3,Married,"15943,72$","41453,67$",3,No,11,30,3,Full Time,1,270,2,30,5,1,0,1976,"191324,62$",False
1675,1675,29,No,travel_rarely,290.035510,,15,3,,528,3,0,,3,1,reSearch sCienTiSt,4,,,"6090,75$",1,No,19,30,1,Part Time,0,60,1,30,6,1,5,1994,"28111,13$",False
1676,1676,47,No,travel_rarely,1032.487286,,4,3,Life Sciences,76,3,1,,2,3,maNufACTURING DIREctOr,2,Divorced,"8339,32$","21682,23$",8,Yes,12,,3,Part Time,1,,4,30,22,14,10,1976,"100071,84$",Yes


In [243]:
# =========================
# 10) FUNCI√ìN: limpiar n√∫meros con s√≠mbolos
# =========================
# Esta funci√≥n limpia valores num√©ricos escritos como texto:
# - Quita s√≠mbolos ($, ‚Ç¨, %, espacios).
# - Arregla el uso de comas y puntos (formatos europeo/USA).
# - Deja solo d√≠gitos y el punto decimal.

def limpiar_numero_texto(x):
    # Si es NaN, lo devolvemos tal cual (se imputar√° luego).
    if pd.isna(x):
        return x

    # Convertimos a string para poder reemplazar. para poder manipularlo con replace()
    s = str(x)

    # Quito espacios, s√≠mbolos de moneda ($, ‚Ç¨) y porcentajes (%)
    s = s.replace(" ", "").replace("$", "").replace("‚Ç¨", "").replace("%", "")

    # Gestionamos comas y puntos; Si hay coma y punto a la vez, tengo que decidir cu√°l es el decimal
    if "," in s and "." in s:
        # Si termina con ,dd asumimos formato europeo, ej: 1.234,56 -> 1234.56
        if re.search(r",\d{1,2}$", s): # Caso europeo: si termina en coma + 1 o 2 d√≠gitos (ej. "1.234,56")
            s = s.replace(".", "").replace(",", ".") # Quito los puntos de miles y convierto la coma en punto decimal
        else:
            # Si no parece europeo, quitamos comas como separador de miles
            # Caso americano: la coma es separador de miles, la borro
            # Ejemplo: "1,234.56" -> "1234.56"
            s = s.replace(",", "")
    else:
        # Si solo hay coma, la tratamos como decimal, ej: 123,45 -> 123.45
        if "," in s and "." not in s:
            # Asumo que la coma es decimal -> la cambio a punto
            # Tambi√©n elimino puntos sueltos por si acaso
            s = s.replace(".", "").replace(",", ".")

    # Limpieza final con regex:
    # Borro cualquier cosa que no sea n√∫mero o punto decimal
    # # Nos quedamos solo con d√≠gitos y el punto
    s = re.sub(r"[^0-9.]", "", s)

    # Devuelvo el string limpio (m√°s tarde lo convertiremos a float)
    return s

print("Funci√≥n 'limpiar_numero_texto' lista.")


Funci√≥n 'limpiar_numero_texto' lista.


In [244]:
# =========================
# 7) LIMPIEZA N√öMEROS (aplicar funci√≥n y convertir a num√©rico)
# =========================

# Lista de columnas que esperamos num√©ricas
# Primero hago una lista con los nombres de las columnas que deber√≠an ser num√©ricas en nuestro dataset.
# Estas columnas, en bruto, pueden venir con s√≠mbolos de dinero, comas en lugar de puntos, etc.
# Tambi√©n incluyo 'sameasmonthlyincome', que debe tratarse igual que 'monthlyincome'.
columnas_numericas_esperadas = [
    "dailyrate","hourlyrate","monthlyincome","sameasmonthlyincome","monthlyrate",
    "percentsalaryhike","stockoptionlevel","distancefromhome",
    "age","education","joblevel","totalworkingyears",
    "yearsatcompany","yearsincurrentrole","yearssincelastpromotion",
    "yearswithcurrmanager","numberchildren","salary","trainingtimeslastyear",
    "environmentsatisfaction","jobinvolvement","jobsatisfaction",
    "relationshipsatisfaction","performancerating","worklifebalance"
]

# Creamos un mapa lower -> nombre real de la columna en el DF
# Como en el dataset los nombres de columnas pueden variar en may√∫sculas/min√∫sculas,
# creo un diccionario que relaciona el nombre en min√∫sculas con el nombre real en el DataFrame.
# Ejemplo: si la columna se llama "DailyRate", este mapa me devuelve "DailyRate" cuando busco "dailyrate".
lower_map = {c.lower(): c for c in df.columns}

# Recorremos la lista y, si la columna existe, la limpiamos (recorro cada nombre de la lista que hice arriba.)
for cname in columnas_numericas_esperadas:
# Si esa columna existe realmente en el DataFrame (aunque est√© en may√∫sculas),
# entonces la limpiamos
    if cname in lower_map: 
        # Recupero el nombre real de la columna
        col = lower_map[cname]

        # 1) Convierto la columna a texto (string) para poder aplicar la funci√≥n de limpieza sin errores.
        df[col] = df[col].astype("string")
        
        # 2) Aplico nuestra funci√≥n 'limpiar_numero_texto' que elimina s√≠mbolos ($, ‚Ç¨, %) y arregla comas/puntos.
        df[col] = df[col].apply(limpiar_numero_texto)
        # 3) Convierto el resultado a n√∫mero real (float).
        #    Si alguna celda no se puede convertir, se pone como NaN autom√°ticamente.
        df[col] = pd.to_numeric(df[col], errors="coerce")

# Mensaje final para confirmar que la limpieza se ha aplicado a todas las columnas num√©ricas.
print("Limpieza num√©rica aplicada (decimal='.') y conversi√≥n a num√©rico.")

Limpieza num√©rica aplicada (decimal='.') y conversi√≥n a num√©rico.


In [245]:
# =========================
# 8) CORRECCIONES ESPEC√çFICAS
# =========================

# --- Correcci√≥n 1: columna 'gender'
# En algunos datasets, 'gender' aparece como 0/1 en vez de 'male'/'female'.
# Por claridad, convertimos 1 -> "male" y 0 -> "female".
if "gender" in lower_map:                       # solo si existe la columna gender
    col = lower_map["gender"]                   # recupero el nombre real de la columna
    if pd.api.types.is_numeric_dtype(df[col]):  # si es num√©rica (0/1)
        df[col] = df[col].map({1:"male", 0:"female"})
    else:
        # Si viene como texto "0" o "1" (string), tambi√©n lo convertimos
        df[col] = df[col].replace({"1":"male","0":"female",1:"male",0:"female"})

# --- Correcci√≥n 2: columna 'maritalstatus'
# A veces hay un error tipogr√°fico: en vez de "married" aparece "marreid".
# Lo corregimos para que todos los valores est√©n uniformes.
if "maritalstatus" in lower_map:                        # solo si existe la columna maritalstatus
    col = lower_map["maritalstatus"]
    # Convertimos a string y reemplazamos "marreid" por "married"
    df[col] = df[col].astype("string").str.replace("marreid","married",regex=False)

# --- Correcci√≥n 3: columna 'remotework'
# La columna 'remotework' conten√≠a valores redundantes para expresar lo mismo 
# (true/false, 0/1, yes/no). 
# Se unifican y normalizan todos ellos en un formato √∫nico: 'yes' / 'no'.
if "remotework" in lower_map:                        # solo si existe la columna remotework
    col = lower_map["remotework"]
    # Convertimos a string y reemplazamos
    df[col] = df[col].replace({"true":"yes", "True":"yes", "false":"no", "0":"no", "1":"yes", "False":"no", "Yes":"yes"})

# Mensaje de confirmaci√≥n para saber que ya hicimos estas correcciones puntuales.
print("Correcciones (gender, maritalstatus, remotework) aplicadas.")

Correcciones (gender, maritalstatus, remotework) aplicadas.


In [246]:
# =========================
# 9) NORMALIZACI√ìN DE TEXTO 
# =========================
# Reglas aplicadas a TODAS las columnas categ√≥ricas:
# - Convertir todo a string (as√≠ evitamos mezclas).
# - strip(): quitar espacios en los bordes.
# - lower(): pasar todo a min√∫sculas.
# - Reemplazar espacios por '_' (gui√≥n bajo).
# - Colapsar '__' a '_' (por si hab√≠a dobles espacios).
# - Quitar '_' al principio y al final.
# - Reemplazar vac√≠os, 'nan', 'none' por NaN real (pd.NA).

for col in df.columns:
    if not pd.api.types.is_numeric_dtype(df[col]):
        # 1) Convertimos TODO a string para que funcione bien el .str
        df[col] = df[col].astype("string")
        
        # 2) Normalizamos
        df[col] = df[col].str.strip()
        df[col] = df[col].str.lower()
        df[col] = df[col].str.replace(" ", "_", regex=False)
        df[col] = df[col].str.replace(r"_+", "_", regex=True)
        df[col] = df[col].str.replace("-", "_", regex=False)
        df[col] = df[col].str.strip("_")
        
        # 3) Sustituci√≥n de vac√≠os por NaN real
        df[col] = df[col].replace({"": pd.NA, "nan": pd.NA, "none": pd.NA})

print("Normalizaci√≥n de texto aplicada a TODAS las columnas no num√©ricas.")

Normalizaci√≥n de texto aplicada a TODAS las columnas no num√©ricas.


### üîπ ¬øQu√© es una escala **Likert**?

üëâ 

* Es una **escala de encuesta muy com√∫n** en psicolog√≠a y en recursos humanos.
* Normalmente se usa para medir **opiniones o percepciones subjetivas** en valores discretos (n√∫meros enteros).
* Ejemplo t√≠pico:

  * 1 = Muy insatisfecho
  * 2 = Insatisfecho
  * 3 = Satisfecho
  * 4 = Muy satisfecho

En nuestro dataset, hay varias columnas que funcionan exactamente as√≠:

* **EnvironmentSatisfaction** (satisfacci√≥n con el ambiente laboral)
* **JobSatisfaction** (satisfacci√≥n con el trabajo)
* **RelationshipSatisfaction** (satisfacci√≥n con relaciones en el trabajo)
* **JobInvolvement** (compromiso con el trabajo)
* **WorkLifeBalance** (equilibrio vida personal/laboral)

Todas deber√≠an contener **s√≥lo 1, 2, 3 o 4**.
Si vemos un 37, 42 o algo extra√±o ‚Üí es un **error en los datos** ‚Üí lo convertimos en `NaN` para luego imputarlo.

In [247]:
# =========================
# 11) REGLAS: LIKERT (1..4) + NO NEGATIVOS
# =========================
# CONTEXTO:
# Hay dos tipos de ‚Äúnormas de sentido com√∫n‚Äù que debemos aplicar al dataset:
#
# A) ESCALAS LIKERT (1..4)
#    - Varias columnas provienen de encuestas internas (satisfacci√≥n, implicaci√≥n, conciliaci√≥n).
#    - Esas encuestas se responden en una ESCALA LIKERT de 4 puntos:
#         1 = muy insatisfecho / muy bajo
#         2 = insatisfecho / bajo
#         3 = satisfecho / alto
#         4 = muy satisfecho / muy alto
#    - Por lo tanto, en esas columnas SOLO deber√≠an aparecer los valores {1, 2, 3, 4}.
#    - Si encontramos otros n√∫meros (ej. 37, 42) o textos raros, es un error de datos.
#    - Soluci√≥n: marcamos esos valores como NaN para imputarlos m√°s tarde (con la mediana).
#
# B) COLUMNAS NO NEGATIVAS
#    - Hay m√©tricas que por l√≥gica no pueden ser negativas (distancias, sueldos, tarifas).
#    - Si por error hay un valor negativo, lo convertimos a su valor absoluto (abs()).

# --- A) Listado de columnas tipo Likert (1..4)
likert_cols = [
    "environmentsatisfaction",   # satisfacci√≥n con el ambiente laboral
    "jobsatisfaction",           # satisfacci√≥n general con el trabajo
    "relationshipsatisfaction",  # satisfacci√≥n con relaciones en el trabajo
    "jobinvolvement",            # implicaci√≥n/compromiso con el trabajo
    "worklifebalance"            # equilibrio vida-trabajo
]

for cname in likert_cols:
    # Comprobamos que la columna exista en el DataFrame (usamos lower_map por si el nombre viene con may√∫sculas)
    if cname in lower_map:
        col = lower_map[cname]  # nombre real de la columna tal como est√° en df: Recupero el nombre real de la columna (con may√∫sculas/min√∫sculas como est√© en el CSV).

        # Solo aplicamos la validaci√≥n si la columna es num√©rica de verdad.
        if pd.api.types.is_numeric_dtype(df[col]):
            # Aplico el valor absoluto a toda la columna.
            # Creamos una m√°scara booleana que es True donde el valor NO est√° en {1,2,3,4}
            # Es decir, detectamos valores incorrectos para una escala Likert de 4 puntos.
            fuera_de_rango = ~df[col].isin([1, 2, 3, 4])

            # A esos valores incorrectos les ponemos NaN (pd.NA) para arreglarlos despu√©s en la imputaci√≥n.
            df.loc[fuera_de_rango, col] = pd.NA

# --- B) Columnas que no deber√≠an ser negativas por sentido com√∫n
no_negativas = [
    "distancefromhome",      # distancia desde casa al trabajo
    "dailyrate",             # tarifa diaria
    "hourlyrate",            # tarifa por hora
    "monthlyincome",         # ingreso mensual
    "sameasmonthlyincome",   # (si existe) duplicado de monthlyincome
    "monthlyrate",           # tarifa mensual
    "salary"                 # salario anual/mensual (seg√∫n dataset)
]

for cname in no_negativas:
    if cname in lower_map:
        col = lower_map[cname]

        # Solo aplicamos si pandas la ve como num√©rica
        if pd.api.types.is_numeric_dtype(df[col]):
            # Valor absoluto: si hubiera -500 por error, lo convertimos a 500
            df[col] = df[col].abs()

# Mensaje final de confirmaci√≥n para saber que la regla ya se aplic√≥.
print("Reglas aplicadas: Likert limitado a {1,2,3,4} y m√©tricas no negativas forzadas a valores ‚â• 0.")


Reglas aplicadas: Likert limitado a {1,2,3,4} y m√©tricas no negativas forzadas a valores ‚â• 0.


In [248]:
# =========================
# 12) IMPUTACI√ìN DE NULOS
# =========================
# - Num√©ricas: usamos la MEDIANA de la columna (es robusta frente a outliers).
#   Si toda la columna es NaN, usamos 0.0 (especialmente si son m√©tricas no-negativas).
# - Categ√≥ricas (texto): rellenamos con la palabra 'desconocido'.

# 1) Detectamos num√©ricas y categ√≥ricas por dtype
num_cols = df.select_dtypes(include=[np.number]).columns   # columnas num√©ricas
cat_cols = df.select_dtypes(exclude=[np.number]).columns   # columnas no num√©ricas (texto)

# 2) Lista de columnas que deben ser NO NEGATIVAS (para elegir fallback sensato si todo es NaN)
no_neg_set = {
    "distancefromhome","dailyrate","hourlyrate","monthlyincome","sameasmonthlyincome",
    "monthlyrate","salary","percentsalaryhike","stockoptionlevel","numberchildren",
    "trainingtimeslastyear","yearsatcompany","yearsincurrentrole","yearssincelastpromotion",
    "yearswithcurrmanager","totalworkingyears","age","education","joblevel",
}

# Imputaci√≥n num√©ricas
for c in num_cols:
    if df[c].isna().all():
        # Si toda la columna es NaN, usamos 0.0 (simple y v√°lido para estas m√©tricas).
        fill_value = 0.0 if c.lower() in no_neg_set else 0.0
    else:
        # Si hay datos, usamos la mediana (ignora NaN por defecto).
        fill_value = df[c].median(skipna=True)
    df[c] = df[c].fillna(fill_value)

# Imputaci√≥n categ√≥ricas
for c in cat_cols:
    df[c] = df[c].fillna("desconocido")

print("Imputaci√≥n completada (num√©ricas=mediana/fallback, categ√≥ricas='desconocido').")


Imputaci√≥n completada (num√©ricas=mediana/fallback, categ√≥ricas='desconocido').


In [249]:
# =========================
# 13) CHEQUEO R√ÅPIDO TRAS IMPUTACI√ìN (opcional)
# =========================
# OBJETIVO DE ESTA CELDA:
# - Verificar que la imputaci√≥n de nulos ha funcionado.
# - Un vistazo r√°pido a los datos resultantes:
#   * ¬øQuedan columnas con nulos?
#   * Ver un peque√±o resumen de una columna num√©rica (describe)
#   * Ver las categor√≠as m√°s frecuentes de una columna de texto

# -------------------------------------------------------------------
# 1) ¬øQuedan nulos en alguna columna?
# -------------------------------------------------------------------

# 'df.isna().sum()' devuelve cu√°ntos nulos hay en cada columna.
nulos_restantes = df.isna().sum()

# Contamos cu√°ntas columnas tienen al menos 1 nulo (True/False -> sum de booleanos).
n_cols_con_nulos = int((nulos_restantes > 0).sum())

# Mostramos el n√∫mero total de columnas con nulos todav√≠a.
print(f"Columnas con nulos restantes: {n_cols_con_nulos}")

# Si queda alguna con nulos, ense√±amos las 10 peores (m√°s nulos) para revisar.
if n_cols_con_nulos > 0:
    print("\nColumnas con m√°s nulos tras la imputaci√≥n (top 10):")
    print(
        nulos_restantes[nulos_restantes > 0]         # nos quedamos solo con las que tienen nulos
        .sort_values(ascending=False)                # ordenamos de mayor a menor
        .head(10)                                    # mostramos las 10 primeras
    )

# -------------------------------------------------------------------
# 2) Hacemos un mini-resumen de ejemplo:
#    - elegimos UNA columna num√©rica y UNA categ√≥rica
#    - esto es solo para tener una referencia r√°pida en la consola
# -------------------------------------------------------------------

# a) Buscamos la primera columna que pandas considere num√©rica.
#    'next(..., None)' devuelve el primer elemento que cumpla la condici√≥n; si no hay, devuelve None.
ej_num = next((c for c in df.columns if pd.api.types.is_numeric_dtype(df[c])), None)

# b) Buscamos la primera columna que NO sea num√©rica (o sea, categ√≥rica/texto).
ej_cat = next((c for c in df.columns if not pd.api.types.is_numeric_dtype(df[c])), None)

# Si hemos encontrado alguna num√©rica, mostramos su 'describe()'
# (cuenta, media, desviaci√≥n est√°ndar, m√≠nimos, cuartiles‚Ä¶)
if ej_num:
    print(f"\nResumen num√©rico de '{ej_num}':")
    print(df[ej_num].describe())

# Si hemos encontrado alguna categ√≥rica, mostramos sus 10 valores m√°s frecuentes.
if ej_cat:
    print(f"\nTop categor√≠as de '{ej_cat}':")
    print(df[ej_cat].value_counts().head(10))

# NOTA:
# Este chequeo es "r√°pido" y orientativo. Si quieres un control de calidad m√°s completo,
# podr√≠as guardar un informe con m√°s m√©tricas (distribuciones, outliers, etc.) en 'outputs/'.

Columnas con nulos restantes: 0

Resumen num√©rico de 'Unnamed: 0':
count    1678.000000
mean      838.500000
std       484.541192
min         0.000000
25%       419.250000
50%       838.500000
75%      1257.750000
max      1677.000000
Name: Unnamed: 0, dtype: float64

Top categor√≠as de 'attrition':
attrition
no     1406
yes     272
Name: count, dtype: Int64


In [250]:
# Funciones de agregaci√≥n personalizadas
def resolve_remote_work(values):
    """Si hay discrepancias en Remote Work, siempre devolver 'No'."""
    return "no" if "no" in values.values else values.iloc[0]
def resolve_distance(values):
    """Si hay discrepancias en Distance From Home, tomar el m√≠nimo."""
    return values.min()
# Diccionario de agregaciones
agg_rules = {
    "remotework": resolve_remote_work,
    "distancefromhome": resolve_distance
}
# Para las dem√°s columnas, aplicamos 'first' por defecto
for col in df.columns:
    if col not in ["employeenumber", "remotework", "distancefromhome"]:
        agg_rules[col] = "first"
# Agrupar y aplicar reglas
df_limpio = df.groupby("employeenumber", as_index=False).agg(agg_rules)
print(":white_tick: DataFrame limpio creado:")
print(df_limpio.head())








:white_tick: DataFrame limpio creado:
   employeenumber remotework  distancefromhome  Unnamed: 0   age attrition businesstravel    dailyrate              department  education    educationfield  \
0               1        yes                 6           0  51.0        no    desconocido  2015.722222             desconocido          3       desconocido   
1               2        yes                 1           1  52.0        no    desconocido  2063.388889             desconocido          4     life_sciences   
2               3        yes                 4           2  42.0        no  travel_rarely  1984.253968  research_&_development          2  technical_degree   
3               4         no                 2           3  47.0        no  travel_rarely  1771.404762             desconocido          4           medical   
4               5         no                 3           4  46.0        no    desconocido  1582.771346             desconocido          3  technical_degree   

   envi

In [251]:
# =========================
# 14) DUPLICADOS
# =========================
# OBJETIVO:
# 1) Eliminar filas duplicadas exactas (todas las columnas iguales).
# 2) Eliminar duplicados por 'EmployeeNumber' (clave de empleado), conservando la PRIMERA fila.
#    -> Esto evita errores al cargar en BBDD, donde 'EmployeeNumber' ser√° PRIMARY KEY.
# 3) Guardar un CSV con los registros descartados para poder revisarlos rapido.

from pathlib import Path

# --- Paso 0: localizar la columna EmployeeNumber sin importar may√∫sculas ---
# Creamos un mapa lower -> nombre real de la columna
lower_map = {c.lower(): c for c in df.columns}

# Detectamos el nombre correcto tal y como est√° en el DF
# buscamos ()'employeenumber' o variaciones como 'employee_number') porque no me fio ya de lo que haya en la DB
emp_candidates = ["employeenumber", "employee_number", "employee number"]
emp_col = next((lower_map[c] for c in emp_candidates if c in lower_map), None)

if emp_col is None:
    # Si no existe la columna, avisa y solo haz el deduplicado exacto de filas
    print("‚ö†Ô∏è No existe columna de EmployeeNumber en el DF. Solo eliminamos duplicados exactos de filas.")
    antes = df.shape[0]
    df = df.drop_duplicates(keep="first")
    despues = df.shape[0]
    print(f"Duplicados EXACTOS eliminados: {antes - despues}")
else:
    # ---------------------------------------------------------------
    # 1) Eliminar duplicados exactos de fila (todas las columnas iguales)
    # ---------------------------------------------------------------
    antes = df.shape[0]
    df = df.drop_duplicates(keep="first")
    despues = df.shape[0]
    print(f"Duplicados EXACTOS eliminados: {antes - despues}")

    # ---------------------------------------------------------------
    # 2) Eliminar duplicados por EmployeeNumber (conservar la primera)
    # ---------------------------------------------------------------
    # a) Calculamos qu√© filas son duplicadas de EmployeeNumber (a partir de la segunda por la cabecera, logicamente)
    #    -> df.duplicated(subset=emp_col, keep='first') da True en las filas que sobran, como nos dice Laura.
    mask_duplicados_emp = df.duplicated(subset=emp_col, keep="first")

    # b) Guardamos las filas que VAMOS A DESCARTAR para revisi√≥n/ auditor√≠a
    descartadas = df.loc[mask_duplicados_emp].copy()

    # c) Nos quedamos solo con la PRIMERA fila de cada EmployeeNumber
    df = df.drop_duplicates(subset=emp_col, keep="first")

    # d) Mensajes resumen
    n_descartadas = descartadas.shape[0]
    print(f"Duplicados por '{emp_col}' eliminados (conservando primera aparici√≥n): {n_descartadas}")

    # ---------------------------------------------------------------
    # 3) Guardar las filas descartadas para poder revisarlas en equipo
    # ---------------------------------------------------------------
    verif_dir = Path(carpeta_outputs) / "verification"
    verif_dir.mkdir(parents=True, exist_ok=True)
    ruta_desc = verif_dir / f"empleados_descartados_por_duplicado_{emp_col}.csv"
    if n_descartadas > 0:
        descartadas.to_csv(ruta_desc, index=False)
        print("üìÑ Registros descartados guardados en:", ruta_desc)
    else:
        print("No hab√≠a duplicados por EmployeeNumber. No se gener√≥ archivo de descartes.")

# Vistazo r√°pido tras la limpieza de duplicados
print("Tama√±o DF tras deduplicar:", df.shape)
df.head(5)

Duplicados EXACTOS eliminados: 0
Duplicados por 'employeenumber' eliminados (conservando primera aparici√≥n): 64
üìÑ Registros descartados guardados en: outputs/verification/empleados_descartados_por_duplicado_employeenumber.csv
Tama√±o DF tras deduplicar: (1614, 36)


Unnamed: 0.1,Unnamed: 0,age,attrition,businesstravel,dailyrate,department,distancefromhome,education,educationfield,employeenumber,environmentsatisfaction,gender,hourlyrate,jobinvolvement,joblevel,jobrole,jobsatisfaction,maritalstatus,monthlyincome,monthlyrate,numcompaniesworked,overtime,percentsalaryhike,performancerating,relationshipsatisfaction,standardhours,stockoptionlevel,totalworkingyears,trainingtimeslastyear,worklifebalance,yearsatcompany,yearssincelastpromotion,yearswithcurrmanager,datebirth,salary,remotework
0,0,51.0,no,desconocido,2015.722222,desconocido,6,3,desconocido,1,1.0,female,69.532083,3.0,5,research_director,3.0,desconocido,16280.83,42330.17,7,no,13,3.0,3.0,full_time,0,10.0,5,3.0,20,15,15,1972,195370.0,yes
1,1,52.0,no,desconocido,2063.388889,desconocido,1,4,life_sciences,2,3.0,female,69.532083,2.0,5,manager,3.0,desconocido,4492.84,43331.17,0,desconocido,14,3.0,1.0,desconocido,1,34.0,5,3.0,33,11,9,1971,199990.0,yes
2,2,42.0,no,travel_rarely,1984.253968,research_&_development,4,2,technical_degree,3,3.0,female,69.532083,3.0,5,manager,4.0,married,4492.84,41669.33,1,no,11,3.0,4.0,desconocido,0,22.0,3,3.0,22,11,15,1981,192320.0,yes
3,3,47.0,no,travel_rarely,1771.404762,desconocido,2,4,medical,4,1.0,male,69.532083,3.0,4,research_director,3.0,married,14307.5,37199.5,3,desconocido,19,3.0,2.0,full_time,2,10.0,2,3.0,20,5,6,1976,171690.0,no
4,4,46.0,no,desconocido,1582.771346,desconocido,3,3,technical_degree,5,1.0,male,69.532083,4.0,4,sales_executive,1.0,divorced,12783.92,33238.2,2,no,12,3.0,4.0,desconocido,1,10.0,5,3.0,19,2,8,1977,53914.11,no


In [252]:
# =========================
# 16) GUARDADO
# =========================

# -------------------------------------------------------------------
# Guardar el CSV limpio en 'data/processed'
# -------------------------------------------------------------------

# Construimos la ruta completa del archivo de salida (dentro de la carpeta 'processed').
ruta_csv_limpio = os.path.join(carpeta_processed, "hr_clean_data_v6.csv")

# Guardamos el DataFrame limpio en formato CSV.
# - index=False: no guardamos el √≠ndice de pandas como columna extra.
df.to_csv(ruta_csv_limpio, index=False)

# Mensaje para confirmar d√≥nde se guard√≥ el archivo.
print("CSV limpio v6 guardado en:", ruta_csv_limpio)

# -------------------------------------------------------------------
# 3) Vistazo r√°pido a las primeras filas (solo para comprobar)
# -------------------------------------------------------------------

# Mostramos las primeras 10 filas para verificar visualmente que todo tiene buena pinta.
df.head(10)

CSV limpio v6 guardado en: data/processed/hr_clean_data_v6.csv


Unnamed: 0.1,Unnamed: 0,age,attrition,businesstravel,dailyrate,department,distancefromhome,education,educationfield,employeenumber,environmentsatisfaction,gender,hourlyrate,jobinvolvement,joblevel,jobrole,jobsatisfaction,maritalstatus,monthlyincome,monthlyrate,numcompaniesworked,overtime,percentsalaryhike,performancerating,relationshipsatisfaction,standardhours,stockoptionlevel,totalworkingyears,trainingtimeslastyear,worklifebalance,yearsatcompany,yearssincelastpromotion,yearswithcurrmanager,datebirth,salary,remotework
0,0,51.0,no,desconocido,2015.722222,desconocido,6,3,desconocido,1,1.0,female,69.532083,3.0,5,research_director,3.0,desconocido,16280.83,42330.17,7,no,13,3.0,3.0,full_time,0,10.0,5,3.0,20,15,15,1972,195370.0,yes
1,1,52.0,no,desconocido,2063.388889,desconocido,1,4,life_sciences,2,3.0,female,69.532083,2.0,5,manager,3.0,desconocido,4492.84,43331.17,0,desconocido,14,3.0,1.0,desconocido,1,34.0,5,3.0,33,11,9,1971,199990.0,yes
2,2,42.0,no,travel_rarely,1984.253968,research_&_development,4,2,technical_degree,3,3.0,female,69.532083,3.0,5,manager,4.0,married,4492.84,41669.33,1,no,11,3.0,4.0,desconocido,0,22.0,3,3.0,22,11,15,1981,192320.0,yes
3,3,47.0,no,travel_rarely,1771.404762,desconocido,2,4,medical,4,1.0,male,69.532083,3.0,4,research_director,3.0,married,14307.5,37199.5,3,desconocido,19,3.0,2.0,full_time,2,10.0,2,3.0,20,5,6,1976,171690.0,no
4,4,46.0,no,desconocido,1582.771346,desconocido,3,3,technical_degree,5,1.0,male,69.532083,4.0,4,sales_executive,1.0,divorced,12783.92,33238.2,2,no,12,3.0,4.0,desconocido,1,10.0,5,3.0,19,2,8,1977,53914.11,no
5,5,48.0,no,desconocido,1771.920635,research_&_development,22,3,medical,6,4.0,male,69.532083,3.0,4,manager,4.0,desconocido,14311.67,37210.33,3,no,11,3.0,2.0,desconocido,1,10.0,3,3.0,22,4,7,1975,53914.11,yes
6,6,59.0,no,desconocido,1032.487286,desconocido,25,3,life_sciences,7,1.0,male,69.532083,3.0,3,sales_executive,1.0,desconocido,8339.32,21682.23,7,desconocido,11,3.0,4.0,part_time,0,28.0,3,2.0,21,7,9,1964,100071.84,yes
7,7,42.0,no,travel_rarely,556.256661,desconocido,1,1,desconocido,8,2.0,female,69.532083,3.0,2,sales_executive,3.0,married,4492.84,11681.39,1,no,25,4.0,3.0,part_time,0,20.0,3,3.0,20,11,6,1981,53914.11,no
8,8,41.0,no,desconocido,1712.18254,desconocido,2,5,desconocido,9,2.0,male,69.532083,3.0,4,manager,1.0,married,13829.17,35955.83,7,no,16,3.0,2.0,full_time,1,22.0,2,3.0,18,11,8,1982,165950.0,yes
9,9,41.0,no,travel_frequently,1973.984127,desconocido,9,3,desconocido,10,1.0,female,69.532083,3.0,5,research_director,3.0,desconocido,15943.72,41453.67,2,no,17,3.0,2.0,desconocido,1,21.0,2,4.0,18,0,11,1982,53914.11,no


In [253]:
# =========================
# 16) VISUALIZACIONES
# =========================
# En esta secci√≥n creamos varios gr√°ficos sencillos para entender mejor el dataset.
# Cada gr√°fico se guarda como imagen dentro de la carpeta 'plots' para usarlo en la demo.

# --- Visualizaci√≥n 1: Gr√°fico de barras de 'attrition' ---
# Comprobamos si existe la columna 'attrition' en el DataFrame
if "attrition" in df.columns:
    plt.figure()  # abrimos una figura nueva (lienzo en blanco)
    # Contamos los valores de 'attrition' (s√≠/no) y los mostramos en barras.
    # 'dropna=False' incluye los posibles NaN en el conteo (por transparencia).
    df["attrition"].value_counts(dropna=False).plot(kind="bar")
    plt.title("Attrition (conteo)")             # t√≠tulo del gr√°fico
    plt.xlabel("attrition")                     # etiqueta eje X
    plt.ylabel("n")                             # etiqueta eje Y (n√∫mero de empleados)
    # Guardamos la imagen en la carpeta 'plots' para tenerla disponible en la demo
    p1 = os.path.join(carpeta_plots, "attrition_counts_v6.png")
    plt.savefig(p1, bbox_inches="tight")        # bbox_inches ajusta m√°rgenes para que no se corte
    plt.close()                                 # cerramos la figura para liberar memoria
    print("Gr√°fico:", p1)                       # confirmamos la ruta del archivo generado

# --- Visualizaci√≥n 2: Histograma de 'monthlyincome' ---
# Comprobamos si existe la columna 'monthlyincome'
if "monthlyincome" in df.columns:
    plt.figure()  # abrimos figura nueva
    # Dibujamos un histograma con 30 bins (intervalos) para ver la distribuci√≥n de ingresos
    # dropna() quita NaN; astype(float) asegura tipo num√©rico para el histograma
    df["monthlyincome"].dropna().astype(float).plot(kind="hist", bins=30)
    plt.title("MonthlyIncome (histograma)")     # t√≠tulo
    plt.xlabel("monthlyincome")                 # eje X: ingresos mensuales
    plt.ylabel("frecuencia")                    # eje Y: cu√°ntos empleados caen en cada rango
    # Guardamos la imagen
    p2 = os.path.join(carpeta_plots, "monthlyincome_hist_v6.png")
    plt.savefig(p2, bbox_inches="tight")
    plt.close()
    print("Gr√°fico:", p2)

# --- Visualizaci√≥n 3: Boxplot de 'yearsatcompany' por 'department' ---
# Solo si tenemos ambas columnas disponibles (a√±os en la empresa y departamento)
if "yearsatcompany" in df.columns and "department" in df.columns:
    plt.figure()                 # nueva figura
    data = []                    # lista con los arrays de valores por departamento
    labels = []                  # nombres (etiquetas) de cada departamento

    # Agrupamos por departamento y recogemos los valores de 'yearsatcompany'
    for d, sub in df.groupby("department"):
        # Convertimos a float y quitamos nulos con dropna()
        vals = sub["yearsatcompany"].dropna().astype(float).values
        if len(vals) > 0:
            data.append(vals)         # a√±adimos la distribuci√≥n de ese departamento
            labels.append(str(d))     # guardamos el nombre del departamento

    # Si tenemos datos, dibujamos el boxplot comparativo (uno por departamento)
    if data:
        plt.boxplot(data, labels=labels, vert=True)  # vert=True para cajas verticales
        plt.xticks(rotation=45, ha="right")          # giramos etiquetas del eje X para que no se solapen
        plt.tight_layout()                           # ajustamos dise√±o para que quepa todo
        # Guardamos la imagen del boxplot
        p3 = os.path.join(carpeta_plots, "yearsatcompany_by_department_v6.png")
        plt.savefig(p3, bbox_inches="tight")
        plt.close()
        print("Gr√°fico:", p3)

# --- Visualizaci√≥n 4: Attrition por JobRole (porcentaje de 'yes') ---
# Muestra qu√© roles tienen mayor rotaci√≥n relativa (porcentaje de bajas).
if "attrition" in df.columns and "jobrole" in df.columns:
    plt.figure()  # nueva figura

    # Calculamos el % de 'yes' por rol:
    # 1) Creamos una columna auxiliar 'attr' en string
    # 2) Agrupamos por 'jobrole'
    # 3) Calculamos la media de (s == "yes") que equivale al % de 'yes'
    # 4) Multiplicamos por 100 para tener porcentaje y ordenamos de mayor a menor
    attr_by_role = (
        df.assign(attr=df["attrition"].astype(str))
          .groupby("jobrole")["attr"]
          .apply(lambda s: (s == "yes").mean() * 100)
          .sort_values(ascending=False)
    )

    # Dibujamos el gr√°fico de barras con los porcentajes
    attr_by_role.plot(kind="bar")
    plt.title("Attrition por JobRole (%)")
    plt.xlabel("jobrole")         # eje X: nombre del rol
    plt.ylabel("% yes")           # eje Y: porcentaje de bajas (yes)
    plt.xticks(rotation=45, ha="right")  # rotamos etiquetas del X para que no se monten
    plt.tight_layout()                   # ajustamos dise√±o
    # Guardamos la imagen
    p4 = os.path.join(carpeta_plots, "attrition_by_jobrole_pct_v6.png")
    plt.savefig(p4, bbox_inches="tight")
    plt.close()
    print("Gr√°fico:", p4)

# --- Visualizaci√≥n 5: TotalWorkingYears vs YearsAtCompany (dispersi√≥n) ---
# Relaci√≥n entre a√±os totales de experiencia y a√±os en la empresa actual.
if "totalworkingyears" in df.columns and "yearsatcompany" in df.columns:
    plt.figure()  # nueva figura
    # Guardamos los ejes X e Y como arrays num√©ricos (float) para la dispersi√≥n
    x = df["totalworkingyears"].astype(float)
    y = df["yearsatcompany"].astype(float)
    # Dibujamos puntos (cada punto es una persona)
    plt.scatter(x, y, s=10, alpha=0.6)
    plt.title("TotalWorkingYears vs YearsAtCompany (scatter)")
    plt.xlabel("totalworkingyears")     # eje X: a√±os totales de experiencia
    plt.ylabel("yearsatcompany")        # eje Y: a√±os en la empresa actual
    # Guardamos la imagen
    p5 = os.path.join(carpeta_plots, "scatter_totalworkingyears_vs_yearsatcompany_v6.png")
    plt.savefig(p5, bbox_inches="tight")
    plt.close()
    print("Gr√°fico:", p5)

Gr√°fico: outputs/plots/attrition_counts_v6.png
Gr√°fico: outputs/plots/monthlyincome_hist_v6.png
Gr√°fico: outputs/plots/yearsatcompany_by_department_v6.png
Gr√°fico: outputs/plots/attrition_by_jobrole_pct_v6.png


  plt.boxplot(data, labels=labels, vert=True)  # vert=True para cajas verticales


Gr√°fico: outputs/plots/scatter_totalworkingyears_vs_yearsatcompany_v6.png


In [254]:
# =========================
#¬†16) VISUALIZACIONES II 
# =========================

# 4. Edad con salario y g√©nero - scatterplot con hue para g√©nero

plt.figure(figsize=(12,6))
# Scatter plot de salario contra edad, con separaci√≥n por g√©nero y transparencia para mejor visualizaci√≥n
sns.scatterplot(data=df, x='age', y='salary', hue='gender', alpha=0.7, palette={'male':'#1f77b4', 'female':'#ff7f0e'})

plt.title('Salario seg√∫n edad y g√©nero')
plt.xlabel('Edad (a√±os)')
plt.ylabel('Salario (USD)')

# Ruta de guardado de la figura
p4 = os.path.join(carpeta_plots, 'salary_age_gender.png')
plt.savefig(p4, bbox_inches='tight')
plt.close()

# 5. Satisfacci√≥n vs % aumento salarial
plt.figure(figsize=(10,6))
# Regplot con puntos semi transparentes y l√≠nea de regresi√≥n
sns.regplot(data=df, x='jobsatisfaction', y='percentsalaryhike', scatter_kws={'alpha': 0.6}, line_kws={'color': 'darkgreen'})

plt.title('Relaci√≥n entre satisfacci√≥n y porcentaje de aumento salarial')
plt.xlabel('Satisfacci√≥n en el trabajo')
plt.ylabel('Porcentaje de aumento salarial')

# Ruta de guardado de la figura
p5 = os.path.join(carpeta_plots, 'satisfaction_vs_salaryhike_colored.png')
plt.savefig(p5, bbox_inches='tight')
plt.close()

# 6. Tipo de jornada vs satisfacci√≥n, salario y aumento salarial
fg4 = sns.FacetGrid(df, col='jobsatisfaction', height=4, col_wrap=3, palette='Set2')
fg4.map_dataframe(sns.scatterplot, x='standardhours', y='salary', alpha=0.6, color='darkblue')
fg4.set_axis_labels('Tipo de jornada', 'Salario')
fg4.fig.suptitle('Salario vs tipo de jornada por nivel de satisfacci√≥n', fontsize=16)

# Ruta de guardado de la figura
p6 = os.path.join(carpeta_plots, 'standardhours_salary_satisfaction_colored.png')
fg4.savefig(p6)
plt.close()

# 7. Aumento salarial vs total de a√±os trabajados
plt.figure(figsize=(10,6))
sns.regplot(data=df, x='totalworkingyears', y='percentsalaryhike', scatter_kws={'alpha': 0.6})
plt.title('Aumento salarial vs total de a√±os trabajados')
plt.xlabel('Total de a√±os trabajados')
plt.ylabel('Porcentaje de aumento de salario')
p7 = os.path.join(carpeta_plots, 'salaryhike_vs_workingyears.png')
plt.savefig(p7, bbox_inches='tight')
plt.close()

# 8. Total a√±os trabajados por puesto de trabajo
avg_jobrole_yrs = df.groupby('jobrole')['totalworkingyears'].mean().reset_index()
plt.figure(figsize=(14,6))
sns.barplot(data=avg_jobrole_yrs, x='jobrole', y='totalworkingyears')
plt.title('Promedio de a√±os trabajados vs puesto de trabajo')
plt.xticks(rotation=45)
plt.xlabel('Puesto de trabajo')
plt.ylabel('Promedio de a√±os trabajados')
p9 = os.path.join(carpeta_plots, 'avg_years_by_jobrole.png')
plt.savefig(p9, bbox_inches='tight')
plt.close()

# 9. Jobrole con satisfacci√≥n
plt.figure(figsize=(14,6))
sns.stripplot(data=df, x='jobrole', y='jobsatisfaction', jitter=True, alpha=0.7)
plt.title('Relaci√≥n entre puesto de trabajo y satisfacci√≥n')
plt.xticks(rotation=45)
plt.xlabel('Puesto de trabajo')
plt.ylabel('Satisfacci√≥n en el trabajo')
p10 = os.path.join(carpeta_plots, 'jobrole_vs_jobsatisfaction.png')
plt.savefig(p10, bbox_inches='tight')
plt.close()

# 10. Compromiso con el trabajo por puesto de trabajo, a√±os trabajados y salario
plt.figure(figsize=(14,6))
sns.stripplot(data=df, x='jobrole', y='jobinvolvement', jitter=True, alpha=0.7)
plt.title('Compromiso con el trabajo vs puesto de trabajo')
plt.xticks(rotation=45)
plt.xlabel('Puesto de trabajo')
plt.ylabel('Compromiso con el trabajo')
p11 = os.path.join(carpeta_plots, 'jobinvolvement_vs_jobrole.png')
plt.savefig(p11, bbox_inches='tight')
plt.close()

plt.figure(figsize=(10,6))
sns.scatterplot(data=df, x='totalworkingyears', y='jobinvolvement', alpha=0.6)
plt.title('Compromiso con el trabajo vs total de a√±os trabajados')
plt.xlabel('Total de a√±os trabajados')
plt.ylabel('Compromiso con el trabajo')
p12 = os.path.join(carpeta_plots, 'jobinvolvement_vs_workingyears.png')
plt.savefig(p12, bbox_inches='tight')
plt.close()

plt.figure(figsize=(10,6))
sns.scatterplot(data=df, x='salary', y='jobinvolvement', alpha=0.6)
plt.title('Compromiso con el trabajo vs salario')
plt.xlabel('Salario')
plt.ylabel('Compromiso con el trabajo')
p13 = os.path.join(carpeta_plots, 'jobinvolvement_vs_salary.png')
plt.savefig(p13, bbox_inches='tight')
plt.close()

# 11. Salario con evaluaci√≥n de desempe√±o
sns.scatterplot(data=df, x='performancerating', y='salary', alpha=0.6)
plt.title('Salario vs evaluaci√≥n de desempe√±o')
plt.xlabel('Evaluaci√≥n de desempe√±o')
plt.ylabel('Salario')
p14 = os.path.join(carpeta_plots, 'salary_vs_performance.png')
plt.savefig(p14, bbox_inches='tight')
plt.close()

# 12. Evaluaci√≥n de desempe√±o con puesto de trabajo y total de a√±os trabajados
plt.figure(figsize=(14,6))
sns.stripplot(data=df, x='jobrole', y='performancerating', jitter=True, alpha=0.7)
plt.title('Evaluaci√≥n de desempe√±o vs puesto de trabajo')
plt.xticks(rotation=45)
plt.xlabel('Puesto de trabajo')
plt.ylabel('Evaluaci√≥n de desempe√±o')
p15 = os.path.join(carpeta_plots, 'performance_vs_jobrole.png')
plt.savefig(p15, bbox_inches='tight')
plt.close()

plt.figure(figsize=(10,6))
sns.scatterplot(data=df, x='totalworkingyears', y='performancerating', alpha=0.6)
plt.title('Evaluaci√≥n de desempe√±o vs total de a√±os trabajados')
plt.xlabel('Total de a√±os trabajados')
plt.ylabel('Evaluaci√≥n de desempe√±o')
p16 = os.path.join(carpeta_plots, 'performance_vs_workingyears.png')
plt.savefig(p16, bbox_inches='tight')
plt.close()

# 13. A√±os desde √∫ltimo ascenso con satisfacci√≥n, aumento y jobrole

fg11 = sns.FacetGrid(df, col='jobrole', height=4, col_wrap=3)
fg11.map_dataframe(sns.scatterplot, x='yearssincelastpromotion', y='jobsatisfaction', alpha=0.6)
fg11.set_axis_labels('A√±os desde √∫ltimo ascenso', 'Satisfacci√≥n en el trabajo')
plt.subplots_adjust(top=0.9)
fg11.fig.suptitle('A√±os desde √∫ltimo ascenso vs satisfacci√≥n por puesto de trabajo')
p17 = os.path.join(carpeta_plots, 'years_since_promotion_vs_satisfaction.png')
fg11.savefig(p17)
plt.close()

plt.figure(figsize=(14,6))
sns.scatterplot(data=df, x='yearssincelastpromotion', y='percentsalaryhike', alpha=0.6)
plt.title('A√±os desde √∫ltimo ascenso vs % aumento salarial')
plt.xlabel('A√±os desde √∫ltimo ascenso')
plt.ylabel('Porcentaje de aumento salarial')
p18 = os.path.join(carpeta_plots, 'years_since_promotion_vs_salaryhike.png')
plt.savefig(p18, bbox_inches='tight')
plt.close()

plt.figure(figsize=(14,6))
sns.stripplot(data=df, x='jobrole', y='yearssincelastpromotion', jitter=True, alpha=0.7)
plt.title('Distribuci√≥n de a√±os desde √∫ltimo ascenso vs puesto de trabajo')
plt.xticks(rotation=45)
plt.xlabel('Puesto de trabajo')
plt.ylabel('A√±os desde √∫ltimo ascenso')
p19 = os.path.join(carpeta_plots, 'years_since_promotion_by_jobrole.png')
plt.savefig(p19, bbox_inches='tight')
plt.close()

# 14. G√©nero con salario y nivel de estudios (3 variables)
plt.figure(figsize=(12,6))
sns.scatterplot(data=df, x='education', y='salary', hue='gender', alpha=0.7)
plt.title('Salario vs nivel de estudios con g√©nero')
plt.xlabel('Nivel de estudios')
plt.ylabel('Salario')
p20 = os.path.join(carpeta_plots, 'salary_education_gender.png')
plt.savefig(p20, bbox_inches='tight')
plt.close()

# 15. Distribuci√≥n de a√±os desde el √∫ltimo ascenso
plt.figure(figsize=(12,6))
sns.histplot(df['yearssincelastpromotion'], bins=15, kde=False)
plt.title('Distribuci√≥n de a√±os desde √∫ltimo ascenso')
plt.xlabel('A√±os desde √∫ltimo ascenso')
plt.ylabel('Cantidad de empleados')
plt.xlim(left=0)  # Esto hace que el eje X empiece en 0 en la esquina izquierda
p21 = os.path.join(carpeta_plots, 'distribution_years_since_last_promotion.png')
plt.savefig(p21, bbox_inches='tight')
plt.close()

# 16. Relaci√≥n entre categor√≠a laboral y salario (remuneraci√≥n diaria)
plt.figure(figsize=(12,6))
sns.scatterplot(data=df, x='joblevel', y='dailyrate', alpha=0.7)
plt.title('Relaci√≥n entre categor√≠a laboral y remuneraci√≥n diaria')
plt.xlabel('Categor√≠a laboral')
plt.ylabel('Remuneraci√≥n diaria')
p23 = os.path.join(carpeta_plots, 'joblevel_vs_dailyrate.png')
plt.savefig(p23, bbox_inches='tight')
plt.close()

# 17. Deserci√≥n por categor√≠a laboral y salario
plt.figure(figsize=(12,6))
sns.stripplot(data=df, x='joblevel', y='salary', hue='attrition', size=4, dodge=True, jitter=True)
plt.title('Salario y categor√≠a laboral vs. deserci√≥n')
plt.xlabel('Categor√≠a laboral')
plt.ylabel('Salario')
p25 = os.path.join(carpeta_plots, 'attrition_with_joblevel_salary.png')
plt.savefig(p25, bbox_inches='tight')
plt.close()

# 18. Satisfacci√≥n vs performance rating con remote work como hue
plt.figure(figsize=(12,6))
sns.boxplot(data=df, x='performancerating', y='jobsatisfaction', hue='remotework')
plt.title('Satisfacci√≥n vs evaluaci√≥n de desempe√±o seg√∫n trabajo a distancia')
plt.xlabel('Evaluaci√≥n de desempe√±o')
plt.ylabel('Satisfacci√≥n en el Trabajo')
p27 = os.path.join(carpeta_plots, 'jobsatisfaction_vs_performance_remote.png')
plt.savefig(p27, bbox_inches='tight')
plt.close()

# 19. Relaci√≥n entre deserci√≥n y puestos de trabajo
# Calcular conteo total y conteo de desertores por job role
jobrole_total = df.groupby('jobrole')['attrition'].count()
jobrole_attrition = df[df['attrition'] == 'yes'].groupby('jobrole')['attrition'].count()

# Calcular proporci√≥n (tasa) de deserci√≥n
attrition_rate = (jobrole_attrition / jobrole_total).fillna(0)

# Pasar a DataFrame para graficar
attrition_rate_df = attrition_rate.reset_index()
attrition_rate_df.columns = ['jobrole', 'attrition_rate']

plt.figure(figsize=(14,7))
sns.barplot(data=attrition_rate_df, x='jobrole', y='attrition_rate')
plt.title('Tasa Relativa de deserci√≥n por puesto de trabajo')
plt.xlabel('Puesto de trabajo')
plt.ylabel('Tasa de deserci√≥n (proporci√≥n)')
plt.xticks(rotation=45, ha='right')

p29 = os.path.join(carpeta_plots, 'relative_attrition_by_jobrole.png')
plt.savefig(p29, bbox_inches='tight')
plt.close()

# 20. Estado civil cruzado con salario
plt.figure(figsize=(12,6))
sns.boxplot(data=df, x='maritalstatus', y='salary')
plt.title('Salario vs estado civil')
plt.xlabel('Estado civil')
plt.ylabel('Salario')
p30 = os.path.join(carpeta_plots, 'salary_vs_maritalstatus.png')
plt.savefig(p30, bbox_inches='tight')
plt.close()

# 21. Horas extra cruzado con deserci√≥n
plt.figure(figsize=(12,6))
sns.countplot(data=df, x='overtime', hue='attrition')
plt.title('Deserci√≥n seg√∫n horas extra')
plt.xlabel('Horas extra')
plt.ylabel('Cantidad de empleados')
p31 = os.path.join(carpeta_plots, 'attrition_vs_overtime.png')
plt.savefig(p31, bbox_inches='tight')
plt.close()

# 22. Relaci√≥n entre satisfacci√≥n en el trabajo y distancia a casa
plt.figure(figsize=(12,6))
sns.boxplot(data=df, x='distancefromhome', y='jobsatisfaction')
plt.title('Satisfacci√≥n laboral vs distancia al trabajo')
plt.xlabel('Distancia desde casa')
plt.ylabel('Satisfacci√≥n en el trabajo')
plt.xticks(rotation=45)
plt.tight_layout()
p32 = os.path.join(carpeta_plots, 'satisfaction_vs_distancefromhome.png')
plt.savefig(p32, bbox_inches='tight')
plt.close()

# 23. Relaci√≥n entre capacitaci√≥n en el √∫ltimo a√±o y evaluaci√≥n del empleado
plt.figure(figsize=(12,6))
sns.countplot(data=df, x='trainingtimeslastyear', hue='performancerating')
plt.title('Capacitaci√≥n el √∫ltimo a√±o vs evaluaci√≥n del empleado')
plt.xlabel('Veces capacitado el √∫ltimo a√±o')
plt.ylabel('Cantidad de empleados')
plt.legend(title='Evaluaci√≥n')
p33 = os.path.join(carpeta_plots, 'training_vs_performance.png')
plt.savefig(p33, bbox_inches='tight')
plt.close()

In [255]:
# =========================
# 17) VERIFICACI√ìN LIMPIEZA (DEMO) ‚Äî antes vs despu√©s
# =========================
# OBJETIVO DE ESTA CELDA:
# - Preparar material para la DEMO del proyecto.
# - Comparar algunos campos importantes ENTRE el dataset bruto (df_raw) y el limpio (df).
# - Mostrar peque√±as tablas con ejemplos "antes vs despu√©s" para ense√±ar la calidad de la limpieza.
# - Guardar esas tablas en CSV dentro de 'outputs/verification' para poder adjuntarlas al repo/presentaci√≥n.
# - Adem√°s, revisar r√°pidamente que las columnas tipo Likert (1..4) hayan quedado con valores v√°lidos.

from IPython.display import display  # 'display' muestra dataframes bonitos en el notebook

def muestras_cambios(col, n=8):
    """
    Esta funci√≥n devuelve una tabla con EJEMPLOS donde el valor CAMBI√ì tras la limpieza.
    - col: nombre de la columna a comparar entre df_raw (antes) y df (despu√©s).
    - n: cu√°ntas filas de ejemplo queremos ver (por defecto 8).
    """
    # 1) Comprobamos que la columna exista en AMBOS dataframes
    if col not in df.columns or col not in df_raw.columns:
        print(f" - Columna '{col}' no existe en df o df_raw.")
        return None

    # 2) Convertimos a string para comparar sin errores de tipo
    orig = df_raw[col].astype("string")  # valores "antes" (bruto)
    new  = df[col].astype("string")      # valores "despu√©s" (limpio)

    # 3) Unimos en una tabla con dos columnas: original vs limpio
    cambios = pd.DataFrame({"original": orig, "limpio": new})

    # 4) Nos quedamos solo con las filas donde los valores SON DISTINTOS
    #    (dropna(how="all") evita mostrar filas que sean todo NaN)
    cambios = cambios[cambios["original"] != cambios["limpio"]].dropna(how="all")

    # 5) Si no hay cambios, lo decimos por pantalla y devolvemos None
    if cambios.empty:
        print(f" - Sin cambios detectados en '{col}' (o ya estaba limpio).")
        return None

    # 6) Devolvemos SOLO n ejemplos (para no saturar la pantalla)
    return cambios.head(n)

# -------------------------------------------------------------
# 1) Elegimos QU√â columnas queremos comparar en la demo
# -------------------------------------------------------------
# Son columnas representativas donde normalmente hay normalizaci√≥n/limpieza:
# - roledepartament: suele traer guiones/espacios/mezcla de may√∫sculas.
# - maritalstatus: min√∫sculas + correcci√≥n del typo "marreid" -> "married".
# - businesstravel: normalizaci√≥n (p. ej., "non-travel" -> "non_travel").
# - educationfield y standardhours: sustituci√≥n de espacios por "_", min√∫sculas, etc.
columns_demo = ["roledepartament", "maritalstatus", "businesstravel", "educationfield", "standardhours"]

# Diccionario para guardar las mini-tablas que generemos (clave = nombre columna)
tablas_demo = {}

# Recorremos cada columna seleccionada y mostramos/guardamos los cambios
for c in columns_demo:
    print(f"\n### {c} ‚Äî antes vs despu√©s")     # t√≠tulo en consola para separar bloques
    df_demo = muestras_cambios(c, n=8)         # pedimos 8 ejemplos
    if df_demo is not None:
        display(df_demo)                       # mostramos la tabla en el notebook
        tablas_demo[c] = df_demo               # guardamos la tabla en el diccionario

# -------------------------------------------------------------
# 2) Guardamos las mini-tablas en CSV para la presentaci√≥n
# -------------------------------------------------------------
# Creamos (si no existe) la carpeta 'outputs/verification'
out_dir = os.path.join(carpeta_outputs, "verification")
os.makedirs(out_dir, exist_ok=True)

# Recorremos las tablas generadas y las guardamos una por una
for c, t in tablas_demo.items():
    p = os.path.join(out_dir, f"muestras_{c}_v6.csv")
    t.to_csv(p, index=False)                   # index=False para no a√±adir la columna del √≠ndice
    print("Guardado:", p)                      # confirmamos la ruta

# -------------------------------------------------------------
# 3) Chequeo especial: columnas LIKERT (valores v√°lidos 1..4)
# -------------------------------------------------------------
# Aqu√≠ revisamos que, en el dataset BRUTO, existieran valores raros (fuera de 1..4),
# y que en el dataset LIMPIO, los valores hayan quedado dentro de lo esperado.
likert_cols = ["environmentsatisfaction", "jobsatisfaction", "relationshipsatisfaction", "jobinvolvement", "worklifebalance"]

for col in likert_cols:
    # Solo procedemos si la columna existe en ambos dataframes
    if col in df_raw.columns and col in df.columns:

        # --- En el BRUTO: buscamos valores fuera de 1..4
        bruto_num = pd.to_numeric(df_raw[col], errors="coerce")  # convertimos a n√∫mero (lo no convertible pasa a NaN)
        fuera_rango = bruto_num[~bruto_num.isna() & ~bruto_num.isin([1, 2, 3, 4])]
        if len(fuera_rango) > 0:
            print(f"\n[LIKERT] '{col}' en bruto: {len(fuera_rango)} valores fuera de 1..4 (mostramos hasta 5)")
            display(fuera_rango.head(5))  # mostramos algunas muestras problem√°ticas
        else:
            print(f"\n[LIKERT] '{col}' en bruto: sin valores raros detectados")

        # --- En el LIMPIO: vemos qu√© valores √∫nicos quedaron (deber√≠an ser 1..4)
        limpio_num = pd.to_numeric(df[col], errors="coerce")
        unicos = sorted(pd.Series(limpio_num.unique()).dropna().tolist())
        print(f"[LIKERT] '{col}' en limpio: valores √∫nicos = {unicos}")

# NOTA:
# - Este bloque es MUY √∫til para ense√±ar a profesores/compa√±eras la diferencia real
#   entre el ‚Äúantes‚Äù y el ‚Äúdespu√©s‚Äù.
# - Si quer√©is, pod√©is a√±adir m√°s columnas a 'columns_demo' seg√∫n lo que quer√°is destacar.


### roledepartament ‚Äî antes vs despu√©s
 - Columna 'roledepartament' no existe en df o df_raw.

### maritalstatus ‚Äî antes vs despu√©s


Unnamed: 0,original,limpio
2,Married,married
3,Married,married
4,Divorced,divorced
7,Married,married
8,Married,married
11,Married,married
12,Married,married
13,Married,married



### businesstravel ‚Äî antes vs despu√©s


Unnamed: 0,original,limpio
10,non-travel,non_travel
20,non-travel,non_travel
29,non-travel,non_travel
54,non-travel,non_travel
55,non-travel,non_travel
70,non-travel,non_travel
139,non-travel,non_travel
146,non-travel,non_travel



### educationfield ‚Äî antes vs despu√©s


Unnamed: 0,original,limpio
1,Life Sciences,life_sciences
2,Technical Degree,technical_degree
3,Medical,medical
4,Technical Degree,technical_degree
5,Medical,medical
6,Life Sciences,life_sciences
11,Life Sciences,life_sciences
12,Medical,medical



### standardhours ‚Äî antes vs despu√©s


Unnamed: 0,original,limpio
0,Full Time,full_time
3,Full Time,full_time
6,Part Time,part_time
7,Part Time,part_time
8,Full Time,full_time
10,Full Time,full_time
11,Full Time,full_time
12,Full Time,full_time


Guardado: outputs/verification/muestras_maritalstatus_v6.csv
Guardado: outputs/verification/muestras_businesstravel_v6.csv
Guardado: outputs/verification/muestras_educationfield_v6.csv
Guardado: outputs/verification/muestras_standardhours_v6.csv

[LIKERT] 'environmentsatisfaction' en bruto: 102 valores fuera de 1..4 (mostramos hasta 5)


24    42
30    37
41    35
68    25
90    27
Name: environmentsatisfaction, dtype: int64

[LIKERT] 'environmentsatisfaction' en limpio: valores √∫nicos = [1.0, 2.0, 3.0, 4.0]

[LIKERT] 'jobsatisfaction' en bruto: sin valores raros detectados
[LIKERT] 'jobsatisfaction' en limpio: valores √∫nicos = [1.0, 2.0, 3.0, 4.0]

[LIKERT] 'relationshipsatisfaction' en bruto: sin valores raros detectados
[LIKERT] 'relationshipsatisfaction' en limpio: valores √∫nicos = [1.0, 2.0, 3.0, 4.0]

[LIKERT] 'jobinvolvement' en bruto: sin valores raros detectados
[LIKERT] 'jobinvolvement' en limpio: valores √∫nicos = [1.0, 2.0, 3.0, 4.0]

[LIKERT] 'worklifebalance' en bruto: sin valores raros detectados
[LIKERT] 'worklifebalance' en limpio: valores √∫nicos = [1.0, 2.0, 3.0, 4.0]
