In [1]:
# importamos las librerías que necesitamos

# Tratamiento de datos
import pandas as pd
import numpy as np
from IPython.display import display


# Librerías de visualización
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
# ver todas las columnas
pd.set_option('display.max_columns', None)

In [3]:
# ver todas las filas
pd.set_option('display.max_rows', None)

In [4]:
# LIMPIEZA FINAL DE CONSISTENCIA Y FORMATO
# ====================================================

import pandas as pd

# Cargar el dataset
df = pd.read_csv("ABC_data_sin_nulos.csv")

# Eliminar espacios en nombres de columnas y pasarlas a minúsculas limpias
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')

# Estandarizar texto en columnas categóricas (sin perder categorías)
for col in df.select_dtypes(include='object'):
    df[col] = df[col].astype(str).str.strip().str.capitalize()
    df[col] = df[col].astype('category')

# Eliminar filas o columnas completamente vacías (por si quedaron tras ediciones)
df.dropna(axis=0, how='all', inplace=True)
df.dropna(axis=1, how='all', inplace=True)

# Eliminar duplicados residuales (por seguridad)
df.drop_duplicates(inplace=True)

# Reiniciar índice
df.reset_index(drop=True, inplace=True)

# Comprobación general
print("Limpieza final aplicada correctamente.")
print(f"- Filas: {df.shape[0]}")
print(f"- Columnas: {df.shape[1]}")
print(f"- Nulos totales: {df.isna().sum().sum()}")
print(f"- Duplicados: {df.duplicated().sum()}")
print("\n Tipos de datos por columna:")
print(df.dtypes.value_counts())

# Mostrar una vista previa
display(df.head(10))

Limpieza final aplicada correctamente.
- Filas: 1614
- Columnas: 29
- Nulos totales: 0
- Duplicados: 0

 Tipos de datos por columna:
int64       17
float64      4
category     1
category     1
category     1
category     1
category     1
category     1
category     1
category     1
Name: count, dtype: int64


Unnamed: 0,attrition,businesstravel,dailyrate,distancefromhome,education,educationfield,employeenumber,environmentsatisfaction,gender,jobinvolvement,joblevel,jobrole,jobsatisfaction,maritalstatus,numcompaniesworked,overtime,percentsalaryhike,performancerating,relationshipsatisfaction,standardhours,stockoptionlevel,trainingtimeslastyear,worklifebalance,yearsatcompany,yearssincelastpromotion,yearswithcurrmanager,datebirth,salary,remotework
0,No,Unknown,2015.722222,6,3,Unknown,1,1,0,3,5,Research director,3,Unknown,7,No,13,3.0,3,Full time,0,5,3.0,20,15,15,1972,195370.0,Yes
1,No,Unknown,2063.388889,1,4,Life sciences,2,3,0,2,5,Manager,3,Unknown,0,Nan,14,3.0,1,Unknown,1,5,3.0,33,11,9,1971,199990.0,Yes
2,No,Travel_rarely,1984.253968,4,2,Technical degree,3,3,0,3,5,Manager,4,Married,1,No,11,3.0,4,Unknown,0,3,3.0,22,11,15,1981,192320.0,Yes
3,No,Travel_rarely,1771.404762,2,4,Medical,4,1,1,3,4,Research director,3,Married,3,Nan,19,3.0,2,Full time,2,2,3.0,20,5,6,1976,171690.0,False
4,No,Unknown,1582.771346,3,3,Technical degree,5,1,1,4,4,Sales executive,1,Divorced,2,No,12,3.0,4,Unknown,1,5,3.0,19,2,8,1977,53914.11,No
5,No,Unknown,1771.920635,22,3,Medical,6,4,1,3,4,Manager,4,Unknown,3,No,11,3.0,2,Unknown,1,3,3.0,22,4,7,1975,53914.11,Yes
6,No,Unknown,1032.487286,25,3,Life sciences,7,1,1,3,3,Sales executive,1,Unknown,7,Nan,11,3.0,4,Part time,0,3,3.0,21,7,9,1964,100071.84,True
7,No,Travel_rarely,556.256661,1,1,Unknown,8,2,0,3,2,Sales executive,3,Married,1,No,25,3.0,3,Part time,0,3,3.0,20,11,6,1981,53914.11,No
8,No,Unknown,1712.18254,2,5,Unknown,9,2,1,3,4,Manager,1,Married,7,No,16,3.0,2,Full time,1,2,3.0,18,11,8,1982,165950.0,True
9,No,Travel_frequently,1973.984127,9,3,Unknown,10,1,0,3,5,Research director,3,Unknown,2,No,17,3.0,2,Unknown,1,2,3.0,18,0,11,1982,53914.11,No


#### 

#### Columna remotework

Normalizar a valores yes/ no.

In [5]:
# Normalizar la columna 'remotework' a valores yes/no:

#1.Inspeccionamos primero los valores únicos
df['remotework'].unique()

['Yes', 'False', 'No', 'True']
Categories (4, object): ['False', 'No', 'True', 'Yes']

In [6]:
#2. Normalizamos 
df['remotework'] = (
    df['remotework']
    .astype(str)       # convertir a texto
    .str.strip()       # quitar espacios
    .str.lower()       # pasar a minúsculas
    .replace({         # mapear valores conocidos
        'yes': 'yes',
        'true': 'yes',
        '1': 'yes',
        'false': 'no',
        '0': 'no'
    })
)

#3.Verificamos el resultado final
print(df['remotework'].value_counts())

remotework
yes    1000
no      614
Name: count, dtype: int64


#### Columna gender

Normalizar a valores M/F.

In [7]:
# Normalizar la columna gender a valores M/F:

#1.Inspeccionamos primero los valores únicos
print(df['gender'].unique())

[0 1]


In [8]:
#2. Normalizamos 
df['gender'] = (
    df['gender']
    .astype(str)        # aseguramos texto
    .str.strip()        # quitamos espacios
    .str.lower()        # pasamos a minúsculas
    .replace({
        'male': 'M',
        'm': 'M',
        '1': 'M',
        'hombre': 'M',
        'man': 'M',
        'female': 'F',
        'f': 'F',
        '0': 'F',
        'mujer': 'F',
        'woman': 'F'
    })
)

#3. Verificamos el resultado
print(df['gender'].value_counts())

gender
F    971
M    643
Name: count, dtype: int64


#### Normalizar todas las columnas categóricas

In [9]:
# FUNCIÓN GENÉRICA PARA NORMALIZAR COLUMNAS CATEGÓRICAS
# ====================================================

def normalizar_categoricas(df, cols_title=None):
    """
    Normaliza las columnas categóricas de un DataFrame:
      - Elimina espacios al inicio y al final.
      - Reemplaza '_' por espacio.
      - Convierte todo a minúsculas para homogeneizar.
      - Aplica:
          * Title Case (cada palabra con mayúscula) para columnas seleccionadas.
          * Capitalize (solo la primera letra) para el resto.
      - Mantiene NaN intactos.
      - Si la columna era 'category', conserva ese tipo.

    Parámetros:
    -----------
    df : pandas.DataFrame
        DataFrame sobre el que aplicar la normalización.
    cols_title : list (opcional)
        Lista de columnas que deben tener formato 'Title Case'
        (por defecto, vacío).

    Retorna:
    --------
    df : pandas.DataFrame
        El mismo DataFrame con las columnas categóricas normalizadas.
    """
    import pandas as pd

    if cols_title is None:
        cols_title = []  # ninguna columna con Title Case si no se especifica

    for col in df.select_dtypes(include=['object', 'category']).columns:
        s = df[col]
        was_categorical = pd.api.types.is_categorical_dtype(s)

        # Máscara para no tocar los nulos
        mask = s.notna()

        # Limpieza general
        temp = (
            s.loc[mask]
             .astype(str)
             .str.strip()            # eliminar espacios
             .str.replace('_', ' ')  # reemplazar guiones bajos
             .str.lower()            # a minúsculas
        )

        # Ajuste de capitalización
        if col.lower() in [c.lower() for c in cols_title]:
            temp = temp.str.title()        # Cada palabra en mayúscula
        else:
            temp = temp.str.capitalize()   # Solo la primera letra

        # Reemplazar los valores en el DataFrame original
        df.loc[mask, col] = temp

        # Restaurar tipo category si lo tenía
        if was_categorical:
            df[col] = df[col].astype('category')

    print("Normalización de variables categóricas completada.")
    return df

In [10]:
# Creamos una función para renombrar todas las columnas
import re

def normalizar_nombres_columnas(df):
    """
    Normaliza nombres de columnas:
      - Inserta '_' entre palabras (detecta camelCase y letras/números)
      - Capitaliza la primera letra de cada palabra
    """
    nuevas_columnas = []

    for col in df.columns:
        # 1. Elimina espacios al inicio y final
        col = col.strip()

        # 2. Inserta '_' entre palabras (camelCase o letras/números)
        col = re.sub(r'(?<=[a-z])(?=[A-Z])', '_', col)     # minúscula→Mayúscula
        col = re.sub(r'(?<=[a-zA-Z])(?=[0-9])', '_', col)  # letra→dígito
        col = re.sub(r'(?<=[0-9])(?=[a-zA-Z])', '_', col)  # dígito→letra

        # 3. Pasar a minúsculas
        col = col.lower()

        # 4. Capitalizar la primera letra de cada palabra
        partes = col.split('_')
        partes = [p.capitalize() for p in partes]

        # 5. Volver a unir con '_'
        nuevo_nombre = '_'.join(partes)

        nuevas_columnas.append(nuevo_nombre)

    df.columns = nuevas_columnas
    return df


# Uso: aplicar y guardar la función sobre df_limpio
df = normalizar_nombres_columnas(df)

In [11]:
# 1. Identificamos columnas numéricas
columnas_numericas = df.select_dtypes(include="number").columns
print("Columnas numéricas:", list(columnas_numericas))

# 2. Definimos una función para normalizar números
def normalizar_numeros(columna):
    # Reemplazamos comas por puntos y convertimos a numérico
    columna = columna.astype(str).str.replace(",", ".", regex=False)
    columna = pd.to_numeric(columna, errors="coerce")  # convierte a número
    return columna.round(2)  # redondeamos a 2 decimales

# 3. Aplicamos la función a cada columna numérica
for col in columnas_numericas:
    df[col] = normalizar_numeros(df[col])

# 4. Revisamos las primeras filas
df[columnas_numericas].head()

Columnas numéricas: ['Dailyrate', 'Distancefromhome', 'Education', 'Employeenumber', 'Environmentsatisfaction', 'Jobinvolvement', 'Joblevel', 'Jobsatisfaction', 'Numcompaniesworked', 'Percentsalaryhike', 'Performancerating', 'Relationshipsatisfaction', 'Stockoptionlevel', 'Trainingtimeslastyear', 'Worklifebalance', 'Yearsatcompany', 'Yearssincelastpromotion', 'Yearswithcurrmanager', 'Datebirth', 'Salary']


Unnamed: 0,Dailyrate,Distancefromhome,Education,Employeenumber,Environmentsatisfaction,Jobinvolvement,Joblevel,Jobsatisfaction,Numcompaniesworked,Percentsalaryhike,Performancerating,Relationshipsatisfaction,Stockoptionlevel,Trainingtimeslastyear,Worklifebalance,Yearsatcompany,Yearssincelastpromotion,Yearswithcurrmanager,Datebirth,Salary
0,2015.72,6,3,1,1,3,5,3,7,13,3.0,3,0,5,3.0,20,15,15,1972,195370.0
1,2063.39,1,4,2,3,2,5,3,0,14,3.0,1,1,5,3.0,33,11,9,1971,199990.0
2,1984.25,4,2,3,3,3,5,4,1,11,3.0,4,0,3,3.0,22,11,15,1981,192320.0
3,1771.4,2,4,4,1,3,4,3,3,19,3.0,2,2,2,3.0,20,5,6,1976,171690.0
4,1582.77,3,3,5,1,4,4,1,2,12,3.0,4,1,5,3.0,19,2,8,1977,53914.11


In [12]:
# 1. Definimos una función que convierte los valores a absolutos
def normalizar_distancia(columna):
    return columna.abs()   # abs() convierte -5 → 5, deja los positivos igual

# 2. Aplicamos la función a la columna 'distancefromhome'
df["Distancefromhome"] = normalizar_distancia(df["Distancefromhome"])

# 3. Revisamos las primeras filas para comprobar
print(df["Distancefromhome"].head(10))

0     6
1     1
2     4
3     2
4     3
5    22
6    25
7     1
8     2
9     9
Name: Distancefromhome, dtype: int64


In [13]:
# Detectar valores únicos en columnas categóricas
columnas_categoricas = df.select_dtypes(include="object").columns

for col in columnas_categoricas:
    print(f"\nColumna: {col}")
    print(df[col].unique())


Columna: Gender
['F' 'M']

Columna: Remotework
['yes' 'no']


In [14]:

# 1. Seleccionamos solo columnas categóricas
columnas_categoricas = df.select_dtypes(include="object").columns

# 2. Mostramos valores únicos ANTES de corregir
print("=== VALORES ÚNICOS ANTES DE CORREGIR ===")
for col in columnas_categoricas:
    print(f"\nColumna: {col}")
    print(df[col].unique())

# 3. Correcciones manuales (ejemplos comunes, ajusta según tus datos)
correcciones = {
    "maritalstatus": {
        "Marreid": "Married",   # error tipográfico
        "Marrid": "Married"
    },
    "gender": {
        "Femal": "Female",
        "F": "Female",
        "M": "Male"
    },
    "jobrole": {
        "ManaGER": "Manager",
        "Sales Excecutive": "Sales Executive"
    },
    "department": {
        "Resarch & Development": "Research & Development"
    }
}

# 4. Aplicamos las correcciones
for col, reemplazos in correcciones.items():
    if col in df.columns:
        df[col] = df[col].replace(reemplazos)

# 5. Mostramos valores únicos DESPUÉS de corregir
print("\n=== VALORES ÚNICOS DESPUÉS DE CORREGIR ===")
for col in correcciones.keys():
    if col in df.columns:
        print(f"\nColumna: {col}")
        print(df[col].unique())

# 6. Vista rápida del DataFrame corregido
pd.set_option("display.max_columns", None)  # para ver todas las columnas
print("\n=== PRIMERAS FILAS DEL DF LIMPIO ===")
print(df.head(10))

=== VALORES ÚNICOS ANTES DE CORREGIR ===

Columna: Gender
['F' 'M']

Columna: Remotework
['yes' 'no']

=== VALORES ÚNICOS DESPUÉS DE CORREGIR ===

=== PRIMERAS FILAS DEL DF LIMPIO ===
  Attrition     Businesstravel  Dailyrate  Distancefromhome  Education  \
0        No            Unknown    2015.72                 6          3   
1        No            Unknown    2063.39                 1          4   
2        No      Travel_rarely    1984.25                 4          2   
3        No      Travel_rarely    1771.40                 2          4   
4        No            Unknown    1582.77                 3          3   
5        No            Unknown    1771.92                22          3   
6        No            Unknown    1032.49                25          3   
7        No      Travel_rarely     556.26                 1          1   
8        No            Unknown    1712.18                 2          5   
9        No  Travel_frequently    1973.98                 9          3   

 

### ✨ Plan de normalización y limpieza de columnas

🖥️ **Columna `remotework`**  
- 🔄 Normalizar valores a `yes` / `no`.

---

👫 **Columna `gender`**  
- 🔄 Normalizar valores a `M` / `F`.

---

🔤 **Columnas categóricas (texto)**  
- 📝 Corregir fallos tipográficos (ejemplo: combinación de mayúsculas y minúsculas).  
- 🔠 Capitalizar la primera letra de cada valor.  
- ⚙️ Implementar una función que recorra todas las columnas categóricas para normalizar texto.

---

🔢 **Columnas numéricas**  
- 🔧 Corregir fallos tipográficos:  
  - ➡️ Reemplazar `,` por `.` en valores numéricos.  
  - 🎯 Redondear decimales a 2 dígitos.  
- ⚙️ Implementar una función que recorra todas las columnas numéricas y normalice sus valores.

---

📏 **Columna `distancefromhome`**  
- 🔄 Convertir valores negativos a valor absoluto.

---

🔍 **Detección y corrección de valores mal escritos en categóricas**  
- 👀 Identificar valores con `unique()` durante el EDA.  
- ✏️ Reemplazar cada error con la palabra correctamente escrita.  
  - Ejemplo: `marreid` → `married`.

---

🏷️ **Nombres de columnas**  
- ✨ Renombrar y normalizar: todas las columnas con formato `.title`.  
  - Ejemplo: `distancefromhome` → `Distancefromhome`.

In [16]:
df.head()

Unnamed: 0,Attrition,Businesstravel,Dailyrate,Distancefromhome,Education,Educationfield,Employeenumber,Environmentsatisfaction,Gender,Jobinvolvement,Joblevel,Jobrole,Jobsatisfaction,Maritalstatus,Numcompaniesworked,Overtime,Percentsalaryhike,Performancerating,Relationshipsatisfaction,Standardhours,Stockoptionlevel,Trainingtimeslastyear,Worklifebalance,Yearsatcompany,Yearssincelastpromotion,Yearswithcurrmanager,Datebirth,Salary,Remotework
0,No,Unknown,2015.72,6,3,Unknown,1,1,F,3,5,Research director,3,Unknown,7,No,13,3.0,3,Full time,0,5,3.0,20,15,15,1972,195370.0,yes
1,No,Unknown,2063.39,1,4,Life sciences,2,3,F,2,5,Manager,3,Unknown,0,Nan,14,3.0,1,Unknown,1,5,3.0,33,11,9,1971,199990.0,yes
2,No,Travel_rarely,1984.25,4,2,Technical degree,3,3,F,3,5,Manager,4,Married,1,No,11,3.0,4,Unknown,0,3,3.0,22,11,15,1981,192320.0,yes
3,No,Travel_rarely,1771.4,2,4,Medical,4,1,M,3,4,Research director,3,Married,3,Nan,19,3.0,2,Full time,2,2,3.0,20,5,6,1976,171690.0,no
4,No,Unknown,1582.77,3,3,Technical degree,5,1,M,4,4,Sales executive,1,Divorced,2,No,12,3.0,4,Unknown,1,5,3.0,19,2,8,1977,53914.11,no


In [17]:
df.tail()

Unnamed: 0,Attrition,Businesstravel,Dailyrate,Distancefromhome,Education,Educationfield,Employeenumber,Environmentsatisfaction,Gender,Jobinvolvement,Joblevel,Jobrole,Jobsatisfaction,Maritalstatus,Numcompaniesworked,Overtime,Percentsalaryhike,Performancerating,Relationshipsatisfaction,Standardhours,Stockoptionlevel,Trainingtimeslastyear,Worklifebalance,Yearsatcompany,Yearssincelastpromotion,Yearswithcurrmanager,Datebirth,Salary,Remotework
1609,Yes,Travel_rarely,1065.28,3,1,Life sciences,1610,3,F,2,3,Sales executive,4,Married,1,Nan,11,3.0,1,Full time,1,6,3.0,16,3,7,1987,103250.0,no
1610,No,Non-travel,458.82,4,2,Unknown,1611,3,F,3,2,Laboratory technician,2,Unknown,1,Nan,12,3.0,2,Part time,0,5,3.0,9,0,8,1978,44470.0,yes
1611,No,Travel_rarely,1032.49,13,5,Unknown,1612,13,F,4,3,Sales executive,3,Single,0,No,18,3.0,4,Part time,0,3,3.0,8,0,7,1984,100071.84,yes
1612,No,Non-travel,556.26,8,4,Technical degree,1613,1,F,3,2,Sales executive,4,Divorced,4,No,13,3.0,4,Part time,2,3,3.0,7,0,7,1987,53914.11,yes
1613,No,Unknown,1118.93,7,2,Medical,1614,4,F,3,3,Manufacturing director,3,Unknown,6,Nan,13,3.0,2,Full time,1,3,3.0,8,0,7,1977,108450.0,no


Guardamos en csv:

In [18]:
df.to_csv("Datos_para_visualizaciones.csv", index=False, encoding='utf-8')