# Módulo 2: Preprocesamiento de Datos y Desarrollo Backend
## Clase 1: Técnicas de Limpieza de Datos 🧹

### Introducción

En esta clase, nos sumergiremos en el crucial proceso de **limpieza de datos**. Los datos del mundo real raramente vienen listos para el análisis; a menudo contienen valores faltantes, errores, duplicados o valores atípicos que pueden distorsionar nuestros resultados si no se manejan adecuadamente. Abordaremos:

1.  Carga de datasets externos (archivos CSV).
2.  Manejo de **Valores Nulos**.
3.  Manejo de **Datos Duplicados**.
4.  Manejo de **Outliers (Valores Atípicos)**.

Utilizaremos **Pandas** para la manipulación de datos y **NumPy** para operaciones numéricas. Como dataset principal para las demostraciones, usaremos el famoso dataset del **Titanic**.

### 1. Configuración e Importación de Librerías

Comencemos importando las librerías necesarias.

In [1]:
import pandas as pd
import numpy as np

### 2. Carga de un Dataset Externo: El Titanic 🚢

Los datasets suelen almacenarse en archivos. Uno de los formatos más comunes es CSV (Valores Separados por Comas). Pandas facilita enormemente la carga de estos archivos.

#### Opción A: Cargar desde una URL (Recomendado para reproducibilidad)
Podemos cargar el dataset del Titanic directamente desde una URL pública. Esto asegura que todos trabajemos con la misma versión del archivo.

In [2]:
# URL de un CSV del dataset del Titanic (fuente: repositorio de datos de Seaborn)
url_titanic = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv'

try:
    df_titanic = pd.read_csv(url_titanic)
    print("Dataset del Titanic cargado exitosamente desde la URL!")
except Exception as e:
    print(f"Error al cargar el dataset desde la URL: {e}")
    # Plan B: Si la URL falla, podríamos tener una copia local o definirlo manualmente para la demo
    # df_titanic = None # O cargar un CSV local si se prefiere como respaldo.

if df_titanic is not None:
    print("\n--- Información General del Dataset ---")
    df_titanic.info()
    
    print("\n--- Primeras 5 Filas ---")
    display(df_titanic.head())
    
    print("\n--- Estadísticas Descriptivas (columnas numéricas) ---")
    display(df_titanic.describe())
    
    print("\n--- Estadísticas Descriptivas (columnas de tipo 'object'/categóricas) ---")
    display(df_titanic.describe(include=['object', 'category']))

Dataset del Titanic cargado exitosamente desde la URL!

--- Información General del Dataset ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   survived     891 non-null    int64  
 1   pclass       891 non-null    int64  
 2   sex          891 non-null    object 
 3   age          714 non-null    float64
 4   sibsp        891 non-null    int64  
 5   parch        891 non-null    int64  
 6   fare         891 non-null    float64
 7   embarked     889 non-null    object 
 8   class        891 non-null    object 
 9   who          891 non-null    object 
 10  adult_male   891 non-null    bool   
 11  deck         203 non-null    object 
 12  embark_town  889 non-null    object 
 13  alive        891 non-null    object 
 14  alone        891 non-null    bool   
dtypes: bool(2), float64(2), int64(4), object(7)
memory usage: 92.4+ KB

--- Primeras

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True



--- Estadísticas Descriptivas (columnas numéricas) ---


Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292



--- Estadísticas Descriptivas (columnas de tipo 'object'/categóricas) ---


Unnamed: 0,sex,embarked,class,who,deck,embark_town,alive
count,891,889,891,891,203,889,891
unique,2,3,3,3,7,3,2
top,male,S,Third,man,C,Southampton,no
freq,577,644,491,537,59,644,549


#### Opción B: Cargar desde un Archivo Local (Alternativa)
Si has descargado el archivo `titanic.csv` y lo tienes en el mismo directorio que tu notebook (o si lo subes a tu entorno de Jupyter), puedes cargarlo así:
```python
# df_titanic = pd.read_csv('titanic.csv')
```
Asegúrate de que el nombre del archivo y la ruta sean correctos.

---

## 3. Manejo de Valores Nulos (Missing Values) en el Titanic

El dataset del Titanic tiene varios valores nulos que necesitamos tratar.

### 3.1. Identificación de Valores Nulos

In [3]:
if df_titanic is not None:
    print("Valores nulos por columna en el Titanic:")
    print(df_titanic.isnull().sum())
    
    # Porcentaje de valores nulos
    print("\nPorcentaje de valores nulos por columna:")
    print((df_titanic.isnull().sum() / len(df_titanic)) * 100)

Valores nulos por columna en el Titanic:
survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

Porcentaje de valores nulos por columna:
survived        0.000000
pclass          0.000000
sex             0.000000
age            19.865320
sibsp           0.000000
parch           0.000000
fare            0.000000
embarked        0.224467
class           0.000000
who             0.000000
adult_male      0.000000
deck           77.216611
embark_town     0.224467
alive           0.000000
alone           0.000000
dtype: float64


Observamos que `age`, `deck` (derivado de `cabin`), y `embarked` / `embark_town` tienen valores nulos. La columna `deck` tiene una gran cantidad.

### 3.2. Estrategias para Manejar Valores Nulos en el Titanic

Crearemos una copia del DataFrame para aplicar las técnicas de limpieza sin alterar el original cargado.

In [4]:
if df_titanic is not None:
    df_titanic_limpio = df_titanic.copy()

#### a) Columna `deck` (derivada de `cabin`)
La columna `deck` tiene muchos valores faltantes (más del 77%). Una estrategia común es eliminar la columna si no se considera crucial o si la cantidad de datos faltantes es demasiado alta para una imputación confiable. Alternativamente, podríamos crear una característica que indique si la cabina era conocida o no, o imputar con una categoría "Desconocido" si `deck` fuera categórica (Pandas la interpreta como categórica si se carga desde la fuente de Seaborn, pero si `cabin` es object, `deck` puede serlo también). 

Para este ejemplo, vamos a eliminarla, pero considera que la columna original `cabin` (de la cual `deck` es una extracción de la primera letra) podría ser útil para ingeniería de características más avanzada.

In [5]:
if df_titanic is not None and 'deck' in df_titanic_limpio.columns:
    df_titanic_limpio.drop('deck', axis=1, inplace=True)
    print("Columna 'deck' eliminada.")
    # Si 'cabin' también está y tiene muchos nulos, podrías considerar eliminarla también o tratarla
    # if 'cabin' in df_titanic_limpio.columns:
    #     df_titanic_limpio.drop('cabin', axis=1, inplace=True)
    #     print("Columna 'cabin' eliminada.")

Columna 'deck' eliminada.


#### b) Columna `age`
Tiene un número considerable de nulos (alrededor del 20%). Eliminar filas podría significar perder mucha información. La imputación es una mejor estrategia.
Como `age` es numérica, podemos usar la media o la mediana. La mediana es generalmente más robusta a outliers.

In [6]:
if df_titanic is not None and 'age' in df_titanic_limpio.columns:
    mediana_edad = df_titanic_limpio['age'].median()
    df_titanic_limpio['age'].fillna(mediana_edad, inplace=True)
    print(f"Valores nulos en 'age' imputados con la mediana: {mediana_edad}")

Valores nulos en 'age' imputados con la mediana: 28.0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_titanic_limpio['age'].fillna(mediana_edad, inplace=True)


#### c) Columnas `embarked` y `embark_town`
Tienen muy pocos valores nulos. Podríamos eliminar esas filas o imputar con la moda (el puerto más común).

In [7]:
if df_titanic is not None:
    if 'embarked' in df_titanic_limpio.columns:
        moda_embarked = df_titanic_limpio['embarked'].mode()[0]
        df_titanic_limpio['embarked'].fillna(moda_embarked, inplace=True)
        print(f"Valores nulos en 'embarked' imputados con la moda: {moda_embarked}")
    
    if 'embark_town' in df_titanic_limpio.columns:
        moda_embark_town = df_titanic_limpio['embark_town'].mode()[0]
        df_titanic_limpio['embark_town'].fillna(moda_embark_town, inplace=True)
        print(f"Valores nulos en 'embark_town' imputados con la moda: {moda_embark_town}")

    # Verificar nulos restantes
    print("\nValores nulos restantes después de la limpieza inicial:")
    print(df_titanic_limpio.isnull().sum())

Valores nulos en 'embarked' imputados con la moda: S
Valores nulos en 'embark_town' imputados con la moda: Southampton

Valores nulos restantes después de la limpieza inicial:
survived       0
pclass         0
sex            0
age            0
sibsp          0
parch          0
fare           0
embarked       0
class          0
who            0
adult_male     0
embark_town    0
alive          0
alone          0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_titanic_limpio['embarked'].fillna(moda_embarked, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_titanic_limpio['embark_town'].fillna(moda_embark_town, inplace=True)


---

## 4. Manejo de Datos Duplicados en el Titanic

Verifiquemos si hay filas completamente duplicadas en nuestro dataset limpio (hasta ahora).

In [9]:
if df_titanic is not None:
    duplicados_titanic = df_titanic_limpio.duplicated().sum()
    print(f"Número de filas completamente duplicadas: {duplicados_titanic}")

    if duplicados_titanic > 0:
        print("Filas duplicadas encontradas:")
        display(df_titanic_limpio[df_titanic_limpio.duplicated(keep=False)].sort_values(by=list(df_titanic_limpio.columns))) # keep=False muestra todas las ocurrencias
        
        # Eliminar duplicados, manteniendo la primera ocurrencia
        df_titanic_limpio.drop_duplicates(keep='first', inplace=True)
        print(f"\nNúmero de filas después de eliminar duplicados: {len(df_titanic_limpio)}")
    else:
        print("No se encontraron filas completamente duplicadas.")

Número de filas completamente duplicadas: 0
No se encontraron filas completamente duplicadas.


*Nota: El dataset del Titanic de Seaborn ya viene bastante limpio en cuanto a duplicados completos, pero es una buena práctica verificarlo.*

---

## 5. Manejo de Outliers (Valores Atípicos) en el Titanic

Exploremos outliers en columnas numéricas como `age` y `fare`.

### 5.1. Identificación de Outliers (Método IQR)

Utilizaremos la función `detectar_outliers_iqr` que podríamos haber definido en una clase anterior o definirla aquí.

In [11]:
def detectar_outliers_iqr(df, columna):
    if columna not in df.columns or df[columna].isnull().all():
        print(f"Columna '{columna}' no existe o todos sus valores son NaN.")
        return pd.DataFrame(), np.nan, np.nan # Devuelve DataFrame vacío y NaNs para límites
        
    Q1 = df[columna].quantile(0.25)
    Q3 = df[columna].quantile(0.75)
    IQR_val = Q3 - Q1
    
    limite_inferior = Q1 - 1.5 * IQR_val
    limite_superior = Q3 + 1.5 * IQR_val
    
    print(f"\n--- Outliers para '{columna}' ---")
    print(f"Q1: {Q1:.2f}, Q3: {Q3:.2f}, IQR: {IQR_val:.2f}")
    print(f"Límite Inferior: {limite_inferior:.2f}, Límite Superior: {limite_superior:.2f}")
    
    outliers = df[(df[columna] < limite_inferior) | (df[columna] > limite_superior)]
    return outliers, limite_inferior, limite_superior

if df_titanic is not None:
    # Detectar outliers en 'age' (ya imputada)
    outliers_age, lim_inf_age, lim_sup_age = detectar_outliers_iqr(df_titanic_limpio, 'age')
    print("Outliers en 'age':")
    if not outliers_age.empty:
        display(outliers_age[['age', 'fare', 'pclass', 'survived']].head())
    else:
        print("No se encontraron outliers significativos en 'age' con el método IQR.")

    # Detectar outliers en 'fare'
    outliers_fare, lim_inf_fare, lim_sup_fare = detectar_outliers_iqr(df_titanic_limpio, 'fare')
    print("\nOutliers en 'fare':")
    if not outliers_fare.empty:
        display(outliers_fare[['fare', 'pclass', 'survived', 'age']].head())
    else:
        print("No se encontraron outliers significativos en 'fare' con el método IQR.")


--- Outliers para 'age' ---
Q1: 21.00, Q3: 36.00, IQR: 15.00
Límite Inferior: -1.50, Límite Superior: 58.50
Outliers en 'age':


Unnamed: 0,age,fare,pclass,survived
33,66.0,10.5,2,0
54,65.0,61.9792,1,0
94,59.0,7.25,3,0
96,71.0,34.6542,1,0
116,70.5,7.75,3,0



--- Outliers para 'fare' ---
Q1: 8.05, Q3: 34.20, IQR: 26.15
Límite Inferior: -31.17, Límite Superior: 73.42

Outliers en 'fare':


Unnamed: 0,fare,pclass,survived,age
27,263.0,1,0,19.0
31,146.5208,1,1,28.0
34,82.1708,1,0,28.0
52,76.7292,1,1,49.0
61,80.0,1,1,38.0


### 5.2. Estrategias para Manejar Outliers en el Titanic

Para `fare`, los valores altos podrían ser legítimos (pasajeros de primera clase con suites caras). Para `age`, algunos valores muy altos o bajos podrían ser errores o casos raros.

#### a) Capping para `fare`
Podemos acotar los valores de `fare` para reducir la influencia de los valores extremadamente altos, sin eliminarlos por completo.

In [12]:
if df_titanic is not None and not np.isnan(lim_sup_fare): # Asegurarse que lim_sup_fare no es NaN
    # Aplicar capping a 'fare'
    df_titanic_limpio['fare_capped'] = df_titanic_limpio['fare'].copy()
    df_titanic_limpio['fare_capped'] = np.where(
        df_titanic_limpio['fare_capped'] > lim_sup_fare, 
        lim_sup_fare, 
        df_titanic_limpio['fare_capped']
    )
    # No hay capping inferior para fare ya que lim_inf_fare es negativo y fare no puede serlo.
    
    print(f"\n'fare' original vs 'fare_capped' (para valores > {lim_sup_fare:.2f}):")
    display(df_titanic_limpio[df_titanic_limpio['fare'] > lim_sup_fare][['fare', 'fare_capped']].head())
    
    # Podríamos reemplazar la columna original o mantener ambas
    # df_titanic_limpio['fare'] = df_titanic_limpio['fare_capped']
    # df_titanic_limpio.drop('fare_capped', axis=1, inplace=True)
else:
    print("No se aplicó capping a 'fare' porque los límites no se calcularon (posiblemente todos los valores eran NaN).")


'fare' original vs 'fare_capped' (para valores > 73.42):


Unnamed: 0,fare,fare_capped
27,263.0,73.41975
31,146.5208,73.41975
34,82.1708,73.41975
52,76.7292,73.41975
61,80.0,73.41975


Para `age`, los outliers identificados por IQR (si los hay después de la imputación) podrían ser válidos. La decisión de tratarlos dependería del objetivo del análisis. Por ahora, los dejaremos como están después de la imputación.

---

## 6. Dataset Limpio (Parcialmente)

Veamos el estado de nuestro `df_titanic_limpio`.

In [13]:
if df_titanic is not None:
    print("--- Información del DataFrame Parcialmente Limpio ---")
    df_titanic_limpio.info()
    print("\n--- Primeras filas del DataFrame Parcialmente Limpio ---")
    display(df_titanic_limpio.head())

--- Información del DataFrame Parcialmente Limpio ---
<class 'pandas.core.frame.DataFrame'>
Index: 775 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   survived     775 non-null    int64  
 1   pclass       775 non-null    int64  
 2   sex          775 non-null    object 
 3   age          775 non-null    float64
 4   sibsp        775 non-null    int64  
 5   parch        775 non-null    int64  
 6   fare         775 non-null    float64
 7   embarked     775 non-null    object 
 8   class        775 non-null    object 
 9   who          775 non-null    object 
 10  adult_male   775 non-null    bool   
 11  embark_town  775 non-null    object 
 12  alive        775 non-null    object 
 13  alone        775 non-null    bool   
 14  fare_capped  775 non-null    float64
dtypes: bool(2), float64(3), int64(4), object(6)
memory usage: 86.3+ KB

--- Primeras filas del DataFrame Parcialmente Limpio ---


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,embark_town,alive,alone,fare_capped
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,Southampton,no,False,7.25
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,Cherbourg,yes,False,71.2833
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,Southampton,yes,True,7.925
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,Southampton,yes,False,53.1
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,Southampton,no,True,8.05


---

## 7. Ejercicios Prácticos con un Nuevo Dataset 🏋️‍♀️

Ahora, aplicarás estas técnicas a un nuevo conjunto de datos sobre empleados.

### Ejercicio 7.1: Limpieza de Datos de Empleados

**Dataset:**
```python
datos_empleados = {
    'ID_Empleado': ['E01', 'E02', 'E03', 'E04', 'E05', 'E06', 'E02', 'E07', 'E08', 'E09', 'E10', 'E11'],
    'Nombre': ['Carlos', 'Ana', 'Luis', 'Sofia', 'Pedro', 'Laura', 'Ana', 'David', 'Maria', 'Juan', None, 'Elena'],
    'Edad': [34, 28, 45, 30, None, 25, 28, 50, 33, 200, 40, 29], # None, Outlier
    'Departamento': ['Ventas', 'Marketing', 'TI', 'Ventas', 'TI', None, 'Marketing', 'RRHH', 'Ventas', 'TI', 'Marketing', 'Ventas'], # None
    'SalarioAnual': [60000, 75000, 90000, 62000, 85000, None, 75000, 110000, 58000, 500000, 72000, None], # None, Outlier
    'FechaContratacion': ['2020-03-15', '2019-07-20', '2018-01-10', '2020-03-01', '2019-11-05', 
                          '2021-05-20', '2019-07-20', '2017-09-01', '2020-08-12', '2022-01-05', 
                          '2019-09-01', '2021-02-10']
}
df_empleados = pd.DataFrame(datos_empleados)
df_empleados['FechaContratacion'] = pd.to_datetime(df_empleados['FechaContratacion'])
```

**Tareas:**
1.  **Crea el DataFrame** `df_empleados` con los datos proporcionados.
2.  **Valores Nulos:**
    * Identifica y cuenta los valores nulos en cada columna.
    * Imputa los nulos en `Nombre` con la cadena "Desconocido".
    * Imputa los nulos en `Edad` con la mediana de la columna.
    * Imputa los nulos en `Departamento` con la moda de la columna.
    * Imputa los nulos en `SalarioAnual` con la media de la columna.
3.  **Datos Duplicados:**
    * Identifica y elimina las filas completamente duplicadas, manteniendo la primera ocurrencia.
4.  **Outliers (para `Edad` y `SalarioAnual`):
    * Después de imputar los nulos, utiliza el método IQR para identificar outliers en `Edad` y `SalarioAnual`.
    * Aplica la técnica de *capping* para los outliers identificados en ambas columnas.
5.  **Resultado Final:**
    * Muestra la información (`.info()`) del DataFrame `df_empleados` limpio.
    * Muestra las primeras 5 filas del DataFrame limpio.

In [None]:
# 1. Crear el DataFrame df_empleados
datos_empleados = {
    'ID_Empleado': ['E01', 'E02', 'E03', 'E04', 'E05', 'E06', 'E02', 'E07', 'E08', 'E09', 'E10', 'E11'],
    'Nombre': ['Carlos', 'Ana', 'Luis', 'Sofia', 'Pedro', 'Laura', 'Ana', 'David', 'Maria', 'Juan', None, 'Elena'],
    'Edad': [34, 28, 45, 30, None, 25, 28, 50, 33, 200, 40, 29], 
    'Departamento': ['Ventas', 'Marketing', 'TI', 'Ventas', 'TI', None, 'Marketing', 'RRHH', 'Ventas', 'TI', 'Marketing', 'Ventas'],
    'SalarioAnual': [60000.0, 75000.0, 90000.0, 62000.0, 85000.0, None, 75000.0, 110000.0, 58000.0, 500000.0, 72000.0, None],
    'FechaContratacion': ['2020-03-15', '2019-07-20', '2018-01-10', '2020-03-01', '2019-11-05', 
                          '2021-05-20', '2019-07-20', '2017-09-01', '2020-08-12', '2022-01-05', 
                          '2019-09-01', '2021-02-10']
}
df_empleados = pd.DataFrame(datos_empleados)
df_empleados['FechaContratacion'] = pd.to_datetime(df_empleados['FechaContratacion'])

print("--- DataFrame Original de Empleados ---")
display(df_empleados)

# 2. Valores Nulos
print("\n--- 2. Manejo de Valores Nulos ---")
print("Nulos antes de imputar:")
print(df_empleados.isnull().sum())

df_empleados['Nombre'].fillna("Desconocido", inplace=True)
df_empleados['Edad'].fillna(df_empleados['Edad'].median(), inplace=True)
df_empleados['Departamento'].fillna(df_empleados['Departamento'].mode()[0], inplace=True)
df_empleados['SalarioAnual'].fillna(df_empleados['SalarioAnual'].mean(), inplace=True)

print("\nNulos después de imputar:")
print(df_empleados.isnull().sum())

# 3. Datos Duplicados
print("\n--- 3. Manejo de Datos Duplicados ---")
print(f"Filas antes de eliminar duplicados: {len(df_empleados)}")
df_empleados.drop_duplicates(keep='first', inplace=True)
print(f"Filas después de eliminar duplicados: {len(df_empleados)}")

# 4. Outliers (Edad y SalarioAnual)
print("\n--- 4. Manejo de Outliers ---")
outliers_edad_emp, lim_inf_edad_emp, lim_sup_edad_emp = detectar_outliers_iqr(df_empleados, 'Edad')
if not np.isnan(lim_inf_edad_emp) and not np.isnan(lim_sup_edad_emp):
    df_empleados['Edad'] = np.where(df_empleados['Edad'] < lim_inf_edad_emp, lim_inf_edad_emp, df_empleados['Edad'])
    df_empleados['Edad'] = np.where(df_empleados['Edad'] > lim_sup_edad_emp, lim_sup_edad_emp, df_empleados['Edad'])
    print("Outliers en 'Edad' tratados con capping.")

outliers_salario_emp, lim_inf_salario_emp, lim_sup_salario_emp = detectar_outliers_iqr(df_empleados, 'SalarioAnual')
if not np.isnan(lim_inf_salario_emp) and not np.isnan(lim_sup_salario_emp):
    df_empleados['SalarioAnual'] = np.where(df_empleados['SalarioAnual'] < lim_inf_salario_emp, lim_inf_salario_emp, df_empleados['SalarioAnual'])
    df_empleados['SalarioAnual'] = np.where(df_empleados['SalarioAnual'] > lim_sup_salario_emp, lim_sup_salario_emp, df_empleados['SalarioAnual'])
    print("Outliers en 'SalarioAnual' tratados con capping.")

# 5. Resultado Final
print("\n--- 5. DataFrame Final Limpio de Empleados ---")
df_empleados.info()
print("\nPrimeras 5 filas del DataFrame limpio:")
display(df_empleados.head())