# Limpieza y Preparación de Datos

## Objetivos de Aprendizaje
- Identificar y manejar datos faltantes
- Detectar y tratar valores atípicos (outliers)
- Eliminar duplicados y normalizar datos
- Validar la calidad de los datos
- Aplicar técnicas de feature engineering básico

## Requisitos
- Python 3.8+
- pandas
- numpy
- matplotlib
- seaborn

In [None]:
# Instalación de dependencias
import sys
!{sys.executable} -m pip install pandas numpy matplotlib seaborn scipy -q

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configuración
pd.set_option('display.max_columns', None)
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("Librerías cargadas correctamente")

## 1. Crear Dataset con Problemas de Calidad

Vamos a crear un dataset con varios problemas típicos de calidad.

### 📖 Detectando Problemas de Calidad de Datos

**Los datos del mundo real son SUCIOS:**
- **70-80% del tiempo** en proyectos de datos se gasta en limpieza
- Sin calidad de datos → análisis incorrecto → malas decisiones

**Problemas comunes:**
1. **Valores nulos** (NaN, None, NULL)
2. **Duplicados** (registros repetidos)
3. **Tipos incorrectos** (fechas como strings, números como text)
4. **Outliers** (valores extremos anómalos)
5. **Inconsistencias** (Madrid vs madrid vs MADRID)
6. **Formato incorrecto** (fechas en diferentes formatos)

**Pipeline de inspección:**
```python
df.info()                # Tipos y nulos
df.describe()            # Estadísticas (detectar outliers)
df.isnull().sum()        # Contar nulos por columna
df.duplicated().sum()    # Contar duplicados
df.dtypes                # Verificar tipos
```

Este notebook te enseña a detectar y corregir cada uno de estos problemas.

In [None]:
# Crear dataset con problemas
np.random.seed(42)

n_records = 1000

df_dirty = pd.DataFrame({
    'id': range(1, n_records + 1),
    'nombre': [
        np.random.choice(['  Juan  ', 'MARÍA', 'pedro', 'Ana López', None, 'Carlos', 'Laura '])
        for _ in range(n_records)
    ],
    'email': [
        np.random.choice([
            'juan@email.com', 'maria@test.com', 'invalido', None, 'pedro@example.com',
            'ANA@EMAIL.COM', 'carlos@test', '  laura@email.com  '
        ])
        for _ in range(n_records)
    ],
    'edad': np.random.choice([25, 30, None, -5, 35, 150, 28, 40], n_records),
    'salario': np.random.choice(
        [30000, 45000, None, -1000, 60000, 1000000, 55000, 70000],
        n_records
    ),
    'fecha_registro': pd.date_range('2020-01-01', periods=n_records, freq='D'),
    'ciudad': np.random.choice(['Madrid', 'madrid', 'BARCELONA', 'Barcelona', None], n_records),
    'pais': np.random.choice(['España', 'spain', 'ESPAÑA', None], n_records)
})

# Agregar algunos duplicados
df_dirty = pd.concat([df_dirty, df_dirty.iloc[:10]], ignore_index=True)

print(f"Dataset creado con {len(df_dirty)} registros")
print(f"\nPrimeras filas:")
df_dirty.head(10)

## 2. Análisis Exploratorio de Problemas de Calidad

In [None]:
# Información general
print("=== INFORMACIÓN DEL DATASET ===")
print(f"\nShape: {df_dirty.shape}")
print(f"\nColumnas: {df_dirty.columns.tolist()}")
print(f"\nTipos de datos:")
print(df_dirty.dtypes)

print(f"\n=== ESTADÍSTICAS DESCRIPTIVAS ===")
df_dirty.describe()

### 📊 Análisis Exploratorio de Datos (EDA)

**Concepto:** Antes de limpiar datos, debemos entender qué problemas existen mediante un análisis exploratorio.

**Técnicas clave:**
- `info()`: estructura, tipos de datos, valores no nulos
- `describe()`: estadísticas descriptivas de columnas numéricas
- `shape`: dimensiones del dataset (filas, columnas)
- `dtypes`: tipos de datos de cada columna

**Objetivo:** Identificar patrones, anomalías y problemas de calidad antes de aplicar transformaciones.

In [None]:
# Análisis de valores nulos
print("=== VALORES NULOS ===")
null_counts = df_dirty.isnull().sum()
null_percentages = (null_counts / len(df_dirty) * 100).round(2)

null_summary = pd.DataFrame({
    'Nulos': null_counts,
    'Porcentaje': null_percentages
})

print(null_summary[null_summary['Nulos'] > 0])

# Visualización
plt.figure(figsize=(10, 6))
null_summary['Porcentaje'].plot(kind='bar', color='coral')
plt.title('Porcentaje de Valores Nulos por Columna')
plt.ylabel('Porcentaje (%)')
plt.xlabel('Columna')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

### 🔍 Detección de Valores Nulos

**Concepto:** Los valores nulos (NaN, None, NULL) representan ausencia de datos y pueden afectar análisis y modelos.

**Métodos importantes:**
- `isnull()` / `isna()`: detecta valores nulos
- `sum()`: cuenta nulos por columna
- Porcentajes ayudan a decidir si eliminar o imputar

**Buena práctica:** Visualizar el porcentaje de nulos por columna para priorizar acciones de limpieza.

In [None]:
# Análisis de duplicados
print("=== ANÁLISIS DE DUPLICADOS ===")
duplicates = df_dirty.duplicated()
print(f"\nTotal de filas duplicadas: {duplicates.sum()}")
print(f"Porcentaje: {(duplicates.sum() / len(df_dirty) * 100):.2f}%")

if duplicates.sum() > 0:
    print(f"\nEjemplos de duplicados:")
    print(df_dirty[duplicates].head())

### 🔄 Detección de Duplicados

**Concepto:** Registros duplicados distorsionan estadísticas y análisis, generando sesgo en los resultados.

**Método clave:**
- `duplicated()`: retorna boolean indicando si una fila es duplicado
- Por defecto considera todas las columnas
- Puede configurarse con `subset=` para columnas específicas

**Decisión:** Antes de eliminar, verificar si los duplicados son errores reales o datos legítimos.

## 3. Limpieza de Datos Paso a Paso

In [None]:
# Crear copia para limpiar
df_clean = df_dirty.copy()

print(f"Dataset original: {len(df_dirty)} filas")
print(f"Iniciando limpieza...")

### 3.1. Eliminar Duplicados

In [None]:
# Eliminar duplicados completos
before = len(df_clean)
df_clean = df_clean.drop_duplicates()
after = len(df_clean)

print(f"Duplicados eliminados: {before - after}")
print(f"Registros restantes: {after}")

### ✂️ Eliminación de Duplicados

**Concepto:** `drop_duplicates()` elimina filas duplicadas, manteniendo la primera ocurrencia por defecto.

**Parámetros importantes:**
- `subset=`: especifica columnas para evaluar duplicación
- `keep='first'|'last'|False`: qué duplicado mantener
- `inplace=True`: modifica el DataFrame original

**Impacto:** Reduce ruido y mejora calidad de datos, especialmente en agregaciones.

### 3.2. Limpiar Columnas de Texto

In [None]:
# Limpiar nombres
print("=== LIMPIEZA DE NOMBRES ===")
print("\nAntes:")
print(df_clean['nombre'].value_counts())

# Aplicar limpieza
df_clean['nombre'] = df_clean['nombre'].str.strip().str.title()

print("\nDespués:")
print(df_clean['nombre'].value_counts())

### 🔤 Limpieza de Datos de Texto

**Concepto:** Datos de texto requieren normalización para estandarizar formatos y facilitar análisis.

**Operaciones comunes:**
- `str.strip()`: elimina espacios al inicio y final
- `str.title()`: capitaliza primera letra de cada palabra
- `str.lower()` / `str.upper()`: conversión de mayúsculas/minúsculas
- `str.replace()`: reemplaza patrones de texto

**Uso:** Esencial para nombres, direcciones, categorías y cualquier campo de texto libre.

In [None]:
# Limpiar emails
print("=== LIMPIEZA DE EMAILS ===")

# Normalizar: quitar espacios y convertir a minúsculas
df_clean['email'] = df_clean['email'].str.strip().str.lower()

# Validar formato de email
import re
email_pattern = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'

def is_valid_email(email):
    if pd.isna(email):
        return False
    return bool(re.match(email_pattern, email))

df_clean['email_valido'] = df_clean['email'].apply(is_valid_email)

print(f"\nEmails válidos: {df_clean['email_valido'].sum()}")
print(f"Emails inválidos: {(~df_clean['email_valido']).sum()}")

print("\nEjemplos de emails inválidos:")
print(df_clean[~df_clean['email_valido']]['email'].value_counts())

### 📧 Validación de Formatos con Regex

**Concepto:** Las expresiones regulares (regex) permiten validar patrones complejos como emails, teléfonos, URLs.

**Patrón email:** `^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$`
- `^`: inicio de string
- `[...]+`: uno o más caracteres permitidos
- `@`: arroba obligatoria
- `\.`: punto literal (escapado)
- `{2,}`: mínimo 2 caracteres para dominio

**Uso:** Crear columnas booleanas indicando validez facilita filtrado y análisis de calidad.

In [None]:
# Normalizar ciudades y países
print("=== NORMALIZACIÓN DE CIUDADES Y PAÍSES ===")

# Ciudades
df_clean['ciudad'] = df_clean['ciudad'].str.strip().str.title()
print("\nCiudades únicas:")
print(df_clean['ciudad'].value_counts())

# Países
df_clean['pais'] = df_clean['pais'].str.strip().str.title()
print("\nPaíses únicos:")
print(df_clean['pais'].value_counts())

### 3.3. Limpiar Datos Numéricos

In [None]:
# Analizar edad
print("=== ANÁLISIS DE EDAD ===")
print(f"\nEstadísticas:")
print(df_clean['edad'].describe())

# Visualizar distribución
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histograma
df_clean['edad'].hist(bins=30, ax=axes[0], color='skyblue')
axes[0].set_title('Distribución de Edad')
axes[0].set_xlabel('Edad')
axes[0].set_ylabel('Frecuencia')

# Boxplot
df_clean.boxplot(column='edad', ax=axes[1])
axes[1].set_title('Boxplot de Edad')
axes[1].set_ylabel('Edad')

plt.tight_layout()
plt.show()

# Identificar valores problemáticos
print(f"\nValores negativos: {(df_clean['edad'] < 0).sum()}")
print(f"Valores > 100: {(df_clean['edad'] > 100).sum()}")
print(f"Valores nulos: {df_clean['edad'].isnull().sum()}")

### 📈 Análisis de Outliers en Datos Numéricos

**Concepto:** Los outliers (valores atípicos) son observaciones que se desvían significativamente del resto.

**Técnicas de detección:**
- **Histograma:** muestra distribución completa de valores
- **Boxplot:** identifica valores fuera del rango IQR (Q1-1.5*IQR, Q3+1.5*IQR)
- **Estadísticas:** min, max, percentiles revelan valores extremos

**Decisiones:**
- ¿Son errores de captura? → Eliminar o corregir
- ¿Son valores legítimos? → Mantener pero documentar
- ¿Afectan el análisis? → Considerar transformaciones o tratamiento especial

In [None]:
# Limpiar edad: establecer límites razonables
print("=== LIMPIEZA DE EDAD ===")

# Convertir valores fuera de rango a NaN
df_clean.loc[(df_clean['edad'] < 18) | (df_clean['edad'] > 100), 'edad'] = np.nan

# Imputar valores faltantes con la mediana
mediana_edad = df_clean['edad'].median()
df_clean['edad'].fillna(mediana_edad, inplace=True)

print(f"\nValores imputados con mediana: {mediana_edad}")
print(f"\nNueva distribución:")
print(df_clean['edad'].describe())

### 🔧 Imputación de Valores Faltantes

**Concepto:** Imputar significa reemplazar valores nulos con valores estimados para no perder datos.

**Estrategias comunes:**
- **Media:** `mean()` - sensible a outliers, buena para distribuciones normales
- **Mediana:** `median()` - robusta a outliers, recomendada para datos sesgados
- **Moda:** `mode()` - para datos categóricos
- **Forward/Backward Fill:** para series temporales
- **Modelos predictivos:** ML avanzado para imputación

**Elección:** Depende de la distribución de datos y del contexto del negocio.

In [None]:
# Limpiar salario
print("=== ANÁLISIS DE SALARIO ===")
print(f"\nEstadísticas:")
print(df_clean['salario'].describe())

# Identificar outliers con IQR
Q1 = df_clean['salario'].quantile(0.25)
Q3 = df_clean['salario'].quantile(0.75)
IQR = Q3 - Q1

limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

print(f"\nRango IQR:")
print(f"  Límite inferior: {limite_inferior:,.2f}")
print(f"  Límite superior: {limite_superior:,.2f}")

outliers = df_clean[(df_clean['salario'] < limite_inferior) | (df_clean['salario'] > limite_superior)]
print(f"\nOutliers detectados: {len(outliers)}")

# Visualizar
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
df_clean['salario'].hist(bins=30, color='lightgreen')
plt.title('Distribución de Salario')
plt.xlabel('Salario')
plt.ylabel('Frecuencia')

plt.subplot(1, 2, 2)
df_clean.boxplot(column='salario')
plt.title('Boxplot de Salario')

plt.tight_layout()
plt.show()

### 📊 Método IQR para Detección de Outliers

**Concepto:** El Rango Intercuartílico (IQR) es una medida robusta para identificar valores atípicos.

**Cálculo:**
- IQR = Q3 - Q1 (diferencia entre cuartil 75 y cuartil 25)
- Límite inferior = Q1 - 1.5 × IQR
- Límite superior = Q3 + 1.5 × IQR
- Valores fuera de estos límites se consideran outliers

**Ventaja:** Menos sensible a valores extremos que métodos basados en desviación estándar.

**Uso:** Estándar en data science para limpieza de datos numéricos antes de modelado.

In [None]:
# Limpiar salario
print("=== LIMPIEZA DE SALARIO ===")

# Convertir valores negativos y outliers extremos a NaN
df_clean.loc[(df_clean['salario'] < 0) | (df_clean['salario'] > 200000), 'salario'] = np.nan

# Imputar con la mediana
mediana_salario = df_clean['salario'].median()
df_clean['salario'].fillna(mediana_salario, inplace=True)

print(f"\nValores imputados con mediana: ${mediana_salario:,.2f}")
print(f"\nNueva distribución:")
print(df_clean['salario'].describe())

### 3.4. Validación de Datos Limpios

In [None]:
# Crear reporte de calidad
print("=== REPORTE DE CALIDAD DE DATOS ===")

quality_report = pd.DataFrame({
    'Columna': df_clean.columns,
    'Tipo': df_clean.dtypes.values,
    'Nulos': df_clean.isnull().sum().values,
    '% Nulos': (df_clean.isnull().sum() / len(df_clean) * 100).values.round(2),
    'Únicos': [df_clean[col].nunique() for col in df_clean.columns]
})

print(quality_report)

### ✅ Reporte de Calidad de Datos

**Concepto:** Un reporte de calidad resume el estado del dataset tras la limpieza.

**Métricas clave:**
- **Tipo de dato:** verifica conversiones correctas
- **Nulos:** identifica columnas con datos faltantes restantes
- **Únicos:** evalúa cardinalidad y posibles errores de captura
- **Porcentaje nulos:** prioriza columnas problemáticas

**Objetivo:** Documentar la calidad final y detectar problemas residuales antes de análisis o modelado.

In [None]:
# Comparación antes y después
print("=== COMPARACIÓN ANTES Y DESPUÉS ===")
print(f"\nRegistros originales: {len(df_dirty)}")
print(f"Registros limpios: {len(df_clean)}")
print(f"Registros eliminados: {len(df_dirty) - len(df_clean)}")

print(f"\nValores nulos originales: {df_dirty.isnull().sum().sum()}")
print(f"Valores nulos después: {df_clean.isnull().sum().sum()}")

## 4. Feature Engineering Básico

In [None]:
# Crear nuevas características
print("=== FEATURE ENGINEERING ===")

# Categoría de edad
df_clean['categoria_edad'] = pd.cut(
    df_clean['edad'],
    bins=[0, 25, 35, 50, 100],
    labels=['18-25', '26-35', '36-50', '51+']
)

# Categoría de salario
df_clean['categoria_salario'] = pd.cut(
    df_clean['salario'],
    bins=[0, 40000, 60000, 100000],
    labels=['Bajo', 'Medio', 'Alto']
)

# Extraer componentes de fecha
df_clean['año_registro'] = df_clean['fecha_registro'].dt.year
df_clean['mes_registro'] = df_clean['fecha_registro'].dt.month
df_clean['dias_desde_registro'] = (datetime.now() - df_clean['fecha_registro']).dt.days

print("\nNuevas características creadas:")
print(df_clean[[
    'edad', 'categoria_edad',
    'salario', 'categoria_salario',
    'fecha_registro', 'dias_desde_registro'
]].head())

### 🔨 Feature Engineering: Creación de Variables

**Concepto:** Feature Engineering es crear nuevas características a partir de datos existentes para mejorar análisis.

**Técnicas aplicadas:**
1. **Binning/Discretización:** `pd.cut()` convierte variables continuas en categorías
2. **Extracción temporal:** `.dt.year`, `.dt.month` extraen componentes de fechas
3. **Cálculo de diferencias:** días desde un evento, tiempo transcurrido

**Beneficios:**
- Facilita interpretación de análisis
- Mejora rendimiento de modelos de ML
- Descubre patrones ocultos en los datos

**Nota:** Este es el puente entre limpieza de datos y análisis avanzado.

## 5. Exportar Datos Limpios

In [None]:
# Guardar dataset limpio
output_path = '../../datasets/processed/datos_limpios.csv'
df_clean.to_csv(output_path, index=False)

print(f"Dataset limpio guardado en: {output_path}")
print(f"\nShape final: {df_clean.shape}")
print(f"\nColumnas finales:")
print(df_clean.columns.tolist())

### 💾 Exportación de Datos Procesados

**Concepto:** Guardar datos limpios para reutilización sin repetir todo el proceso de limpieza.

**Formato CSV:**
- Universal y legible por humanos
- `index=False`: evita guardar índice como columna
- Compresión opcional: `compression='gzip'` para datasets grandes

**Buenas prácticas:**
- Guardar en carpeta `processed/` separada de datos `raw/`
- Mantener datos originales intactos (trazabilidad)
- Documentar transformaciones aplicadas (metadatos)

**Próximo paso:** Datos listos para análisis exploratorio, visualización o modelado.

## Resumen y Mejores Prácticas

### Proceso de Limpieza:
1. **Análisis exploratorio**: Identificar problemas de calidad
2. **Eliminar duplicados**: Asegurar unicidad de registros
3. **Normalizar texto**: Estandarizar formato de strings
4. **Validar datos**: Verificar rangos y formatos
5. **Manejar outliers**: Detectar y tratar valores atípicos
6. **Imputar valores faltantes**: Estrategia según el contexto
7. **Feature engineering**: Crear características derivadas

### Mejores Prácticas:
- Siempre trabajar en una copia del dataset original
- Documentar cada paso de limpieza
- Validar resultados después de cada transformación
- Considerar el contexto del negocio para decisiones de limpieza
- Automatizar el proceso con funciones reutilizables
- Mantener registro de cambios (auditoría)

### Técnicas de Imputación:
- **Media/Mediana**: Para datos numéricos
- **Moda**: Para datos categóricos
- **Forward/Backward fill**: Para series temporales
- **Interpolación**: Para datos secuenciales
- **Valor constante**: Cuando tiene sentido de negocio

### Recursos Adicionales:
- [Pandas Data Cleaning](https://pandas.pydata.org/docs/user_guide/missing_data.html)
- [Data Quality Best Practices](https://www.dataversity.net/data-quality-best-practices/)
- [Feature Engineering Guide](https://www.kaggle.com/learn/feature-engineering)

---

## 🧭 Navegación

**← Anterior:** [SQL Básico para Ingeniería de Datos](04_sql_basico.ipynb)

**Siguiente →:** [📊 Visualización de Datos en Ingeniería de Datos →](06_visualizacion_datos.ipynb)

**📚 Índice de Nivel Junior:**
- [📊 Junior - 01. Introducción a la Ingeniería de Datos](01_introduccion_ingenieria_datos.ipynb)
- [🐍 Junior - 02. Python para Manipulación de Datos](02_python_manipulacion_datos.ipynb)
- [Pandas: Fundamentos para Análisis de Datos](03_pandas_fundamentos.ipynb)
- [SQL Básico para Ingeniería de Datos](04_sql_basico.ipynb)
- [Limpieza y Preparación de Datos](05_limpieza_datos.ipynb) ← 🔵 Estás aquí
- [📊 Visualización de Datos en Ingeniería de Datos](06_visualizacion_datos.ipynb)
- [🔄 Git y Control de Versiones para Ingeniería de Datos](07_git_control_versiones.ipynb)
- [🌐 APIs REST y Web Scraping para Ingeniería de Datos](08_apis_web_scraping.ipynb)
- [🎯 Proyecto Integrador 1: Pipeline ETL Completo](09_proyecto_integrador_1.ipynb)
- [🚀 Proyecto Integrador 2: Pipeline Near Real-Time, Scheduling y Alertas](10_proyecto_integrador_2.ipynb)

**🎓 Otros Niveles:**
- [Nivel Junior](../nivel_junior/README.md)
- [Nivel Mid](../nivel_mid/README.md)
- [Nivel Senior](../nivel_senior/README.md)
- [Nivel GenAI](../nivel_genai/README.md)
- [Negocio LATAM](../negocios_latam/README.md)
