# Limpieza Avanzada y Wrangling de Datos

**Curso:** Fundamentos de Programación y Analítica de Datos con Python  
**Duración estimada del bloque:** 2 horas  
**Autores:** Jhon Erik Navarrete Gómez, Equipo de Instrucción – Curso Python (Asesoría)  
**Creado:** 2025-09-16T18:31:24+00:00

**Descripción breve del bloque:**  
Bloque orientado a asegurar la calidad de los datos mediante técnicas de manejo de valores faltantes, detección y tratamiento de outliers, transformación y estandarización de variables, y construcción de pipelines de limpieza reproducibles con pandas y scikit-learn.

## Objetivos específicos
- Diagnosticar y tratar valores faltantes con estrategias apropiadas por tipo de variable y contexto.
- Detectar y manejar outliers mediante reglas basadas en IQR y criterios robustos para reducir su impacto.
- Convertir y validar tipos de datos (fechas, categorías), crear variables derivadas y normalizar/estandarizar.
- Construir pipelines reproducibles de limpieza con `scikit-learn` para separar preparación y modelado.
- Documentar supuestos y decisiones de calidad de datos para auditoría y reproducibilidad.

## Prerrequisitos
- Conocimientos básicos de Python y `pandas`.
- Familiaridad con el EDA inicial del bloque 7.1.

## Preparación del entorno y dataset base

En esta sección se cargará el dataset de trabajo (Titanic si está disponible; en su defecto se generará un DataFrame sintético).
Se definen utilidades de diagnóstico para reutilizar en los ejemplos.

In [None]:

# TODO: Carga del dataset (Titanic si está disponible) o uno sintético
from __future__ import annotations
import pandas as pd

df = None
dataset_source = None
try:
    import seaborn as sns  # opcional; si no está, se usará un dataset sintético
    df = sns.load_dataset("titanic")
    dataset_source = "seaborn.load_dataset('titanic')"
except Exception:
    df = None

if df is None:
    data = {
        "survived": [0, 1, 1, 0, 1, 0, 0, 1, 0, 1],
        "pclass":   [3, 1, 3, 2, 1, 3, 2, 1, 2, 3],
        "sex":      ["male","female","female","male","female","male","male","female","female","male"],
        "age":      [22.0, 38.0, 26.0, 35.0, None, 28.0, 42.0, 19.0, 54.0, None],
        "sibsp":    [1, 1, 0, 1, 1, 0, 0, 0, 1, 0],
        "parch":    [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
        "fare":     [7.25, 71.28, 7.92, 8.05, 53.10, 8.46, 13.0, 26.55, 51.86, 7.75],
        "embarked": ["S","C","S","S","S","Q","S","C","S","Q"],
        "deck":     [None, "C", None, None, "B", None, None, "C", "D", None],
        "who":      ["man","woman","woman","man","woman","man","man","woman","woman","man"],
    }
    df = pd.DataFrame(data)
    dataset_source = "DataFrame sintético (estructura Titanic-like)"

print(f"Fuente del dataset: {dataset_source}")
display(df.head())
print("\\nInfo:")
print(df.info())
print("\\nNulos por columna:")
display(df.isna().sum())

## Tema 1 — Manejo de valores faltantes

### Definición
Los valores faltantes representan ausencia de datos observables. Su tratamiento consiste en identificarlos, cuantificarlos y decidir estrategias de imputación o eliminación con criterios técnicos y de negocio.

### Importancia en programación y analítica de datos
- Evitan sesgos y errores en métricas, pruebas de hipótesis y modelos.
- Permiten usar la mayor cantidad posible de información sin degradar calidad.
- Habilitan pipelines reproducibles donde la imputación forma parte del preprocesamiento.

### Buenas prácticas profesionales y errores comunes
**Buenas prácticas:**
- Reportar porcentaje de nulos y justificar la estrategia por variable.
- Usar imputación basada en distribución (mediana/moda) para robustez inicial.
- Mantener una columna bandera (indicador) cuando la ausencia es informativa.

**Errores comunes:**
- Imputar sin analizar el mecanismo de ausencia (MCAR, MAR, MNAR).
- Mezclar escalas o tipos tras la imputación (por ejemplo, categorías codificadas como números).

In [None]:

# TODO: Ejemplo — Estrategias básicas de imputación con pandas y SimpleImputer

## Tema 2 — Detección y manejo de outliers

### Definición
Un outlier es una observación que se aleja considerablemente del patrón de la mayoría de los datos. Su detección clásica se basa en la regla de 1.5×IQR o criterios robustos alternativos según el dominio.

### Importancia en programación y analítica de datos
- Los outliers pueden distorsionar estadísticas (media, varianza) y modelos sensibles.
- Decidir si tratarlos, recortarlos o transformarlos depende del contexto de negocio y de la causa.

### Buenas prácticas profesionales y errores comunes
**Buenas prácticas:**
- Visualizar la distribución (histogramas, boxplots) antes y después del tratamiento.
- Documentar criterios y justificar impactos en métricas y modelado.

**Errores comunes:**
- Eliminar outliers sin análisis de causa (error vs valor extremo legítimo).
- Aplicar el mismo umbral a todas las variables sin considerar unidades o escalas.

In [None]:

# TODO: Ejemplo — Detección por IQR y tratamiento por recorte (clipping)

## Tema 3 — Wrangling avanzado con pandas

### Definición
El *data wrangling* es el conjunto de transformaciones para convertir datos crudos en un formato analíticamente útil: cambio de tipos, normalización/estandarización, derivación de variables, operaciones con fechas y categorías, y consolidación de calidad.

### Importancia en programación y analítica de datos
- Garantiza consistencia semántica y técnica para análisis robustos.
- Reduce errores en el modelado al estandarizar formatos y escalas.
- Mejora la interpretabilidad al producir variables derivadas con significado.

### Buenas prácticas profesionales y errores comunes
**Buenas prácticas:**
- Mantener funciones puras de transformación y pruebas unitarias para reglas críticas.
- Evitar mutaciones no controladas y documentar cada paso.

**Errores comunes:**
- No validar conversión de fechas o categorías.
- Mezclar operaciones de limpieza con experimentos de modelado en la misma celda sin control de versiones.

In [None]:

# TODO: Ejemplo — Conversión de tipos, fechas, categorías y variables derivadas

## Tema 4 — Pipelines de limpieza con scikit-learn

### Definición
Un *pipeline* es una secuencia de pasos que transforma datos de forma reproducible y componible. `scikit-learn` provee `Pipeline` y `ColumnTransformer` para encadenar imputación, escalado y codificación, separando la preparación del modelado.

### Importancia en programación y analítica de datos
- Reproducibilidad y trazabilidad de la preparación de datos.
- Facilita validación cruzada sin fugas de información (*data leakage*).
- Portabilidad del flujo de preprocesamiento a producción.

### Buenas prácticas profesionales y errores comunes
**Buenas prácticas:**
- Separar columnas numéricas y categóricas y aplicar transformaciones específicas.
- Ajustar solo con datos de entrenamiento y aplicar transformaciones a validación/prueba.

**Errores comunes:**
- Estandarizar antes de imputar o mezclar codificación con variables mal tipadas.
- Ajustar el pipeline con datos que incluyen el conjunto de prueba.

In [None]:

# TODO: Ejemplo — Pipeline + ColumnTransformer (imputación y escalado/codificación)

# Ejercicios integradores

A continuación se presentan ejercicios que abarcan manejo de valores faltantes, outliers, wrangling y pipelines.
Cada ejercicio contiene: contexto técnico, datos/entradas, requerimientos, criterios de aceptación y pistas.

### Ejercicio 1 — Estrategia de imputación documentada

**Contexto técnico:**  
Como Ingeniero/a de Datos, debe definir una estrategia de imputación inicial para un flujo de analítica descriptiva en un dashboard operativo.

**Datos/entradas:**  
Use el `df` del notebook. Seleccione al menos 2 columnas numéricas y 2 categóricas con nulos.

**Requerimientos:**  
1. Calcule el porcentaje de nulos por columna.  
2. Impute numéricas con mediana y categóricas con moda.  
3. Cree indicadores binarios de ausencia para las columnas imputadas.  
4. Documente supuestos y justificaciones en 4–6 líneas.

**Criterios de aceptación:**  
- Imputación realizada sin nulos residuales en las columnas tratadas.  
- Indicadores de ausencia creados y verificados.

**Pistas:**  
- `SimpleImputer`, `isna().mean()`, `astype(int)`.

In [None]:

# TODO: Solución Ejercicio 1

### Ejercicio 2 — Outliers bajo regla IQR y tratamiento

**Contexto técnico:**  
El equipo de riesgos solicita estabilizar métricas de costo para reducir sensibilidad a extremos en reportes semanales.

**Datos/entradas:**  
Use una columna numérica con variabilidad (por ejemplo, `fare` si existe).

**Requerimientos:**  
1. Detecte outliers por 1.5×IQR.  
2. Reporte porcentaje de outliers respecto al total.  
3. Aplique tratamiento por recorte (clipping) y valide el cambio en mediana y rango intercuartílico.

**Criterios de aceptación:**  
- Porcentaje y conteos correctos.  
- Evidencia de cambio controlado en métricas (mediana e IQR).

**Pistas:**  
- `quantile`, `clip`, `dropna`.

In [None]:

# TODO: Solución Ejercicio 2

### Ejercicio 3 — Wrangling y consistencia de tipos

**Contexto técnico:**  
Se requiere un conjunto de datos consistente para alimentar un microservicio que calcula indicadores operativos. El contrato exige tipos específicos y variables derivadas.

**Datos/entradas:**  
Use `df` y cree: conversión de categorías, conversión de fecha, y variable `family_size` (si aplica).

**Requerimientos:**  
1. Convertir columnas categóricas a tipo `category`.  
2. Asegurar columna de fecha válida (`datetime64[ns]`).  
3. Crear `family_size = sibsp + parch + 1` si ambas existen.  
4. Normalizar una columna numérica a z-score (`(x-μ)/σ`).

**Criterios de aceptación:**  
- Dtypes correctos verificados con `df.dtypes`.  
- Columnas nuevas creadas correctamente.

**Pistas:**  
- `astype("category")`, `to_datetime`, operaciones aritméticas.

In [None]:

# TODO: Solución Ejercicio 3

### Ejercicio 4 — Pipeline de limpieza reutilizable

**Contexto técnico:**  
El equipo de ciencia de datos necesita un pipeline uniforme para preprocesar datos antes de entrenar modelos y ejecutar validaciones periódicas.

**Datos/entradas:**  
Use `df` y defina un `ColumnTransformer` con ramas numérica y categórica.

**Requerimientos:**  
1. Imputar numéricas con mediana y escalar con `StandardScaler`.  
2. Imputar categóricas con moda y codificar con `OneHotEncoder`.  
3. Generar `X_prepared` (matriz lista para modelar) y reportar su forma.  
4. Guardar el pipeline ajustado con `joblib`.

**Criterios de aceptación:**  
- Transformación sin errores y dimensiones coherentes.  
- Archivo del pipeline guardado en disco.

**Pistas:**  
- `Pipeline`, `ColumnTransformer`, `joblib.dump`.

In [None]:

# TODO: Solución Ejercicio 4