# Capítulo 6 — Limpieza y transformación de datos con pandas

Ejecuta las celdas en orden y modifica el código para practicar.


In [None]:
# Setup del capítulo (mínimo)
import sys
print("Versión de Python:", sys.version.split()[0])


## Cómo leer la sintaxis (rápido)

- `df[condicion]` filtra filas.
- Para combinar condiciones: `(cond1) & (cond2)` o `(cond1) | (cond2)` (usa paréntesis).
- `df["nueva"] = ...` crea una columna nueva.
- `isna()` detecta faltantes; `fillna()` rellena; `dropna()` elimina.
- `groupby(...)` resume por grupos.
- `merge(...)` une tablas por una llave.


In [None]:
import numpy as np
import pandas as pd


## 1) DataFrame de ejemplo (local)

In [None]:
df = pd.DataFrame({
    "id": [1, 2, 3, 4, 5, 6],
    "ciudad": ["Quito", "Quito", "Cuenca", "Cuenca", "Quito", "Cuenca"],
    "ventas": [100, 120, np.nan, 90, 130, 110],
    "clientes": [20, 25, 18, np.nan, 30, 22]
})
df


## 2) Filtros

In [None]:
# Una condición
df[df["ciudad"] == "Quito"]


In [None]:
# Dos condiciones: usa paréntesis y &
df[(df["ciudad"] == "Quito") & (df["ventas"] >= 120)]


## 3) Crear columnas

In [None]:
# Columna calculada
df["ventas_por_cliente"] = df["ventas"] / df["clientes"]
df


In [None]:
# Columna con regla: np.where(condición, valor_si_true, valor_si_false)
df["ventas_por_cliente_segura"] = np.where(
    df["clientes"].isna() | (df["clientes"] == 0),
    np.nan,
    df["ventas"] / df["clientes"]
)

df[["ventas", "clientes", "ventas_por_cliente_segura"]]


## 4) Valores faltantes (NaN)

In [None]:
# Detectar faltantes
df.isna().sum()


In [None]:
# Eliminar filas con algún NaN
df_sin_na = df.dropna()
df_sin_na


In [None]:
# Rellenar NaN con el promedio (imputación simple)
prom_ventas = df["ventas"].mean()
df["ventas_fill"] = df["ventas"].fillna(prom_ventas)
df[["ventas", "ventas_fill"]]


## 5) Ordenar y resumir

In [None]:
df.sort_values("ventas", ascending=False)


In [None]:
# Promedio de ventas por ciudad
df.groupby("ciudad")["ventas"].mean()


In [None]:
# Varias estadísticas
df.groupby("ciudad")[["ventas", "clientes"]].agg(["mean", "count"])


## 6) Unir tablas (merge)

In [None]:
ciudades = pd.DataFrame({
    "ciudad": ["Quito", "Cuenca"],
    "region": ["Sierra", "Sierra"],
    "altitud_m": [2850, 2550]
})
ciudades


In [None]:
# left join: conserva todas las filas de df
df_merged = df.merge(ciudades, on="ciudad", how="left")
df_merged


## 7) Online (opcional)

Esta sección depende de internet. En Colab suele funcionar mejor.


In [None]:
# (Opcional) wooldridge
# !pip -q install wooldridge
# import wooldridge as woo
# wage1 = woo.dataWoo("wage1")
# wage1["lwage"] = np.log(wage1["wage"])
# wage1.groupby("female")[["wage", "lwage"]].mean()


## Ejercicios propuestos

1) **Filtro con dos condiciones**  
Selecciona filas donde `ciudad=="Cuenca"` y `ventas>=100`.

**Respuesta esperada:** aparece la fila con `ventas=110` (y cualquier otra que cumpla si cambiaste datos).


In [None]:
# Escribe tu solución aquí


2) **Columna con regla**  
Crea `ventas_altas = ventas >= 120`.

**Respuesta esperada:** `True` en ventas 120 y 130; `False` en 100, 90, 110; y comportamiento consistente para `NaN`.


In [None]:
# Escribe tu solución aquí


3) **Imputación con mediana**  
Rellena `NaN` de `ventas` con la mediana.

**Respuesta esperada:** ya no hay `NaN` en `ventas`.


In [None]:
# Escribe tu solución aquí


4) **Groupby de dos variables**  
Promedio de `ventas` y `clientes` por `ciudad`.

**Respuesta esperada:** dos promedios por ciudad para ambas columnas.


In [None]:
# Escribe tu solución aquí


5) **Merge (left join)**  
Agrega una columna extra (por ejemplo `pais`) en la tabla de ciudades y une con `left`.

**Respuesta esperada:** mismo número de filas que `df`, más columnas nuevas.


In [None]:
# Escribe tu solución aquí


6) **Mini-proyecto**  
DataFrame con 10 filas, columnas `grupo` y `valor`, con 2 `NaN` en `valor`. Imputa faltantes con promedio del grupo y calcula promedio final por grupo.

**Respuesta esperada:** no quedan `NaN` y obtienes un promedio por grupo.


In [None]:
# Escribe tu solución aquí


## Glosario

- **NaN**: valor faltante.
- **filtro**: selección de filas que cumplen una condición.
- **booleano**: `True/False`.
- **& / | / ~**: operadores lógicos (y / o / no).
- **merge**: unir tablas por una llave.
- **llave**: columna usada para unir.
