# Sprint 5 · Webinar 20 · Sesión Práctica (Preparación de datos, distribuciones y Git/GitHub)

**Duración:** 100 minutos  
**Formato:** práctica guiada con ejercicios progresivos + mini-lab de GitHub.

En esta sesión practicarás un flujo completo de **preparación de datos para análisis estadístico**: selección de variables, manejo de valores ausentes/ inválidos, automatización con **bucles** y **funciones**, y finalmente **descripción y visualización de distribuciones** (histogramas y boxplots) para traducir hallazgos a lenguaje de negocio.

Al final harás un **hands-on lab de Git/GitHub**: instalar Git (Windows/macOS), crear cuenta y repo, clonar, primer commit y push.

---

## Setup (ejecuta esta celda primero)


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Para reproducibilidad
rng = np.random.default_rng(42)

pd.set_option("display.max_columns", 50)
pd.set_option("display.width", 120)


## Dataset de práctica (sintético)

Usaremos un dataset sintético de transacciones de e-commerce en Latinoamérica con **problemas reales**:
- valores faltantes (NA),
- valores inválidos (negativos, textos con ruido, categorías inconsistentes),
- outliers en montos,
- fechas mal formateadas.

> Si quieres, puedes exportarlo a CSV para reutilizarlo en otros ejercicios o en GitHub.


In [None]:
# Generación de dataset sintético con "ruido" intencional
n = 600

paises = ["Colombia", "México", "Perú", "Chile", "Argentina", "Brasil"]
paises_ruido = ["colombia", " COLOMBIA ", "Mexico", "méxico", "Peru", "CHILE ", "Arg.", "Brasil "]
categorias = ["Bebidas", "Snacks", "Hogar", "Tecnología", "Moda"]
canales = ["Web", "App", "Marketplace"]
metodos_pago = ["Tarjeta", "PSE", "Transferencia", "Efectivo", "Contraentrega"]

df = pd.DataFrame({
    "transaction_id": [f"T{100000+i}" for i in range(n)],
    "fecha": pd.to_datetime("2025-10-01") + pd.to_timedelta(rng.integers(0, 60, size=n), unit="D"),
    "pais": rng.choice(paises, size=n, replace=True),
    "categoria": rng.choice(categorias, size=n, replace=True, p=[0.25, 0.20, 0.20, 0.20, 0.15]),
    "canal": rng.choice(canales, size=n, replace=True, p=[0.55, 0.35, 0.10]),
    "metodo_pago": rng.choice(metodos_pago, size=n, replace=True),
    "items": rng.integers(1, 8, size=n),
    "edad_cliente": rng.integers(16, 70, size=n),
})

# Montos (con outliers)
base = rng.normal(loc=120, scale=55, size=n).clip(5, None)
outliers_idx = rng.choice(np.arange(n), size=10, replace=False)
base[outliers_idx] = base[outliers_idx] * rng.integers(8, 15, size=10)  # outliers grandes

df["monto_usd"] = np.round(base, 2)

# Descuento (con valores inválidos)
df["descuento_pct"] = np.round(rng.normal(loc=0.12, scale=0.08, size=n), 3)
df.loc[rng.choice(df.index, 20, replace=False), "descuento_pct"] = -0.10     # inválido: negativo
df.loc[rng.choice(df.index, 15, replace=False), "descuento_pct"] = 1.50      # inválido: > 1

# Rating (con faltantes)
df["rating"] = rng.choice([1,2,3,4,5,np.nan], size=n, p=[0.05,0.10,0.25,0.35,0.15,0.10])

# Ruido en país (inconsistencias)
noise_rows = rng.choice(df.index, size=40, replace=False)
df.loc[noise_rows, "pais"] = rng.choice(paises_ruido, size=len(noise_rows), replace=True)

# Faltantes y valores extraños
df.loc[rng.choice(df.index, 20, replace=False), "edad_cliente"] = np.nan
df.loc[rng.choice(df.index, 10, replace=False), "items"] = -1  # inválido
df.loc[rng.choice(df.index, 8, replace=False), "monto_usd"] = np.nan

# Duplicados intencionales
df = pd.concat([df, df.sample(5, random_state=7)], ignore_index=True)

df.head()


In [None]:
# (Opcional) Exporta el dataset para reutilizarlo
df.to_csv("webinar20_transacciones_latam.csv", index=False)
print("Archivo generado: webinar20_transacciones_latam.csv")
print("Filas / columnas:", df.shape)


## Ejercicio 0 · Reto inicial (filtrado + razonamiento)

**Objetivo:** activar pensamiento analítico y practicar filtrado/slicing con criterios de negocio.

**Escenario:** el equipo comercial quiere identificar transacciones “de alto valor” para una campaña premium.

**Tarea:**
1. Filtra transacciones de **Tecnología** con:
   - `monto_usd` >= 250
   - `canal` distinto de `"Marketplace"`
2. De ese subconjunto, muestra:
   - 10 filas aleatorias
   - el porcentaje de esas transacciones sobre el total
3. Responde: ¿qué dos variables mirarías después para definir “alto valor” con más precisión?

**Pista:** considera `items`, `descuento_pct` y `metodo_pago`.

> No te preocupes por los datos faltantes todavía: solo filtra y observa.


In [None]:
# Tu código aquí


## Ejercicio 1 · Preparación para análisis estadístico: variables relevantes y calidad de datos

**Objetivo:** decidir qué columnas sirven para el análisis y detectar problemas de calidad antes de calcular estadísticas.

**Tareas:**
1. Inspecciona estructura con `info()` y obtén un resumen de nulos por columna.
2. Identifica:
   - variables **numéricas** (candidatas para medidas estadísticas),
   - variables **categóricas** (candidatas para frecuencias/moda),
   - variables que requieren transformación (por ejemplo, limpieza de texto).
3. Construye una tabla “diccionario rápido” con:
   - `columna`, `tipo`, `% nulos`, `# valores únicos`, `ejemplo`.

**Pista:** `df.dtypes`, `df.isna().mean()`, `df.nunique()`, `df.sample(1).T`


In [None]:
# 1) Estructura
df.info()


In [None]:
# 2) Nulos por columna (conteo y porcentaje)
na_count = df.isna().sum()
na_pct = df.isna().mean().mul(100).round(2)

pd.DataFrame({"na_count": na_count, "na_pct": na_pct}).sort_values("na_pct", ascending=False)


In [None]:
# 3) Diccionario rápido (plantilla sugerida)
dicc = pd.DataFrame({
    "columna": df.columns,
    "tipo": [str(t) for t in df.dtypes],
    "%_nulos": (df.isna().mean()*100).round(2).values,
    "n_unicos": [df[c].nunique(dropna=True) for c in df.columns],
    "ejemplo": [df[c].dropna().iloc[0] if df[c].dropna().shape[0] else None for c in df.columns]
})
dicc


### Preguntas guiadas (Ejercicio 1)
- ¿Qué columnas usarías para analizar **valor de compra**? ¿cuáles sobran?
- ¿Qué problemas de calidad ves en `pais`, `descuento_pct`, `items` y `monto_usd`?
- ¿Qué variables deberían tener reglas de validación (rango / conjunto permitido)?


## Ejercicio 2 · Manejo de valores ausentes o inválidos

**Objetivo:** definir reglas de limpieza (business rules) y aplicarlas de forma trazable.

**Parte A — Valores inválidos (reglas mínimas)**
1. `items`: reemplaza valores <= 0 por `1` (asumiendo error de captura).
2. `descuento_pct`:
   - si es < 0 → reemplázalo por 0
   - si es > 1 → capéalo a 1
3. `monto_usd`: elimina filas con `monto_usd` nulo (no son analizables para distribución de compra).

**Parte B — Valores ausentes**
1. `edad_cliente`: imputa con la **mediana** por `pais` (si falta país válido, usa mediana global).
2. `rating`: imputa con la **moda** por `categoria` (si no hay moda clara, usa 4 como default de negocio).

**Pista técnica:** primero crea un `df_clean = df.copy()` y trabaja sobre ese dataframe.


In [None]:
df_clean = df.copy()

# Parte A: inválidos
df_clean.loc[df_clean["items"] <= 0, "items"] = 1
df_clean["descuento_pct"] = df_clean["descuento_pct"].clip(lower=0, upper=1)

# Eliminar monto nulo
df_clean = df_clean.dropna(subset=["monto_usd"])

df_clean.shape


In [None]:
# Parte B: imputación de edad_cliente con mediana por país
# Nota: aquí aún NO normalizamos país, así que verás el efecto de categorías inconsistentes.
mediana_global = df_clean["edad_cliente"].median()

mediana_por_pais = df_clean.groupby("pais")["edad_cliente"].median()

def imputar_edad(row):
    if pd.notna(row["edad_cliente"]):
        return row["edad_cliente"]
    return mediana_por_pais.get(row["pais"], mediana_global)

df_clean["edad_cliente"] = df_clean.apply(imputar_edad, axis=1)

df_clean["edad_cliente"].isna().sum()


In [None]:
# Parte B: imputación de rating con moda por categoría
def moda_serie(s):
    m = s.mode(dropna=True)
    if len(m) == 0:
        return np.nan
    return m.iloc[0]

moda_por_cat = df_clean.groupby("categoria")["rating"].apply(moda_serie)
default_rating = 4

def imputar_rating(row):
    if pd.notna(row["rating"]):
        return row["rating"]
    m = moda_por_cat.get(row["categoria"], np.nan)
    return default_rating if pd.isna(m) else m

df_clean["rating"] = df_clean.apply(imputar_rating, axis=1)

df_clean["rating"].isna().sum()


### Mini-reto (calidad)
Después de limpiar:
- ¿cuántas filas eliminaste por `monto_usd` nulo?
- ¿qué porcentaje de `rating` fue imputado?
- ¿qué riesgos de sesgo introduces al imputar edad por país?

**Pista:** compara `df` vs `df_clean` con conteos y `value_counts(normalize=True)`.


In [None]:
# Tu código aquí


## Ejercicio 3 · Automatización con bucles e iterables + tus primeras mini-funciones

**Objetivo:** estandarizar texto y validar reglas usando funciones reutilizables.

### Parte A — Normalización de texto (pais)
Crea una función `normalizar_pais(x)` que:
- elimine espacios a los lados,
- ponga en formato título (Title Case),
- reemplace variantes comunes (ej: `"Mexico"`, `"méxico"` → `"México"`, `"Peru"` → `"Perú"`, `"Arg."` → `"Argentina"`).

### Parte B — Validación con bucles
Usa un `for` para recorrer un diccionario de reglas y construir un **reporte de validación**:
- rango permitido de `edad_cliente` (16 a 90)
- rango permitido de `descuento_pct` (0 a 1)
- `items` >= 1
Devuelve para cada regla el número de filas que incumplen.

### Parte C — While (opcional, para practicar)
Crea un bucle `while` que reduzca outliers de `monto_usd` por winsorization iterativa:
- calcula Q1, Q3, IQR
- capea montos por arriba de `Q3 + 1.5*IQR`
- repite hasta que el número de outliers sea 0 o hasta 5 iteraciones.


In [None]:
# Parte A: normalización de país
reemplazos = {
    "Mexico": "México",
    "México": "México",
    "méxico": "México",
    "Peru": "Perú",
    "peru": "Perú",
    "CHILE": "Chile",
    "CHILE ": "Chile",
    "Arg.": "Argentina",
    "Brasil": "Brasil",
    "Brasil ": "Brasil",
}

def normalizar_pais(x):
    if pd.isna(x):
        return x
    s = str(x).strip()
    # Normalización simple de casos
    s_title = s.title()
    # Conserva tildes donde aplique vía reemplazos
    return reemplazos.get(s, reemplazos.get(s_title, s_title))

df_clean["pais"] = df_clean["pais"].apply(normalizar_pais)

df_clean["pais"].value_counts().head(10)


In [None]:
# Parte B: reporte de validación con for
reglas = {
    "edad_cliente_fuera_rango": lambda d: ~d["edad_cliente"].between(16, 90),
    "descuento_fuera_rango": lambda d: ~d["descuento_pct"].between(0, 1),
    "items_invalidos": lambda d: d["items"] < 1,
}

reporte = {}
for nombre, regla in reglas.items():
    reporte[nombre] = int(regla(df_clean).sum())

pd.Series(reporte).sort_values(ascending=False)


In [None]:
# Parte C (opcional): winsorization iterativa con while
df_loop = df_clean.copy()
max_iter = 5
iteracion = 0

while iteracion < max_iter:
    q1 = df_loop["monto_usd"].quantile(0.25)
    q3 = df_loop["monto_usd"].quantile(0.75)
    iqr = q3 - q1
    upper = q3 + 1.5 * iqr

    outliers = (df_loop["monto_usd"] > upper).sum()
    if outliers == 0:
        break

    df_loop.loc[df_loop["monto_usd"] > upper, "monto_usd"] = upper
    iteracion += 1

(iteracion, int(outliers))


### Preguntas guiadas (Ejercicio 3)
- ¿Qué ventajas te da encapsular limpieza en funciones (vs escribirlo “a mano” cada vez)?
- ¿Qué parte del flujo debería convertirse en una función “oficial” del equipo de datos?
- ¿Qué riesgo hay si normalizas categorías después de imputar por grupo?


## Ejercicio 4 · Medidas estadísticas y distribuciones (numéricas y categóricas)

**Objetivo:** describir distribución de datos y traducirla a implicaciones de negocio.

### Parte A — Columnas numéricas
1. Calcula para `monto_usd` y `edad_cliente`:
   - media, mediana, desviación estándar,
   - percentiles (p25, p50, p75, p90),
   - asimetría (skewness).
2. Compara las métricas por `categoria` y por `pais`.

### Parte B — Columnas categóricas
1. Obtén `value_counts` y proporciones de:
   - `pais`, `categoria`, `canal`, `metodo_pago`.
2. Identifica top-3 categorías por volumen y discute qué implican para el negocio.

### Parte C — Visualización
1. Histograma de `monto_usd` (global y por `canal`).
2. Boxplot de `monto_usd` por `pais` (usa el dataframe ya limpio/normalizado).


In [None]:
# Parte A: métricas numéricas
num_cols = ["monto_usd", "edad_cliente"]
resumen = df_loop[num_cols].describe(percentiles=[0.25, 0.5, 0.75, 0.9]).T
resumen["skew"] = df_loop[num_cols].skew(numeric_only=True)
resumen


In [None]:
# Comparación por categoría (monto)
df_loop.groupby("categoria")["monto_usd"].agg(["count", "mean", "median", "std"]).sort_values("mean", ascending=False)


In [None]:
# Parte B: categóricas (proporciones)
for col in ["pais", "categoria", "canal", "metodo_pago"]:
    print("\n", col.upper())
    display(df_loop[col].value_counts(normalize=True).mul(100).round(2).head(10))


In [None]:
# Parte C.1: Histograma de monto_usd (global)
plt.figure(figsize=(8,4))
plt.hist(df_loop["monto_usd"], bins=30)
plt.title("Distribución de monto_usd (global)")
plt.xlabel("monto_usd")
plt.ylabel("frecuencia")
plt.tight_layout()
plt.show()


In [None]:
# Parte C.1 (opcional): histograma por canal
for canal in df_loop["canal"].unique():
    subset = df_loop[df_loop["canal"] == canal]["monto_usd"]
    plt.figure(figsize=(8,4))
    plt.hist(subset, bins=30)
    plt.title(f"Distribución de monto_usd · canal={canal}")
    plt.xlabel("monto_usd")
    plt.ylabel("frecuencia")
    plt.tight_layout()
    plt.show()


In [None]:
# Parte C.2: Boxplot de monto_usd por país (sin seaborn, usando matplotlib)
paises_order = df_loop.groupby("pais")["monto_usd"].median().sort_values().index.tolist()
data = [df_loop[df_loop["pais"] == p]["monto_usd"].values for p in paises_order]

plt.figure(figsize=(9,4.5))
plt.boxplot(data, labels=paises_order, vert=True, showfliers=False)
plt.title("Boxplot de monto_usd por país (outliers ocultos)")
plt.xlabel("país")
plt.ylabel("monto_usd")
plt.xticks(rotation=30, ha="right")
plt.tight_layout()
plt.show()


### Mini-análisis guiado (Ejercicio 4)
- ¿La distribución de `monto_usd` parece normal o sesgada? ¿Qué implica para “promedios” y reportes?
- ¿Qué país muestra mayor dispersión en montos? ¿Qué hipótesis de negocio propones?
- ¿Qué canal tiene montos típicamente más altos y por qué podría ocurrir?
- ¿Si tuvieras que definir un “ticket alto”, usarías media o percentil 90? Justifica.


## Ejercicio 5 · Exportación del dataset limpio + checklist para análisis reproducible

**Objetivo:** cerrar el flujo dejando un dataset listo para análisis estadístico y para versionarlo en GitHub.

**Tareas:**
1. Crea un dataframe final `df_final` con:
   - país normalizado,
   - variables inválidas corregidas,
   - NA tratados,
   - outliers reducidos (si aplicaste el while, usa `df_loop`; si no, usa `df_clean`).
2. Crea variables útiles para análisis:
   - `monto_neto_usd = monto_usd * (1 - descuento_pct)`
   - `ticket_promedio_item = monto_usd / items`
3. Exporta a CSV: `webinar20_transacciones_latam_clean.csv`


In [None]:
df_final = df_loop.copy()

df_final["monto_neto_usd"] = df_final["monto_usd"] * (1 - df_final["descuento_pct"])
df_final["ticket_promedio_item"] = df_final["monto_usd"] / df_final["items"]

df_final.to_csv("webinar20_transacciones_latam_clean.csv", index=False)
df_final.head()


## Hands-on lab Git/GitHub (20–25 min)

### 1) Instalar Git
**Windows**
1. Descarga e instala Git for Windows.
2. En instalación: acepta el *Git Bash* y *Git Credential Manager* (recomendado).
3. Abre **Git Bash** y valida:
```bash
git --version
```

**macOS**
- Recomendado (rápido): instala Xcode Command Line Tools:
```bash
git --version
```
Si no está instalado, macOS te sugerirá instalarlo.

### 2) Crear cuenta en GitHub y un repositorio
1. Crea tu cuenta (si no la tienes).
2. Crea un repositorio llamado por ejemplo: `webinar20-data-prep`.
3. Añade un `README.md`.

### 3) Clonar el repo en tu computador
```bash
git clone <URL_DEL_REPO>
cd webinar20-data-prep
```

### 4) Añadir archivos del notebook
- Copia este notebook (`.ipynb`) y los CSV generados:
  - `webinar20_transacciones_latam.csv`
  - `webinar20_transacciones_latam_clean.csv`

### 5) Primer commit y push
```bash
git status
git add .
git commit -m "Add webinar 20 notebook and datasets"
git push
```

### 6) (Recomendado) .gitignore mínimo para notebooks
Crea un archivo `.gitignore` con:
```
.ipynb_checkpoints/
__pycache__/
*.pyc
.DS_Store
```

### Validación final
- Revisa en GitHub que aparezcan el notebook, el README y los CSV.


## Take aways (resumen extendido)

- **Preparación antes del análisis estadístico:** antes de promediar o graficar, se define qué variables son relevantes, cómo se validan y qué reglas de negocio aplican.
- **Manejo de faltantes e inválidos:** no existe una única respuesta; depende del impacto en el análisis y de la interpretación de negocio. Se documentan decisiones (drop vs imputación).
- **Automatización:** bucles y funciones convierten un proceso manual en un proceso repetible y auditable.
- **Distribuciones importan:** entender sesgo, dispersión y outliers evita reportes engañosos (por ejemplo, “promedios” inflados por casos extremos).
- **Git/GitHub:** versionar notebooks y datasets mejora reproducibilidad, colaboración y trazabilidad en proyectos de analítica.


## Cierre de la sesión

- Hoy ejecutaste un flujo práctico completo: generación de datos, diagnóstico de calidad, limpieza con reglas, automatización con funciones/bucles y lectura de distribuciones con enfoque de negocio.
- Como siguiente paso, podrías:
  - construir un reporte por país/canal con percentiles (p50/p75/p90),
  - crear un análisis de cohortes por fecha,
  - preparar features para un modelo simple (predicción de “ticket alto”).

Si quieres, en la próxima práctica podemos convertir tus funciones de limpieza en un **módulo reutilizable** (`data_cleaning.py`) y agregar pruebas unitarias básicas.


#### Solución:

In [None]:
# Ejercicio 0 (una solución posible)
df_reto = df[(df["categoria"] == "Tecnología") & (df["monto_usd"] >= 250) & (df["canal"] != "Marketplace")]

# 10 filas aleatorias
display(df_reto.sample(min(10, len(df_reto)), random_state=1))

# Porcentaje vs total
porcentaje = (len(df_reto) / len(df)) * 100
print(f"Transacciones reto: {len(df_reto)} de {len(df)} ({porcentaje:.2f}%)")

# Variables sugeridas para refinar 'alto valor':
# - items (tamaño del carrito)
# - descuento_pct (margen/estrategia comercial)
# - metodo_pago (capacidad de pago y fricción)
