# Sprint 8 · Webinar 24 · Data Analytics práctico (Repaso: funciones, ciclos y setup en VS Code)

**Duración:** 100 minutos  
**Modalidad:** Práctica guiada (mini-proyecto paso a paso)  

En esta sesión haremos un **repaso práctico** de:
- **Funciones en Python** aplicadas a tareas típicas de analítica con **pandas**
- **Bucles `for` y `while`** (ciclos) y control de flujo
- **Uso de VS Code** + instalación de **Python global** (sin entornos virtuales), con una explicación conceptual de qué es un entorno virtual y por qué suele usarse


## Fecha

Completa la información de la sesión:

- **Fecha:**  
- **Instructor/a:**  
- **Duración:** 100 minutos  


## Objetivos de la sesión práctica

Al finalizar esta sesión, el/la estudiante podrá:

1. **Instalar y verificar Python** en Windows usando una instalación global, y configurar **VS Code** para trabajar con Python y Jupyter.
2. **Cargar y explorar** un dataset con `pandas` (EDA rápido orientado a negocio).
3. **Escribir funciones** reutilizables para limpieza, creación de variables y cálculo de KPIs.
4. **Aplicar bucles `for`** para automatizar cálculos repetitivos y construir reportes.
5. **Aplicar bucles `while`** en escenarios controlados (iteraciones con condición de parada) y reconocer cuándo es mejor preferir operaciones vectorizadas de pandas.


## Preparación del entorno (VS Code + Python + librerías)

Esta sesión asume una **instalación global** de Python (sin entornos virtuales). Aun así, al final verás una explicación corta de qué es un entorno virtual y cuándo conviene usarlo.

### 1) Instalar Python (instalación global)

**Windows (recomendado para clase):**
1. Descarga Python desde el sitio oficial (python.org) e inicia el instalador.
2. En la primera pantalla marca:
   - **Add python.exe to PATH**
   - (Opcional) **Install launcher for all users**
3. Completa la instalación.

**Verifica en una terminal (PowerShell / CMD):**
- `python --version`
- `python -m pip --version`

> Si en Windows tu comando `python` no funciona, prueba con `py -V` y usa `py -m pip ...` para instalar paquetes.

### 2) Instalar VS Code

1. Descarga e instala Visual Studio Code desde el sitio oficial.
2. Abre VS Code y (si aplica) habilita el comando `code` en el PATH (en Windows suele configurarse automáticamente).

### 3) Extensiones necesarias en VS Code

Instala estas extensiones (panel de Extensions):
- **Python** (Microsoft)
- **Jupyter** (Microsoft)

Opcional (pero útil):
- **Pylance** (autocompletado y análisis estático)

### 4) Abrir el proyecto en VS Code

1. Crea una carpeta (por ejemplo: `sprint8_webinar24/`).
2. Guarda dentro:
   - Este notebook `Sprint8_Webinar24_Practico.ipynb`
   - El dataset `sprint8_webinar24_dataset.csv`
3. En VS Code: **File → Open Folder...** y selecciona la carpeta.

### 5) Seleccionar intérprete y kernel

1. `Ctrl + Shift + P` → **Python: Select Interpreter** → elige tu Python instalado.
2. Abre el notebook → arriba a la derecha: **Select Kernel** → elige el mismo intérprete.

### 6) Instalar librerías (global) con `pip`

Ejecuta en la terminal **del sistema** (no dentro del notebook):

- Actualizar `pip`:
  - `python -m pip install --upgrade pip`

- Instalar librerías para analítica:
  - `python -m pip install numpy pandas scipy matplotlib`

> En Windows con launcher:
> - `py -m pip install --upgrade pip`
> - `py -m pip install numpy pandas scipy matplotlib`

### 7) ¿Qué es un entorno virtual? (teoría rápida)

Un **entorno virtual** (por ejemplo, `venv`) es una “copia aislada” de Python para un proyecto. Sirve para:
- Evitar conflictos de versiones entre proyectos.
- Reproducir el mismo entorno en otra máquina.
- Mantener dependencias del proyecto separadas del sistema.

En esta clase **no lo usamos** para reducir fricción de instalación, pero es una buena práctica en proyectos reales.


In [None]:
# Verificación rápida de instalación (ejecuta después de instalar paquetes)
import sys

import numpy as np
import pandas as pd
import scipy
import matplotlib

print("Python:", sys.version.split()[0])
print("NumPy:", np.__version__)
print("pandas:", pd.__version__)
print("SciPy:", scipy.__version__)
print("matplotlib:", matplotlib.__version__)


## Metodología de la sesión

- Trabajaremos sobre un **dataset sintético** que generaremos en clase (y guardaremos como CSV).
- El objetivo es replicar un flujo real de analítica:
  1) Generación / carga de datos  
  2) Revisión rápida de calidad  
  3) Transformación (features)  
  4) Métricas (KPIs)  
  5) Automatización (funciones + ciclos)  
- El código está pensado para estudiantes que están iniciando: incluye **comentarios**, **docstrings** y pasos graduales.


## Agenda sugerida (100 minutos)

| Tiempo | Bloque | Contenido | Output |
|---:|---|---|---|
| 10 min | Setup | Python global + VS Code (conceptos y verificación) | Entorno listo |
| 10 min | Kickoff | Contexto del mini-proyecto + preguntas guía | Hipótesis iniciales |
| 15 min | Datos | Generar CSV sintético + diccionario de datos | `data/retail_pulse_transactions.csv` |
| 15 min | EDA rápido | Calidad + exploración inicial | Checklist de calidad |
| 20 min | Repaso funciones | Limpieza + features + KPIs con funciones | Pipeline simple |
| 20 min | Repaso ciclos | `for` y `while` aplicados a reportes | Reporte mensual / validación iterativa |
| 10 min | Cierre | Takeaways + siguientes pasos | Próxima práctica |


## Ejercicio 0 · Kickoff del mini-proyecto (10 min)

### Contexto
Eres analista en una empresa de retail que vende por **tienda** y **canal online**. El área comercial quiere entender:

- ¿Cómo evolucionan las ventas por mes?
- ¿Qué categorías y canales generan más ingresos?
- ¿Hay señales de fricción logística (tiempos de entrega altos, devoluciones)?

### Preguntas guía (discusión rápida)
1. ¿Qué métrica usarías como “ventas”? (pista: ingreso = unidades × precio × (1 - descuento))
2. ¿Qué variables podrían influir en devoluciones?
3. ¿Qué KPI usarías para monitorear “experiencia del cliente” con datos limitados?


## Proyecto práctico: “Retail Pulse” (Sales Analytics)

En este mini-proyecto construiremos un pipeline básico de analítica con pandas:

1. Generamos un dataset sintético de transacciones (CSV).
2. Hacemos EDA rápido y verificaciones de calidad.
3. Definimos funciones para limpieza, enriquecimiento (features) y KPIs.
4. Automatizamos reportes con ciclos (`for`, `while`) y comparamos con alternativas vectorizadas en pandas.

### Entregables del proyecto (lo que deberías poder entregar al final)
- Un archivo CSV en `data/retail_pulse_transactions.csv`
- Un DataFrame listo para análisis con:
  - `revenue`, `month`, `is_weekend`, etc.
- Un reporte mensual de KPIs (tabla)
- 3–5 insights escritos (en un markdown al final del notebook)


## Diccionario de datos (CSV)

Cada fila representa una **transacción** (compra).

| Columna | Tipo | Descripción |
|---|---|---|
| `transaction_id` | int | Identificador de la transacción |
| `date` | datetime | Fecha de la compra |
| `customer_id` | int | Identificador del cliente |
| `region` | category | Región (Norte, Centro, Sur) |
| `channel` | category | Canal (Store / Online) |
| `category` | category | Categoría de producto |
| `product_id` | int | Identificador del producto |
| `units` | int | Unidades compradas |
| `unit_price` | float | Precio por unidad |
| `discount_pct` | float | Descuento (0 a 0.30) |
| `payment_method` | category | Método de pago |
| `delivery_days` | int | Días de entrega (solo Online; Store=0) |
| `returned` | bool | Si la compra fue devuelta |
| `satisfaction_score` | float | Calificación de satisfacción (0–10, puede tener nulos) |


In [None]:
# Setup básico: imports y configuración
import numpy as np
import pandas as pd

from pathlib import Path

# Opciones visuales (para ver más columnas al hacer print)
pd.set_option("display.max_columns", 50)
pd.set_option("display.width", 120)

DATA_DIR = Path("data")
DATA_DIR.mkdir(exist_ok=True)


from IPython.display import display


## Ejercicio 1 · Generar el dataset sintético (15 min)

Generaremos un dataset con transacciones de los últimos 12 meses.
- Incluiremos algunas *imperfecciones realistas*: nulos en satisfacción y algunos valores atípicos en `delivery_days`.
- Guardaremos el resultado como CSV en la carpeta `data/`.


In [None]:
# 1) Parámetros de generación (puedes ajustar N para más/menos datos)
rng = np.random.default_rng(seed=42)

N = 12000  # número de transacciones
start_date = pd.Timestamp.today().normalize() - pd.Timedelta(days=365)

# 2) Catálogos simples
regions = ["Norte", "Centro", "Sur"]
channels = ["Store", "Online"]
categories = ["Grocery", "Electronics", "Home", "Beauty", "Sports"]
payment_methods = ["Card", "Cash", "Transfer", "Wallet"]

# 3) Generar columnas base
dates = start_date + pd.to_timedelta(rng.integers(0, 365, size=N), unit="D")
customer_id = rng.integers(1000, 2500, size=N)
region = rng.choice(regions, size=N, p=[0.30, 0.45, 0.25])
channel = rng.choice(channels, size=N, p=[0.55, 0.45])
category = rng.choice(categories, size=N, p=[0.35, 0.15, 0.20, 0.15, 0.15])

# Simular productos: 50 productos por categoría
product_id = (
    pd.Series(category)
    .map({cat: i for i, cat in enumerate(categories)})
    .to_numpy() * 1000
    + rng.integers(1, 51, size=N)
)

units = rng.integers(1, 6, size=N)  # 1 a 5 unidades
base_price = rng.normal(loc=40, scale=18, size=N).clip(5, 200)  # precio base
# Ajuste por categoría (electrónica más cara)
cat_multiplier = pd.Series(category).map(
    {"Grocery": 0.7, "Electronics": 1.8, "Home": 1.1, "Beauty": 0.9, "Sports": 1.2}
).to_numpy()
unit_price = (base_price * cat_multiplier).round(2)

discount_pct = rng.choice([0, 0.05, 0.10, 0.15, 0.20, 0.30], size=N, p=[0.45, 0.15, 0.15, 0.12, 0.10, 0.03])

payment_method = rng.choice(payment_methods, size=N, p=[0.55, 0.18, 0.12, 0.15])

# Delivery days: solo online, store = 0
delivery_days = np.where(
    channel == "Online",
    rng.integers(1, 8, size=N),  # 1 a 7
    0
)

# Insertar algunos valores atípicos en delivery (online)
outlier_idx = rng.choice(np.where(channel == "Online")[0], size=60, replace=False)
delivery_days[outlier_idx] = rng.integers(15, 40, size=60)  # outliers

# Returned: mayor probabilidad si delivery es alto y en electronics
returned_prob = (
    0.04
    + 0.02 * (channel == "Online")
    + 0.03 * (delivery_days >= 10)
    + 0.02 * (category == "Electronics")
)
returned = rng.random(size=N) < returned_prob

# Satisfaction: base alta, se reduce con delivery alto y devoluciones, con nulos
satisfaction = (
    rng.normal(loc=8.2, scale=1.2, size=N)
    - 0.10 * delivery_days
    - 1.2 * returned.astype(int)
).clip(0, 10)

# Insertar nulos (faltantes) en satisfacción (~8%)
mask_null = rng.random(size=N) < 0.08
satisfaction = satisfaction.astype(float)
satisfaction[mask_null] = np.nan

df_raw = pd.DataFrame({
    "transaction_id": np.arange(1, N + 1),
    "date": dates,
    "customer_id": customer_id,
    "region": region,
    "channel": channel,
    "category": category,
    "product_id": product_id,
    "units": units,
    "unit_price": unit_price,
    "discount_pct": discount_pct,
    "payment_method": payment_method,
    "delivery_days": delivery_days,
    "returned": returned,
    "satisfaction_score": satisfaction.round(1),
})

df_raw.head()


In [None]:
# Guardar CSV
csv_path = DATA_DIR / "retail_pulse_transactions.csv"
df_raw.to_csv(csv_path, index=False)

csv_path


## Ejercicio 2 · Cargar el CSV y revisar calidad de datos (EDA rápido) (15 min)

Checklist mínimo:
- ¿Cuántas filas y columnas tenemos?
- Tipos de datos (`dtypes`)
- Nulos por columna
- Duplicados
- Rangos esperados (ej. `discount_pct` entre 0 y 0.30, `units` >= 1)


In [None]:
df = pd.read_csv(csv_path, parse_dates=["date"])

print("Shape:", df.shape)
display(df.head(3))

display(df.dtypes)


In [None]:
# Nulos por columna
missing = df.isna().mean().sort_values(ascending=False)
display((missing * 100).round(2).to_frame("missing_%"))

# Duplicados de transacción
dup_count = df.duplicated(subset=["transaction_id"]).sum()
print("Duplicados en transaction_id:", dup_count)

# Validaciones rápidas de rangos
print("discount_pct min/max:", df["discount_pct"].min(), df["discount_pct"].max())
print("units min/max:", df["units"].min(), df["units"].max())
print("delivery_days min/max:", df["delivery_days"].min(), df["delivery_days"].max())


### Mini-ejercicio (5 min)

1. Crea una columna `revenue_raw = units * unit_price` (sin descuento).  
2. ¿Qué porcentaje de transacciones son `Online`?  
3. ¿Cuál es la categoría con mayor revenue promedio (sin descuento)?

> Responde con código. Luego revisa la solución.


In [None]:
# 1) revenue_raw
df["revenue_raw"] = df["units"] * df["unit_price"]

# 2) porcentaje online
pct_online = (df["channel"].eq("Online").mean() * 100).round(2)

# 3) categoría con mayor revenue promedio
top_cat = (
    df.groupby("category")["revenue_raw"]
    .mean()
    .sort_values(ascending=False)
    .head(1)
)

print("Online %:", pct_online)
display(top_cat)


## Repaso · Funciones en Python para analítica con pandas (20 min)

### Idea clave
En analítica, las funciones ayudan a:
- Reutilizar lógica (limpieza, features, métricas)
- Reducir errores por copiar/pegar
- Documentar el propósito de cada bloque de transformación

En este ejercicio construiremos un mini **pipeline** con 3 funciones:
1. `clean_transactions(df)`  
2. `add_features(df)`  
3. `compute_kpis(df)`  


In [None]:
def clean_transactions(df: pd.DataFrame) -> pd.DataFrame:
    """Limpia el dataset de transacciones.

    Acciones:
    - Asegura tipos básicos.
    - Imputa satisfacción faltante con la mediana por canal.
    - Crea una columna booleana de 'is_online' para facilitar análisis.

    Parámetros
    ----------
    df : pd.DataFrame
        DataFrame original con transacciones.

    Retorna
    -------
    pd.DataFrame
        Copia limpia (no modifica el df original).
    """
    out = df.copy()

    # Tipos: (en proyectos reales, esto suele venir de un diccionario de datos)
    out["region"] = out["region"].astype("category")
    out["channel"] = out["channel"].astype("category")
    out["category"] = out["category"].astype("category")
    out["payment_method"] = out["payment_method"].astype("category")

    # Imputación simple: mediana de satisfacción por canal
    median_by_channel = out.groupby("channel")["satisfaction_score"].median()
    out["satisfaction_score"] = out["satisfaction_score"].fillna(out["channel"].map(median_by_channel))

    out["is_online"] = out["channel"].eq("Online")
    return out


def add_features(df: pd.DataFrame) -> pd.DataFrame:
    """Agrega variables (features) útiles para análisis.

    Features:
    - month (periodo mensual)
    - revenue (aplicando descuento)
    - is_weekend
    - delayed_delivery (online con delivery >= 7)

    Retorna una copia del DataFrame.
    """
    out = df.copy()

    out["month"] = out["date"].dt.to_period("M").astype(str)
    out["revenue"] = out["units"] * out["unit_price"] * (1 - out["discount_pct"])
    out["is_weekend"] = out["date"].dt.dayofweek >= 5

    out["delayed_delivery"] = out["is_online"] & (out["delivery_days"] >= 7)
    return out


def compute_kpis(df: pd.DataFrame) -> pd.DataFrame:
    """Calcula KPIs agregados por mes.

    KPIs:
    - revenue_total
    - orders
    - avg_revenue_per_order
    - return_rate
    - avg_delivery_days_online
    - avg_satisfaction

    Retorna un DataFrame con una fila por mes.
    """
    # Nota: usamos df ya con features
    g = df.groupby("month")

    kpis = pd.DataFrame({
        "revenue_total": g["revenue"].sum(),
        "orders": g["transaction_id"].nunique(),
        "avg_revenue_per_order": g["revenue"].mean(),
        "return_rate": g["returned"].mean(),
        "avg_delivery_days_online": g.apply(lambda x: x.loc[x["is_online"], "delivery_days"].mean()),
        "avg_satisfaction": g["satisfaction_score"].mean(),
    }).reset_index()

    # Orden cronológico por month (YYYY-MM)
    kpis = kpis.sort_values("month")
    return kpis


df_clean = clean_transactions(df)
df_feat = add_features(df_clean)
kpis_month = compute_kpis(df_feat)

display(kpis_month.head())


### Mini-ejercicio (5 min)

Crea una función `top_categories(df, n=3)` que retorne las `n` categorías con mayor revenue total.

Pista: `groupby("category")["revenue"].sum()`


In [None]:
def top_categories(df: pd.DataFrame, n: int = 3) -> pd.DataFrame:
    """Retorna las n categorías con mayor revenue total."""
    out = (
        df.groupby("category")["revenue"]
        .sum()
        .sort_values(ascending=False)
        .head(n)
        .to_frame("revenue_total")
    )
    return out

display(top_categories(df_feat, n=3))


## Repaso · Bucles `for` (20 min)

### ¿Para qué usar `for` en analítica?
- Construir reportes por particiones (mes, región, categoría)
- Ejecutar validaciones repetitivas
- Aplicar una misma lógica a una lista de variables

**Nota importante:** en pandas, muchas tareas se resuelven mejor con `groupby`, `agg`, `merge` y operaciones vectorizadas.  
Aun así, entender `for` es esencial para automatizar y para leer código de otros.


In [None]:
# Reporte mensual por región usando un bucle for
months = sorted(df_feat["month"].unique())

rows = []
for m in months:
    df_m = df_feat[df_feat["month"] == m]

    # KPIs por región (revenue y tasa de devoluciones)
    by_region = df_m.groupby("region").agg(
        revenue_total=("revenue", "sum"),
        orders=("transaction_id", "nunique"),
        return_rate=("returned", "mean"),
    )

    # Convertimos a formato "largo" para apilar resultados
    by_region = by_region.reset_index()
    by_region["month"] = m
    rows.append(by_region)

report_region_month = pd.concat(rows, ignore_index=True).sort_values(["month", "region"])

display(report_region_month.head(10))


In [None]:
# Alternativa (preferida en pandas): groupby sin bucle for
report_region_month_fast = (
    df_feat.groupby(["month", "region"])
    .agg(
        revenue_total=("revenue", "sum"),
        orders=("transaction_id", "nunique"),
        return_rate=("returned", "mean"),
    )
    .reset_index()
    .sort_values(["month", "region"])
)

# Validamos que ambas tablas coinciden en valores (mismo orden de columnas)
check = report_region_month.merge(
    report_region_month_fast,
    on=["month", "region"],
    suffixes=("_for", "_pandas")
)

# Diferencias absolutas (deberían ser ~0, salvo precisión flotante)
check["diff_revenue"] = (check["revenue_total_for"] - check["revenue_total_pandas"]).abs()
check["diff_return_rate"] = (check["return_rate_for"] - check["return_rate_pandas"]).abs()

display(check[["month","region","diff_revenue","diff_return_rate"]].describe())


### Mini-ejercicio (5 min)

Usa un `for` para construir una lista de resultados que contenga, por cada `category`, el `avg_satisfaction`.

Output esperado: un DataFrame con columnas `category` y `avg_satisfaction`.


In [None]:
results = []
for cat in sorted(df_feat["category"].unique()):
    avg_sat = df_feat.loc[df_feat["category"] == cat, "satisfaction_score"].mean()
    results.append({"category": cat, "avg_satisfaction": avg_sat})

df_avg_sat = pd.DataFrame(results).sort_values("avg_satisfaction", ascending=False)
display(df_avg_sat)


## Repaso · Bucles `while` (20 min)

### ¿Cuándo usar `while`?
`while` se usa cuando:
- No sabes cuántas iteraciones necesitas de antemano.
- Repites un proceso **hasta cumplir una condición** (con una condición de parada clara).

Ejemplo en analítica:
- Repetir una regla de *capping* de outliers hasta que el número de outliers se estabilice (con un máximo de iteraciones).

> En proyectos reales debes ser cuidadoso: un `while` mal definido puede quedarse en un ciclo infinito.


In [None]:
def count_delivery_outliers_iqr(df: pd.DataFrame) -> int:
    """Cuenta outliers en delivery_days (solo online) usando IQR."""
    x = df.loc[df["is_online"], "delivery_days"].dropna()
    q1, q3 = x.quantile([0.25, 0.75])
    iqr = q3 - q1
    lower, upper = q1 - 1.5 * iqr, q3 + 1.5 * iqr
    return int(((x < lower) | (x > upper)).sum())


def cap_delivery_outliers_iqr(df: pd.DataFrame) -> pd.DataFrame:
    """Aplica capping (winsorization) a delivery_days (solo online) usando límites IQR."""
    out = df.copy()
    mask = out["is_online"]

    x = out.loc[mask, "delivery_days"].dropna()
    q1, q3 = x.quantile([0.25, 0.75])
    iqr = q3 - q1
    lower, upper = q1 - 1.5 * iqr, q3 + 1.5 * iqr

    out.loc[mask, "delivery_days"] = out.loc[mask, "delivery_days"].clip(lower, upper)
    return out


# While: repetimos el capping hasta que no haya outliers (o hasta max_iter)
df_loop = df_feat.copy()
max_iter = 5
iter_count = 0

outliers = count_delivery_outliers_iqr(df_loop)
print("Outliers iniciales (delivery_days, online):", outliers)

while (outliers > 0) and (iter_count < max_iter):
    df_loop = cap_delivery_outliers_iqr(df_loop)
    outliers = count_delivery_outliers_iqr(df_loop)
    iter_count += 1
    print(f"Iteración {iter_count}: outliers = {outliers}")

print("Iteraciones ejecutadas:", iter_count)


### Nota
Este ejemplo es didáctico: muchas veces **una sola** aplicación del capping es suficiente.  
El objetivo es practicar la estructura del `while` y definir una **condición de parada** (por ejemplo `max_iter`).


## VS Code + Python global (sin entornos virtuales)

### 1) Instalación global de Python (Windows)
1. Descarga Python desde el sitio oficial (recomendado) e instálalo.
2. En el instalador, marca:
   - **Add Python to PATH**
   - **pip**
3. Verifica en terminal (PowerShell o CMD):
   - `python --version`
   - `pip --version`

> Si `python` no funciona pero `py` sí, puedes usar el launcher de Windows: `py -V`.

### 2) VS Code: extensiones recomendadas
- **Python** (Microsoft)
- **Jupyter** (Microsoft)

### 3) Seleccionar el intérprete
En VS Code:
- `Ctrl + Shift + P` → **Python: Select Interpreter**  
- Elige el Python instalado globalmente (ej. Python 3.12/3.13).

### 4) Ejecutar tu primer script
Crea un archivo `hello.py`:

```python
print("Hola, mundo")
```

En terminal:
- `python hello.py`

### 5) Trabajar con notebooks (`.ipynb`)
- Abre un `.ipynb` con VS Code.
- Selecciona el kernel (Python global).
- Ejecuta celdas y revisa outputs.

> Recomendación: si algo falla con Jupyter, instala (globalmente) estas dependencias:
> - `pip install jupyter pandas numpy`


## ¿Qué es un entorno virtual (venv) y por qué existe? (conceptual)

Un **entorno virtual** es una “copia aislada” del entorno de Python para un proyecto.

### ¿Qué problema resuelve?
- Dos proyectos pueden requerir **versiones distintas** de librerías (por ejemplo, `pandas==1.5` vs `pandas==2.2`).
- Si instalas todo globalmente, puedes terminar con conflictos y errores difíciles de depurar.

### ¿Cuándo te conviene usarlo?
- Proyectos reales con dependencias específicas
- Cuando compartes tu código con otras personas (reproducibilidad)
- Cuando trabajas con varias versiones de Python/librerías

En este webinar NO lo vamos a usar para mantener el flujo simple, pero es importante conocer el concepto.


## Takeaways

- Las **funciones** permiten estructurar un pipeline analítico reutilizable.
- Los ciclos (`for`, `while`) sirven para automatizar tareas repetitivas, pero en pandas muchas veces es mejor usar `groupby` y operaciones vectorizadas.
- VS Code + Python global es una forma rápida de empezar; para proyectos más serios, los **entornos virtuales** mejoran la reproducibilidad.


## Cierre

### Checklist de salida
- [ ] Generé el CSV en `data/retail_pulse_transactions.csv`
- [ ] Cargué y validé calidad (nulos, duplicados, rangos)
- [ ] Construí funciones de limpieza, features y KPIs
- [ ] Generé un reporte mensual por región (con `for` y con `groupby`)
- [ ] Practiqué un `while` con condición de parada

### Pregunta final
¿Qué parte te pareció más útil para tu día a día: funciones, `for`, o `while`? ¿Por qué?


## Siguientes Pasos

1. Convierte este notebook en un pequeño proyecto:
   - carpeta `data/`
   - carpeta `notebooks/`
   - `README.md` con objetivos y hallazgos
2. Agrega 3–5 insights basados en:
   - revenue por canal y categoría
   - relación entre `delivery_days` y `returned`
   - satisfacción por canal y devoluciones
3. (Opcional) Crea 1–2 visualizaciones (línea mensual de revenue, barras por categoría).
