# Guía para tutores (30 min)
### Cómo llevar clases usando `tpdata_python` (carpeta `/DA`)

**Objetivo (del tutor):** al final de esta sesión, podrás:
- Ubicar rápidamente notebooks y datasets en `/DA`.
- Preparar una clase con estructura repetible (guion + ejercicios).
- Hacer la sesión interactiva (breakouts, predicción, discusión).
- Escalar de lo simple a lo complejo sin “saltos” técnicos.

**Repo:** `https://github.com/ljpiere/tpdata_python`
**Carpeta foco:** `/DA`

## Agenda (30 min)
1. (0–5) Qué es el repo y por qué lo usamos
2. (5–10) Cómo ubicar material real en `/DA`
3. (10–20) Cómo conducir una sesión interactiva (guion de 3–5 min)
4. (20–27) Cómo escalar: simple → complejo (scaffolding)
5. (27–30) Checklist de cierre + errores comunes


## 1) Por qué usar el repositorio
**Operativo:** una sola fuente de verdad (versionado), menos improvisación, y materiales reproducibles.

**Pedagógico:** enseña el flujo real (datos → limpieza → análisis → conclusiones). El tutor facilita pensamiento, no solo ejecución.

**Regla:** si el estudiante no puede explicar *qué está viendo* (estructura/columnas), no avances a análisis avanzado.


## 2) Listar lo que existe en `/DA` (rutas reales)
Esta celda lista el contenido del repo mediante la **GitHub Contents API**.

Si GitHub limita solicitudes (rate limit), vuelve a intentar o usa un token personal (opcional).


In [1]:
import requests

OWNER = "ljpiere"
REPO = "tpdata_python"
PATH = "DA"  # cambia a "DA/<subcarpeta>" si quieres

url = f"https://api.github.com/repos/{OWNER}/{REPO}/contents/{PATH}"
resp = requests.get(url, headers={"Accept":"application/vnd.github+json"}, timeout=30)
resp.raise_for_status()

items = resp.json()
print(f"Items en /{PATH}: {len(items)}")
for it in items:
    print(f"- {it['type']:<4} | {it['name']}")


Items en /DA: 40
- dir  | .ipynb_checkpoints
- file | DA ES NEW BLUEPRINT.xlsx
- file | Sprint0_Webinar00_Intro.ipynb
- file | Sprint1_Webinar01_Teorico.ipynb
- file | Sprint1_Webinar02_Practica.ipynb
- file | Sprint1_Webinar03_Teorico.ipynb
- file | Sprint1_Webinar04_Practico.ipynb
- file | Sprint2_Webinar05_Teorico.ipynb
- file | Sprint2_Webinar06_Practico.ipynb
- file | Sprint2_Webinar07_Teorico.ipynb
- file | Sprint2_Webinar08_Práctico.ipynb
- file | Sprint3_Webinar09_Teorico.ipynb
- file | Sprint3_Webinar10_Practico.ipynb
- file | Sprint3_Webinar11_Teorico.ipynb
- file | Sprint3_Webinar12_Practico.ipynb
- file | Sprint4_Webinar13_Teorico.ipynb
- file | Sprint4_Webinar14_Practico.ipynb
- file | Sprint4_Webinar15_Teorico.ipynb
- file | Sprint4_Webinar16_Practico.ipynb
- file | Sprint5_Webinar17_Teorico.ipynb
- file | Sprint5_Webinar18_Práctico.ipynb
- file | Sprint5_Webinar19_Teorico.ipynb
- file | Sprint5_Webinar20_Practico.ipynb
- file | Sprint7_Webinar21_Teorico.ipynb
- file | Sp

### 2.1 Datasets que usaremos hoy (rutas confirmadas)
Para que el tutor tenga un ejemplo **100% ejecutable** (sin adivinar rutas), este notebook usa el set de datos de `DA/datasets/duckdb/`.

**URLs raw (listo para copiar/pegar):**
- `DA/datasets/duckdb/duckdb_bookstore_customers.csv`
- `DA/datasets/duckdb/duckdb_bookstore_orders.csv`
- `DA/datasets/duckdb/duckdb_bookstore_order_items.csv`
- `DA/datasets/duckdb/duckdb_bookstore_payments.csv`
- `DA/datasets/duckdb/duckdb_bookstore_products.csv`


In [2]:
import pandas as pd

BASE = "https://raw.githubusercontent.com/ljpiere/tpdata_python/main"
urls = {
    "customers": f"{BASE}/DA/datasets/duckdb/duckdb_bookstore_customers.csv",
    "orders": f"{BASE}/DA/datasets/duckdb/duckdb_bookstore_orders.csv",
    "order_items": f"{BASE}/DA/datasets/duckdb/duckdb_bookstore_order_items.csv",
    "payments": f"{BASE}/DA/datasets/duckdb/duckdb_bookstore_payments.csv",
    "products": f"{BASE}/DA/datasets/duckdb/duckdb_bookstore_products.csv",
}

# Carga rápida (si alguno falla por conexión, reintenta)
data = {name: pd.read_csv(url) for name, url in urls.items()}
{name: df.shape for name, df in data.items()}


{'customers': (200, 7),
 'orders': (600, 6),
 'order_items': (1125, 5),
 'payments': (600, 8),
 'products': (80, 8)}

## 3) Cómo preparar una clase (5 min)
### Checklist del tutor (antes de entrar a Zoom)
1. Define el **objetivo en 1 frase** (ej.: “identificar problemas de calidad de datos en órdenes”).
2. Ten listo el **dataset** y una forma de abrirlo (URL raw o descarga).
3. Prepara **2 preguntas**: una diagnóstica (inicio) y una de síntesis (cierre).
4. Planea un **Ejercicio 0** de 5 min (breakout) que combine 2 conceptos básicos.

### Qué material “tomar” del repo
- Toma el notebook guía del sprint/webinar + el dataset indicado.
- Recorta: 1–2 objetivos por sesión.
- Evita atajos avanzados (CTE/window/lambdas complejas) si el nivel es inicial.


## 4) Cómo hacer la sesión interactiva (10 min)
### Ciclo recomendado (3–5 min)
1. **Pregunta de predicción (30s)**: “¿Qué columnas crees que tendrán más nulos?”
2. **Intento (1–2 min)**: individual o breakout.
3. **Puesta en común (1–2 min)**: 2–3 respuestas.
4. **Demostración (1 min)**: ejecutas y conectas con teoría.
5. **Micro-regla (30s)**: “Regla: primero `info()` y nulos antes de graficar”.

### Técnicas concretas
- **Predicción antes de ejecutar** (reduce pasividad).
- **Errores intencionales**: muestra un `merge` mal hecho y que lo detecten.
- **Think–Pair–Share**: piensa 1 min, pareja 2 min, comparte 2 min.
- **Semáforo** (chat): verde/amarillo/rojo para ajustar ritmo.


## 5) Ejercicio 0 (breakout 5 min): detectar problemas rápidos
**Objetivo:** que los tutores practiquen cómo lanzar una actividad corta y verificable.

**Instrucciones (para estudiantes):**
- En grupos de 3–4, miren `customers` y `orders`.
- Respondan en el chat: (1) 2 problemas potenciales de calidad, (2) 1 pregunta de negocio.

**Entrega esperada:** 3 bullets por grupo.


In [3]:
# Ejemplo de lo que un tutor puede ejecutar en vivo (simple y rápido)
customers = data["customers"]
orders = data["orders"]

print("customers.info()")
display(customers.head(3))
print(customers.isna().sum().sort_values(ascending=False).head(10))

print("\norders.info()")
display(orders.head(3))
print(orders.isna().sum().sort_values(ascending=False).head(10))


customers.info()


Unnamed: 0,customer_id,customer_name,email,city,segment,acquisition_channel,signup_date
0,1,Daniela García,danielagarcía384@gmail.com,Bogotá,Nuevo,Web,2025-02-08
1,2,Juliana Rodríguez,julianarodríguez454@gmail.com,Barranquilla,Frecuente,Web,2025-06-03
2,3,Mateo López,mateolópez70@yahoo.com,Medellín,Nuevo,Tienda,2024-09-03


customer_id            0
customer_name          0
email                  0
city                   0
segment                0
acquisition_channel    0
signup_date            0
dtype: int64

orders.info()


Unnamed: 0,order_id,customer_id,order_date,status,payment_method,promo_code
0,1,155,2025-02-02,cancelled,card,WELCOME10
1,2,93,2024-01-27,processing,card,
2,3,2,2025-10-09,completed,transfer,


promo_code        464
order_id            0
customer_id         0
order_date          0
status              0
payment_method      0
dtype: int64


## 6) Escalamiento: simple → complejo (7 min)
### La escalera (scaffolding)
1. **Ver**: `head()` / `sample()`
2. **Entender**: `info()`, tipos, nulos, duplicados
3. **Arreglar 1 cosa**: nombres de columnas, `strip()`, tipos
4. **Analizar**: 1 métrica + 1 gráfico + 1 conclusión
5. **Validar**: checks simples (claves, rangos, consistencia)

**Regla para tutores:** si el grupo no puede explicar el paso 2, no avances al 4.


## 7) Mini-demo (tutor): un paso más complejo sin volverse avanzado
Unimos órdenes con clientes y calculamos una métrica simple.


In [4]:
# Ajusta estos campos si el esquema del dataset cambia.
# La idea pedagógica es mostrar el patrón: revisar columnas → merge → métrica simple.

orders = data["orders"]
customers = data["customers"]

print("Columnas orders:", list(orders.columns))
print("Columnas customers:", list(customers.columns))

# Intento de llaves típicas (si falla, el tutor muestra cómo diagnosticar)
possible_keys = ["customer_id", "customerid", "id_customer", "id"]
left_key = next((k for k in possible_keys if k in orders.columns), None)
right_key = next((k for k in possible_keys if k in customers.columns), None)
print("Key orders:", left_key, "| Key customers:", right_key)

if left_key and right_key:
    merged = orders.merge(customers, left_on=left_key, right_on=right_key, how="left")
    print("Merged shape:", merged.shape)

    # Métrica simple: porcentaje de órdenes sin match de cliente (calidad de datos)
    missing_match = merged[right_key].isna().mean() * 100
    print(f"% órdenes sin cliente asociado (posible problema): {missing_match:.2f}%")
else:
    print("No encontré llaves típicas automáticamente. Identifica la llave real revisando columnas.")


Columnas orders: ['order_id', 'customer_id', 'order_date', 'status', 'payment_method', 'promo_code']
Columnas customers: ['customer_id', 'customer_name', 'email', 'city', 'segment', 'acquisition_channel', 'signup_date']
Key orders: customer_id | Key customers: customer_id
Merged shape: (600, 12)
% órdenes sin cliente asociado (posible problema): 0.00%


## 8) Cierre (3 min)
### Takeaways (3)
1. El repo evita improvisación: material versionado y reproducible.
2. La interacción se diseña (ciclos de 3–5 min), no “sale sola”.
3. Siempre escalar: ver → entender → arreglar → analizar → validar.

### Checklist final del tutor
- [ ] Objetivo en 1 frase
- [ ] 2 preguntas de predicción
- [ ] 1 actividad breve (breakout o individual)
- [ ] Subí 1 escalón de complejidad (sin saltos técnicos)
- [ ] Cierre con 3 takeaways + siguiente paso
