
# Laboratorio: *Python for Data Analysis* (3rd Ed) — Orquestando Clases por Equipos 🎓🐍

**Cátedra:** Ciencia de Datos
**Fecha de creación:** 2025-08-10

> _“Con great power viene great `import pandas as pd`.”_ — Un tío de Spider‑man que hacía ETL



## ¿De qué va este laboratorio?

Vamos a usar los laboratorios del libro **_Python for Data Analysis, 3rd Edition_** de **Wes McKinney** para que **10 equipos** preparen y dicten una clase práctica.  
El repo oficial con notebooks y datos está aquí: <https://github.com/wesm/pydata-book>.

**Objetivos de aprendizaje**  
- Explorar NumPy, pandas y amigos con ejemplos “de verdad”.  
- Desarrollar habilidades de **explicación técnica** (y no dormirse explicando `groupby`).  
- Practicar colaboración, versionado y presentación técnica.  
- Cerrar la clase con algo que compile, corra y se entienda (¡bonus si además es lindo!).



## ¿Cómo funciona?

1. **Equipos**: la clase se divide en **10 equipos** (ver tabla de asignación).  
2. **Capítulos**: cada equipo adopta 1–2 capítulos (según densidad) del libro y prepara:
   - Un **mini‑notebook** demostrativo (15–25 min).
   - Un **ejercicio guiado** (10–15 min) y un **desafío** corto (para casa o para los 10 min finales).
   - **3–5 diapositivas** con ideas clave, gotchas y “anti‑patrones” típicos.
3. **Entrega**: suben todo a un repo de la cátedra (o fork) y dejan instrucciones para ejecutar.  
4. **Clase**: exponen, ejecutan el notebook en vivo y responden preguntas.  
5. **Rubrica**: abajo tenés la rúbrica de evaluación (spoiler: claridad > pirotecnia).



## Asignación de capítulos a equipos 📚➡️👥

> Basado en los contenidos del libro (3ª edición). Si tu edición tiene numeración levemente distinta, **mantener el tema** es más importante que el número exacto.

| Equipo | Capítulos (tema) |
|-------:|------------------|
| Data Surfers | Cap. 1 **Introducción** + Cap. 2 **Python, IPython y Jupyter** |
| Data Surfers | Cap. 3 **Estructuras básicas, funciones y archivos** |
| Somó7 | Cap. 4 **NumPy: arrays y vectorización** |
| Pandas Locos | Cap. 5 **Primeros pasos con pandas** |
| Inteligencia Artesanal | Cap. 6 **Data Loading, Storage, and File Formats** |
| Faith No More  | Cap. 7 **Limpieza y preparación de datos** |
| De Datos Somos | Cap. 8 **Data wrangling: join/combine/reshape** |
| Lambda | Cap. 9 **Gráficos y visualización** (matplotlib + complementos) |
| null | Cap. 10 **Aggregation & GroupBy** |
| Meta-verso 2.0 | Cap. 11 **Series temporales** + temas avanzados de pandas |
| DTI | Grus - Data Science from Scratch - Chapter 14. Simple Linear Regression |

**Sugerencia**: si necesitás más material, podés tomar ejemplos del repo (carpetas `ch*`) y referencias cruzadas con `statsmodels` o `scikit‑learn` solo para contexto (sin desviarse del foco: **análisis de datos**).



## Entregables por equipo 📦

- **Notebook demo** (`demo_equipo<N>.ipynb`): conceptos clave + ejemplos que corren.
- **Notebook de ejercicios** (`ejercicios_equipo<N>.ipynb`): 6–10 celdas con ejercicios sobre los conceptos explicados usando un dataset de Kaggle. Vamos a usar estos ejercicios durante la clase.
- **Slides** (PDF o Google Slides compartible): 3–5 láminas máx. Solo si aportan valor.
- **README.md** con: objetivos, cómo ejecutar, datasets usados y créditos.
- **1 issue** abierto en el repo del libro describiendo algo que mejorarías del capítulo (naming, ejemplo alternativo, etc.).

> **Tip**: un notebook sin `requirements.txt` es como un mate sin bombilla: _técnicamente_ se puede, pero vas a sufrir.



## Rúbrica de evaluación (100 pts)

- **Claridad didáctica (25 pts)**: explican conceptos paso a paso, ejemplos minimalistas y luego uno real.  
- **Calidad técnica (25 pts)**: código limpio, reproducible, sin warnings evitables, buenas prácticas (`.pipe`, `assign`, `query`, etc.).  
- **Diseño de ejercicios (20 pts)**: progresivos, con verificación básica y feedback.  
- **Visualización y comunicación (15 pts)**: gráficos legibles, etiquetas, storytelling breve.  
- **Documentación y repositorio (10 pts)**: README claro, estructura ordenada, instrucciones para correr.  
- **Participación y timing (5 pts)**: toda la squad participa y respetan los tiempos.



## (Opcional) Asignación automática de estudiantes a 10 equipos

Pegá abajo la lista de estudiantes (uno por línea), elegí una semilla y ejecutá.  
> Tranquilo: si te toca con tu mejor amigo, fue pura estadística y un poquito de `random.shuffle`.



## Referencias y recursos 🔗

- **Repositorio oficial del libro (notebooks y datos)**: <https://github.com/wesm/pydata-book>  
- **Libro**: *Python for Data Analysis, 3rd Edition* — Wes McKinney, O’Reilly.  
- **Documentación**:  
  - pandas: <https://pandas.pydata.org/docs/>  
  - NumPy: <https://numpy.org/doc/>  
  - Matplotlib: <https://matplotlib.org/stable/>  
- **Extras útiles**:  
  - Cheat sheets de pandas y NumPy (varias ediciones, “buscables” y pegables en la pared del lab).

> **Chiste malo obligatorio**: ¿Por qué el `DataFrame` se sentía solo? Porque no encontraba su `index`. 😅



## Consejos finales ☕

- Menos magia, más pasos visibles. Si algo parece “voodoo”, explíquenlo con una celda mínima.  
- Usen **datasets pequeños** para que todo corra en vivo sin lag.  
- Versionen: ramas por equipo, PRs cortos, mensajes de commit que no den vergüenza dentro de 6 meses.  
- Si un gráfico no se lee, no existe. Etiquetas, tamaños y unidades importan.  
- **Demo‑first mindset**: primero que funcione, luego que brille.
