# Sprint 2 - Webinar 1: From Business Questions to Metrics & Dataset Prep

**Clase teórica (sin ejecución de código).**  
**Caso base:** `taylor_swift_da_intro.xlsx` (hojas: `raw_songs`, `raw_albums`, `data_dictionary`, `change_log`, `summary_template`).  
**Fecha:** 2025-08-20

---


## Introducción
En este primer webinar del **Sprint 2** aprenderás a **traducir necesidades de negocio a preguntas analíticas y métricas** y a **preparar/combinar datasets** para responderlas con solvencia. Mantendremos el hilo conductor del caso **Taylor Swift**, y añadiremos una segunda hoja/dataset cuando sea útil (p.ej., `raw_albums` o un CSV adicional).

---

## Objetivos de aprendizaje
Al finalizar podrás:
1. **Enmarcar preguntas** de negocio y relacionarlas con **stakeholders** y **decisiones**.  
2. Seleccionar **métricas adecuadas** (totales, promedios, ratios, crecimiento, percentiles) y distinguir **leading vs. lagging** indicators.  
3. **Reescribir preguntas vagas** en preguntas “hoja de cálculo listas” (métrica + grupo + periodo).  
4. **Preparar y explorar** datasets: importar, perfilar, detectar inconsistencias, **combinar** (VLOOKUP/XLOOKUP).  
5. Organizar el libro: **convenciones de nombres**, validaciones, **README** y columnas auxiliares.  
6. **Aprovechar LLMs** para acelerar análisis (sin exponer datos sensibles) y depurar fórmulas/errores.

---

## Agenda
1. Analytical Questions in a Business Context  
    1.1 Framing Data Questions from Business Needs  
    1.2 Matching Business Questions with the Right Metrics  
    1.3 Leading vs. Lagging Indicators  
    1.4 Writing Focused Analysis Questions  
    1.5 🤖 LLM para stakeholders & métricas  
2. Preparing and Exploring the Dataset  
    2.1 Importing and Exploring a New Dataset  
    2.2 Combining Two Related Datasets (VLOOKUP/XLOOKUP)  
    2.3 Organizing the Spreadsheet for Analysis  
    2.4 Preparing Categorical Data for Grouping  
    2.5 🤖 LLMs para fórmulas & errores  
3. **Ejercicios en Excel/Sheets** (paso a paso)  
4. Rúbrica y Cierre


---
## 1) Analytical Questions in a Business Context

### 1.1 Framing Data Questions from Business Needs
**Objetivo:** partir de un **escenario de negocio** y derivar **qué decisión** hay que tomar, **quién** la toma y **en qué plazo**.

**Mapa rápido:**  
- **Objetivo de negocio:** ¿Qué resultado se persigue?  
- **Stakeholders:** ¿Quién decide? ¿Marketing, Tour Manager, Label?  
- **Decisión:** ¿A qué canciones dar prioridad en campaña/gira?  
- **Tiempo:** ¿Semana/Mes/Trimestre? Ventanas temporales cambian las métricas.  
- **Campos relevantes (dataset):** `Song`, `Album`, `Release Date`, `Spotify Streams (M)`, `YouTube Views (M)`, `Tour Era`…

> **Caso Taylor Swift (ejemplo):** Marketing quiere decidir **qué 5 canciones** impulsar en social ads durante **el próximo mes**. Necesitamos medir desempeño reciente y estabilidad.

**Ejercicio (teórico):** dado un escenario, identifica **stakeholder**, **pregunta clave** y **columnas** que usarías.

---

### 1.2 Matching Business Questions with the Right Metrics
**Rol de las métricas:** traducen preguntas en **medibles accionables**.  
**Tipos base:**  
- **Totales/Conteos:** SUM, COUNT/COUNTA.  
- **Promedios/Medianas:** AVERAGE, MEDIAN (robusta a outliers).  
- **Crecimiento:** (t - t-1) / t-1 (MoM/YoY).  
- **Ratios:** e.g., views/streams, explícitas/total.  
- **Varianza/Desviación/Percentiles:** dispersión y posición.  
- **Tiempo:** YoY, MoM, *rolling averages*.  
- **Definiciones:** **KPI** (indicador clave de desempeño), **OKR** (Objective & Key Results).  
- **Éxito vs. Guardrails:** métrica objetivo vs. métricas “de contención” (evitar degradar otras áreas).

> **Diferencia absoluto vs. relativo:** 1M streams (absoluto) vs. +10% MoM (relativo).

**Mini-ejercicio (teórico):** Con un dataset de ventas mensuales por producto, define qué métrica responde a:  
- “¿Cuál fue el **crecimiento** de ventas de A en mayo?” → **tasa de crecimiento**.  
- “¿Cuál es el **percentil 90** de ventas?” → **P90**.  
- “¿Cuál es la **media vs mediana**?” → **promedio** y **mediana**.

---

### 1.3 Leading vs. Lagging Indicators
- **Leading** (anticipan): pre-guardados (*pre-saves*), **playlist adds**, búsquedas/seguidores nuevos, intención (engagement).  
- **Lagging** (resultados): **streams totales**, ventas, ingresos, posiciones en charts.
- **Lo que dicen / no dicen:** leading sugiere **tendencia futura**, lagging confirma **resultado pasado**; ambos se complementan.

**Ejercicio (rápido):** marca en una hoja qué columnas del caso serían **leading** (p.ej., `Date Added` a playlists si existiera, seguidores) y cuáles **lagging** (`Spotify Streams (M)`, `YouTube Views (M)`). Justifica en 1 línea.

---

### 1.4 Writing Focused Analysis Questions
Usa la estructura: **Métrica + Grupo + Periodo (+ comparación)**.  
- *Ej.:* “**Top 5** por **promedio de Streams** (métrica) **por Álbum** (grupo) **en 2024** (periodo).”  
Tipos: comparación, tendencia, ranking, contribución, corte por cohortes.

**Ejercicio:** reescribe 3–5 preguntas vagas en formato “lista para hoja de cálculo” para resolver con una tabla dinámica o `SUMIF/SUMIFS`.

---

### 1.5 🤖 LLM para stakeholders & métricas
**Usos:** aclarar objetivos, proponer métricas, listar campos relevantes.  
**Plantilla de prompt:**  
- **Contexto:** “Stakeholder Marketing, objetivo: priorizar canciones próximas 4 semanas; columnas disponibles: Song, Album, Streams M, Views M, Release Date, Tour Era.”  
- **Salida:** “Propón 5 preguntas bien formuladas (métrica+grupo+periodo) y las métricas/funciones necesarias en Excel/Sheets.”  
**Buenas prácticas:** no enviar datos sensibles; **validar** todo; documentar en `change_log` si adoptas sugerencias.


---
## 2) Preparing and Exploring the Dataset

### 2.1 Importing and Exploring a New Dataset
**Objetivo:** traer un segundo archivo/hoja y **perfilar** su estructura (encabezados, tipos, filas).  
- Usar `raw_albums` como hoja de referencia o importar un CSV (300–500 filas).  
- Revisar **compatibilidad**: claves de unión (Album, ISRC, fechas), categorías.

**Ejercicio:** importa una segunda hoja/CSV y lista **3–4 formas** de conectarla con `raw_songs` (por `Album`, por año, por etiqueta `Label`, etc.).

---

### 2.2 Combining Two Related Datasets (VLOOKUP/XLOOKUP)
- **Exact vs. aproximado**, **lookup tables** vs. **transaccionales**.  
- **Estrategias de unión:** usar `XLOOKUP` (preferible) o `VLOOKUP` + columnas auxiliares.  
- **Control de calidad:** valores `#N/A`, conteos antes/después, duplicados en clave.  
- **Documenta supuestos/limitaciones** (en README/`change_log`).

**Ejercicio:** realiza primero un **match perfecto** (sin errores). Luego, introduce **mismatches** deliberados y practica *troubleshooting*: conteos, búsqueda de duplicados, lista de `#N/A` y corrección.

---

### 2.3 Organizing the Spreadsheet for Analysis
- **Tabs:** `raw_*`, `clean_*`, `lookup_*`, `summary_*`, `README`.  
- **Convenciones:** nombres **declarativos**, color-coding por tipo.  
- **Usabilidad:** congelar encabezados, **data validation**, **named ranges**.  
- **Columnas auxiliares:** mes/año desde fecha, banderas de calidad, categorías derivadas.

**Ejercicio:** deja el libro **listo para análisis**: renombra, aplica validaciones, agrega un `README` con objetivos, fuentes y supuestos.

---

### 2.4 Preparing Categorical Data for Grouping
- **Estrategias bulk:** `IF/SWITCH`, `SUBSTITUTE`, `SPLIT`, anidar: `=PROPER(TRIM(CLEAN(...)))`.  
- **QA checks:** `COUNTBLANK`, listas de valores válidos, detectar “otros/typos”.  
- **Plantillas reutilizables:** diseña una hoja “**Cleaning Template**” para siempre.

**Ejercicio:** crea hoja `Cleaned Data` que **referencie** a `Raw` (no copiar/pegar). Usa fórmulas para limpiar paso a paso y agrega una columna **Check** que marque errores (`IF(ISBLANK(...),"Missing","")`).

---

### 2.5 🤖 LLMs para fórmulas & errores
- Pídele al LLM que **arregle** una fórmula y explique **por qué fallaba**.  
- **Riesgos:** ¿omite nulos?, ¿cambia separadores?, ¿propone funciones inexistentes? → **verificar**.  
- Documenta en `change_log` si adoptas la solución.


---
## 3) Ejercicios en Excel/Google Sheets (paso a paso con el dataset de Taylor Swift)

> **Archivos:** `taylor_swift_da_intro.xlsx` + (opcional) un CSV adicional. Documenta TODO en `change_log`.

### Ejercicio 1 — Escenarios & preguntas (15 min)
Para **cada escenario** (Marketing, Tour, Finanzas):  
1) define stakeholder, 2) formula la **pregunta analítica (métrica+grupo+periodo)**, 3) lista campos a usar.

---

### Ejercicio 2 — Métricas correctas (20 min)
Con una pequeña tabla de ventas mensuales (o Streams por mes si la preparas):  
- Calcula **promedio**, **crecimiento** (MoM), **percentil** (p.ej., P90).  
- Decide cuándo usar **media vs. mediana** y justifica.

---

### Ejercicio 3 — Leading vs. Lagging (10 min)
Marca en una lista de campos cuáles son **leading** y cuáles **lagging** y explica por qué. Propón un **par** de métricas que combinen ambos.

---

### Ejercicio 4 — Reescritura de preguntas (10–15 min)
Convierte 3–5 preguntas vagas en preguntas listas para resolver en hoja de cálculo (métrica+grupo+periodo).

---

### Ejercicio 5 — Importar y perfilar dataset (15–20 min)
Importa un **segundo dataset** (o usa `raw_albums`). Describe encabezados, tipos y 3–4 **posibles uniones** con `raw_songs`.

---

### Ejercicio 6 — Unir con XLOOKUP (25 min)
1) Haz un **match perfecto** por `Album` (o clave que definas). 2) Introduce **mismatches** y resuélvelos: `#N/A`, duplicados, formatos. 3) Documenta supuestos/limitaciones.

---

### Ejercicio 7 — Organización del libro (15 min)
Aplica convenciones de nombres, colores, congela encabezados, crea `README`, y usa **data validation** y **named ranges** donde corresponda.

---

### Ejercicio 8 — Limpieza categórica + plantilla (20 min)
En `Cleaned Data` referencia `Raw` y limpia con fórmulas (`TRIM/PROPER/CLEAN`, `SUBSTITUTE/SPLIT/JOIN`). Agrega una columna **Check** con banderas de error. **Guarda la estructura** como plantilla.

---

### Ejercicio 9 — 🤖 LLM para fórmulas (10 min)
Plantea una fórmula que falla y pide al LLM corrección + explicación. Implementa y **verifica** con ejemplos. Añade nota en `change_log`.


---
## Rúbrica sugerida (evaluación formativa)
- Calidad de **formulación** (preguntas bien enmarcadas, métricas pertinentes) — **25%**  
- Selección & distinción de **leading vs. lagging** — **15%**  
- Importación, perfilado y **combinación** (XLOOKUP/VLOOKUP) con verificación — **25%**  
- Organización del libro (nombres, validaciones, README, plantilla de limpieza) — **20%**  
- Uso responsable de **IA** documentado — **15%**

## Cierre
- El valor está en **hacer la pregunta correcta** y escoger la **métrica adecuada**.  
- Preparar y combinar datos con **rigurosidad** acelera todo lo que sigue (pivots, gráficos, storytelling).  
- En próximas sesiones aplicaremos **PivotTables**, **SUMIFS/COUNTIFS** y **visualización** para cerrar el ciclo con **SCQA** (Situation–Complication–Question–Answer).
