# Sprint 1 - Webinar 2: Data Cleanup Basics & Turning Data into Insights

**Clase teórica (sin ejecución de código).**  
**Caso base:** `taylor_swift_da_intro.xlsx` (hojas: `raw_songs`, `raw_albums`, `data_dictionary`, `change_log`, `summary_template`).  
**Fecha:** 2025-08-18

<div style="text-align: center">
    <img src="https://raw.githubusercontent.com/ljpiere/tpdata_python/main/images/w2s1.jpg" width="500">
</div>

---


## Introducción
En esta sesión aprenderás a **detectar y corregir problemas comunes de calidad de datos** y a **transformar columnas** para preparar la información antes del análisis. Luego, convertirás los datos limpios en **métricas y visualizaciones** claras para comunicar hallazgos.

Usaremos el archivo de Taylor Swift como hilo conductor. La práctica operativa será en Excel/Google Sheets (no dentro de este notebook).

---

## Objetivos de aprendizaje
Al finalizar podrás:
1. **Identificar y corregir** duplicados, valores faltantes y entradas inconsistentes en un dataset en Google Sheets.
2. **Aplicar funciones básicas** (TRIM, UPPER, SPLIT, JOIN) y formatos de fecha/número para estandarizar columnas.
3. **Estructurar un flujo de trabajo** organizado mediante renombrado de hojas, uso de una bitácora `change_log` y organización visual.  
4. **Calcular estadísticos resumen** (SUM, COUNT, AVERAGE, MIN, MAX, MEDIAN) y explicar el efecto de valores nulos.
5. **Crear un gráfico básico** en Google Sheets y redactar conclusiones breves que comuniquen hallazgos.
6. **Usar un LLM** para pedir sugerencias de visualización en Google Sheets y evaluar la seguridad y pertinencia de las respuestas.

---
## Material
- Táctica: Hands-on Together
- Adjunto: sp1_w1_taylor_swift_da_intro
- Kahoot: W2_Sprint1 (finalizando sesión)
---

## Agenda
**Bienvenida + Introducción**

- Contexto de la sesión y objetivos
- Explicación del dataset taylor_swift_da_intro.xlsx y del uso del change_log

**Revisión de teoría**
- Detecting & Fixing Data Quality Issues (duplicados, faltantes, inconsistencias)
- Transforming Columns (TRIM, UPPER, SPLIT, JOIN, formatos de fecha/número)
- Creating Clear Workflows (renombrado de hojas, uso de `change_log`, organización visual)
- Summary Statistics (SUM, COUNT, AVERAGE, MIN, MAX, MEDIAN, efecto de nulos)
- Communicating Results with Graphs (principios básicos)
- 🤖 Uso de LLM para sugerir visualizaciones en Google Sheets

**Aplicación guiada (Ejercicios en Excel/Google Sheets)**
- Ejercicio 1 — Duplicados y faltantes
- Ejercicio 2 — Transformación de columnas
- Ejercicio 3 — Flujo claro
- Ejercicio 4 — Resumen y gráfico
- Ejercicio 5 — 🤖 LLM para visualizaciones

**Cierre**
- Q&A
- Repaso de aprendizajes y próximos pasos
- Ejercicios opcionales en Excel/Sheets (para reforzar fuera del notebook)

---
## 1) Detecting & Fixing Data Quality Issues
**Objetivo:** identificar errores típicos y establecer **reglas de corrección** antes de tocar los datos.

**Checklist de detección (en `raw_songs`):**
- **Duplicados**: filas idénticas o casi idénticas (e.g., misma `Song` + `Album` + `Release Date`).  
- **Faltantes**: celdas vacías o nulas (e.g., `Spotify Streams (M)` en blanco).  
- **Inconsistencias**: booleanos con variantes (`Yes/No/1/0/TRUE/FALSE`), números con símbolos/comas/espacios, `Duration` en `mm:ss` **o** en segundos.  
- **Ruido de formato**: espacios extra, mayúsculas/minúsculas mezcladas, separadores variados en `Writers`.

**Estrategias de corrección (defínelas antes):**
- **Duplicados** → regla de unicidad (clave compuesta) y criterio de conservación (la fila con más campos completos, o la primera).  
- **Faltantes** → quitar, imputar o marcar para revisión (depende de la criticidad de la columna).  
- **Booleanos** → normalizar a {TRUE, FALSE}.  
- **Números** → quitar símbolos/espacios, unificar separador decimal y convertir a número.  
- **Fechas** → estandarizar a ISO `YYYY-MM-DD` (y documentar).

**Median vs Mean (cuándo usar cada una):**  
- **Mean (promedio)** es sensible a outliers.  
- **Median (mediana)** es robusta cuando hay valores extremos o errores remanentes.


---
## 2) Transforming Columns
**Objetivo:** homogeneizar texto, fechas, números y listas para análisis confiable.

**Funciones útiles (Excel/Sheets):**
- **Texto:** `TRIM` (quitar espacios), `UPPER/LOWER/PROPER`, `SUBSTITUTE/SUSTITUIR`, `CLEAN`.  
- **Listas en celdas:** `SPLIT` para separar (`Writers`), `TEXTSPLIT` en Excel moderno; `JOIN/TEXTO.UNIR` para recombinar con separador único `;`.  
- **Fechas:** `DATEVALUE/FECHA.VALOR`, formato de celda **Fecha**, `Texto en Columnas` (Excel) o **Dividir texto en columnas** (Sheets).  
- **Números:** `VALUE/VALOR` tras limpiar símbolos, coma decimal, espacios.

**Casos del dataset:**
- **`Duration`**: convertir `mm:ss` → segundos (columna auxiliar y luego pegar valores).  
- **`Writers`**: unificar separador a `;` (SPLIT por varios separadores y luego JOIN).  
- **`Explicit`**: mapear todas las variantes → TRUE/FALSE.  
- **Streams/Views (M)**: quitar signos/comas/espacios y convertir a número.


---
## 3) Creating Clear Workflows
**Objetivo:** que tu archivo sea entendible sin tu presencia (claridad = *stakeholder trust*).

**Buenas prácticas:**
- **No edites** `raw_songs`; crea `clean_songs`.  
- **Renombra** hojas siguiendo un patrón (`raw_*`, `clean_*`, `summary_*`).  
- **Congela** encabezados; aplica **formato** consistente (número, fecha, texto).  
- **`change_log`**: registra **quién/cuándo/qué** y ejemplos *antes/después*.  
- **Diseño visual**: espaciado, encabezados, colores suaves, notas breves explicando cambios claves.


---
## 4) Summary Statistics
**Objetivo:** responder preguntas básicas del negocio con datos limpios.

**Funciones:** `SUM`, `COUNT`, `COUNTA`, `AVERAGE`, `MIN`, `MAX`, `MEDIAN` (y **COUNTIF/COUNTIFS**).  
- **Tratamiento de nulos:** confirman si la función ignora vacíos o devuelve error y documenta tu decisión (e.g., excluir filas sin Streams).  
- **Ejemplos de preguntas:**  
  - ¿Cuántas canciones únicas hay?  
  - ¿Promedio de `Spotify Streams (M)` vs mediana?  
  - ¿Cuántas están marcadas `Explicit = TRUE`?  
  - ¿Qué álbum tiene mayor `Total Streams (B)` según `raw_albums`?


---
## 5) Communicating results with graphs
**Objetivo:** construir un gráfico **simple y legible** para el stakeholder.

**Guía:**
- Elige **barra** (top 5 canciones por `Spotify Streams (M)`) o **línea** (tendencia temporal si usas fechas).  
- **Títulos/etiquetas** claros; ordena por valor; limita categorías para evitar ruido.  
- Explica el **insight** en una o dos frases: *“Las canciones X, Y y Z concentran la mayor parte del desempeño; sugerimos priorizarlas en la campaña.”*


---
## 6) 🤖 LLM para sugerir visualizaciones en Google Sheets
**Objetivo:** usar IA como copiloto para **proponer** visualizaciones, no para decidir por ti.

**Plantilla de prompt:**
- **Contexto:** “Tengo `clean_songs` con columnas X, Y, Z (estructura; no pego datos sensibles).”  
- **Objetivo:** “Quiero una visualización para comparar el top 5 por Streams y otra por Views.”  
- **Restricciones:** “Solo funciones nativas; dame pasos y justifica la elección del gráfico.”  
- **Salida:** “Dame un plan en 5 pasos + recomendaciones de formato (títulos/etiquetas/orden).”

**Buenas prácticas:** valida lo sugerido, mide legibilidad, y **documenta** en `change_log` si adoptas la recomendación.


---
## 7) Ejercicios en Excel/Google Sheets (paso a paso con el dataset de Taylor Swift)

> **Archivos:** `taylor_swift_da_intro.xlsx`  
> Documenta TODO en `change_log` con ejemplo **antes/después**.

### Ejercicio 1 — Duplicados y faltantes (15–20 min)
1. Duplica `raw_songs` → `clean_songs`.  
2. Quita **duplicados** usando clave `Song + Album + Release Date`.  
3. Filtra **faltantes** en `Spotify Streams (M)` y `YouTube Views (M)` y define qué hacer (eliminar o marcar para revisión).

**Entrega:** `clean_songs` sin duplicados; faltantes tratados.

---

### Ejercicio 2 — Transformación de columnas (20–25 min)
1. `Explicit` → TRUE/FALSE (mapeo de variantes).  
2. `Duration` (`mm:ss`) → **segundos** (columna auxiliar + pegar valores).  
3. `Writers` → separador único `;` (reemplazos + `SPLIT` + `TRIM` + `JOIN`).  
4. Streams/Views → limpiar símbolos/comas/espacios y convertir a **número** (`VALUE/VALOR`).

**Entrega:** tipos correctos y columnas homogéneas.

---

### Ejercicio 3 — Flujo claro (10–15 min)
1. Revisa formatos de celda (fecha/número/texto).  
2. Deja notas breves explicando tus reglas de limpieza.  
3. Completa `change_log` con 3–5 pasos clave.

**Entrega:** archivo legible y trazable.

---

### Ejercicio 4 — Resumen y gráfico (20 min)
1. En `summary_template`, calcula **al menos 5 métricas** (ej.: Total/Únicos/Promedio/Mediana/Explícitas).  
2. Construye un **gráfico de barras** (top 5 por Streams o Views).  
3. Escribe **3 insights** y **1 recomendación**.

**Entrega:** `summary_template` final + gráfico.

---

### Ejercicio 5 — 🤖 LLM para visualizaciones (10 min)
1. Usa la plantilla de la sección 6 y solicita **dos** propuestas de gráficos (con justificación).  
2. Implementa una y deja constancia en `change_log` que fue sugerida por IA.

**Entrega:** gráfico implementado + nota en `change_log`.


---
## Rúbrica sugerida (evaluación formativa)
- Detección/corrección de calidad (duplicados, faltantes, consistencia) — **30%**  
- Transformaciones de columna (texto/fecha/número/listas) — **25%**  
- Flujo claro y `change_log` completo — **15%**  
- Estadísticos resumen correctos y tratamiento de nulos — **15%**  
- Gráfico claro + narrativa — **10%**  
- Uso responsable de IA documentado — **5%**

## Cierre
- Primero **limpiar**, luego **analizar** y finalmente **comunicar**.  
- Las reglas explícitas y la trazabilidad inspiran confianza.  
- Un gráfico simple y una narrativa concisa son más efectivos que complejos sin contexto.

## Siguientes Pasos
- **Próxima sesión:** profundizaremos en el ecosistema de datos y en el flujo de punta a punta.
- **Participación continua:** asistir a Co-Learning y a Sprint Focus, y usar los canales de Discord para hacer preguntas.
- **Recordatorios:** la grabación y recursos utilizados, se comparten al finalizar la sesión; en caso de necesitar apoyo adicional, agenda un 1:1.