# Sprint 1 - Webinar 2: Data Cleanup Basics & Turning Data into Insights

**Clase te√≥rica (sin ejecuci√≥n de c√≥digo).**  
**Caso base:** `taylor_swift_da_intro.xlsx` (hojas: `raw_songs`, `raw_albums`, `data_dictionary`, `change_log`, `summary_template`).  
**Fecha:** 2025-08-18

<div style="text-align: center">
    <img src="https://raw.githubusercontent.com/ljpiere/tpdata_python/main/images/w2s1.jpg" width="500">
</div>

---


## Introducci√≥n
En esta sesi√≥n aprender√°s a **detectar y corregir problemas comunes de calidad de datos** y a **transformar columnas** para preparar la informaci√≥n antes del an√°lisis. Luego, convertir√°s los datos limpios en **m√©tricas y visualizaciones** claras para comunicar hallazgos.

Usaremos el archivo de Taylor Swift como hilo conductor. La pr√°ctica operativa ser√° en Excel/Google Sheets (no dentro de este notebook).

---

## Objetivos de aprendizaje
Al finalizar podr√°s:
1. Detectar duplicados, faltantes y entradas inconsistentes y aplicar estrategias de correcci√≥n.  
2. Transformar columnas con funciones como **TRIM, UPPER, SPLIT, JOIN** y formateos de fecha/n√∫mero.  
3. Dise√±ar un flujo claro de trabajo (renombrado de hojas, bit√°cora `change_log`, organizaci√≥n visual).  
4. Calcular **estad√≠sticos resumen** (SUM, COUNT, AVERAGE, MIN, MAX, **MEDIAN**) y entender el efecto de nulos.  
5. Construir un **gr√°fico b√°sico** para comunicar resultados y redactar conclusiones breves.  
6. Pedir apoyo a un **LLM** para sugerir visualizaciones en Google Sheets de forma segura y eficaz.

---

## Agenda
1. Detecting & Fixing Data Quality Issues  
2. Transforming Columns  
3. Creating Clear Workflows  
4. Summary Statistics  
5. Communicating results with graphs  
6. ü§ñ LLM para sugerir visualizaciones en Google Sheets  
7. **Ejercicios en Excel/Sheets** (paso a paso)


---
## 1) Detecting & Fixing Data Quality Issues
**Objetivo:** identificar errores t√≠picos y establecer **reglas de correcci√≥n** antes de tocar los datos.

**Checklist de detecci√≥n (en `raw_songs`):**
- **Duplicados**: filas id√©nticas o casi id√©nticas (e.g., misma `Song` + `Album` + `Release Date`).  
- **Faltantes**: celdas vac√≠as o nulas (e.g., `Spotify Streams (M)` en blanco).  
- **Inconsistencias**: booleanos con variantes (`Yes/No/1/0/TRUE/FALSE`), n√∫meros con s√≠mbolos/comas/espacios, `Duration` en `mm:ss` **o** en segundos.  
- **Ruido de formato**: espacios extra, may√∫sculas/min√∫sculas mezcladas, separadores variados en `Writers`.

**Estrategias de correcci√≥n (def√≠nelas antes):**
- **Duplicados** ‚Üí regla de unicidad (clave compuesta) y criterio de conservaci√≥n (la fila con m√°s campos completos, o la primera).  
- **Faltantes** ‚Üí quitar, imputar o marcar para revisi√≥n (depende de la criticidad de la columna).  
- **Booleanos** ‚Üí normalizar a {TRUE, FALSE}.  
- **N√∫meros** ‚Üí quitar s√≠mbolos/espacios, unificar separador decimal y convertir a n√∫mero.  
- **Fechas** ‚Üí estandarizar a ISO `YYYY-MM-DD` (y documentar).

**Median vs Mean (cu√°ndo usar cada una):**  
- **Mean (promedio)** es sensible a outliers.  
- **Median (mediana)** es robusta cuando hay valores extremos o errores remanentes.


---
## 2) Transforming Columns
**Objetivo:** homogeneizar texto, fechas, n√∫meros y listas para an√°lisis confiable.

**Funciones √∫tiles (Excel/Sheets):**
- **Texto:** `TRIM` (quitar espacios), `UPPER/LOWER/PROPER`, `SUBSTITUTE/SUSTITUIR`, `CLEAN`.  
- **Listas en celdas:** `SPLIT` para separar (`Writers`), `TEXTSPLIT` en Excel moderno; `JOIN/TEXTO.UNIR` para recombinar con separador √∫nico `;`.  
- **Fechas:** `DATEVALUE/FECHA.VALOR`, formato de celda **Fecha**, `Texto en Columnas` (Excel) o **Dividir texto en columnas** (Sheets).  
- **N√∫meros:** `VALUE/VALOR` tras limpiar s√≠mbolos, coma decimal, espacios.

**Casos del dataset:**
- **`Duration`**: convertir `mm:ss` ‚Üí segundos (columna auxiliar y luego pegar valores).  
- **`Writers`**: unificar separador a `;` (SPLIT por varios separadores y luego JOIN).  
- **`Explicit`**: mapear todas las variantes ‚Üí TRUE/FALSE.  
- **Streams/Views (M)**: quitar signos/comas/espacios y convertir a n√∫mero.


---
## 3) Creating Clear Workflows
**Objetivo:** que tu archivo sea entendible sin tu presencia (claridad = *stakeholder trust*).

**Buenas pr√°cticas:**
- **No edites** `raw_songs`; crea `clean_songs`.  
- **Renombra** hojas siguiendo un patr√≥n (`raw_*`, `clean_*`, `summary_*`).  
- **Congela** encabezados; aplica **formato** consistente (n√∫mero, fecha, texto).  
- **`change_log`**: registra **qui√©n/cu√°ndo/qu√©** y ejemplos *antes/despu√©s*.  
- **Dise√±o visual**: espaciado, encabezados, colores suaves, notas breves explicando cambios claves.


---
## 4) Summary Statistics
**Objetivo:** responder preguntas b√°sicas del negocio con datos limpios.

**Funciones:** `SUM`, `COUNT`, `COUNTA`, `AVERAGE`, `MIN`, `MAX`, `MEDIAN` (y **COUNTIF/COUNTIFS**).  
- **Tratamiento de nulos:** confirman si la funci√≥n ignora vac√≠os o devuelve error y documenta tu decisi√≥n (e.g., excluir filas sin Streams).  
- **Ejemplos de preguntas:**  
  - ¬øCu√°ntas canciones √∫nicas hay?  
  - ¬øPromedio de `Spotify Streams (M)` vs mediana?  
  - ¬øCu√°ntas est√°n marcadas `Explicit = TRUE`?  
  - ¬øQu√© √°lbum tiene mayor `Total Streams (B)` seg√∫n `raw_albums`?


---
## 5) Communicating results with graphs
**Objetivo:** construir un gr√°fico **simple y legible** para el stakeholder.

**Gu√≠a:**
- Elige **barra** (top 5 canciones por `Spotify Streams (M)`) o **l√≠nea** (tendencia temporal si usas fechas).  
- **T√≠tulos/etiquetas** claros; ordena por valor; limita categor√≠as para evitar ruido.  
- Explica el **insight** en una o dos frases: *‚ÄúLas canciones X, Y y Z concentran la mayor parte del desempe√±o; sugerimos priorizarlas en la campa√±a.‚Äù*


---
## 6) ü§ñ LLM para sugerir visualizaciones en Google Sheets
**Objetivo:** usar IA como copiloto para **proponer** visualizaciones, no para decidir por ti.

**Plantilla de prompt:**
- **Contexto:** ‚ÄúTengo `clean_songs` con columnas X, Y, Z (estructura; no pego datos sensibles).‚Äù  
- **Objetivo:** ‚ÄúQuiero una visualizaci√≥n para comparar el top 5 por Streams y otra por Views.‚Äù  
- **Restricciones:** ‚ÄúSolo funciones nativas; dame pasos y justifica la elecci√≥n del gr√°fico.‚Äù  
- **Salida:** ‚ÄúDame un plan en 5 pasos + recomendaciones de formato (t√≠tulos/etiquetas/orden).‚Äù

**Buenas pr√°cticas:** valida lo sugerido, mide legibilidad, y **documenta** en `change_log` si adoptas la recomendaci√≥n.


---
## 7) Ejercicios en Excel/Google Sheets (paso a paso con el dataset de Taylor Swift)

> **Archivos:** `taylor_swift_da_intro.xlsx`  
> Documenta TODO en `change_log` con ejemplo **antes/despu√©s**.

### Ejercicio 1 ‚Äî Duplicados y faltantes (15‚Äì20 min)
1. Duplica `raw_songs` ‚Üí `clean_songs`.  
2. Quita **duplicados** usando clave `Song + Album + Release Date`.  
3. Filtra **faltantes** en `Spotify Streams (M)` y `YouTube Views (M)` y define qu√© hacer (eliminar o marcar para revisi√≥n).

**Entrega:** `clean_songs` sin duplicados; faltantes tratados.

---

### Ejercicio 2 ‚Äî Transformaci√≥n de columnas (20‚Äì25 min)
1. `Explicit` ‚Üí TRUE/FALSE (mapeo de variantes).  
2. `Duration` (`mm:ss`) ‚Üí **segundos** (columna auxiliar + pegar valores).  
3. `Writers` ‚Üí separador √∫nico `;` (reemplazos + `SPLIT` + `TRIM` + `JOIN`).  
4. Streams/Views ‚Üí limpiar s√≠mbolos/comas/espacios y convertir a **n√∫mero** (`VALUE/VALOR`).

**Entrega:** tipos correctos y columnas homog√©neas.

---

### Ejercicio 3 ‚Äî Flujo claro (10‚Äì15 min)
1. Revisa formatos de celda (fecha/n√∫mero/texto).  
2. Deja notas breves explicando tus reglas de limpieza.  
3. Completa `change_log` con 3‚Äì5 pasos clave.

**Entrega:** archivo legible y trazable.

---

### Ejercicio 4 ‚Äî Resumen y gr√°fico (20 min)
1. En `summary_template`, calcula **al menos 5 m√©tricas** (ej.: Total/√önicos/Promedio/Mediana/Expl√≠citas).  
2. Construye un **gr√°fico de barras** (top 5 por Streams o Views).  
3. Escribe **3 insights** y **1 recomendaci√≥n**.

**Entrega:** `summary_template` final + gr√°fico.

---

### Ejercicio 5 ‚Äî ü§ñ LLM para visualizaciones (10 min)
1. Usa la plantilla de la secci√≥n 6 y solicita **dos** propuestas de gr√°ficos (con justificaci√≥n).  
2. Implementa una y deja constancia en `change_log` que fue sugerida por IA.

**Entrega:** gr√°fico implementado + nota en `change_log`.


---
## R√∫brica sugerida (evaluaci√≥n formativa)
- Detecci√≥n/correcci√≥n de calidad (duplicados, faltantes, consistencia) ‚Äî **30%**  
- Transformaciones de columna (texto/fecha/n√∫mero/listas) ‚Äî **25%**  
- Flujo claro y `change_log` completo ‚Äî **15%**  
- Estad√≠sticos resumen correctos y tratamiento de nulos ‚Äî **15%**  
- Gr√°fico claro + narrativa ‚Äî **10%**  
- Uso responsable de IA documentado ‚Äî **5%**

## Cierre
- Primero **limpiar**, luego **analizar** y finalmente **comunicar**.  
- Las reglas expl√≠citas y la trazabilidad inspiran confianza.  
- Un gr√°fico simple y una narrativa concisa son m√°s efectivos que complejos sin contexto.
