# Sprint 1 - Webinar 4: Limpieza básica en Google Sheets

**Duración:** 100 minutos  
**Modo:** hands-on (trabajo guiado + mini retos)  
**Restricciones:**
- ✅ Usar **Buscar y Reemplazar** (Edit → Find and replace)
- ❌ No usar `SUBSTITUTE`
- ❌ No usar fórmulas concatenadas (ej. `TRIM(LOWER(...))`)
- ✅ Funciones permitidas: `LOWER`, `UPPER`, `TRIM`, `NOMBREPROPIO`/`PROPER`, `SUM`, `AVERAGE`/`PROMEDIO`, `COUNT`/`CONTAR`, `UNIQUE`/`UNICO`, `SUMIF`/`SUMAR.SI`

**Dataset:** `sp1_w1_taylor_swift_da_intro.xlsx` (mismas hojas que sesión 1)


## Introducción

Hoy vas a **modificar el dataset** (no solo identificar). La idea es ir **columna por columna** haciendo arreglos simples y dejando evidencia:

- **Antes/Después** en celdas ejemplo.
- **Validación rápida** con conteos y listas únicas.
- **Documentación** en `change_log`.

> Mentalidad DA: “si mañana me preguntan *qué cambiaste*, debo poder responder en 30 segundos con un log”.


## Objetivos de aprendizaje

Al final podrás:
1. Preparar el archivo para limpieza (copias, filtros, vistas).
2. Renombrar columnas de forma consistente.
3. Corregir problemas típicos con **Buscar y Reemplazar**.
4. Normalizar texto sin fórmulas complejas.
5. Verificar que los cambios funcionaron usando funciones básicas.
6. Documentar cambios de manera reproducible.


## Agenda (100 min)

- **0) Setup y reglas de trabajo (10 min)**
- **1) Renombrar columnas (10 min)**
- **2) Buscar y Reemplazar para números y valores categóricos (25 min)**
- **3) Normalización de texto con funciones simples (20 min)**
- **4) Verificación con métricas rápidas (20 min)**
- **5) Documentación en change_log + cierre (15 min)**


## Material de la sesión

**Hojas:**
- `raw_songs` → copia: **`songs_clean_v1`**
- `raw_albums` → copia: **`albums_clean_v1`**
- `data_dictionary`
- `change_log`
- `summary_template`

**Entrega al final (mínimo):**
- `songs_clean_v1` con columnas renombradas + 5 columnas corregidas
- `albums_clean_v1` revisada (nombres + verificación simple)
- `change_log` con **10 entradas**


## 0) Setup y reglas de trabajo (10 min)

1) Abre el `.xlsx` en Google Sheets.
2) Duplica hojas:
   - `raw_songs` → `songs_clean_v1`
   - `raw_albums` → `albums_clean_v1`
3) Congela fila 1 y activa filtro.
4) Crea una zona de control en `summary_template`:
   - En A1 pon: **“Control rápido”**
   - En A3:B3 deja espacio para métricas (`COUNT`, `AVERAGE`, etc.)

✅ **Checkpoint:** puedes filtrar, ordenar y ya tienes `summary_template` listo para validar.


## 1) Renombrar columnas (10 min)

### 1.1 Convención
Usaremos **snake_case en inglés** para evitar espacios y símbolos:

| Original | Nuevo |
|---|---|
| Song | `song` |
| Album | `album` |
| Release Date | `release_date` |
| Duration | `duration` |
| Spotify Streams (M) | `spotify_streams_m` |
| YouTube Views (M) | `youtube_views_m` |
| Explicit | `explicit` |
| Writers | `writers` |
| ISRC | `isrc` |
| Tour Era | `tour_era` |
| Date Added | `date_added` |

**Tarea:** renombra los encabezados en `songs_clean_v1` y `albums_clean_v1`.

✅ **Validación:** ahora el filtro muestra nombres cortos y consistentes.


## 2) Buscar y Reemplazar (25 min)

> Herramienta: **Editar → Buscar y reemplazar**.

### 2.1 Números con separador de miles (8 min)
En `songs_clean_v1`, revisa:
- `spotify_streams_m` (ej. `1,863.12`)
- `youtube_views_m` (ej. `2,256.75`)

**Problema:** la coma como separador de miles suele dejar el valor como **texto**.

**Pasos:**
1. Selecciona la columna completa.
2. **Buscar:** `,`  → **Reemplazar por:** *(vacío)*
3. Reemplaza todo.

✅ **Validación rápida (en `summary_template`):**
- `=COUNT(songs_clean_v1!E2:E)` debe contar casi todas las filas.
- `=AVERAGE(songs_clean_v1!E2:E)` ya no debe dar error.

---

### 2.2 Estandarizar booleanos en `explicit` (8 min)
En `explicit` aparecen valores mezclados (ej.: `N`, `1`, `TRUE`, etc.).

**Objetivo:** dejar **solo** `TRUE` o `FALSE`.

**Pasos (opción simple con Buscar y Reemplazar):**
1. En la columna `explicit`, usa Buscar y Reemplazar:
   - Buscar: `N` → Reemplazar: `FALSE`
   - Buscar: `0` → Reemplazar: `FALSE`
   - Buscar: `1` → Reemplazar: `TRUE`
   - Buscar: `Y` → Reemplazar: `TRUE`
2. Si hay valores como `TRUE` en mayúsculas/minúsculas distintas, déjalos como `TRUE` (Sheets lo entiende).

✅ **Validación:**
- En `summary_template`: `=UNIQUE(songs_clean_v1!G2:G)` debe mostrar solo `TRUE` y `FALSE` (y quizás vacíos si quedan).

---

### 2.3 Limpiar caracteres basura en fechas (9 min)
Revisa `date_added` y `release_date`.

**Problemas típicos en el dataset:**
- Comas finales: `26/02/16  ,`
- Separadores mezclados: `10-11-2014` vs `12/09/08`
- Espacios extra

**Objetivo mínimo hoy:** quitar basura y dejar la columna lista para formatear como fecha.

**Pasos:**
1. Quitar comas: Buscar `,` → Reemplazar *(vacío)*.
2. Quitar dobles espacios: Buscar `  ` (dos espacios) → Reemplazar ` ` (un espacio).  
   *(Puedes repetir hasta que no cambie nada.)*
3. (Opcional) Unificar separador: Buscar `-` → Reemplazar `/` **solo si** en tu columna usas `/`.

✅ **Validación:**
- Ordena por `release_date` y `date_added` y verifica que no queden valores con coma/espacios raros.
- **No estamos convirtiendo todo perfecto hoy**: solo dejando listo para formato.


## 3) Normalización de texto con funciones simples (20 min)

> Regla: **una función por columna auxiliar**. Si necesitas otra transformación, crea otra columna auxiliar.

### 3.1 TRIM para `writers` (6 min)
**Problema:** espacios al inicio/fin o repetidos.

1) Inserta una columna a la derecha de `writers` llamada `writers_trim`.  
2) En `writers_trim` (fila 2):
- `=TRIM(H2)`
3) Arrastra hacia abajo.

✅ Validación: compara 2–3 filas “antes/después”.

---

### 3.2 Normalizar categorías en `tour_era` con LOWER (7 min)
**Problema:** `Midnights`, `reputation`, `REPUTATION`, etc.

1) Inserta una columna a la derecha llamada `tour_era_lower`.  
2) Fórmula (fila 2):
- `=LOWER(J2)`
3) Arrastra hacia abajo.

✅ Validación:
- En `summary_template`: `=UNIQUE(songs_clean_v1!L2:L)` *(ajusta el rango a tu nueva columna)*  
Debe reducir la cantidad de categorías “duplicadas por mayúsculas”.

---

### 3.3 Normalizar nombres de álbum con NOMBREPROPIO (7 min)
**Problema:** el mismo álbum en diferentes formatos: `FEARLESS (TAYLOR'S VERSION)` vs `Fearless (Taylor's Version)`.

1) Inserta una columna a la derecha de `album` llamada `album_proper`.  
2) Fórmula (fila 2):
- `=NOMBREPROPIO(B2)` *(o `=PROPER(B2)` según idioma de tu Sheets)*
3) Arrastra hacia abajo.

✅ Validación:
- `UNIQUE` de `album` vs `album_proper` debería mostrar menos variantes.


## 4) Verificación con métricas rápidas (20 min)

La limpieza debe poder demostrarse con 3–4 números.

### 4.1 ¿Cuántas filas numéricas tengo? (COUNT) (5 min)
En `summary_template`:
- `=COUNT(songs_clean_v1!E2:E)`  *(streams)*
- `=COUNT(songs_clean_v1!F2:F)`  *(views)*

**Interpretación:** si `COUNT` es menor que el número de canciones, aún hay texto o celdas vacías.

---

### 4.2 Promedio (AVERAGE) (5 min)
- `=AVERAGE(songs_clean_v1!E2:E)`

Si da error, aún hay problemas de tipo de dato.

---

### 4.3 Categorías únicas (UNIQUE) (5 min)
- `=UNIQUE(songs_clean_v1!G2:G)`  *(explicit)*
- `=UNIQUE(songs_clean_v1!J2:J)`  *(tour_era o tu columna normalizada)*

**Meta:** pocas categorías, sin variantes por mayúsculas.

---

### 4.4 Sumas condicionadas (SUMIF) (5 min)
**Objetivo:** responder una pregunta rápida de negocio con datos ya más limpios.

Ejemplo: **Streams totales (M) por álbum**  
En `summary_template`, en una celda:
- `=SUMIF(songs_clean_v1!B:B, "1989 (Taylor's Version)", songs_clean_v1!E:E)`

Repite cambiando el criterio por otro álbum.

✅ Si funciona, significa que:
- `album` es consistente (o ya estás usando `album_proper`)
- `spotify_streams_m` es numérico


## 5) Documentación en change_log + cierre (15 min)

### 5.1 Documenta 10 cambios (10 min)
En `change_log`, registra 10 entradas. Ejemplos válidos:
1) `spotify_streams_m`: quitar comas → permitió `AVERAGE`.
2) `youtube_views_m`: quitar comas → permitió `SUM`.
3) `explicit`: mapear N/1 → TRUE/FALSE.
4) `date_added`: quitar coma final.
5) `writers`: TRIM para espacios.
6) `tour_era`: LOWER para unificar categorías.
7) `album`: NOMBREPROPIO para unificar nombres.
8) Renombrado de columnas (snake_case).
9) Corrección manual puntual de 1 celda (si aplica, documenta cuál).
10) Validación con UNIQUE/COUNT y resultado.

> **Tip:** en “Antes/Después” pega 1 ejemplo real (una celda) para que el jurado/mentor lo vea rápido.

### 5.2 Cierre (5 min)
- En `summary_template`, deja 3 métricas finales:
  - `COUNT(streams)`
  - `AVERAGE(streams)`
  - `UNIQUE(tour_era)`

✅ **Takeaways:**
1) Sheets te da herramientas de limpieza “rápida” sin volverte loco con fórmulas.
2) Si normalizas texto + arreglas números, ya puedes analizar.
3) El `change_log` es parte del trabajo profesional.


## Takeaways (para llevar)

- **Buscar y Reemplazar** = corrección masiva sin fórmulas.
- `TRIM`, `LOWER/UPPER`, `NOMBREPROPIO` = estándar mínimo de texto.
- `COUNT`, `AVERAGE`, `UNIQUE`, `SUMIF` = validación rápida (evidencia de calidad).
- Documentar cambios te permite repetir el proceso y explicar tu trabajo.

### Checklist de salida
- [ ] Columnas renombradas
- [ ] Streams y views en formato numérico (COUNT/AVERAGE funcionan)
- [ ] `explicit` solo TRUE/FALSE
- [ ] `tour_era` normalizado
- [ ] `writers` con TRIM
- [ ] `change_log` con 10 entradas
