# Sprint 1 - Webinar 2 (Sesión Práctica): Exploración básica y documentación de problemas en Google Sheets

**Duración:** 100 min  
**Herramienta:** Google Sheets  
**Dataset:** `sp1_w1_taylor_swift_da_intro.xlsx` (mismo archivo de la sesión teórica)


## Introducción

En esta sesión práctica vamos a trabajar como lo haría un/a **Data Analyst** al recibir un archivo “crudo” en **Google Sheets**:  
**abrir → entender → detectar problemas → documentar hallazgos**.

> Importante: hoy **no “arreglamos”** el dataset a fondo.  
> Nos enfocamos en **identificar** y **registrar** problemas de calidad, para que en la siguiente sesión/iteración podamos limpiar con intención (y con criterios claros).


## Objetivos de aprendizaje

Al final de la sesión podrás:

1. Importar y preparar un archivo de trabajo en Google Sheets de forma reproducible.
2. Aplicar una inspección básica del dataset (estructura, tipos aparentes, valores faltantes, duplicados, consistencia).
3. Identificar problemas típicos de calidad de datos **sin modificar masivamente** la información.
4. Documentar problemas en un **Issues Log** claro y accionable (evidencia + impacto + sugerencia).


## Agenda (100 min)

- 0) Setup y reglas de trabajo (10 min)  
- 1) Tour rápido del dataset y de las pestañas (10 min)  
- 2) Estandarización mínima: nombres de columnas (15 min)  
- 3) Detección de problemas (parte 1): faltantes, duplicados, formatos (25 min)  
- 4) Detección de problemas (parte 2): consistencia y validaciones simples (25 min)  
- 5) Documentación final + cierre y takeaways (15 min)


## 0) Setup y reglas de trabajo (10 min)

### 0.1 Importar el dataset en Google Sheets
1. Abre Google Drive → **Nuevo** → **Hojas de cálculo de Google**.
2. Ve a **Archivo → Importar** → pestaña **Subir** → selecciona `sp1_w1_taylor_swift_da_intro.xlsx`.
3. Importa como: **Insertar nueva(s) hoja(s)** (o “Reemplazar hoja de cálculo” si es un archivo nuevo).

### 0.2 Crear una copia de trabajo (recomendado)
- **Archivo → Hacer una copia** y nómbrala:  
  `S1_W1_Practica_TaylorSwift_<tu_nombre>`

### 0.3 Reglas de la sesión (para no dañar el “raw”)
- No borres filas/columnas en las hojas `raw_*`.
- Evita ordenar la tabla completa sin seleccionar todo (puedes desalinear datos).
- Cualquier cambio mínimo (p. ej., nombres de columnas) hazlo con trazabilidad:
  - usa una pestaña de log (ver siguiente paso)
  - y/o usa **Comentarios/Notas** cuando sea útil.


## 1) Tour rápido del dataset y de las pestañas (10 min)

Abre cada pestaña y responde:

- ¿Qué entidad describe? (canciones, álbumes, etc.)
- ¿Cuál es la “unidad de fila”? (una fila = ¿una canción? ¿un álbum?)
- ¿Qué columnas parecen claves? (por ejemplo, `song_id`, `album_id`, etc.)
- ¿Hay un diccionario de datos o documentación?

**Deliverable rápido (2–3 min):**  
En una hoja nueva llamada `notes`, escribe 3 bullets por pestaña:  
(1) qué es, (2) unidad de fila, (3) 1 posible riesgo/problema.


## 2) Estandarización mínima: nombres de columnas (15 min)

### Objetivo
Dejar los encabezados **legibles y consistentes**, sin transformar el contenido aún.

### 2.1 Criterio de nombres (convención simple)
Usaremos una convención “DA-friendly”:

- minúsculas
- sin tildes
- sin espacios (usar `_`)
- evitar símbolos (`%`, `#`, `(`, `)`)
- nombres descriptivos y cortos

**Ejemplos**
- `Track Name` → `track_name`
- `Release Date` → `release_date`
- `Danceability (0-1)` → `danceability`

### 2.2 Procedimiento sugerido en Sheets
1. Selecciona la fila de encabezados (fila 1).
2. Ajusta manualmente los nombres (cambio mínimo).  
3. Registra cada cambio en el log (ver 2.3).

### 2.3 Crear el log de cambios (Change Log)
Crea una hoja llamada `change_log_practica` con estas columnas:

- `timestamp`
- `sheet`
- `col_original`
- `col_nueva`
- `motivo`

**Tip:** puedes usar la función `=NOW()` para timestamp (luego pega como valores).


## 3) Detección de problemas (Parte 1): faltantes, duplicados, formatos (25 min)

### Objetivo
Encontrar problemas “rápidos” que suelen afectar análisis básicos.

### 3.1 Crear un Issues Log (obligatorio)
Crea una hoja llamada `issues_log` con estas columnas:

- `issue_id` (ej. ISS-001)
- `sheet`
- `column`
- `tipo_problema` (faltante / duplicado / formato / inconsistencia / otro)
- `descripcion`
- `evidencia` (celda o rango, ej. `raw_songs!F102:F140`)
- `impacto` (bajo/medio/alto + por qué)
- `sugerencia` (qué harías después, sin hacerlo hoy)
- `prioridad` (P0/P1/P2)

### 3.2 Valores faltantes (missing)
En cada hoja `raw_*`:

- Identifica columnas con muchos vacíos.
- Identifica si los vacíos son “esperables” (p. ej., columna opcional) o “sospechosos”.

**Formas rápidas (sin “arreglar” datos):**
- Usa **Filtro** (Datos → Crear filtro) y filtra por “(Vacío)”.
- Usa **Formato condicional** para resaltar celdas vacías:
  - Regla: “La celda está vacía”.

**Qué documentar en `issues_log`:**
- Columna afectada
- estimación visual de magnitud (pocas / varias / muchas)
- ejemplo de celdas con vacío

### 3.3 Duplicados (por claves)
Busca posibles duplicados:

- Si existe `song_id` o un identificador similar:  
  - filtro → ordena y revisa repetidos
  - opcional (simple): `=COUNTIF(A:A, A2)` para ver frecuencia
- Si no hay ID: usa combinaciones como `track_name + album_name` (solo para detectar, no para “deduplicar” hoy)

**Documenta:**
- Qué “clave” usaste para buscar
- ejemplos concretos
- riesgo: “podemos sobrecontar canciones/álbumes”


## 4) Detección de problemas (Parte 2): consistencia y validaciones simples (25 min)

### 4.1 Consistencia en categorías (texto)
Busca problemas típicos:
- mayúsculas/minúsculas mezcladas (`Pop` vs `pop`)
- espacios al inicio/fin (`" Pop "`)

**Técnicas en Sheets (sin modificar la columna original):**
- Crea una columna auxiliar al lado (temporal) con:
  - `=LOWER(TRIM(A2))`
- Usa **Datos → Validación de datos** (solo para entender qué valores deberían existir).

**Documenta:**
- columna + ejemplos
- impacto (p. ej., “categorías fragmentadas → conteos incorrectos”)

### 4.2 Formatos de fecha y número
Revisa:
- fechas como texto (alineadas a la izquierda)
- números con coma/punto inconsistentes
- porcentajes guardados como texto

**Cómo detectar:**
- Cambia temporalmente el formato de la columna (Formato → Número / Fecha)
- Observa si algunas celdas “no cambian” o quedan raras.

**Documenta:**
- patrón observado (ej. “algunas fechas no se reconocen”)
- evidencia (rango)

### 4.3 Rangos imposibles o sospechosos (outliers visuales)
Sin hacer estadística avanzada, detecta:
- valores negativos cuando no deberían
- valores fuera de rango (ej. métricas 0–1 con valores 2.3)

**Cómo detectar:**
- Ordena la columna (solo la columna, con cuidado) o usa filtro → “Ordenar A→Z”
- Revisa top/bottom

**Documenta:**
- mínimo/máximo observado
- ejemplos


## 5) Actividad guiada: “Auditoría ligera” por equipos (15 min)

### Dinámica
- Divide la clase en equipos (2–4 personas).
- Cada equipo toma **una pestaña** (`raw_songs` o `raw_albums`) y reporta:

1. 2 problemas de faltantes
2. 1 problema de duplicados
3. 2 problemas de formato/consistencia
4. 1 recomendación de “siguiente paso” (sin ejecutarlo)

### Entregable
En `issues_log`, asegúrense de tener **mínimo 6 issues** bien descritos (con evidencia y prioridad).


## Cierre y takeaways (15 min)

### Cierre (qué logramos hoy)
- Abrimos el dataset y entendimos la unidad de análisis por pestaña.
- Aplicamos **cambios mínimos** (encabezados) con trazabilidad.
- Detectamos problemas típicos de calidad (faltantes, duplicados, formato, consistencia).
- Dejamos un **Issues Log** accionable para orientar la limpieza y el análisis posterior.

### Takeaways (para llevar)
1. Un/a DA no “limpia por limpiar”: **primero diagnostica** y documenta.
2. Un buen `issues_log` reduce retrabajo y evita decisiones arbitrarias.
3. “Evidencia + impacto + sugerencia” convierte hallazgos en trabajo ejecutable.
4. Google Sheets es ideal para estas primeras fases porque permite:
   - revisión rápida, filtros, formato condicional
   - colaboración y comentarios
   - documentación en el mismo archivo

### Checklist final (antes de salir)
- [ ] Encabezados estandarizados y registrados en `change_log_practica`
- [ ] `issues_log` con al menos 6 hallazgos (con evidencia)
- [ ] `notes` con resumen por pestaña

### Próximo paso (siguiente sesión)
Usaremos el `issues_log` para priorizar y ejecutar una **limpieza controlada** (sin perder trazabilidad).
