# Sprint 1 - Webinar 1: Introduction to Your Future Profession

**Clase teórica (sin ejecución de código).**  
**Fecha:** 2025-08-18

---


<div style="text-align: center">
    <img src="https://raw.githubusercontent.com/ljpiere/tpdata_python/main/images/w1s1_2.png" width="400">
</div>

## Introducción
En esta sesión conocerás el **rol del Data Analyst (DA)**, su proceso de trabajo y cómo colabora con otros perfiles de datos para generar valor de negocio. Usaremos el archivo **`taylor_swift_da_intro.xlsx`** como hilo conductor para aterrizar conceptos (no trabajaremos dentro del notebook; la práctica será en Excel/Google Sheets).

**¿Por qué este caso?**  
- Conecta con cultura pop (Taylor Swift) y métricas de streaming/videos.  
- El archivo contiene **problemas de calidad** realistas (fechas mixtas, booleanos variados, duplicados, números con símbolos), útiles para comprender el trabajo del DA.  

---

## Objetivos de aprendizaje
Al finalizar la sesión podrás:
1. Explicar qué hace un **Data Analyst** y y diferenciarlo de otros roles (DS, DE, BI, PM).  
2. Describir el **proceso de trabajo** del DA desde una pregunta de negocio hasta una entrega final.  
3. Identificar a los **stakeholders clave** y los **entregables** que se esperan de un DA.  
4. Reconocer **niveles de seniority** y las expectativas asociadas en la carrera de datos.  
5. Aplicar estos conceptos al **caso de Taylor Swift** utilizando el archivo como ejemplo teórico.

---
## Material
- Táctica: Hands-on Together
- Adjunto: sp1_w1_taylor_swift_da_intro
- Kahoot: W1_Sprint1 (finalizando sesión)
---

## Agenda
**Bienvenida + Introducción**
- Rol del DA (qué hace y qué no hace)  
- Principales roles en el mundo de datos y cómo colaboran

**Revisión de teoría**
- Proceso de trabajo del DA (de la pregunta de negocio a la entrega)
- DA en distintos tipos de organizaciones
- Tipos de seniority y expectativas

**Aplicación guiada**
- Caso conceptual de Taylor Swift: mapping de conceptos
- Preguntas dirigidas para comprobar comprensión

**Cierre**
- Q&A, repaso de aprendizajes y próximos pasos (Kahoot W1_Sprint1)
- **Ejercicios opcionales en Excel/Sheets** (para practicar fuera del notebook)

---
## 1) Role of the DA
El **Data Analyst** traduce **preguntas de negocio** en **respuestas basadas en datos** y **entregables accionables** (reportes, visualizaciones, checks de calidad, recomendaciones).

**Responsabilidades nucleares:**
- Entender el contexto/objetivos del stakeholder y **definir métricas** relevantes.  
- **Obtener** datos de fuentes diversas (spreadsheets, CSVs, conectores).  
- **Limpiar/preprocesar** (tipos, duplicados, nulos, estandarización).  
- **Explorar/calcular** (resúmenes, segmentaciones, tendencias simples).  
- **Comunicar** con claridad (gráficos de barras/líneas, narrativa).  
- **Documentar** cambios y su racional (bitácora o `change_log`).

**Límites típicos del DA (y cuándo escalar):**
- Modelos ML experimentales → DS/ML.  
- Pipelines/infra de datos → DE.  
- Modelado semántico/tableros escalables → BI/Analytics Engineer.  

**Caso Taylor Swift (en teoría):**
- Pregunta de negocio: *“¿Qué canciones priorizar para la próxima campaña/gira?”*  
- Datos de partida: hojas `raw_songs`, `raw_albums` + `data_dictionary`.  
- Entregables: resumen de métricas, top canciones, gráfico, notas de calidad.


---
## 2) Un mundo lleno de herramientas
- **Python como recurso principal:** Pronto nos introduciremos a la programación con Python.
- **¿De donde provienen los datos?:** Podemos conseguir datos de distintas fuentes: web scraping, bases de datos, o bien, en archivos planos como libros Excel o CSV.
- **Tus primeros pasos:** Empezaremos realizando exploraciones de datos en archivos planos, luego pasaremos a hacer la exploración en bases de datos (Sprint 3) y posterior a eso, exploraremos el mismo proceso en Python (Sprint 5).


---
## 3) Work Process (de la pregunta a la entrega)
Un flujo práctico y repetible para el DA:

1. **Descubrir el problema**  
   - ¿Qué decisión se tomará? ¿Qué KPI importa? ¿Para quién?  
2. **Auditar fuentes**  
   - ¿Qué hay en `raw_songs`/`raw_albums`? ¿Qué issues evidencia `data_dictionary`?  
3. **Limpieza y estandarización**  
   - Fechas a un estándar (ISO 8601), booleanos a TRUE/FALSE, números sin símbolos, remover duplicados.  
4. **Cálculo & EDA**  
   - Métricas simples (SUM, COUNT, AVERAGE, MIN, MAX), segmentaciones por álbum/era.  
5. **Visualización & narrativa**  
   - Gráfico (barra/línea). ¿Qué significa? ¿Qué acción sugiere?  
6. **Handoff & documentación**  
   - Archivo ordenado (nombres de hojas, formato), **`change_log`** con pasos y ejemplos antes/después.

> Relación con OSEMN: **Obtain** (fuentes) → **Scrub** (limpieza) → **Explore** (EDA) → **Model** (agregados/segmentos) → **iNterpret** (insights/decisión).


---
## 4) DA en diferentes tipos de organizaciones
- **Startup:** rol generalista (limpieza → insight → slide). Velocidad > formalización.  
- **Mid-size:** especialización moderada; DA trabaja con BI/DE; procesos básicos de gobierno.  
- **Enterprise:** clara división de funciones, compliance, estándares estrictos, *data governance*.

**Implicaciones para el DA:**  
- En entornos pequeños, el DA diseña flujos de extremo a extremo.  
- En empresas grandes, el foco es claridad, trazabilidad y *hand-off* impecable.


---
## 5) Tipos de Seniority
- **Junior:** limpieza y métricas básicas; documentación guiada; foco en *best practices*.  
- **Mid:** autonomía en limpieza/comunicación; propone KPIs y flujos de trabajo.  
- **Senior:** define estándares, lidera entregas complejas y coordinación con otros roles.  
- **Lead/Manager:** visión, priorización de iniciativas, relación con negocio.

**Autoevaluación (rápida):**  
- ¿Puedo explicar mi decisión metodológica a un stakeholder no técnico?  
- ¿Mis archivos se entienden sin mí (nombres, notas, `change_log`)?  
- ¿Sé cuándo escalar a BI/DE/DS?


---
## 6) Aplicación conceptual al caso Taylor Swift

<div style="text-align: center">
    <img src="https://raw.githubusercontent.com/ljpiere/tpdata_python/main/images/w1s1.png" width="700">
</div>

¿Conoces a Taylor Swift?

**Contexto:** `taylor_swift_da_intro.xlsx` → hojas `raw_songs`, `raw_albums`, `data_dictionary`, `change_log`, `summary_template`.

**Paso A — Inspección y mapeo**  
- Revisa `data_dictionary` para entender tipos esperados y definiciones.  
- Lista de **riesgos**: fechas mixtas, booleanos no estándar (Yes/No/1/0), separación inconsistente en `Writers`, números con símbolos/comas, duplicados.

**Paso B — Reglas de limpieza (definir antes de tocar datos)**  
- Fechas → `YYYY-MM-DD`.  
- Booleanos → `{TRUE, FALSE}` únicamente.  
- Números → sin símbolos, sin espacios; separador decimal consistente.  
- `Writers` → separador único (p. ej., `;`).  
- Duplicados → criterio: columnas clave `Song` + `Album` + `Release Date` (definir).

**Paso C — Documentación (change_log)**  
- Cada cambio = fila con **quién/cuándo/qué** + ejemplo **antes/después**.

**Paso D — Métricas base (summary_template)**  
- `Total Tracks`, `Unique Albums`, `Average Streams`, `Average Views`, `Explicit TRUE`.  
- Añadir un gráfico simple (barra/línea) para comunicar.

**Paso E — Narrativa breve**  
- “Top canciones por streams promedio”, “outliers”, “recomendación de foco para campaña/artista/tour”.


---
## 8) Ejercicios opcionales en Excel/Google Sheets (para practicar fuera del notebook)

> **Archivos:** `taylor_swift_da_intro.xlsx`  
> **Enfoque:** manos a la obra en *spreadsheets* con pasos claros. No necesitas programar.

### Ejercicio 1 — Preparación del archivo (10–15 min)
1. Abre el Excel y **duplica** `raw_songs` como `clean_songs` (nunca edites el raw).  
2. **Congela** la fila de encabezados y ajusta anchos de columna.  
3. **Renombra** hojas si hace falta (`clean_*`, `summary_*`).  
4. En `change_log`, agrega tu primera fila (“creé hoja clean_songs”).

**Entrega esperada:** archivo ordenado con estructura clara.

> ¿Por qué no trabajar sobre los datos base?

---

### Ejercicio 2 — Estandarizar fechas y booleanos (15–20 min)
1. En `clean_songs`, convierte `Release Date` y `Date Added` a `YYYY-MM-DD`.  
   - **Excel (opciones):** `Texto en columnas` + formato de fecha; o fórmula auxiliar con `FECHA`, `DERECHA`, etc., según patrón detectado.  
   - **Sheets:** similar con “Dividir texto en columnas” o `DATEVALUE` si aplica.  
2. Normaliza `Explicit` a **TRUE/FALSE** (no Yes/No/1/0).  
   - **Sugerencia (Excel/Sheets):** columna auxiliar con fórmula condicional que mapee variantes → TRUE/FALSE, luego **pegar valores**.

**Entrega esperada:** fechas y booleanos consistentes, documentados en `change_log`.

---

### Ejercicio 3 — Números y separadores (15–20 min)
1. Limpia `Spotify Streams (M)` y `YouTube Views (M)` para eliminar símbolos/comas/espacios y convertir a número.  
   - Trucos: `Buscar/Reemplazar` (quitar `$`, `€`, espacios), `SUSTITUIR`/`SUBSTITUTE`, `VALOR`/`VALUE`.  
2. **Verifica** con filtro que no queden celdas no numéricas.

**Entrega esperada:** columnas numéricas limpias (tipo número), con nota en `change_log`.

> ¿Por qué no escribir manualmente el punto decimal de los miles?, ¿O la coma?

---

### Ejercicio 4 — Duplicados y separadores de texto (10–15 min)
1. Detecta y elimina **duplicados** (define regla: Song + Album + Release Date).  
2. Unifica separador en `Writers` a `;` (usa `Buscar/Reemplazar` varias veces si hiciera falta).

**Entrega esperada:** sin duplicados y separador consistente en `Writers`.

---

### Ejercicio 5 — Métricas y visualización (15–20 min)
1. Completa `summary_template` con:  
   - **Total Tracks**, **Unique Albums**, **Average Spotify Streams (M)**, **Average YouTube Views (M)**, **Tracks Marked Explicit**.  
2. Inserta un **gráfico de barras** (top 5 canciones por Streams o por Views).  
3. Escribe 3 **insights** en 3 viñetas y 1 **recomendación**.

**Entrega esperada:** `summary_template` final y gráfico simple.

> ¿Qué otro gráfico se te ocurriría?

---

### Ejercicio 6 — Handoff y checklist (5–10 min)
- Revisa nombres de hojas, notas, y que el `change_log` cubra los pasos clave.  
- Deja 2–3 preguntas para el stakeholder (suposiciones/limitaciones detectadas).

**Entrega esperada:** archivo listo para compartir + 3 preguntas.


---
## Rúbrica sugerida (evaluación formativa)
- Identificación de problemas de calidad y propuesta de reglas (30%)  
- Limpieza consistente y trazabilidad en `change_log` (30%)  
- Métricas y visualización correctas + narrativa clara (30%)  
- Orden y presentación del archivo (10%)

## Cierre
- El **DA** es el puente entre **preguntas de negocio** y **evidencia en datos**.  
- Un proceso claro y trazable es tan importante como el resultado.  

## Siguientes Pasos
- **Próxima sesión:** profundizaremos en el ecosistema de datos y en el flujo de punta a punta.
- **Participación continua:** asistir a Co-Learning y a Sprint Focus, y usar los canales de Discord para hacer preguntas.
- **Recordatorios:** la grabación y recursos utilizados, se comparten al finalizar la sesión; en caso de necesitar apoyo adicional, agenda un 1:1.