# Sprint 5 · Webinar 17 · Data Analytics teórico (Caso licores latinoamericanos)

**Programa:** Introducción a la Analítica de Datos  
**Duración:** 100 minutos  
**Formato:** Sesión teórica guiada + momentos de demostración en Jupyter

En esta sesión conectaremos el flujo completo de un proyecto de analítica (como el caso de movilidad y economía urbana de TomTom/OECD) con un nuevo dataset sobre **licores latinoamericanos**. Usaremos este caso para revisar el ciclo:

- Planteamiento del problema de negocio  
- Carga y exploración de datos con **pandas**  
- Limpieza y preparación  
- Enriquecimiento y análisis exploratorio  
- Visualización e interpretación de resultados  
- Documentación y exportación del dataset final


## Fecha

Completa la información de la sesión:

- **Fecha:** `____ / ____ / 2025`  
- **Instructor/a:** `Tu nombre aquí`  
- **Grupo / Cohorte:** `Nombre del grupo`

## Objetivos de la sesión teórica

Al finalizar esta sesión, la persona estudiante será capaz de:

1. Describir las etapas principales de un proyecto de Data Analytics aplicado a un caso real (movilidad y economía urbana).  
2. Explicar el rol de **pandas** en la carga, exploración y preparación de datos tabulares.  
3. Reconocer distintas estrategias de limpieza de datos (NA, tipos, outliers) más allá de simplemente eliminar filas.  
4. Entender, a nivel conceptual, cómo combinar fuentes de datos y enriquecer un dataset.  
5. Interpretar tablas y visualizaciones básicas para responder preguntas de negocio.  
6. Documentar un análisis de datos de forma reproducible en un notebook de Jupyter.


## Agenda sugerida (100 minutos)

| Tiempo | Bloque | Contenido | Modalidad |
|--------|--------|-----------|-----------|
| 0–10 min | 1 | Bienvenida, contexto del caso de movilidad/economía y del dataset de licores latinoamericanos | Plenaria |
| 10–25 min | 2 | Ejercicio 1: Cargar y explorar datos con pandas | Demo guiada + preguntas |
| 25–45 min | 3 | Ejercicio 2: Limpieza y preparación (NA, tipos, outliers ligeros) | Exposición + mini-debate |
| 45–65 min | 4 | Ejercicio 3: Enriquecimiento y análisis exploratorio (groupby, comparaciones entre países) | Demo guiada |
| 65–80 min | 5 | Visualización y comunicación (gráficos simples, story-telling de datos) | Exposición + discusión |
| 80–90 min | 6 | Ejercicio 0: discusión en breakout rooms sobre decisiones analíticas | Trabajo en grupos |
| 90–100 min | 7 | Take aways, cierre y recursos complementarios | Plenaria |


## Ejercicio 0 · Calentamiento en breakout rooms (discusión conceptual, 10 min)

**Objetivo:**  
Conectar la intuición de las personas estudiantes con el ciclo de un proyecto de analítica, antes de entrar en código.

En grupos pequeños, discutan:

1. Imagina que trabajas en una empresa de bebidas que quiere expandir un portafolio de **licores latinoamericanos**.  
   - ¿Qué decisiones de negocio podrían apoyarse en datos?  
   - ¿Qué preguntas harías sobre países, categorías de licor, precios o volúmenes de exportación?  

2. Conecta esto con el caso de **movilidad y economía urbana** del proyecto de TomTom/OECD:  
   - ¿Qué tienen en común ambos proyectos, aun cuando los dominios son distintos?  
   - ¿Qué etapas crees que se repiten siempre en un proyecto de Data Analytics?

> Pidan a una persona del grupo tomar notas. De regreso en plenaria, cada grupo compartirá **1 pregunta de negocio** y **1 etapa clave** del proceso analítico que identifiquen.


## Ejercicio 1 · Cargar y explorar el dataset de licores

En el proyecto original de movilidad y economía urbana trabajábamos con:

- Un dataset de **congestión de tráfico** (TomTom Traffic Index).  
- Un dataset de **indicadores económicos** (por ejemplo, PIB per cápita, desempleo, etc.).

El objetivo era **evaluar cómo la movilidad urbana se relaciona con la actividad económica** y apoyar decisiones de inversión en infraestructura.

En este webinar teórico usaremos un dataset alternativo: **`licores_latam.csv`**, que contiene información sintética sobre licores típicos de distintos países latinoamericanos (tipo, país, graduación alcohólica, precio de referencia, volumen de exportación, etc.).

La idea es **reutilizar el mismo flujo analítico** del proyecto de movilidad/economía, pero ahora aplicado a otro dominio.

### 1.1. Carga de datos y vista rápida

Antes de limpiar o transformar, queremos:

- Validar que el archivo se carga correctamente.  
- Revisar columnas, tipos de datos y dimensiones (`.shape`).  
- Mirar una muestra rápida (`.head()`) y estadísticas descriptivas (`.describe()`).


In [None]:
import pandas as pd

# Cargar el dataset de licores latinoamericanos
df_licores = pd.read_csv("licores_latam.csv")

# Vista rápida
df_licores.head()

In [None]:
# Información general del DataFrame
df_licores.info()

# Estadísticas descriptivas para columnas numéricas
df_licores.describe()

### Preguntas guiadas para el Ejercicio 1

- ¿Qué columnas numéricas ves en el dataset? ¿Cuáles son categóricas?  
- ¿Qué rango de precios (`price_usd`) observas?  
- ¿Hay países que aparezcan muchas más veces que otros?  
- ¿Detectas algún valor que parezca inconsistente o sospechoso a simple vista?


## Ejercicio 2 · Limpieza y preparación de datos

Una vez conocemos la estructura, pasamos a **limpiar y preparar** el dataset.  
Algunas decisiones típicas (en el proyecto de movilidad/economía y en este caso de licores) incluyen:

1. **Revisión y tratamiento de valores faltantes (NA):**
   - ¿Qué columnas pueden tolerar NA sin problema?  
   - ¿Cuándo conviene imputar (por ejemplo, usando mediana o moda)?  
   - ¿Cuándo conviene dejar el NA explícito porque tiene significado?

2. **Corrección de tipos de datos:**
   - Asegurarse de que porcentajes y precios estén como `float`.  
   - Convertir variables categóricas (como país, tipo de licor) a `object` o `category`.  

3. **Normalización de texto:**
   - Unificar nombres de países (`"México"`, `"Mexico"`).  
   - Arreglar espacios en blanco o mayúsculas/minúsculas.

4. **Detección ligera de outliers:**
   - Valores extremos de precio o volumen de exportación.  
   - Decidir si son errores de captura o casos de negocio especiales.

En esta sesión teórica, nos centraremos en **entender las decisiones** y mostrar ejemplos breves de código.


In [None]:
# Ejemplo 1: revisar valores faltantes
df_licores.isna().sum()

# Ejemplo 2: conversión de tipos (por si alguna columna viene mal tipada)
df_licores['abv_percent'] = df_licores['abv_percent'].astype(float)
df_licores['price_usd'] = df_licores['price_usd'].astype(float)

# Ejemplo 3: normalizar texto de país
df_licores['country'] = df_licores['country'].str.strip().str.title()

df_licores.head()

## Ejercicio 3 · Enriquecimiento, análisis exploratorio y visualización

En el proyecto de movilidad/economía, una vez limpios los datos:

- Se unían las tablas de tráfico y economía por ciudad/país.  
- Se creaban variables derivadas (por ejemplo, categorías por nivel de congestión).  
- Se analizaban patrones con `groupby`, medias, medianas, etc.  
- Se construían gráficos (boxplots, barras, dispersión) para comunicar hallazgos.

Con nuestro dataset de licores podemos hacer algo análogo:

- Crear categorías por rango de precio (económico, medio, premium).  
- Agrupar por país y tipo de licor para ver promedios de graduación alcohólica y precio.  
- Comparar volúmenes de exportación entre países.  
- Construir gráficos simples que respalden una historia de negocio.

La idea de este ejercicio es revisar, a nivel conceptual, qué métricas y visualizaciones serían más útiles.


In [None]:
# Ejemplo: crear una categoría de precio
bins = [0, 10, 25, 100]
labels = ['económico', 'medio', 'premium']
df_licores['price_segment'] = pd.cut(df_licores['price_usd'], bins=bins, labels=labels)

# Resumen por país y segmento de precio
resumen_pais = (
    df_licores
    .groupby(['country', 'price_segment'])
    .agg(
        avg_price=('price_usd', 'mean'),
        avg_abv=('abv_percent', 'mean'),
        total_export_liters=('export_volume_liters', 'sum')
    )
    .reset_index()
)

resumen_pais.head()

In [None]:
import matplotlib.pyplot as plt

# Ejemplo: gráfico de barras de exportaciones totales por país
export_por_pais = (
    df_licores
    .groupby('country')['export_volume_liters']
    .sum()
    .sort_values(ascending=False)
)

plt.figure(figsize=(8, 4))
export_por_pais.plot(kind='bar')
plt.title('Volumen total de exportación de licores por país')
plt.xlabel('País')
plt.ylabel('Volumen (litros)')
plt.tight_layout()
plt.show()

### Preguntas de reflexión sobre el Ejercicio 3

- Si fueras analista en una empresa de bebidas, ¿qué gráfico mostrarías primero a tu equipo de negocio y por qué?  
- ¿Qué otros cortes (segmentaciones) te gustaría probar con este dataset?  
- ¿Qué información adicional pedirías al área de negocio o de datos para enriquecer aún más el análisis?


## 6. Take aways de la sesión teórica

Al terminar esta sesión, deberías llevarte estas ideas clave:

1. Un proyecto de Data Analytics sigue un **flujo lógico** que se puede reutilizar en distintos dominios (movilidad, economía, bebidas, etc.).  
2. **pandas** es la herramienta central para trabajar con datos tabulares en Python: cargar, explorar, limpiar y transformar.  
3. La limpieza de datos va más allá de “borrar filas con NA”: implica entender el contexto de negocio y el impacto de cada decisión.  
4. El análisis exploratorio (EDA) combina estadísticas básicas con agrupamientos (`groupby`) para descubrir patrones.  
5. Las visualizaciones deben construirse al servicio de **preguntas de negocio**, no solo “porque se ven bien”.  
6. Un notebook bien documentado (títulos, texto, código, resultados) es una pieza clave para comunicar tu trabajo.


## 7. Cierre y próximos pasos

Para seguir profundizando:

- Revisa el notebook del proyecto original de **movilidad y economía** y compara sus pasos con lo que hicimos hoy.  
- Intenta replicar el flujo completo (de carga a exportación) con otro dataset pequeño de tu interés.  
- Piensa qué preguntas de negocio podrías responder si tuvieras más columnas en `licores_latam.csv` (por ejemplo, márgenes, impuestos, preferencias de mercado).

En la siguiente sesión práctica podrás implementar, paso a paso, varias de estas ideas en código, con más tiempo para experimentar.


## 8. Información complementaria y recursos

- Documentación de pandas: <https://pandas.pydata.org/docs/>  
- Guía de buenas prácticas para análisis exploratorio (EDA): busca “Exploratory Data Analysis in Python” en tu buscador favorito.  
- Documentación de matplotlib para visualización básica: <https://matplotlib.org/stable/users/index.html>  
- Opcional: repasa el proyecto de movilidad/economía (`S5_ladb_mobility_economy_project_solution`) para ver un ejemplo completo de flujo analítico.


## Cierre
**Kahoot de repaso (5 min)**
- Abordamos el caso de Licores Latinoamericanos.
- Planteamos la estrategia de limpieza y análisis exploratorio (EDA).

**Reflexión:**
- ¿Qué anomalía destacarías de este dataset a primera vista?
- ¿Por qué es importante revisar los tipos de datos (dtypes) al cargar un archivo?

**Q&A y próximos pasos.**


## Siguientes Pasos
- **Próxima sesión:** Sprint 5 - Práctica avanzada: Limpieza y Outliers.
- **Participación:** Piensa en cómo manejarías los valores nulos en este caso.
- **Recordatorios:** Descarga el dataset actualizado si hubo cambios.
