# Sprint 5 · Webinar 18 · Sesión Práctica (Caso licores latinoamericanos)

**Programa:** Introducción a la Analítica de Datos  
**Duración:** 100 minutos

En esta sesión práctica profundizaremos en el uso de **pandas**, **limpieza avanzada**, **EDA**, **detección de outliers**, **segmentación**, y **visualización aplicada** utilizando el dataset `licores_latam.csv`.

Incluye: ejercicios guiados, retos intermedios y un **Ejercicio 0 tipo desafío** para iniciar la sesión.

## Ejercicio 0 · Reto inicial (breakout rooms)

**Objetivo:** activar pensamiento analítico antes de codificar.

**Reto:**

Sin ejecutar código, revisa el dataset `licores_latam.csv` y:
1. Propón **tres hipótesis** sobre diferencias entre países (precio, ABV, exportaciones).  
2. Propón **dos métricas derivadas** que podrían ser útiles (por ejemplo, precio por ml).  
3. Escribe **una posible historia de negocio** que se podría validar con estos datos.

> En plenaria se revisarán hipótesis y propuestas de cada grupo.

## Ejercicio 1 · Carga y validación del dataset

**Objetivo:** cargar correctamente el dataset y validar su estructura.

Pasos:
1. Cargar el CSV.  
2. Validar tipos de datos.  
3. Identificar columnas problemáticas.  
4. Analizar estadísticas iniciales.

In [None]:
import pandas as pd

df = pd.read_csv("licores_latam.csv")
df.head()

In [None]:
df.info(), df.describe()

### Preguntas guiadas
- ¿Qué columnas requieren normalización?  
- ¿Hay países duplicados con mayúsculas/minúsculas distintas?  
- ¿Qué columnas parecen tener mayor variabilidad?

## Ejercicio 2 · Limpieza avanzada de datos

**Objetivo:** aplicar técnicas más profundas de limpieza y preparación.

Incluye:
- Normalización de texto.  
- Conversión de tipos.  
- Imputación condicional.  
- Detección y manejo de outliers con IQR.  
- Crear columnas derivadas (precio por ml, ABV ajustado).

In [None]:
# Normalización de texto en países
df['country'] = df['country'].str.strip().str.title()

# Crear columna precio por ml
df['price_per_ml'] = df['price_usd'] / df['bottle_volume_ml']
df.head()

In [None]:
# Detección de outliers usando IQR en precio
Q1 = df['price_usd'].quantile(0.25)
Q3 = df['price_usd'].quantile(0.75)
IQR = Q3 - Q1

lower = Q1 - 1.5 * IQR
upper = Q3 + 1.5 * IQR

    df_outliers = df[(df['price_usd'] < lower) | (df['price_usd'] > upper)]
df_outliers

### Reto del ejercicio 2
- ¿Qué columnas adicionales pueden tener outliers?  
- ¿Qué criterio usarías para decidir si un outlier es error o caso especial?  
- ¿Qué estrategia aplicarías: winsorizing, segmentación, eliminación, imputación?

## Ejercicio 3 · Segmentación y análisis exploratorio profundo

Aquí aplicarás herramientas avanzadas de EDA:
- Segmentación por precio y ABV.  
- Agrupación múltiple (país + categoría + nivel de precio).  
- Métricas derivadas avanzadas.  
- Identificación de patrones relevantes para negocio.


In [None]:
# Segmentación por precio
bins = [0, 10, 25, 100]
labels = ['económico', 'medio', 'premium']
df['price_segment'] = pd.cut(df['price_usd'], bins=bins, labels=labels)

# Agrupación avanzada
grouped = df.groupby(['country', 'category', 'price_segment']).agg(
    avg_price=('price_usd', 'mean'),
    avg_abv=('abv_percent', 'mean'),
    total_exports=('export_volume_liters', 'sum'),
    avg_price_ml=('price_per_ml', 'mean')
).reset_index()

grouped.head()

### Ejercicio adicional
1. Crea una columna que clasifique licores como **baja**, **media**, o **alta graduación**.  
2. Evalúa si hay relación entre precio y graduación por país.  
3. Identifica el país con mayor diversificación de categorías.

## Ejercicio 4 · Visualización avanzada

**Objetivo:** crear visualizaciones que respalden hipótesis de negocio.

Gráficos sugeridos:
- Boxplot de ABV por país.  
- Barras apiladas de exportaciones por categoría.  
- Gráfico de dispersión (precio vs ABV).  
- Gráfico de calor (correlaciones numéricas).

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Boxplot ABV por país
plt.figure(figsize=(10, 4))
sns.boxplot(data=df, x='country', y='abv_percent')
plt.title('Distribución de graduación alcohólica (ABV) por país')
plt.xticks(rotation=45)
plt.show()

### Mini-reto de visualización
- ¿Qué historia cuenta este boxplot?  
- ¿Qué país parece más consistente en ABV?  
- ¿Qué país tiene mayor variación y qué podría implicar para negocio?

## Ejercicio 5 · Preparación de dataset final para negocio

**Objetivo:** preparar un dataset limpio, documentado y listo para análisis o dashboarding.

Tareas:
- Seleccionar columnas relevantes.  
- Normalizar nombres.  
- Exportar dataset final a CSV.


In [None]:
df_final = df.copy()
df_final.to_csv('licores_latam_clean.csv', index=False)
df_final.head()

## Take aways de la sesión práctica
1. La limpieza avanzada permite mejorar la calidad analítica del dataset.  
2. Segmentar ayuda a descubrir patrones más profundos.  
3. La visualización debe respaldar hipótesis, no reemplazarlas.  
4. Preparar un dataset final es clave para entregables profesionales.

## Recursos adicionales
- pandas Cookbook  
- seaborn Tutorial  
- Matplotlib Gallery  
- Artículos sobre segmentación y pricing analytics
