# Storytelling con Datos

Este notebook demuestra cómo contar historias efectivas con datos usando visualizaciones claras.

**Referencia:** [Storytelling con Datos](../storytelling/storytelling-con-datos.md)

**Objetivos:**
- Crear visualizaciones que cuenten una historia
- Aplicar principios de "Storytelling with Data"
- Comunicar insights de forma clara y convincente
- Usar datos reales del CSV de ejemplo

## 1. Importar librerías

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from datetime import datetime, timedelta

# Configurar estilo
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 6)

print("✅ Librerías importadas")

## 2. Cargar y preparar datos

In [None]:
# Cargar datos desde el CSV de ejemplo
df = pd.read_csv('../data/ventas.csv')

# Convertir fecha a datetime
df['fecha'] = pd.to_datetime(df['fecha'])
df['mes'] = df['fecha'].dt.to_period('M')
df['mes_nombre'] = df['fecha'].dt.strftime('%B')

print(f"✅ Datos cargados: {len(df)} registros")
print(f"\nRango de fechas: {df['fecha'].min().date()} a {df['fecha'].max().date()}")
print(f"Meses disponibles: {df['mes'].unique()}")

# Preparar datos para comparación por mes
ventas_mes = df.groupby('mes').agg({
    'total': 'sum',
    'id': 'count'
}).reset_index()
ventas_mes.columns = ['mes', 'total_ventas', 'num_transacciones']
ventas_mes['mes_nombre'] = ventas_mes['mes'].astype(str)

# Preparar datos por categoría
ventas_categoria = df.groupby('categoria').agg({
    'total': 'sum',
    'precio': 'mean',
    'id': 'count'
}).reset_index()
ventas_categoria.columns = ['categoria', 'total_ventas', 'precio_promedio', 'num_productos']
ventas_categoria = ventas_categoria.sort_values('total_ventas', ascending=False)

# Preparar datos por ciudad
ventas_ciudad = df.groupby('ciudad').agg({
    'total': 'sum',
    'id': 'count'
}).reset_index()
ventas_ciudad.columns = ['ciudad', 'total_ventas', 'num_transacciones']
ventas_ciudad = ventas_ciudad.sort_values('total_ventas', ascending=False)

print("\n✅ Datos preparados para análisis")
print(f"\nTotal de ventas: €{df['total'].sum():,.2f}")
print(f"Promedio por transacción: €{df['total'].mean():,.2f}")

## 3. Visualización: Tendencia de ventas por mes

### ✅ Buen ejemplo: Simple y claro

In [None]:
# Visualización mejorada: Simple y clara
plt.figure(figsize=(12, 6))

# Gráfico de línea con marcadores
plt.plot(ventas_mes['mes_nombre'], ventas_mes['total_ventas'], 
         marker='o', linewidth=3, markersize=10, color='steelblue', label='Ventas mensuales')

# Destacar el mes con más ventas
mes_max = ventas_mes.loc[ventas_mes['total_ventas'].idxmax(), 'mes_nombre']
valor_max = ventas_mes['total_ventas'].max()
plt.plot(mes_max, valor_max, marker='o', markersize=15, color='darkgreen', 
         label=f'Máximo: {mes_max}')

plt.title('Tendencia de Ventas por Mes (Q1 2024)', fontsize=14, fontweight='bold')
plt.xlabel('Mes')
plt.ylabel('Total de Ventas (€)')
plt.legend()
plt.grid(True, alpha=0.3, linestyle='--')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

print("✅ Esta visualización es clara y enfoca la atención en la tendencia mensual")

## 4. Visualización: Ventas por categoría

In [None]:
# Gráfico de barras horizontal ordenado (mejor para comparar)
plt.figure(figsize=(10, 6))

# Colores: verde para la categoría líder, azul para las demás
colores = ['darkgreen' if i == 0 else 'steelblue' for i in range(len(ventas_categoria))]

plt.barh(ventas_categoria['categoria'], ventas_categoria['total_ventas'], color=colores)

# Agregar valores en las barras
for i, v in enumerate(ventas_categoria['total_ventas']):
    plt.text(v + 50, i, f'€{v:,.0f}', va='center', fontweight='bold')

plt.xlabel('Total de Ventas (€)')
plt.title('Ventas por Categoría (Q1 2024)', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

print("✅ Gráfico ordenado y con colores estratégicos para enfatizar la categoría líder")

## 5. Storytelling completo: Historia con datos

### Contexto (Beginning)

In [None]:
print("=" * 60)
print("CONTEXTO")
print("=" * 60)
print("\nAnálisis de ventas Q1 2024")
print(f"\nTotal de ventas: €{df['total'].sum():,.2f}")
print(f"Número de transacciones: {len(df)}")
print(f"Período: {df['fecha'].min().strftime('%d/%m/%Y')} a {df['fecha'].max().strftime('%d/%m/%Y')}")
print("\nObjetivo: Identificar patrones y oportunidades de crecimiento")
print("Datos: Ventas por fecha, categoría, ciudad, producto")
print("=" * 60)

### Insight (Middle)

In [None]:
# Visualización del insight principal
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Gráfico 1: Tendencia mensual
ax1.plot(ventas_mes['mes_nombre'], ventas_mes['total_ventas'], 
         marker='o', linewidth=3, markersize=10, color='steelblue', label='Ventas mensuales')
mes_max = ventas_mes.loc[ventas_mes['total_ventas'].idxmax(), 'mes_nombre']
valor_max = ventas_mes['total_ventas'].max()
ax1.plot(mes_max, valor_max, marker='o', markersize=15, color='darkgreen', 
         label=f'Máximo: {mes_max}')
ax1.set_title('Tendencia de Ventas por Mes', fontweight='bold')
ax1.set_xlabel('Mes')
ax1.set_ylabel('Total de Ventas (€)')
ax1.legend()
ax1.grid(True, alpha=0.3, linestyle='--')
ax1.tick_params(axis='x', rotation=45)

# Gráfico 2: Ventas por categoría
colores = ['darkgreen' if i == 0 else 'steelblue' for i in range(len(ventas_categoria))]
ax2.barh(ventas_categoria['categoria'], ventas_categoria['total_ventas'], color=colores)
for i, v in enumerate(ventas_categoria['total_ventas']):
    ax2.text(v + 50, i, f'€{v:,.0f}', va='center', fontweight='bold', fontsize=9)
ax2.set_xlabel('Total de Ventas (€)')
ax2.set_title('Ventas por Categoría', fontweight='bold')

plt.tight_layout()
plt.show()

# Calcular insights
categoria_lider = ventas_categoria.iloc[0]['categoria']
ventas_lider = ventas_categoria.iloc[0]['total_ventas']
ciudad_lider = ventas_ciudad.iloc[0]['ciudad']
ventas_ciudad_lider = ventas_ciudad.iloc[0]['total_ventas']
mes_max_ventas = ventas_mes.loc[ventas_mes['total_ventas'].idxmax(), 'mes_nombre']

print("\n" + "=" * 60)
print("INSIGHTS PRINCIPALES")
print("=" * 60)
print(f"\n1. Categoría líder: '{categoria_lider}' con €{ventas_lider:,.2f} ({ventas_lider/df['total'].sum()*100:.1f}% del total)")
print(f"2. Ciudad con más ventas: '{ciudad_lider}' con €{ventas_ciudad_lider:,.2f}")
print(f"3. Mes con más ventas: {mes_max_ventas}")
print(f"4. Precio promedio: €{df['precio'].mean():.2f}")
print(f"5. Total de productos únicos: {df['producto'].nunique()}")
print("=" * 60)

### Recomendaciones (End)

In [None]:
categoria_lider = ventas_categoria.iloc[0]['categoria']
ciudad_lider = ventas_ciudad.iloc[0]['ciudad']
mes_max = ventas_mes.loc[ventas_mes['total_ventas'].idxmax(), 'mes_nombre']

print("=" * 60)
print("RECOMENDACIONES")
print("=" * 60)
print(f"\n1. Capitalizar en '{categoria_lider}': Es la categoría líder, considerar expandir inventario")
print(f"2. Replicar estrategia de '{ciudad_lider}': Aplicar mejores prácticas a otras ciudades")
print(f"3. Analizar éxito de {mes_max}: Identificar qué funcionó bien ese mes")
print(f"4. Diversificar categorías: {ventas_categoria.iloc[-1]['categoria']} tiene menor participación, evaluar oportunidades")
print("5. Monitorear tendencias mensuales para anticipar patrones estacionales")
print("=" * 60)

---

**Recuerda:** Los datos no hablan por sí solos. Tú debes contar su historia de forma clara y convincente.

**Próximo paso:** Revisa el notebook de [Pipeline ETL](03-pipeline-etl.ipynb) para ver cómo integrar esto en un pipeline completo.