In [None]:

# 📦 Cargar librerías necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configurar estilo de gráficos
sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (12, 6)

# ✅ Cargar archivos .parquet desde S3
sorteos_paths = ['s3://lottery-raw-data-prod/processed/year=2024/*/sorteos.parquet', 's3://lottery-raw-data-prod/processed/year=2025/*/sorteos.parquet']
premios_paths = ['s3://lottery-raw-data-prod/processed/year=2024/*/premios.parquet', 's3://lottery-raw-data-prod/processed/year=2025/*/premios.parquet']

df_sorteos = pd.concat([pd.read_parquet(p) for p in sorteos_paths], ignore_index=True)
df_premios = pd.concat([pd.read_parquet(p) for p in premios_paths], ignore_index=True)

# 👁 Vista preliminar
display(df_sorteos.head())
display(df_premios.head())

# 📊 Estadísticas básicas
print("🎯 Sorteos:", df_sorteos.shape)
print(df_sorteos.describe(include='all'))

print("💰 Premios:", df_premios.shape)
print(df_premios.describe(include='all'))

# 🔍 Verificar campos nulos
print("Sorteos - Nulos:")
print(df_sorteos.isnull().sum())
print("\nPremios - Nulos:")
print(df_premios.isnull().sum())

# 🧼 Asegurar tipo correcto en monto
df_premios['monto'] = df_premios['monto'].astype(float)

# 📈 Distribución de montos
sns.histplot(df_premios['monto'], bins=50, kde=True)
plt.title("Distribución de montos de premios")
plt.xlabel("Monto")
plt.ylabel("Frecuencia")
plt.show()

# 🏙️ Top 10 ciudades con más premios
top_ciudades = df_premios['ciudad'].value_counts().nlargest(10)
top_ciudades.plot(kind='bar', title="Top 10 ciudades con más premios")
plt.ylabel("Cantidad de premios")
plt.xticks(rotation=45)
plt.show()

# 🌄 Top 10 departamentos con más premios
top_deptos = df_premios['departamento'].value_counts().nlargest(10)
top_deptos.plot(kind='bar', title="Top 10 departamentos con más premios")
plt.ylabel("Cantidad de premios")
plt.xticks(rotation=45)
plt.show()

# 📅 Premios promedio por fecha
df_sorteos['fecha_sorteo'] = pd.to_datetime(df_sorteos['fecha_sorteo'])
premios_fecha = df_sorteos.groupby('fecha_sorteo')[['primer_premio', 'segundo_premio', 'tercer_premio']].mean()
premios_fecha.plot(title="Promedio de premios por fecha")
plt.ylabel("Monto promedio")
plt.xlabel("Fecha")
plt.show()
