# Agregaciones y Agrupaciones con Pandas

Este notebook demuestra c√≥mo resumir y agrupar datos usando agregaciones, groupby y pivot tables.

**Referencia:** [Agregaciones y Agrupaciones](../pandas/python-para-datos/04-agregaciones.md)

**Objetivos:**
- Realizar agregaciones b√°sicas (sum, mean, min, max, etc.)
- Agrupar datos con groupby()
- Usar m√∫ltiples funciones de agregaci√≥n
- Crear tablas pivot para visualizar datos
- Encontrar top N por categor√≠a

## 1. Importar librer√≠as y cargar datos

In [None]:
import pandas as pd
import numpy as np

# Cargar datos desde el CSV de ejemplo
df = pd.read_csv('../data/ventas.csv')

# Convertir fecha a datetime para trabajar con meses
df['fecha'] = pd.to_datetime(df['fecha'])
df['mes'] = df['fecha'].dt.to_period('M')

print(f"‚úÖ Datos cargados: {len(df)} registros")
print(f"\nColumnas: {df.columns.tolist()}")
print("\nPrimeras filas:")
df.head()

## 2. Agregaciones b√°sicas

In [None]:
# Agregaciones simples en una columna num√©rica
print("=== AGREGACIONES B√ÅSICAS ===")
print(f"Total de ventas: ‚Ç¨{df['total'].sum():,.2f}")
print(f"Precio promedio: ‚Ç¨{df['precio'].mean():,.2f}")
print(f"Precio mediano: ‚Ç¨{df['precio'].median():,.2f}")
print(f"Desviaci√≥n est√°ndar: ‚Ç¨{df['precio'].std():,.2f}")
print(f"Precio m√≠nimo: ‚Ç¨{df['precio'].min():,.2f}")
print(f"Precio m√°ximo: ‚Ç¨{df['precio'].max():,.2f}")
print(f"Total de registros: {df['id'].count()}")
print(f"Cantidad total vendida: {df['cantidad'].sum()} unidades")

# Todas las agregaciones num√©ricas autom√°ticas
print("\n=== ESTAD√çSTICAS DESCRIPTIVAS (describe) ===")
print(df.describe())

# Agregaciones personalizadas con agg()
print("\n=== AGREGACIONES PERSONALIZADAS ===")
agregaciones = df.agg({
    'precio': ['mean', 'min', 'max', 'std'],
    'total': ['sum', 'mean'],
    'cantidad': 'sum'
})
print(agregaciones)

## 3. Agrupaciones b√°sicas con groupby()

In [None]:
# Agrupar por ciudad y calcular promedio de precio
print("=== PRECIO PROMEDIO POR CIUDAD ===")
precio_por_ciudad = df.groupby('ciudad')['precio'].mean()
print(precio_por_ciudad)

# Agrupar por categor√≠a y calcular total de ventas
print("\n=== TOTAL DE VENTAS POR CATEGOR√çA ===")
total_por_categoria = df.groupby('categoria')['total'].sum()
print(total_por_categoria)

# M√∫ltiples columnas: ciudad y categor√≠a
print("\n=== PRECIO PROMEDIO POR CIUDAD Y CATEGOR√çA ===")
precio_ciudad_cat = df.groupby(['ciudad', 'categoria'])['precio'].mean()
print(precio_ciudad_cat)

## 4. M√∫ltiples funciones de agregaci√≥n

In [None]:
# Diferentes funciones por columna
print("=== ESTAD√çSTICAS POR CIUDAD ===")
estadisticas_ciudad = df.groupby('ciudad').agg({
    'precio': ['mean', 'min', 'max'],
    'total': 'sum',
    'id': 'count'  # N√∫mero de ventas
})
print(estadisticas_ciudad)

# Estad√≠sticas por categor√≠a
print("\n=== ESTAD√çSTICAS POR CATEGOR√çA ===")
estadisticas_categoria = df.groupby('categoria').agg({
    'precio': ['mean', 'min', 'max', 'std'],
    'total': ['sum', 'mean'],
    'cantidad': 'sum'
})
print(estadisticas_categoria)

## 5. Named aggregations (m√°s legible)

In [None]:
# Con nombres personalizados (m√°s legible)
print("=== RESUMEN POR CIUDAD (NAMED AGGREGATIONS) ===")
resumen_ciudad = df.groupby('ciudad').agg(
    precio_promedio=('precio', 'mean'),
    total_ventas=('total', 'sum'),
    num_transacciones=('id', 'count'),
    cantidad_total=('cantidad', 'sum')
)
print(resumen_ciudad)

# Resumen por categor√≠a
print("\n=== RESUMEN POR CATEGOR√çA ===")
resumen_categoria = df.groupby('categoria').agg(
    precio_promedio=('precio', 'mean'),
    precio_maximo=('precio', 'max'),
    total_ingresos=('total', 'sum'),
    productos_unicos=('producto', 'nunique')
)
print(resumen_categoria)

## 6. Pivot tables

In [None]:
# Crear tabla pivot: precio promedio por ciudad y categor√≠a
print("=== PRECIO PROMEDIO: CIUDAD (filas) √ó CATEGOR√çA (columnas) ===")
pivot_precio = df.pivot_table(
    values='precio',
    index='ciudad',
    columns='categoria',
    aggfunc='mean'
)
print(pivot_precio)

# Tabla pivot con total de ventas
print("\n=== TOTAL DE VENTAS: CIUDAD √ó CATEGOR√çA ===")
pivot_total = df.pivot_table(
    values='total',
    index='ciudad',
    columns='categoria',
    aggfunc='sum',
    fill_value=0  # Rellenar con 0 si no hay datos
)
print(pivot_total)

In [None]:
# Tabla pivot con m√∫ltiples funciones
print("=== M√öLTIPLES FUNCIONES: CIUDAD √ó CATEGOR√çA ===")
pivot_multi = df.pivot_table(
    values='total',
    index='ciudad',
    columns='categoria',
    aggfunc=['sum', 'mean', 'count'],
    fill_value=0
)
print(pivot_multi)

# Tabla pivot con fechas (agrupar por mes)
print("\n=== VENTAS POR MES Y CATEGOR√çA ===")
pivot_mes = df.pivot_table(
    values='total',
    index='mes',
    columns='categoria',
    aggfunc='sum',
    fill_value=0
)
print(pivot_mes)

## 7. Top N por categor√≠a

In [None]:
# Top 3 productos m√°s vendidos por categor√≠a (usando cantidad)
print("=== TOP 3 PRODUCTOS M√ÅS VENDIDOS POR CATEGOR√çA ===")
top_productos = df.groupby(['categoria', 'producto'])['cantidad'].sum().reset_index()
top_productos = top_productos.sort_values(['categoria', 'cantidad'], ascending=[True, False])
top_3_por_categoria = top_productos.groupby('categoria').head(3)
print(top_3_por_categoria)

# Top 3 ciudades con mayores ingresos
print("\n=== TOP 3 CIUDADES CON MAYORES INGRESOS ===")
top_ciudades = df.groupby('ciudad')['total'].sum().sort_values(ascending=False).head(3)
print(top_ciudades)

# Mes con mayores ventas
print("\n=== MES CON MAYORES VENTAS ===")
ventas_por_mes = df.groupby('mes')['total'].sum().sort_values(ascending=False)
print(ventas_por_mes)
print(f"\nMejor mes: {ventas_por_mes.index[0]} con ‚Ç¨{ventas_por_mes.iloc[0]:,.2f}")

## 8. Resumen completo: An√°lisis de ventas

Este ejemplo combina todas las t√©cnicas aprendidas para crear un an√°lisis completo.

In [None]:
print("=" * 60)
print("AN√ÅLISIS COMPLETO DE VENTAS")
print("=" * 60)

# 1. M√©tricas generales
print("\nüìä M√âTRICAS GENERALES:")
print(f"Total de ingresos: ‚Ç¨{df['total'].sum():,.2f}")
print(f"Promedio por transacci√≥n: ‚Ç¨{df['total'].mean():,.2f}")
print(f"Total de transacciones: {len(df)}")
print(f"Productos √∫nicos: {df['producto'].nunique()}")

# 2. Por categor√≠a
print("\nüì¶ POR CATEGOR√çA:")
resumen_cat = df.groupby('categoria').agg(
    ingresos=('total', 'sum'),
    transacciones=('id', 'count'),
    precio_promedio=('precio', 'mean')
).sort_values('ingresos', ascending=False)
print(resumen_cat)

# 3. Por ciudad
print("\nüèôÔ∏è POR CIUDAD:")
resumen_ciudad = df.groupby('ciudad').agg(
    ingresos=('total', 'sum'),
    transacciones=('id', 'count')
).sort_values('ingresos', ascending=False)
print(resumen_ciudad)

# 4. Por mes
print("\nüìÖ POR MES:")
resumen_mes = df.groupby('mes').agg(
    ingresos=('total', 'sum'),
    transacciones=('id', 'count')
).sort_values('ingresos', ascending=False)
print(resumen_mes)

print("\n" + "=" * 60)