# Funciones de Agregación y Agrupamiento de Datos

## ¿Qué es la agregación?
La agregación consiste en resumir o sintetizar información a partir de un conjunto de datos.

Por ejemplo, calcular el promedio, el máximo, el mínimo o la suma de una columna.

Rsumimos toda la tabla en 1 o pocos números para ver el panorama general.

**Escenario del mundo real:** Un e-commerce quiere saber la facturación total del día y el ticket promedio para tomar decisiones rápidas (¿subimos presupuesto de ads?, ¿hubo caída de ventas?).


## ¿Qué es el agrupamiento?
El agrupamiento permite dividir los datos en grupos según alguna categoría, para luego aplicar funciones de agregación dentro de cada grupo.

Dividimos por categoría (o sucursal, vendedor, canal) y agregamos dentro de cada grupo para comparar segmentos y detectar patrones.

**Escenario del mundo real:** La misma empresa ahora quiere saber qué categoría o qué sucursal traccionó las ventas para orientar stock y campañas.

## Analisis del set de datos "Ventas_Demo"


In [2]:
import pandas as pd

# Cargar el CSV
df = pd.read_csv("ventas_demo.csv")

# Tipos de datos e info resumida
print("\n----> Tipos de datos e info resumida")
display(df.info())

# Nulos
print("\n----> Cantidad de nulos en cada columna:")
display(df.isna().sum())

# Duplicados exactos
print("\n----> Filas duplicadas:")
display(df.duplicated().sum())

# Vista previa
print("\n----> Primeras 15 filas:")
display(df.head(15))



----> Tipos de datos e info resumida
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120 entries, 0 to 119
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Orden      120 non-null    int64  
 1   Fecha      120 non-null    object 
 2   Sucursal   120 non-null    object 
 3   Categoria  120 non-null    object 
 4   Producto   120 non-null    object 
 5   Precio     120 non-null    float64
 6   Cantidad   120 non-null    int64  
dtypes: float64(1), int64(2), object(4)
memory usage: 6.7+ KB


None


----> Cantidad de nulos en cada columna:


Unnamed: 0,0
Orden,0
Fecha,0
Sucursal,0
Categoria,0
Producto,0
Precio,0
Cantidad,0



----> Filas duplicadas:


np.int64(0)


----> Primeras 15 filas:


Unnamed: 0,Orden,Fecha,Sucursal,Categoria,Producto,Precio,Cantidad
0,1,2025-09-07,Sur,Hogar,Lampara LED,14135.11,3
1,2,2025-09-08,Sur,Ropa,Remera básica,9532.76,2
2,3,2025-09-19,Centro,Electrónica,Auriculares BT,13679.73,3
3,4,2025-09-24,Sur,Deportes,Pelota fútbol,13503.38,3
4,5,2025-09-22,Sur,Librería,Cuaderno A5,1834.62,4
5,6,2025-09-30,Centro,Hogar,Lampara LED,9928.84,4
6,7,2025-09-21,Centro,Deportes,Gorra running,16057.33,2
7,8,2025-09-22,Centro,Deportes,Pelota fútbol,10563.6,1
8,9,2025-09-17,Sur,Deportes,Mancuernas 2kg,15222.97,2
9,10,2025-09-28,Centro,Librería,Resaltador x3,3210.63,3


# Crear una nueva columna

Para repasar temas de la clase pasada, y para tener mas elementos útiles en el ejercicio, vamos a crear una nueva columna con el importe de cada venta:

In [3]:
# Crear columna "Importe" con el importe de cada fila
df["Importe"] = df["Precio"] * df["Cantidad"]

# Vista previa
print("\n----> Primeras 15 filas:")
display(df.head(5))


----> Primeras 15 filas:


Unnamed: 0,Orden,Fecha,Sucursal,Categoria,Producto,Precio,Cantidad,Importe
0,1,2025-09-07,Sur,Hogar,Lampara LED,14135.11,3,42405.33
1,2,2025-09-08,Sur,Ropa,Remera básica,9532.76,2,19065.52
2,3,2025-09-19,Centro,Electrónica,Auriculares BT,13679.73,3,41039.19
3,4,2025-09-24,Sur,Deportes,Pelota fútbol,13503.38,3,40510.14
4,5,2025-09-22,Sur,Librería,Cuaderno A5,1834.62,4,7338.48


# Ejemplos de agregaciones simples, sobre una columna:

**TIP:* El método `.nunique()` en Pandas cuenta cuántos valores distintos (únicos) hay en una columna o en un conjunto de columnas.

Es decir, ignora los valores repetidos y devuelve solo la cantidad de valores diferentes.

In [4]:
total_vendido = df["Importe"].sum()
precio_prom   = df["Precio"].mean()
precio_min    = df["Precio"].min()
precio_max    = df["Precio"].max()
n_operaciones = df["Orden"].nunique()  # Orden es un "id" de cada compra

print("Total vendido:", total_vendido)
print("Precio promedio:", precio_prom)
print("Precio mínimo:", precio_min)
print("Precio máximo:", precio_max)
print("Cantidad de operaciones:", n_operaciones)

Total vendido: 3943905.33
Precio promedio: 11343.955916666666
Precio mínimo: 1773.18
Precio máximo: 22980.66
Cantidad de operaciones: 120


## Agregaciones varias en una linea:

 **`df["Importe"]`** selecciona una **columna del DataFrame**. Esa columna es una **Serie de Pandas** (una estructura unidimensional, como una lista).


**`.agg([...])`** es el método **aggregate**, que permite aplicar **una o varias funciones de agregación** a la vez sobre una Serie. Se le pasa una lista de nombres de funciones: `"sum"`, `"mean"`, `"min"`, etc.

Pandas ejecuta **cada una** de esas funciones sobre los datos de la columna `Importe` y devuelve un **nuevo objeto (Serie)** con el resultado de cada función.


### Evitar notación científica

Por defecto, Pandas muestra los números grandes en **notación científica** (por ejemplo `1.27e+06` en lugar de `1276539.25`).

Se puede desactivar ese formato con:

```python
pd.set_option("display.float_format", "{:,.2f}".format)``



In [5]:
pd.set_option("display.float_format", "{:,.2f}".format)

resumen_importe = df["Importe"].agg(["sum", "mean", "min", "max", "count"])
display(resumen_importe)

Unnamed: 0,Importe
sum,3943905.33
mean,32865.88
min,2753.39
max,114903.3
count,120.0


## Agregación sobre varias columnas en una linea:

Es posible aplicar **varias funciones de agregación diferentes a distintas columnas en una sola pasada** y devuelve una **tabla de resumen**.

Primero, `df.agg({...})` recibe un diccionario donde cada **clave** es una columna y cada **valor** es la lista de funciones a aplicar sobre esa columna.

Pandas ejecuta todo junto y arma un DataFrame donde las **filas** son los nombres de las funciones y las **columnas** son `Precio`, `Cantidad` e `Importe`. Si una función no corresponde a una columna, esa celda aparece como `NaN`.



In [6]:
resumen_multi = df.agg({
    "Precio":   ["mean", "min", "max"],
    "Cantidad": ["sum", "mean", "max"],
    "Importe":  ["sum", "mean"]
})
display(resumen_multi)

Unnamed: 0,Precio,Cantidad,Importe
mean,11343.96,2.86,32865.88
min,1773.18,,
max,22980.66,5.0,
sum,,343.0,3943905.33


El orden de las filas sigue el de las funciones encontradas; para reordenarlas se puede hacer algo como `resumen_multi.reindex(["sum","mean","min","max"])`.



# Agrupamientos


Vamos a **dividir la tabla en segmentos** según una o más columnas categóricas (por ejemplo, `Categoria` o `Sucursal`). A cada segmento le vamos a **aplicar funciones de agregación** sobre columnas numéricas (por ejemplo, sumar el `Importe`, promediar el `Precio`, contar operaciones, etc), y luego ver como Pandas **recompone** el resultado en una tabla compacta donde **cada fila representa un grupo** y las columnas muestran las métricas calculadas.

## Ejemplo 1:

Vamos a agrupar por `Categoria` y calcular varias métricas útiles sobre el mismo df.

In [16]:
resumen_por_cat = (
    df.groupby("Categoria")
      .agg(
          total_vendido   = ("Importe", "sum"),
          ticket_prom     = ("Importe", "mean"),
          operaciones     = ("Orden", "nunique"),
          items_vendidos  = ("Cantidad", "sum"),
          precio_prom     = ("Precio", "mean"),
          precio_min      = ("Precio", "min"),
          precio_max      = ("Precio", "max")
      )
      .sort_values("total_vendido", ascending=False)  # ordeno por mayor facturación
      .reset_index()
)

display(resumen_por_cat)


Unnamed: 0,Categoria,total_vendido,ticket_prom,operaciones,items_vendidos,precio_prom,precio_min,precio_max
0,Electrónica,1221998.91,55545.4,22,67,18279.22,12779.15,22980.66
1,Deportes,1166878.39,46675.14,25,76,15190.65,10563.6,18733.78
2,Hogar,826919.25,31804.59,26,70,11768.57,8466.22,15528.39
3,Ropa,541346.47,23536.8,23,59,9078.72,6431.31,11557.78
4,Librería,186762.31,7781.76,24,71,2690.52,1773.18,3241.83


## Ejemplo 2:

Hagamos **el mismo resumen** pero por `Sucursa`l. Es prácticamente lo mismo que ya vimos con `Categoria`:

In [17]:
resumen_por_sucursal = (
    df.groupby("Sucursal")
      .agg(
          total_vendido  = ("Importe", "sum"),
          ticket_prom    = ("Importe", "mean"),
          operaciones    = ("Importe", "size"),   # cuenta filas del grupo
          items_vendidos = ("Cantidad", "sum"),
          precio_prom    = ("Precio", "mean"),
          precio_min     = ("Precio", "min"),
          precio_max     = ("Precio", "max")
      )
      .sort_values("total_vendido", ascending=False)
      .reset_index()
)

display(resumen_por_sucursal)


Unnamed: 0,Sucursal,total_vendido,ticket_prom,operaciones,items_vendidos,precio_prom,precio_min,precio_max
0,Centro,1614506.27,39378.2,41,131,11332.69,2095.28,22980.66
1,Sur,1265490.13,26925.32,47,118,11333.27,1773.18,22607.92
2,Norte,1063908.93,33247.15,32,94,11374.09,2112.78,20662.11


## Ejemplo 3:

En este ejemplo primero se **divide el DataFrame en grupos** definidos por la combinación de `Sucursal` y `Categoria`.

Sobre cada grupo se calculan cuatro métricas:

* `total_vendido` como la suma de `Importe`,
* `operaciones` como el **número de filas** del grupo (`size`),
* `ticket_prom` como el promedio de `Importe` y
* `items_vendidos` como la suma de `Cantidad`.


Luego se **ordena** el resultado por `Sucursal` (A...Z) y, dentro de cada sucursal, de mayor a menor `total_vendido`.

Con `reset_index()` convierte los valores del índice (Sucursal y Categoria) en **columnas normales**.


In [18]:
# Sucursal × Categoría: métricas clave por grupo
resumen_suc_cat = (
    df.groupby(["Sucursal", "Categoria"])
      .agg(
          total_vendido  = ("Importe", "sum"),
          operaciones    = ("Importe", "size"),   # cuenta filas del grupo
          ticket_prom    = ("Importe", "mean"),
          items_vendidos = ("Cantidad", "sum")
      )
      .sort_values(["Sucursal", "total_vendido"], ascending=[True, False])
      .reset_index()
)

display(resumen_suc_cat)


Unnamed: 0,Sucursal,Categoria,total_vendido,operaciones,ticket_prom,items_vendidos
0,Centro,Deportes,601044.98,11,54640.45,40
1,Centro,Electrónica,468863.94,7,66980.56,25
2,Centro,Hogar,341176.47,10,34117.65,30
3,Centro,Ropa,151472.06,5,30294.41,16
4,Centro,Librería,51948.82,8,6493.6,20
5,Norte,Electrónica,356251.02,7,50893.0,22
6,Norte,Deportes,283882.42,6,47313.74,18
7,Norte,Hogar,211546.3,7,30220.9,19
8,Norte,Ropa,169752.48,6,28292.08,19
9,Norte,Librería,42476.71,6,7079.45,16


# Tabla Pivote

Una **tabla pivote** es un **resumen dinámico** que toma registros "a lo largo" (muchas filas) y las **reorganiza en una matriz** para comparar segmentos.

Básicamente, se elige una **dimensión para las filas** (p. ej., Sucursal), otra **para las columnas** (p. ej., Categoría) y una **medida** a calcular en cada cruce (p. ej., suma de Importe).

Cada celda resulta de aplicar una función de **agregación** (sum, mean, count, etc.) sobre todos los registros que cumplan **fila + columna** al mismo tiempo.

Además, puede mostrar totales por fila y por columna.

> La gracia de la tabla pivote es **comparar de un vistazo** cómo se reparte la medida entre segmentos (filas y columnas), detectar concentraciones y huecos, y disponer de totales parciales y generales.

> No es un simple reordenamiento visual: **agrega** datos. Por eso importa elegir bien la medida: sumar **Importe** o **Cantidad** suele tener sentido; sumar un **precio unitario** o un **Promedio** no.

----

## Ejemplo 1:

Este ejemplo toma el resumen "largo" `resumen_suc_cat` (que ya tiene una fila por combinación única de `Sucursal` y `Categoria` con su `total_vendido`) y lo **reacomoda en forma de matriz**.

Primero, `pivot(index="Sucursal", columns="Categoria", values="total_vendido")` construye la tabla: las filas pasan a ser las sucursales, las columnas las categorías, y cada celda contiene el **total vendido** en ese cruce. Si alguna combinación no existía en el resumen, queda como faltante; `fillna(0)` lo reemplaza por **0** para que la lectura y los cálculos de totales sean directos.



In [19]:
tabla_pivote = (
    resumen_suc_cat
      .pivot(index="Sucursal", columns="Categoria", values="total_vendido")
      .fillna(0)
)

display(tabla_pivote)


Categoria,Deportes,Electrónica,Hogar,Librería,Ropa
Sucursal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Centro,601044.98,468863.94,341176.47,51948.82,151472.06
Norte,283882.42,356251.02,211546.3,42476.71,169752.48
Sur,281950.99,396883.95,274196.48,92336.78,220121.93


**Nota:** `pivot` asume que cada par (Sucursal, Categoria) aparece una sola vez; como partimos de un agregado, se cumple.

----

## Ejemplo 2:
Veamos como agregar totales:

* `tabla_pivote["Total_sucursal"] = tabla_pivote.sum(axis=1)` suma **en horizontal** todas las categorías de cada sucursal y crea una columna con el total por sucursal.

* `tabla_pivote.loc["Total_general"] = tabla_pivote.sum()` suma **en vertical** cada columna (cada categoría) y agrega una **fila final** con los totales por categoría;

* En la intersección `["Total_general", "Total_sucursal"]` queda el **gran total** del período..

In [11]:
tabla_pivote = (
    resumen_suc_cat
      .pivot(index="Sucursal", columns="Categoria", values="total_vendido")
      .fillna(0)
)

# Totales por fila y columna
tabla_pivote["Total_sucursal"] = tabla_pivote.sum(axis=1)
tabla_pivote.loc["Total_general"] = tabla_pivote.sum()

display(tabla_pivote)

Categoria,Deportes,Electrónica,Hogar,Librería,Ropa,Total_sucursal
Sucursal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Centro,601044.98,468863.94,341176.47,51948.82,151472.06,1614506.27
Norte,283882.42,356251.02,211546.3,42476.71,169752.48,1063908.93
Sur,281950.99,396883.95,274196.48,92336.78,220121.93,1265490.13
Total_general,1166878.39,1221998.91,826919.25,186762.31,541346.47,3943905.33


## Ejemplo con fechas:

En este ejemplo se trabaja sobre una columna que contiene fechas.

* Con `groupby([pd.Grouper(key="Fecha", freq="W-SUN"), "Categoria"])` se parte el dataset en **semanas que cierran el domingo** y, dentro de cada semana, se lo lo separa por **categoría**.

* Sobre cada grupo se calcula la **suma de `Importe`** (`total_vendido`), la **cantidad de filas** (`operaciones`) y el **promedio del ticket** (`ticket_prom`).

* Con `reset_index()` se deja semana y categoría como columnas, `rename` cambia el nombre de `Fecha` a `Fecha_Finde` (queda la fecha del domingo de cada semana).

* `sort_values` ordena cronológicamente y, dentro de cada semana, de mayor a menor facturación.

* Por último, se ajusta el formato de números y muestra la tabla.


In [20]:
# asegurar tipo datetime
df["Fecha"] = pd.to_datetime(df["Fecha"], errors="raise")

# Agrupación temporal: semanas que cierran el domingo (W-SUN) + categoría
res_sem_cat = (
    df.groupby([pd.Grouper(key="Fecha", freq="W-SUN"), "Categoria"])
      .agg(
          total_vendido = ("Importe", "sum"),
          operaciones   = ("Importe", "size"),
          ticket_prom   = ("Importe", "mean")
      )
      .reset_index()
      .rename(columns={"Fecha": "Fecha_Finde"})  # etiqueta de la semana = fecha del domingo
      .sort_values(["Fecha_Finde", "total_vendido"], ascending=[True, False])
)

pd.set_option("display.float_format", "{:,.2f}".format)  # salida legible
display(res_sem_cat)


Unnamed: 0,Fecha_Finde,Categoria,total_vendido,operaciones,ticket_prom
1,2025-09-07,Electrónica,463293.95,7,66184.85
0,2025-09-07,Deportes,312370.84,5,62474.17
4,2025-09-07,Ropa,109252.63,6,18208.77
2,2025-09-07,Hogar,97612.28,5,19522.46
3,2025-09-07,Librería,55107.74,6,9184.62
5,2025-09-14,Deportes,288882.2,6,48147.03
6,2025-09-14,Electrónica,236516.61,5,47303.32
7,2025-09-14,Hogar,135110.79,4,33777.7
9,2025-09-14,Ropa,97339.69,5,19467.94
8,2025-09-14,Librería,10981.64,2,5490.82


# Conclusiones y tips útiles:

**Agregaciones:**

* `count` cuenta no nulos de la columna elegida, mientras que `size` cuenta filas del grupo (incluye nulos).

* Si necesitás métricas "a medida", podés usar  `.agg` con funciones propias: por ejemplo, **precio promedio ponderado por cantidad**:


```python
precio_ppt = (df["Precio"] * df["Cantidad"]).sum() / df["Cantidad"].sum()
```

o por grupo:

```python
df.groupby("Categoria").apply(lambda g: np.average(g["Precio"], weights=g["Cantidad"]))
```

Las funciones de agregación ignoran `NaN` por defecto; si eso no te conviene, ajustá `skipna=False`.

**Agrupamientos:**

* Usá **named aggregation** para nombres claros y evitar MultiIndex en columnas:

```python
df.groupby("Categoria").agg(total=("Importe","sum"), ops=("Importe","size"))
```
Eso hace un **agrupamiento por** `Categoria` y, para cada categoría, calcula *dos métricas** usando `named aggregation`.


**Pivotes:**

* `pivot` **no agrega**: asume una fila por cruce. Si tenemos un dataframe desagregado (transacciones crudas), usamos `pivot_table` que **sí agrega** y resuelve duplicados:

```python
tabla = pd.pivot_table(
    df, index="Sucursal", columns="Categoria",
    values="Importe", aggfunc="sum", fill_value=0, margins=True, margins_name="Total"
)
```

* `margins=True` agrega totales por fila/columna. Para volver de "ancho" a "largo" existe `melt`, útil si más adelante es necesario re-agrupar o graficar.


**Series de tiempo:**

* Cuando el eje temporal importa, `Grouper` permite agrupar por mes/semana sin crear columnas auxiliares:

```python
df.groupby([pd.Grouper(key="Fecha", freq="W"), "Categoria"])["Importe"].sum()
```

**Presentación.** Evitamos notación científica y formatemos con separadores/decimales usando:

```python
pd.set_option("display.float_format", "{:,.2f}".format)
```
o para un objeto puntual:

```python
resumen.style.format({"total_vendido": "{:,.2f}"})
```
