[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Métodos ```groupby()```.

*Pandas* cuenta con una funcionalidad que permite agrupar los datos idénticos en una columna o un renglón de un *dataframe* .


Tanto las series como los dataframes de *Pandas* cuentan con un método ```groupby()```.

* El método ```df.groupby()``` regresa un objeto ```pd.core.groupby.generic.DataFrameGroupBy```.
* El método ```pd.Series.groupby()``` regresa un objeto ```pd.core.groupby.generic.SeriesGroupBy```.

In [None]:
import pandas as pd
from datetime import datetime

## *Dataframe* ilustrativo.

* La siguiente celda creará al dataframe ```facturas``` con la estructura de columnas:

 * ```'folio'```.
 * ```'sucursal'```.
 * ```'monto'```.
 * ```'fecha'```.
 * ```'cliente'```.

In [None]:
facturas = pd.DataFrame({'folio':(15234, 
                      15235, 
                      15236, 
                      15237, 
                      15238, 
                      15239, 
                      15240,
                      15241,
                      15242),
             'sucursal':('CDMX01',
                         'MTY01',
                         'CDMX02',
                         'CDMX02',
                         'MTY01',
                         'GDL01',
                         'CDMX02',
                         'MTY01',
                         'GDL01'),
             'monto':(1420.00,
                     1532.00,
                     890.00,
                     1300.00,
                     3121.47,
                     1100.5,
                     12230,
                     230.85,
                     1569),
             'fecha':(datetime(2019,3,11,17,24),
                     datetime(2019,3,24,14,46),
                     datetime(2019,3,25,17,58),
                     datetime(2019,3,27,13,11),
                     datetime(2019,3,31,10,25),
                     datetime(2019,4,1,18,32),
                     datetime(2019,4,3,11,43),
                     datetime(2019,4,4,16,55),
                     datetime(2019,4,5,12,59)),
            'cliente':(19234,
                       19232,
                       19235,
                       19233,
                       19236,
                       19237,
                       19232,
                       19233,
                       19232)
                        })

In [None]:
facturas

## El método ```df.groupby()```.

El método regresa un objeto de tipo ```pd.core.groupby.generic.DataFrameGroupBy``` al que se s sólo como `DataFrameGroupBy`. Este objeto es un contenedor de los grupos que se formaron a partir de la agrupación.

```
df.groupby(by=<índice>, axis=<eje>, group_keys=True)
```
Donde:

* ```<índice>``` corresponde al índice de la columna o índice del renglón en el que se realizará la agrupación.
* El argumento ```axis``` indicará el eje al que se aplicará el método. El valor por defecto es ```1```.
* El argumento ```group_keys``` le indica al método que use los valores de agrupamiento como llaves. El valor por defecto es ```False```, pero se recomienda asignarle el valor ```True```.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html

* La siguiente celda agrupará aquellos elementos en los que el valor de la columna ```facturas['cliente']``` sean iguales.

In [None]:
clientes = facturas.groupby("cliente", group_keys=True)

In [None]:
clientes

In [None]:
clientes["fecha"]

### Iteraciones sobre los objetos agrupados.

Los objetos instanciados de ```DataFrameGroupBy``` son iteradores que contienen a objetos de tipo ```tuple``` resultantes de la agrupación.

**Ejemplo:**

* La siguiente celda creará un objeto tipo ```list``` llamado ```clientes_agrupados``` a patir del objeto ```cliente```.

In [None]:
lista_clientes = list(clientes)
lista_clientes

In [None]:
list(clientes["fecha"])

* La siguiente celda regresará al *datafame* que corresponde al segundo elemento de la tupla ```lista_clientes[0]```.

In [None]:
lista_clientes[0]

In [None]:
lista_clientes[0][1]

In [None]:
lista_clientes[0][1]["fecha"]

### Seleccionar columnas de objetos agrupados.

Una vez que se ha agrupado un *dataframe* es posible seleccionar una o varias columnas de los objetos agrupados.

```
<obj>[<columna>]
```
Donde:
* ```<obj>``` corresponde al objeto agrupado.
* ```<columna>``` corresponde a la columna que se desea seleccionar.

También es posible seleccionar varias columnas a la vez:

```
<obj>[[<col_1>, <col_2>, ...<col_n>]]
```
Donde:
* ```<obj>``` corresponde al objeto agrupado.
* ```<col_i>``` corresponden a las columnas que se desean seleccionar.

**Ejemplo:**

* La siguiente celda regresará un listado de los elementos agrupados, pero sólo se incluirá a las columnas ```'fecha'``` y ```'monto'```.

In [None]:
list(clientes[["fecha", "monto"]])

**Ejemplo:**

### El atributo `indices`.

El atributo `indices` de los objetos agrupados regresa un diccionario con los grupos formados a partir de la agrupación. Las llaves del diccionario corresponden a los valores únicos de la columna o índice del renglón que se usó para agrupar, mientras que los valores del diccionario corresponden a un arreglo con los índices de las filas o columnas que conforman cada grupo.

**Ejemplos:**

* La siguiente celda regresará al atributo ```clientes.indices```, el cual es un objeto de tipo ```dict``` donde las claves corresponden a cada valor de agrupación y los valores corresponden a un arreglo que enumera los índices en donde se encontró dicho valor de agrupación.

In [None]:
clientes.indices

* La siguiente celda regresará una serie en el que el índice corresponden a cada valor de agrupación y los valores corresponden al numero de elementos agrupados del objeto ```cliente```.

### El método `size()`.

El método `size()` de los objetos agrupados regresa una serie en el que el índice corresponden a cada valor de agrupación y los valores corresponden al numero de elementos agrupados del objeto.

```
<obj>.size()
```
Donde:
* ```<obj>``` corresponde al objeto agrupado.

In [None]:
clientes.size()

### El atributo `groups`.

El atributo `groups` de los objetos agrupados regresa un diccionario con los grupos formados a partir de la agrupación. Las llaves del diccionario corresponden a los valores únicos de la columna o índice del renglón que se usó para agrupar, mientras que los valores del diccionario corresponden a un arreglo con los índices de las filas o columnas que conforman cada grupo.

In [None]:
clientes.groups

### El método `get_group()`.
El método `get_group()` de los objetos agrupados regresa un *dataframe* o una serie con los elementos que conforman el grupo que se le indique como argumento.

```
obj.get_group(<grupo>)
```
Donde:
* `obj` corresponde al objeto agrupado.
* `<grupo>` corresponde a la clave del grupo que se desea obtener.

**Ejemplo:**

In [None]:
clientes.get_group(19232)

In [None]:
clientes["fecha"].get_group(19232)

## Métodos de agregación.

Los métodos de agregación permiten realizar operaciones estadísticas sobre los grupos formados a partir de la agrupación. Algunos de los métodos de agregación más comunes son:

* `mean()`: regresa el promedio de los valores de cada grupo.
* `sum()`: regresa la suma de los valores de cada grupo.
* `count()`: regresa el número de elementos de cada grupo.
* `min()`: regresa el valor mínimo de cada grupo.
* `max()`: regresa el valor máximo de cada grupo.
* `std()`: regresa la desviación estándar de cada grupo.
* `var()`: regresa la varianza de cada grupo.
* `median()`: regresa la mediana de cada grupo.

La referencia de los métodos de agregación se encuentra en la siguiente liga:

https://pandas.pydata.org/pandas-docs/stable/reference/groupby.html#groupby-aggregate

* La siguiente celda regresará un *dataframe* en el que el índice corresponden a cada valor de agrupación y los valores corresponden a la media estadística de los valores agrupados de cada columna restante del *dataset* original de ```clientes```.
* El parámetro ```numeric_only=True``` le indica al método que aplique el cálculo sólo a aquellas columnas que contengan valores numéricos.

In [None]:
clientes.mean(numeric_only=True)

* La siguiente celda aplicará el método ```mean()``` a ```clientes['monto']```.

In [None]:
clientes['monto'].mean(numeric_only=True)

### Métodos de graficación.

Los objetos agrupados cuentan con un método de graficación que permite graficar los grupos formados a partir de la agrupación. El método de graficación se llama `plot()` y se puede usar para crear diferentes tipos de gráficos, como gráficos de barras, gráficos de líneas, gráficos de dispersión, entre otros.

```obj.plot(kind=<tipo_de_grafico>, <argumentos_adicionales>)
```
Donde:
* `obj` corresponde al objeto agrupado.
* `<tipo_de_grafico>` corresponde al tipo de gráfico que se desea crear. Algunos de los tipos de gráficos más comunes son:
  * `bar`: gráfico de barras.
  * `line`: gráfico de líneas.
  * `scatter`: gráfico de dispersión.
* `<argumentos_adicionales>` corresponden a los argumentos adicionales que se le pueden pasar al método de graficación para personalizar el gráfico, como el título, las etiquetas de los ejes, el tamaño de la figura, entre otros.

La referencia del método de graficación se encuentra en la siguiente liga:

https://pandas.pydata.org/pandas-docs/stable/reference/groupby.html#groupby-plotting

* La siguiente celda trazará un histograma a partir de los valores en la columna ```"monto"``` de cada elemento agrupado.

In [None]:
clientes.hist(column="monto")

* La siguiente celda aplicará una función que divida a cada valor entre ```1000```.

### El método `apply()`.

El método `apply()` de los objetos agrupados permite aplicar una función personalizada a cada grupo formado a partir de la agrupación.

```obj.apply(<func>)
```
Donde:
* `obj` corresponde al objeto agrupado.
* `<func>` corresponde a la función personalizada que se desea aplicar a cada grupo.

In [None]:
clientes['monto'].apply(func=lambda x: x / 100)

## Window Functions (Funciones de Ventana).

Las funciones de ventana (window functions) permiten realizar cálculos sobre **rangos dinámicos de filas** en un DataFrame, manteniendo el contexto original.

A diferencia de `groupby()`, que **reduce** filas, las window functions **mantienen la forma** del DataFrame original.

### Diferencia clave:

```python
# groupby() - Reduce filas (resultado: 3 grupos)
df.groupby('region')['ventas'].sum()  # Resultado: 3 filas

# window function - Mantiene filas (resultado: todas las filas + valor de ventana)
df['ventas_acumuladas'] = df.groupby('region')['ventas'].cumsum()  # Resultado: todas las filas
```

https://pandas.pydata.org/docs/user_guide/window.html

### Ejemplo de datos para window functions

In [None]:
# Dataset para ejemplos de window functions
ventas_df = pd.DataFrame({
    'fecha': pd.date_range('2024-01-01', periods=12),
    'region': ['Norte', 'Norte', 'Norte', 'Norte',
               'Sur', 'Sur', 'Sur', 'Sur',
               'Este', 'Este', 'Este', 'Este'],
    'ventas': [100, 150, 120, 180,
               200, 250, 220, 300,
               150, 180, 160, 200]
})
ventas_df

### 1. Funciones de desplazamiento: `shift()` y `diff()`

In [None]:
# shift() - Desplazar valores (útil para comparar con fila anterior)
ventas_df['ventas_anterior'] = ventas_df.groupby('region')['ventas'].shift(1)
ventas_df[['fecha', 'region', 'ventas', 'ventas_anterior']]


In [None]:
# diff() - Diferencia entre valores (cambio respecto a fila anterior)
ventas_df['cambio_ventas'] = ventas_df.groupby('region')['ventas'].diff()
ventas_df[['fecha', 'region', 'ventas', 'cambio_ventas']]


### 2. Funciones acumulativas: `cumsum()`, `cummax()`, `cummin()`

In [None]:
# cumsum() - Suma acumulada por grupo
ventas_df['ventas_acumuladas'] = ventas_df.groupby('region')['ventas'].cumsum()
ventas_df[['fecha', 'region', 'ventas', 'ventas_acumuladas']]


In [None]:
# cummax() - Máximo acumulado por grupo
ventas_df['max_hasta_ahora'] = ventas_df.groupby('region')['ventas'].cummax()

# cummin() - Mínimo acumulado por grupo
ventas_df['min_hasta_ahora'] = ventas_df.groupby('region')['ventas'].cummin()

ventas_df[['fecha', 'region', 'ventas', 'max_hasta_ahora', 'min_hasta_ahora']]


### 3. Funciones de ranking: `rank()`, `ngroup()`

In [None]:
# rank() - Ranking dentro de cada grupo
ventas_df['rank_ventas'] = ventas_df.groupby('region')['ventas'].rank(ascending=False)
ventas_df[['fecha', 'region', 'ventas', 'rank_ventas']]


In [None]:
# ngroup() - Número de grupo (útil para identificar grupos numéricamente)
ventas_df['num_grupo'] = ventas_df.groupby('region').ngroup()
ventas_df[['fecha', 'region', 'num_grupo']].head(8)


### 4. Rolling windows (ventanas móviles)

In [None]:
# rolling() - Ventana móvil de 3 períodos
ventas_df['media_movil_3'] = ventas_df.groupby('region')['ventas'].transform(
    lambda x: x.rolling(window=3, min_periods=1).mean()
)

ventas_df[['fecha', 'region', 'ventas', 'media_movil_3']]


In [None]:
# Suma móvil
ventas_df['suma_movil_2'] = ventas_df.groupby('region')['ventas'].transform(
    lambda x: x.rolling(window=2, min_periods=1).sum()
)

ventas_df[['fecha', 'region', 'ventas', 'suma_movil_2']]


### 5. Expanding windows (ventanas expansivas)

In [None]:
# expanding() - Ventana que crece desde el inicio
ventas_df['promedio_expandido'] = ventas_df.groupby('region')['ventas'].transform(
    lambda x: x.expanding().mean()
)

# Desviación estándar expandida
ventas_df['std_expandida'] = ventas_df.groupby('region')['ventas'].transform(
    lambda x: x.expanding().std()
)

ventas_df[['fecha', 'region', 'ventas', 'promedio_expandido', 'std_expandida']]


### 6. Comparación: Pandas vs Polars Window Functions

In [None]:
comparacion_windowing = '''# PANDAS: Window functions con groupby + transform
import pandas as pd

# Suma acumulada
df['cum_sum'] = df.groupby('region')['ventas'].cumsum()

# Ranking
df['rank'] = df.groupby('region')['ventas'].rank()

# Media móvil
df['media_movil'] = df.groupby('region')['ventas'].transform(
    lambda x: x.rolling(3).mean()
)

---

# POLARS: Window functions más explícitas y legibles
import polars as pl

# Suma acumulada
df_pl.with_columns(
    cum_sum=pl.col('ventas').cum_sum().over('region')
)

# Ranking
df_pl.with_columns(
    rank=pl.col('ventas').rank().over('region')
)

# Media móvil
df_pl.with_columns(
    media_movil=pl.col('ventas').rolling_mean(window_size=3).over('region')
)

# VENTAJA POLARS:
# - Sintaxis más limpia (over() explícito)
# - Más funciones window nativas
# - Mejor rendimiento con datasets grandes
# - Lazy evaluation permite optimización
'''

print(comparacion_windowing)

### 7. Caso de uso: Análisis de tendencias de ventas

In [None]:
# Ejemplo completo: Análisis de tendencias
analisis = ventas_df.copy()

# Agregar múltiples window functions
analisis['ventas_anterior'] = analisis.groupby('region')['ventas'].shift(1)
analisis['cambio'] = analisis['ventas'] - analisis['ventas_anterior']
analisis['cambio_pct'] = (analisis['cambio'] / analisis['ventas_anterior'] * 100).round(2)
analisis['media_movil_2'] = analisis.groupby('region')['ventas'].transform(
    lambda x: x.rolling(2, min_periods=1).mean()
)
analisis['rank'] = analisis.groupby('region')['ventas'].rank(ascending=False)

# Mostrar resultado
analisis[['fecha', 'region', 'ventas', 'cambio_pct', 'media_movil_2', 'rank']]


## Resumen: Window Functions vs GroupBy

| Operación | GroupBy | Window Function |
|-----------|---------|------------------|
| **Reduce filas** | ✅ Sí | ❌ No |
| **Mantiene índice original** | ❌ No | ✅ Sí |
| **Contexto de fila anterior** | ❌ No | ✅ Sí (shift) |
| **Comparaciones relativas** | ❌ Difícil | ✅ Fácil |
| **Análisis de tendencias** | ❌ No | ✅ Sí |
| **Ranking dentro de grupo** | ❌ No | ✅ Sí (rank) |

**Usa Window Functions cuando:**
* Necesites comparar cada fila con la anterior/siguiente
* Requieras métricas acumulativas o móviles
* Necesites ranking dentro de grupos
* Hagas análisis de tendencias o detección de anomalías

## Métodos de posición y acceso: `idxmax()`, `idxmin()`, `first()`, `last()`.

### 1. `idxmax()` e `idxmin()` - Encontrar índices del máximo y mínimo

In [None]:
# Encontrar el índice donde ocurre el máximo de ventas por región
# (no el valor máximo, sino la posición/índice)
max_indices = ventas_df.groupby('region')['ventas'].idxmax()
print("Índices donde ocurren las ventas máximas por región:")
print(max_indices)
print("\nFila completa del máximo de cada región:")
ventas_df.loc[max_indices]


In [None]:
# idxmin() - Encontrar el índice del mínimo
min_indices = ventas_df.groupby('region')['ventas'].idxmin()
print("Índices donde ocurren las ventas mínimas por región:")
print(min_indices)
print("\nFila completa del mínimo de cada región:")
ventas_df.loc[min_indices]


**Caso de uso:** "¿En qué fecha ocurrió la venta máxima de cada región?" 

A diferencia de `max()` que devuelve el valor (100, 200, 150), `idxmax()` devuelve **dónde** ocurre (índice/fecha).

### 2. `first()` y `last()` - Primer y último valor por grupo

In [None]:
# first() - Primer valor de cada grupo
primeras_ventas = ventas_df.groupby('region')['ventas'].first()
print("Primeras ventas de cada región:")
print(primeras_ventas)


In [None]:
# last() - Último valor de cada grupo
ultimas_ventas = ventas_df.groupby('region')['ventas'].last()
print("Últimas ventas de cada región:")
print(ultimas_ventas)

# Cambio desde primera a última venta
cambio_periodo = ultimas_ventas - primeras_ventas
print("\nCambio de primera a última venta:")
print(cambio_periodo)


**Caso de uso:** Análisis temporal - "¿Cómo cambió cada región de la primera a la última observación?"

## Agregación nombrada (Named Aggregation) - Sintaxis moderna

La **agregación nombrada** es una forma moderna y explícita de hacer agregaciones con nombres claros.

### Comparación: Sintaxis antigua vs moderna

```python
# ANTIGUA (aún funciona, pero menos legible)
df.groupby('region')[['ventas', 'clientes']].agg({
    'ventas': ['sum', 'mean'],
    'clientes': 'sum'
})

# MODERNA (Named Aggregation - recomendado)
df.groupby('region').agg(
    total_ventas=('ventas', 'sum'),
    promedio_ventas=('ventas', 'mean'),
    total_clientes=('clientes', 'sum')
)
```

**Ventajas:**
* Nombres de columnas explícitos
* Más legible y mantenible
* Evita índices MultiIndex confusos

In [None]:
# Ejemplo de Named Aggregation
resultado = ventas_df.groupby('region').agg(
    total_ventas=('ventas', 'sum'),
    promedio_ventas=('ventas', 'mean'),
    max_ventas=('ventas', 'max'),
    min_ventas=('ventas', 'min'),
    cantidad_registros=('ventas', 'count')
)
resultado


In [None]:
# Acceder a columnas específicas del resultado
print("Total de ventas por región:")
print(resultado['total_ventas'])

print("\nPromedio de ventas:")
print(resultado['promedio_ventas'])


### Named Aggregation con funciones personalizadas

In [None]:
# Named aggregation combina bien con funciones lambda
resultado_custom = ventas_df.groupby('region').agg(
    total_ventas=('ventas', 'sum'),
    desv_std=('ventas', 'std'),
    coef_variacion=('ventas', lambda x: x.std() / x.mean()),  # CV = std/media
    rango=('ventas', lambda x: x.max() - x.min())  # Max - Min
)
resultado_custom.round(2)


**Ventaja:** Nombres explícitos en lugar de tuplas confusas o índices MultiIndex.

## Resumen: Métodos útiles para groupby()

In [None]:
import pandas as pd

resumen_metodos = pd.DataFrame({
    'Método': [
        'agg() / aggregate()',
        'sum(), mean(), count()',
        'min(), max()',
        'std(), var()',
        'first(), last()',
        'idxmax(), idxmin()',
        'nlargest(), nsmallest()',
        'size()',
        'transform()',
        'apply()',
        'shift(), diff()',
        'cumsum(), rank()'
    ],
    'Propósito': [
        'Agregación flexible con múltiples funciones',
        'Operaciones estadísticas básicas',
        'Extremos de los datos',
        'Variabilidad de los datos',
        'Primer y último valor del grupo',
        'Índice donde ocurren extremos',
        'Top N valores sin ordenar todo',
        'Número de filas por grupo',
        'Mantener índice original (window)',
        'Función personalizada por grupo',
        'Comparaciones temporales',
        'Acumulativos y rankings'
    ],
    'Reduce filas': [
        'Sí', 'Sí', 'Sí', 'Sí', 'Sí', 'Sí', 'Sí', 'Sí',
        'No', 'Sí', 'No', 'No'
    ]
})

print("Métodos de groupby() disponibles:")
print(resumen_metodos.to_string(index=False))


<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2017-2026.</p>