# Lectura 26: DataFrame - GroupBy

In [None]:
import polars as pl

In [None]:
df = pl.DataFrame(
    {
        'color': ['rojo', 'verde', 'rojo', 'azul', 'negro', 'azul', 'rojo'],
        'conteo': [2,5,3,4,5,1,2],
        'puntos': [2.3, 1.2, 3.9, 2.0, 7.4, 5.5, 1.6]
    }
)

df

### Iterar sobre los grupos luego de un `group_by`

Cuando agrupamos podemos iterar sobre los grupos generados. Cada grupo es representado por una tupla del tipo (nombre, datos).

In [None]:
for nombre, datos in df.group_by('color'):
    print(nombre)
    print(datos)

### Varias agregaciones

Para realizar agregaciones sobre un DataFrame primero debemos realizar un agrupado con la función `group_by` y luego utilizar la función `agg`.

In [None]:
df.group_by('color').agg(
    pl.col('conteo').sum().alias('sum_conteos')
)

Calculemos varias agregaciones. Podemos usar `name.suffix` para agregar un sufijo e identificar las agregaciones.

In [None]:
df.group_by('color').agg(
    pl.col('conteo').sum().name.suffix('_sum'),
    pl.col('puntos').mean().name.suffix('_mean')
)

Podemos usar palabras claves para nombrar las agregaciones también.

In [None]:
df.group_by('color').agg(
    media_conteos=pl.col('conteo').mean(),
    suma_puntos=pl.col('puntos').sum()
)

### Operaciones sobre grupos

#### Agregar los valores de los grupos en una Serie

In [None]:
df.group_by('color').all()

#### Conteo del número de valores de cada grupo

In [None]:
df.group_by('color').count()

#### Conteo del número de valores únicos de cada grupo

In [None]:
df.group_by('color').n_unique()

#### Obtener el primer y el último valor del grupo

In [None]:
df.group_by('color').first()

In [None]:
df.group_by('color').last()

#### Obtener las n primeras filas de cada grupo

In [None]:
df.group_by('color').head(2)

### Máximo, mínimo, suma, media y mediana de cada grupo

Las funciones `max`, `min`, `sum`, `mean` y `median` calculan el máximo, mínimo, suma, media y mediana respectivamente de cada grupo.

In [None]:
df.group_by('color').max()

In [None]:
df.group_by('color').sum()

In [None]:
df.group_by('color').mean()