---
title: "Polars"
subtitle: "Polars es una librer√≠a de DataFrames incre√≠blemente r√°pida y eficiente implementada en Rust."

author: "Francisco Alfaro"
date: "2022-05-25"
categories: [python, data-analysis]
image: "../images/polars.png"
---


# Polars

<br>

## Introducci√≥n

[Polars](https://github.com/pola-rs/polars) es una librer√≠a de DataFrames incre√≠blemente r√°pida implementada en [Rust](https://github.com/rust-lang/rust) utilizando [Arrow Columnar Format](https://arrow.apache.org/docs/format/Columnar.html) de Apache como modelo de memoria.


* Lazy | eager execution
* Multi-threaded
* SIMD (Single Instruction, Multiple Data)
* Query optimization
* Powerful expression API
* Rust | Python 

Esta secci√≥n tiene como objetivos presentarle *Polars* a trav√©s de ejemplos y compar√°ndolo con otras soluciones.

> **Nota**: Si usted no esta familiarizado con la manipulaci√≥n de datos en Python, se recomienda partir leyendo sobre la librer√≠a de [Pandas](https://pandas.pydata.org/docs/). Tambi√©n, se deja como referencia mi curso de [Manipulaci√≥n de Datos](https://fralfaro.github.io/python_eda/docs/index.html).

## Primeros Pasos

### Instalaci√≥n

Para instalar **Polars**, necesitar√° usar la l√≠nea de comando. Si ha instalado Anaconda, puede usar:

```
conda install -c conda-forge polars
```

De lo contrario, puede instalar con pip:


```
pip install polars
```

> **Nota**: Todos los binarios est√°n preconstruidos para Python v3.6+.

## Rendimiento
*Polars* es muy r√°pido y, de hecho, es una de las mejores soluciones disponibles. Tomemos como referencia [db-benchmark](https://h2oai.github.io/db-benchmark/) de h2oai. Esta p√°gina tiene como objetivo comparar varias herramientas similares a bases de datos populares en la ciencia de datos de c√≥digo abierto. Se ejecuta regularmente con las √∫ltimas versiones de estos paquetes y se actualiza autom√°ticamente.

Tambi√©n se incluye la sintaxis que se cronometra junto con el tiempo. De esta manera, puede ver de inmediato si est√° realizando estas tareas o no, y si las diferencias de tiempo le importan o no. Una diferencia de 10x puede ser irrelevante si eso es solo 1s frente a 0,1s en el tama√±o de sus datos.

A modo de ejemplo, veamos algunos ejemplos de *performances* de distintas librer√≠as para ejecutar distintos tipos de tareas sobre datasets con distintos tama√±os. Para el caso de tareas b√°sicas sobre un dataset de **50 GB**, *Polars* supera a librer√≠as espacializadas en distribuci√≥n de Dataframes como *Spark* (143 segundos vs 568 segundos). Por otro lado, librer√≠as conocidas en Python como *Pandas* o *Dask* se tiene el problema de **out of memory**.

![](https://raw.githubusercontent.com/fralfaro/blog/main/posts/images/polars/db-benchmark.png)

## Expresiones en Polars

Polars tiene un poderoso concepto llamado expresiones. Las expresiones polares se pueden usar en varios contextos y son un mapeo funcional de `Fn(Series) -> Series`, lo que significa que tienen `Series` como entrada y `Series` como salida. Al observar esta definici√≥n funcional, podemos ver que la salida de un `Expr` tambi√©n puede servir como entrada de un `Expr`.

Eso puede sonar un poco extra√±o, as√≠ que vamos a dar un ejemplo.

La siguiente es una expresi√≥n:

```python
pl.col("foo").sort().head(2)
```

El fragmento anterior dice seleccionar la columna `"foo"`, luego ordenar esta columna y luego tomar los primeros 2 valores de la salida ordenada. El poder de las expresiones es que cada expresi√≥n produce una nueva expresi√≥n y que se pueden canalizar juntas. Puede ejecutar una expresi√≥n pas√°ndola en uno de los contextos de ejecuci√≥n polares. Aqu√≠ ejecutamos dos expresiones ejecutando `df.select`:

```python
df.select([
     pl.col("foo").sort().head(2),
     pl.col("barra").filter(pl.col("foo") == 1).sum()
])
```

Todas las expresiones se ejecutan en paralelo. (Tenga en cuenta que dentro de una expresi√≥n puede haber m√°s paralelizaci√≥n).

### Expresiones

En esta secci√≥n veremos algunos ejemplos, pero primero vamos a crear un conjunto de datos:

In [1]:
import polars as pl
import numpy as np

In [2]:
np.random.seed(12)

df = pl.DataFrame(
    {
        "nrs": [1, 2, 3, None, 5],
        "names": ["foo", "ham", "spam", "egg", None],
        "random": np.random.rand(5),
        "groups": ["A", "A", "B", "C", "B"],
    }
)
print(df)

shape: (5, 4)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ nrs  ‚îÜ names ‚îÜ random   ‚îÜ groups ‚îÇ
‚îÇ ---  ‚îÜ ---   ‚îÜ ---      ‚îÜ ---    ‚îÇ
‚îÇ i64  ‚îÜ str   ‚îÜ f64      ‚îÜ str    ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï°
‚îÇ 1    ‚îÜ foo   ‚îÜ 0.154163 ‚îÜ A      ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ 2    ‚îÜ ham   ‚îÜ 0.74     ‚îÜ A      ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ 3    ‚îÜ spam  ‚îÜ 0.263315 ‚îÜ B      ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ null ‚îÜ egg   ‚îÜ 0.533739 ‚îÜ C      ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ

Puedes hacer mucho con las expresiones, veamos algunos ejemplos:

#### Contar valores √∫nicos

Podemos contar los valores √∫nicos en una columna. Tenga en cuenta que estamos creando el mismo resultado de diferentes maneras. Para no tener nombres de columna duplicados en el DataFrame, usamos una expresi√≥n de `alias`, que cambia el nombre de una expresi√≥n.

In [3]:
out = df.select(
    [
        pl.col("names").n_unique().alias("unique_names_1"),
        pl.col("names").unique().count().alias("unique_names_2"),
    ]
)
print(out)

shape: (1, 2)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ unique_names_1 ‚îÜ unique_names_2 ‚îÇ
‚îÇ ---            ‚îÜ ---            ‚îÇ
‚îÇ u32            ‚îÜ u32            ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï°
‚îÇ 5              ‚îÜ 5              ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò


### Varias agregaciones
Podemos hacer varias agregaciones. A continuaci√≥n mostramos algunas de ellas, pero hay m√°s, como `median`, `mean`, `first`, etc.

In [4]:
out = df.select(
    [
        pl.sum("random").alias("sum"),
        pl.min("random").alias("min"),
        pl.max("random").alias("max"),
        pl.col("random").max().alias("other_max"),
        pl.std("random").alias("std dev"),
        pl.var("random").alias("variance"),
    ]
)
print(out)

shape: (1, 6)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ sum      ‚îÜ min      ‚îÜ max  ‚îÜ other_max ‚îÜ std dev  ‚îÜ variance ‚îÇ
‚îÇ ---      ‚îÜ ---      ‚îÜ ---  ‚îÜ ---       ‚îÜ ---      ‚îÜ ---      ‚îÇ
‚îÇ f64      ‚îÜ f64      ‚îÜ f64  ‚îÜ f64       ‚îÜ f64      ‚îÜ f64      ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï°
‚îÇ 1.705842 ‚îÜ 0.014575 ‚îÜ 0.74 ‚îÜ 0.74      ‚îÜ 0.293209 ‚îÜ 0.085971 ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò


### Filtro y condicionales
Tambi√©n podemos hacer cosas bastante complejas. En el siguiente fragmento, contamos todos los nombres que terminan con la cadena `"am"`.

In [5]:
out = df.select(
    [
        pl.col("names").filter(pl.col("names").str.contains(r"am$")).count(),
    ]
)
print(out)

shape: (1, 1)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ names ‚îÇ
‚îÇ ---   ‚îÇ
‚îÇ u32   ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï°
‚îÇ 2     ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò


### Funciones binarias y modificaci√≥n

En el ejemplo a continuaci√≥n, usamos un condicional para crear una nueva expresi√≥n `when -> then -> otherwise`. 

La funci√≥n `when()` requiere una expresi√≥n de predicado (y, por lo tanto, conduce a una `serie booleana`), luego espera una expresi√≥n que se usar√° en caso de que el predicado se eval√∫e como verdadero y, de lo contrario, espera una expresi√≥n que se usar√° en caso de que el predicado se eval√∫e. 

Tenga en cuenta que puede pasar cualquier expresi√≥n, o simplemente expresiones base como `pl.col("foo")`, `pl.lit(3)`, `pl.lit("bar")`, etc.

Finalmente, multiplicamos esto con el resultado de una expresi√≥n de suma.

In [6]:
out = df.select(
    [
        pl.when(pl.col("random") > 0.5).then(0).otherwise(pl.col("random")) * pl.sum("nrs"),
    ]
)
print(out)

shape: (5, 1)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ literal  ‚îÇ
‚îÇ ---      ‚îÇ
‚îÇ f64      ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï°
‚îÇ 1.695791 ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ 0.0      ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ 2.896465 ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ 0.0      ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ 0.160325 ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò


### Expresiones de ventana

Una expresi√≥n polar tambi√©n puede hacer un `GROUPBY`, `AGGREGATION` y `JOIN` impl√≠citos en una sola expresi√≥n. 

En los ejemplos a continuaci√≥n, hacemos un `GROUPBY` sobre `"groups"` y `AGREGATE SUM` de `"random"`, y en la siguiente expresi√≥n `GROUPBY OVER` `"names"` y `AGREGATE` una lista de `"random"`. Estas funciones de ventana se pueden combinar con otras expresiones y son una forma eficaz de determinar estad√≠sticas de grupo. Vea m√°s expresiones en el siguiente [link](https://pola-rs.github.io/polars/py-polars/html/reference/expression.html#aggregation).

In [7]:
out = df[
    [
        pl.col("*"),  # select all
        pl.col("random").sum().over("groups").alias("sum[random]/groups"),
        pl.col("random").list().over("names").alias("random/name"),
    ]
]
print(out)

shape: (5, 6)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ nrs  ‚îÜ names ‚îÜ random   ‚îÜ groups ‚îÜ sum[random]/groups ‚îÜ random/name ‚îÇ
‚îÇ ---  ‚îÜ ---   ‚îÜ ---      ‚îÜ ---    ‚îÜ ---                ‚îÜ ---         ‚îÇ
‚îÇ i64  ‚îÜ str   ‚îÜ f64      ‚îÜ str    ‚îÜ f64                ‚îÜ list [f64]  ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï°
‚îÇ 1    ‚îÜ foo   ‚îÜ 0.154163 ‚îÜ A      ‚îÜ 0.894213           ‚îÜ [0.154163]  ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§


## GroupBy

### Un enfoque multiproceso

Una de las formas m√°s eficientes de procesar datos tabulares es paralelizar su procesamiento a trav√©s del enfoque "dividir-aplicar-combinar". Esta operaci√≥n es el n√∫cleo de la implementaci√≥n del agrupamiento de *Polars*, lo que le permite lograr operaciones ultrarr√°pidas. M√°s espec√≠ficamente, las fases de "divisi√≥n" y "aplicaci√≥n" se ejecutan de forma multiproceso.

Una operaci√≥n de agrupaci√≥n simple se toma a continuaci√≥n como ejemplo para ilustrar este enfoque:

![](https://raw.githubusercontent.com/fralfaro/blog/main/posts/images/polars/polar_split.PNG)

Para las operaciones hash realizadas durante la fase de "divisi√≥n", Polars utiliza un enfoque sin bloqueo de subprocesos m√∫ltiples que se ilustra en el siguiente esquema:

![](https://raw.githubusercontent.com/fralfaro/blog/main/posts/images/polars/polar_multi.PNG)

¬°Esta paralelizaci√≥n permite que las operaciones de agrupaci√≥n y uni√≥n (por ejemplo) sean incre√≠blemente r√°pidas!

### ¬°No mates la paralelizaci√≥n!

Todos hemos escuchado que *Python* es lento y "no escala". Adem√°s de la sobrecarga de ejecutar el c√≥digo de bytes "lento", Python debe permanecer dentro de las restricciones del [Global interpreter lock (GIL)](https://realpython.com/python-gil/). Esto significa que si se usa la operaci√≥n `lambda` o una funci√≥n de Python personalizada para aplicar durante una fase de paralelizaci√≥n, la velocidad de *Polars* se limita al ejecutar el c√≥digo de *Python*, lo que evita que varios subprocesos ejecuten la funci√≥n.

Todo esto se siente terriblemente limitante, especialmente porque a menudo necesitamos esos `lambda` en un paso  `.groupby()`, por ejemplo. Este enfoque a√∫n es compatible con *Polars*, pero teniendo en cuenta el c√≥digo de bytes Y el precio `GIL` deben pagarse.

Para mitigar esto, *Polars* implementa una poderosa sintaxis definida no solo en su `lazy`, sino tambi√©n en su uso `eager`.

### Expresiones polares
En la introducci√≥n de la p√°gina anterior, discutimos que el uso de funciones personalizadas de Python eliminaba la paralelizaci√≥n y que podemos usar las expresiones de la API diferida para mitigar esto. Echemos un vistazo a lo que eso significa.

Comencemos con el conjunto de datos simple del [congreso de EE. UU.](https://github.com/unitedstates/congress-legislators)

In [8]:
import polars as pl

dataset = pl.read_csv("legislators-current.csv")
dataset = dataset.with_column(pl.col("birthday").str.strptime(pl.Date))
print(dataset.head())

shape: (5, 34)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ last_name ‚îÜ first_name ‚îÜ middle_name ‚îÜ suffix ‚îÜ ... ‚îÜ ballotpedia_id ‚îÜ washington_post_id ‚îÜ icpsr_id ‚îÜ wikipedia_id   ‚îÇ
‚îÇ ---       ‚îÜ ---        ‚îÜ ---         ‚îÜ ---    ‚îÜ     ‚îÜ ---            ‚îÜ ---                ‚îÜ ---      ‚îÜ ---            ‚îÇ
‚îÇ str       ‚îÜ str        ‚îÜ str         ‚îÜ str    ‚îÜ     ‚îÜ str            ‚îÜ str                ‚îÜ i64      ‚îÜ str            ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

### Agregaciones b√°sicas
Puede combinar f√°cilmente diferentes agregaciones agregando varias expresiones en una lista. No hay un l√≠mite superior en el n√∫mero de agregaciones que puede hacer y puede hacer cualquier combinaci√≥n que desee. En el fragmento a continuaci√≥n, hacemos las siguientes agregaciones:

Por grupo `"first_name"`:

* cuente el n√∫mero de filas en el grupo:
    * forma abreviada: `pl.count("party")`
    * forma completa: `pl.col("party").count()`
* agregue el grupo de valores de g√©nero a una lista:
    * forma completa: `pl.col("gender").list()`
* obtenga el primer valor de la columna `"last_name"` en el grupo:
    * forma abreviada: `pl.primero("last_name")`
    * forma completa: `pl.col("last_name").first()`

Adem√°s de la agregaci√≥n, clasificamos inmediatamente el resultado y lo limitamos a los 5 principales para que tengamos un buen resumen general.

In [9]:
q = (
    dataset.lazy()
    .groupby("first_name")
    .agg(
        [
            pl.count(),
            pl.col("gender").list(),
            pl.first("last_name"),
        ]
    )
    .sort("count", reverse=True)
    .limit(5)
)

df = q.collect()
print(df)

shape: (5, 4)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ first_name ‚îÜ count ‚îÜ gender              ‚îÜ last_name ‚îÇ
‚îÇ ---        ‚îÜ ---   ‚îÜ ---                 ‚îÜ ---       ‚îÇ
‚îÇ str        ‚îÜ u32   ‚îÜ list [str]          ‚îÜ str       ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï°
‚îÇ John       ‚îÜ 19    ‚îÜ ["M", "M", ... "M"] ‚îÜ Barrasso  ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ Mike       ‚îÜ 13    ‚îÜ ["M", "M", ... "M"] ‚îÜ Kelly     ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå

### Condicionales
Ok, eso fue bastante f√°cil, ¬øverdad? Subamos un nivel. Digamos que queremos saber cu√°ntos delegados de un "estado" (`state`) son administraci√≥n "Democrat" o "Republican". Podr√≠amos consultarlo directamente en la agregaci√≥n sin la necesidad de `lambda` o arreglar el DataFrame.

In [10]:
q = (
    dataset.lazy()
    .groupby("state")
    .agg(
        [
            (pl.col("party") == "Democrat").sum().alias("demo"),
            (pl.col("party") == "Republican").sum().alias("repu"),
        ]
    )
    .sort("demo", reverse=True)
    .limit(5)
)

df = q.collect()
print(df)

shape: (5, 3)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ state ‚îÜ demo ‚îÜ repu ‚îÇ
‚îÇ ---   ‚îÜ ---  ‚îÜ ---  ‚îÇ
‚îÇ str   ‚îÜ u32  ‚îÜ u32  ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï°
‚îÇ CA    ‚îÜ 44   ‚îÜ 10   ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ NY    ‚îÜ 21   ‚îÜ 8    ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ IL    ‚îÜ 15   ‚îÜ 5    ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ TX    ‚îÜ 13   ‚îÜ 25   ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ NJ    ‚îÜ 12   ‚îÜ 2    ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò


Por supuesto, tambi√©n se podr√≠a hacer algo similar con un `GROUPBY` anidado, pero eso no me permitir√≠a mostrar estas caracter√≠sticas agradables. üòâ

In [11]:
q = (
    dataset.lazy()
    .groupby(["state", "party"])
    .agg([pl.count("party").alias("count")])
    .filter((pl.col("party") == "Democrat") | (pl.col("party") == "Republican"))
    .sort("count", reverse=True)
    .limit(5)
)

df = q.collect()
print(df)

shape: (5, 3)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ state ‚îÜ party      ‚îÜ count ‚îÇ
‚îÇ ---   ‚îÜ ---        ‚îÜ ---   ‚îÇ
‚îÇ str   ‚îÜ str        ‚îÜ u32   ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï°
‚îÇ CA    ‚îÜ Democrat   ‚îÜ 44    ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ TX    ‚îÜ Republican ‚îÜ 25    ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ NY    ‚îÜ Democrat   ‚îÜ 21    ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ FL    ‚îÜ Republican ‚îÜ 18    ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ IL    ‚îÜ Democrat   ‚îÜ 15    ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò


### Filtraci√≥n
Tambi√©n podemos filtrar los grupos. Digamos que queremos calcular una media por grupo, pero no queremos incluir todos los valores de ese grupo y tampoco queremos filtrar las filas del `DataFrame` (porque necesitamos esas filas para otra agregaci√≥n).

En el siguiente ejemplo, mostramos c√≥mo se puede hacer eso. Tenga en cuenta que podemos hacer funciones de *Python* para mayor claridad. Estas funciones no nos cuestan nada. Esto se debe a que solo creamos `Polars expression`, no aplicamos una funci√≥n personalizada sobre `Series` durante el tiempo de ejecuci√≥n de la consulta.

In [12]:
from datetime import date

def compute_age() -> pl.Expr:
    return date(2021, 1, 1).year - pl.col("birthday").dt.year()


def avg_birthday(gender: str) -> pl.Expr:
    return compute_age().filter(pl.col("gender") == gender).mean().alias(f"avg {gender} birthday")

In [13]:
q = (
    dataset.lazy()
    .groupby(["state"])
    .agg(
        [
            avg_birthday("M"),
            avg_birthday("F"),
            (pl.col("gender") == "M").sum().alias("# male"),
            (pl.col("gender") == "F").sum().alias("# female"),
        ]
    )
    .limit(5)
)

df = q.collect()
print(df)

shape: (5, 5)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ state ‚îÜ avg M birthday ‚îÜ avg F birthday ‚îÜ # male ‚îÜ # female ‚îÇ
‚îÇ ---   ‚îÜ ---            ‚îÜ ---            ‚îÜ ---    ‚îÜ ---      ‚îÇ
‚îÇ str   ‚îÜ f64            ‚îÜ f64            ‚îÜ u32    ‚îÜ u32      ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï°
‚îÇ MS    ‚îÜ 60.0           ‚îÜ 62.0           ‚îÜ 5      ‚îÜ 1        ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ NV    ‚îÜ 55.5           ‚îÜ 61.75          ‚îÜ 2      ‚îÜ 4        ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå

### Sorting
A menudo veo que se ordena un DataFrame con el √∫nico prop√≥sito de ordenar durante la operaci√≥n `GROUPBY`. Digamos que queremos obtener los nombres de los pol√≠ticos m√°s antiguos y m√°s j√≥venes (no es que todav√≠a est√©n vivos) por estado, podr√≠amos `ORDENAR` y `AGRUPAR`.

In [14]:
def get_person() -> pl.Expr:
    return pl.col("first_name") + pl.lit(" ") + pl.col("last_name")


q = (
    dataset.lazy()
    .sort("birthday")
    .groupby(["state"])
    .agg(
        [
            get_person().first().alias("youngest"),
            get_person().last().alias("oldest"),
        ]
    )
    .limit(5)
)

df = q.collect()

print(df)

shape: (5, 3)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ state ‚îÜ youngest                 ‚îÜ oldest                   ‚îÇ
‚îÇ ---   ‚îÜ ---                      ‚îÜ ---                      ‚îÇ
‚îÇ str   ‚îÜ str                      ‚îÜ str                      ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï°
‚îÇ PR    ‚îÜ Jenniffer Gonz√°lez-Col√≥n ‚îÜ Jenniffer Gonz√°lez-Col√≥n ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚î§
‚îÇ ND    ‚îÜ John Hoeven              ‚îÜ Kelly Armstrong          ‚îÇ
‚îú‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚îº‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚ïå‚

## Referencias

* [Polars - User Guide](https://pola-rs.github.io/polars-book/user-guide/)
* [Polars - Github](https://github.com/pola-rs/polars)