## ¿Por qué usar Polars?

- Polars ejecuta mucho más rápido que Pandas y que otras librerías que trabajan con DataFrames
- Polars realiza una optimización de consultas automáticamente, lo que nos permitirá siempre obtener el mejor desempeño posible al realizar una consulta.

## Dataset

Para esta lección estaremos empleando el dataset **Chess Games** que se encuentra disponible en Kaggle. 

El dataset cuenta con más de 6 millones de filas y con 15 columnas

- 6_256_184 filas
- 15 columnas

[Ver dataset](https://www.kaggle.com/datasets/arevel/chess-games)

Este dataset es muy grande para adjuntarlo como recurso a esta lección pero aquí en el notebook estaremos dejándole el enlace por si desean consultarlo.

### Importar las librerías

In [None]:
import polars as pl
import pandas as pd

file_path = './data/chess_games.csv'

## Leer un archivo con Polars

In [None]:
pl.scan_csv(file_path).head(5).collect()

## Rapidez

Leer el dataset con Pandas sin optimizaciones

In [None]:
%%timeit -n1 -r1

pd.read_csv(file_path)

Leer el dataset con Polars

In [None]:
%%timeit -n1 -r1

pl.read_csv(file_path)

Leer el dataset con pandas seleccionando como engine `pyarrow` para obtener un mejor desempeño

In [None]:
%%timeit -n1 -r1

pd.read_csv(file_path, engine='pyarrow')

Podemos llegar a la conclusión de que Polars con sus configuraciones por defecto es mucho más rápido que Pandas inclusive con optimizaciones

## Optimización de consultas de forma automática

De forma predeterminada Polars optimiza las consultas que realicemos para obtener el mejor desempeño posible.

In [None]:
%%timeit -n1 -r1

(
    pl.scan_csv(file_path)
    .group_by('Event')
    .agg(
        min_elo_white=pl.col('WhiteElo').mean(),
        min_elo_black=pl.col('BlackElo').mean()
    )
    .collect()
)

In [None]:
%%timeit -n1 -r1

(
    pd.read_csv(file_path)
    .groupby('Event')
    .agg(
        {
            'WhiteElo': ['mean'],
            'BlackElo': ['mean']
        }
    )
)

In [None]:
%%timeit -n1 -r1

(
    pd.read_csv(file_path, engine='pyarrow', usecols=['Event', 'WhiteElo', 'BlackElo'])
    .groupby('Event')
    .agg(
        {
            'WhiteElo': ['mean'],
            'BlackElo': ['mean']
        }
    )
)