<a href="https://colab.research.google.com/github/financieras/polars/blob/main/Colab_Polars.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ¡Polars! 🐻‍❄️

> **Descripción:** Google Colab Notebook con el contenido introductorio para conocer cómo funciona Polars. <br>
> **Autor:** [David Pedroza Segoviano (Bubu)](https://github.com/BubuDavid) <br>
> **Contacto:** [@bubusaurio_rex](https://www.instagram.com/bubusaurio_rex/)


## Contenido

### **Introducción 🐻‍❄️**
- Instalación
- Tipos de datos
- Primeros Pasos: DataFrames
- Leer Archivos
- Contextos
- Expresiones

### **El verdadero poder 🧠**
- Funciones
- Agregaciones

### **Ejercicios 💪**
- A chambiar...

### Extras
- Lazy & eager API

# Introducción

## Instalación

Polars, se instala fácilmente como cualquier otro paquete de python, ya sea con ```pip``` o ```conda```, aquí se muestra el cómo se hace, sin embargo, **Google Colab** ya tiene instalado polars así que persé no es necesario. Vamos a hacerlo solo para practicar.

>En Notebooks como Google Colab o como Jupyter, para ejecutar command line commands (Comándos de línea de comandos 🤯), necesitamos poner un __!__ primero y después el o los comandos que queramos en esa línea.

In [1]:
!pip install polars



## Tipos de datos
Para nosotr@s es muy sencillo reconocer entre un número, una palabra, letras, fechas, estructuras, objetos, etc... Pero para las computadoras no, para ello se necesita hacer un listado y mapeo del tipo de dato que es un dato y relacionarlo con su correspondiente en representación máquina. Veamos la siguiente tabla sacada de la documentación oficial de [polars](https://docs.pola.rs/user-guide/concepts/data-types/overview/).

Veamos un par de ejemplos con código de polars, sirve que aprendemos a importarlo 😈.

In [2]:
import polars as pl

🤚 **¿Por qué pl? ¿Qué es ```as```? ¿Puedo hacer uso de otro término?**

In [None]:
# Contestar preguntas

In [6]:
# Ver los tipos de datos.
a = 28
b = 10e9
c = 'Hola'

print(a, type(a))
print(b, type(b))
print(c, type(c))

28 <class 'int'>
10000000000.0 <class 'float'>
Hola <class 'str'>


In [4]:
# Meh python tiene estadarizado sus tipos de datos a los más grandes y generales, eso no nos ayuda a entender qué es el 64 o 16, probemos con numpy
import numpy as np

a = np.int64(100)
b = np.float64(10e9)
c = np.str_("Hola")

print(a, type(a))
print(b, type(b))
print(c, type(c))

100 <class 'numpy.int64'>
10000000000.0 <class 'numpy.float64'>
Hola <class 'numpy.str_'>


In [10]:
# Casos de uso para los chiquis?
d = np.int8(127) # ([100], dtype=np.int8)
print(d, type(d))

127 <class 'numpy.int8'>


## Primeros pasos: DataFrames

Así como Python tiene sus listas o diccionarios, numpy tiene sus ndarrays, y pandas sus Series y DataFrames, la estructura inicial y funamental de polars son... LOS DATAFRAMES (También tiene Series, que es como una columna). No son iguales que en Pandas, pero son muy muy parecidos y esto es porque polars se basa en el manejo de datos estructurados (al igual que pandas).

Creemos nuestro primer dataframe en polars.

In [11]:
# Forma 1: Diccionarios
data = {
    'integer_column': [1, 2, 3, 4, 5],
    'float_column': [1.1, 2.2, 3.3, 4.4, 5.5],
    'date_column': ['2022-01-01', '2022-02-01', '2022-03-01', '2022-04-01', '2022-05-01'],
    'string_column': ['apple', 'banana', 'cherry', 'date', 'elderberry']
}

df = pl.DataFrame(data)

print(df)

shape: (5, 4)
┌────────────────┬──────────────┬─────────────┬───────────────┐
│ integer_column ┆ float_column ┆ date_column ┆ string_column │
│ ---            ┆ ---          ┆ ---         ┆ ---           │
│ i64            ┆ f64          ┆ str         ┆ str           │
╞════════════════╪══════════════╪═════════════╪═══════════════╡
│ 1              ┆ 1.1          ┆ 2022-01-01  ┆ apple         │
│ 2              ┆ 2.2          ┆ 2022-02-01  ┆ banana        │
│ 3              ┆ 3.3          ┆ 2022-03-01  ┆ cherry        │
│ 4              ┆ 4.4          ┆ 2022-04-01  ┆ date          │
│ 5              ┆ 5.5          ┆ 2022-05-01  ┆ elderberry    │
└────────────────┴──────────────┴─────────────┴───────────────┘


In [12]:
# Forma 2: Polar Series
integer_column = pl.Series("integer_column", [1, 2, 3, 4, 5], dtype = pl.Int16)
float_column = pl.Series("float_column", [1.1, 2.2, 3.3, 4.4, 5.5])
date_column = pl.Series("date_column", ['2022-01-01', '2022-02-01', '2022-03-01', '2022-04-01', '2022-05-01'])
string_column = pl.Series(['apple', 'banana', 'cherry', 'date', 'elderberry'])

df = pl.DataFrame([integer_column, float_column, date_column, string_column])

print(df)

shape: (5, 4)
┌────────────────┬──────────────┬─────────────┬────────────┐
│ integer_column ┆ float_column ┆ date_column ┆ column_3   │
│ ---            ┆ ---          ┆ ---         ┆ ---        │
│ i16            ┆ f64          ┆ str         ┆ str        │
╞════════════════╪══════════════╪═════════════╪════════════╡
│ 1              ┆ 1.1          ┆ 2022-01-01  ┆ apple      │
│ 2              ┆ 2.2          ┆ 2022-02-01  ┆ banana     │
│ 3              ┆ 3.3          ┆ 2022-03-01  ┆ cherry     │
│ 4              ┆ 4.4          ┆ 2022-04-01  ┆ date       │
│ 5              ┆ 5.5          ┆ 2022-05-01  ┆ elderberry │
└────────────────┴──────────────┴─────────────┴────────────┘


🤚 **¿Cuál es la ventaja?**

**⚒️ Ejercicio: Creen su propio DataFrame con 2 columnas como quieran, las que quieran que sean de tipos distintos**

In [13]:
import polars as pl

df = pl.DataFrame({
    'columna_1': [1, 2, 3, 4, 5],
    'columna_2': ['a', 'b', 'c', 'd', 'e'],
    'columna_3': [True, False, True, False, True],
    'columna_4': [1.1, 2.2, 3.3, 4.4, 5.5],
    'columna_5': ['2022-01-01', '2022-02-01', '2022-03-01', '2022-04-01', '2022-05-01']
})

print(df)

shape: (5, 5)
┌───────────┬───────────┬───────────┬───────────┬────────────┐
│ columna_1 ┆ columna_2 ┆ columna_3 ┆ columna_4 ┆ columna_5  │
│ ---       ┆ ---       ┆ ---       ┆ ---       ┆ ---        │
│ i64       ┆ str       ┆ bool      ┆ f64       ┆ str        │
╞═══════════╪═══════════╪═══════════╪═══════════╪════════════╡
│ 1         ┆ a         ┆ true      ┆ 1.1       ┆ 2022-01-01 │
│ 2         ┆ b         ┆ false     ┆ 2.2       ┆ 2022-02-01 │
│ 3         ┆ c         ┆ true      ┆ 3.3       ┆ 2022-03-01 │
│ 4         ┆ d         ┆ false     ┆ 4.4       ┆ 2022-04-01 │
│ 5         ┆ e         ┆ true      ┆ 5.5       ┆ 2022-05-01 │
└───────────┴───────────┴───────────┴───────────┴────────────┘


## Leer archivos

Muy probablemente pienses que crear dataframes desde 0 es muy poco útil y práctico, y estás en todo lo correcto, aprendamos a cómo leer archivos desde polars. Usemos este link: https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv

In [None]:
df = pl.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

print(df)

## Contextos

Polars ha desarrollado su propio lenguaje específico de dominio (DSL) para transformar datos. El lenguaje es muy fácil de usar y permite consultas complejas que siguen siendo legibles por humanos. Los dos componentes centrales del lenguaje son "Contextos" y "Expresiones".

Un contexto, como lo implica el nombre, se refiere al contexto en el que se debe evaluar una expresión. Hay tres contextos principales:

- Selección: `df.select(...)`, `df.with_columns(...)`
- Filtrado: `df.filter()`
- Agrupaciones y agregaciones: `df.groupby(..).agg(...)`

Revisemos algunos ejemplos. Imaginemos:

```
┌──────┬───────┬──────────┬────────┐
│ nrs  ┆ names ┆ random   ┆ groups │
│ ---  ┆ ---   ┆ ---      ┆ ---    │
│ i64  ┆ str   ┆ f64      ┆ str    │
╞══════╪═══════╪══════════╪════════╡
│ 1    ┆ foo   ┆ 0.154163 ┆ A      │
│ 2    ┆ ham   ┆ 0.74005  ┆ A      │
│ 3    ┆ spam  ┆ 0.263315 ┆ B      │
│ null ┆ egg   ┆ 0.533739 ┆ C      │
│ 5    ┆ null  ┆ 0.014575 ┆ B      │
└──────┴───────┴──────────┴────────┘
```

#### Contexto `select`

En este contexto, la selección aplica expresiones sobre columnas. Las expresiones en este contexto deben producir series que tengan la misma longitud o una longitud de 1.

Una selección puede producir nuevas columnas que son agregaciones, combinaciones de expresiones o literales.

```
┌─────┬───────┬────────────┬────────┐
│ nrs ┆ names ┆ first name ┆ 10xnrs │
│ --- ┆ ---   ┆ ---        ┆ ---    │
│ i64 ┆ str   ┆ str        ┆ f64    │
╞═════╪═══════╪════════════╪════════╡
│ 11  ┆ null  ┆ foo        ┆ 27.5   │
│ 11  ┆ egg   ┆ foo        ┆ 27.5   │
│ 11  ┆ foo   ┆ foo        ┆ 27.5   │
│ 11  ┆ ham   ┆ foo        ┆ 27.5   │
│ 11  ┆ spam  ┆ foo        ┆ 27.5   │
└─────┴───────┴────────────┴────────┘
```

#### Contexto `filter`

En este contexto, se filtra el marco de datos existente en función de la expresión arbitraria que se evalúa como el tipo de datos booleano.

```
Original:
┌──────┬───────┬──────────┬────────┬─────────┬───────┐
│ nrs  ┆ names ┆ random   ┆ groups ┆ nrs_sum ┆ count │
│ ---  ┆ ---   ┆ ---      ┆ ---    ┆ ---     ┆ ---   │
│ i64  ┆ str   ┆ f64      ┆ str    ┆ i64     ┆ u32   │
╞══════╪═══════╪══════════╪════════╪═════════╪═══════╡
│ 1    ┆ foo   ┆ 0.154163 ┆ A      ┆ 11      ┆ 5     │
│ 2    ┆ ham   ┆ 0.74005  ┆ A      ┆ 11      ┆ 5     │
│ 3    ┆ spam  ┆ 0.263315 ┆ B      ┆ 11      ┆ 5     │
│ null ┆ egg   ┆ 0.533739 ┆ C      ┆ 11      ┆ 5     │
│ 5    ┆ null  ┆ 0.014575 ┆ B      ┆ 11      ┆ 5     │
└──────┴───────┴──────────┴────────┴─────────┴───────┘
Filter:
┌─────┬───────┬──────────┬────────┬─────────┬───────┐
│ nrs ┆ names ┆ random   ┆ groups ┆ nrs_sum ┆ count │
│ --- ┆ ---   ┆ ---      ┆ ---    ┆ ---     ┆ ---   │
│ i64 ┆ str   ┆ f64      ┆ str    ┆ i64     ┆ u32   │
╞═════╪═══════╪══════════╪════════╪═════════╪═══════╡
│ 3   ┆ spam  ┆ 0.263315 ┆ B      ┆ 11      ┆ 5     │
│ 5   ┆ null  ┆ 0.014575 ┆ B      ┆ 11      ┆ 5     │
└─────┴───────┴──────────┴────────┴─────────┴───────┘
```


#### Contexto `groupby` / `aggregation`

En este contexto, las expresiones funcionan en grupos, por lo que pueden producir resultados de cualquier longitud (un grupo puede tener muchos miembros).

```
Original:
┌──────┬───────┬──────────┬────────┬─────────┬───────┐
│ nrs  ┆ names ┆ random   ┆ groups ┆ nrs_sum ┆ count │
│ ---  ┆ ---   ┆ ---      ┆ ---    ┆ ---     ┆ ---   │
│ i64  ┆ str   ┆ f64      ┆ str    ┆ i64     ┆ u32   │
╞══════╪═══════╪══════════╪════════╪═════════╪═══════╡
│ 1    ┆ foo   ┆ 0.154163 ┆ A      ┆ 11      ┆ 5     │
│ 2    ┆ ham   ┆ 0.74005  ┆ A      ┆ 11      ┆ 5     │
│ 3    ┆ spam  ┆ 0.263315 ┆ B      ┆ 11      ┆ 5     │
│ null ┆ egg   ┆ 0.533739 ┆ C      ┆ 11      ┆ 5     │
│ 5    ┆ null  ┆ 0.014575 ┆ B      ┆ 11      ┆ 5     │
└──────┴───────┴──────────┴────────┴─────────┴───────┘
GroupBy / Aggregation:
┌────────┬─────┬───────┬────────────┬────────────────┐
│ groups ┆ nrs ┆ count ┆ random_sum ┆ reversed names │
│ ---    ┆ --- ┆ ---   ┆ ---        ┆ ---            │
│ str    ┆ i64 ┆ u32   ┆ f64        ┆ list[str]      │
╞════════╪═════╪═══════╪════════════╪════════════════╡
│ C      ┆ 0   ┆ 1     ┆ 0.533739   ┆ ["egg"]        │
│ B      ┆ 8   ┆ 2     ┆ 0.263315   ┆ [null, "spam"] │
│ A      ┆ 3   ┆ 2     ┆ 0.894213   ┆ ["ham", "foo"] │
└────────┴─────┴───────┴────────────┴────────────────┘
```

## Expresiones

Polars cuenta con expresiones. Las expresiones son el núcleo de muchas operaciones de ciencia de datos y son el concepto fundamental de Polars para su rendimiento muy rápido.

Algunas de estas operaciones importantes en la ciencia de datos son:

- tomar una muestra de filas de una columna
- multiplicar valores en una columna
- extraer una columna de años a partir de fechas
- convertir una columna de cadenas a minúsculas
- ¡y más!

Sin embargo, las expresiones también se utilizan dentro de otras operaciones:

- tomar la media de un grupo en una operación `groupby`
- calcular el tamaño de los grupos en una operación `groupby`
- tomando la suma horizontalmente a través de las columnas

Polars realiza estas transformaciones de datos centrales muy rápidamente con:

- optimización automática de consultas en cada expresión
- paralelización automática de expresiones en muchas columnas

**Analicemos.** ¿Qué hace la siguiente sentencia?

In [None]:
out = pl.col("foo").sort().head(2)
print(out)

Una expresión regresa otra expresión, entonces podemos encadenar procesos de esa manera.
1. Selecciona la columna "foo"
2. Luego ordena la columna
3. Luego toma los primeros dos valores de la salida ordenada

 >El poder de las expresiones es que cada expresión produce una nueva expresión, y que pueden ser encadenadas. Puedes ejecutar una expresión pasándola a uno de los contextos de ejecución de Polars.

**🤚 ¿De dónde? ¿De qué?**

In [None]:
# Mini ejercicio. ¿Qué hace esto?
pl.col("random").sum().slice(10, 22)

## Muy bien, empecemos con lo verdaderamente interesante

In [None]:
df = pl.DataFrame(
    {
        "nrs": [1, 2, 3, None, 5],
        "names": ["David", "Missa", "Rodo", "Sara", None],
        "random": np.random.rand(5),
        "groups": ["A", "A", "B", "C", "B"],
    }
)
print(df)

In [None]:
# Context: select
out = df.select(
    pl.sum("nrs"),
    # pl.col("names").sort(),
    # pl.col("names").first().alias("first name"),
    # (pl.mean("nrs") * 10).alias("10xnrs"),
)
print(out)

In [None]:
# Contexto: filter
out = df.filter(pl.col("nrs") > 2)
print(out)

In [None]:
# Contexto group_by, agg
out = df.group_by("groups").agg(
    pl.sum("nrs"),
    # pl.col("random").count().alias("count"),
    # pl.col("random").filter(pl.col("names").is_not_null()).sum().name.suffix("_sum"),
    # pl.col("names").reverse().alias("reversed names"),
)
print(out)

### Group_by
Profundicemos más en group by y en las agregaciones

In [None]:
groups = df.group_by("groups")
print(out)

In [None]:
# Polars da la opción de visualizar estos grupos
for group, group_df in groups:
    print("Este es el grupo: ", group)
    print(group_df)

In [None]:
for group, group_df in groups:
    print("Este es el grupo: ", group)
    out = group_df.select(
        pl.col("nrs").sum().alias("sum_nrs")
    )
    print(out)

# El verdadero poder 🧠

## Funciones (Funciones)
Las expresiones de Polars tienen un gran número de funciones integradas. Estas te permiten crear consultas complejas sin la necesidad de funciones definidas por el usuario. Hay demasiadas para revisarlas todas aquí, pero cubriremos algunos de los casos de uso más populares. Si deseas ver todas las funciones, ve a la [Referencia de API](https://docs.pola.rs/user-guide/expressions/functions/) de Python.

En los ejemplos a continuación, utilizaremos el siguiente ```DataFrame```:

In [None]:
df = pl.DataFrame(
    {
        "nrs": [1, 2, 3, None, 5],
        "names": ["David", "Missa", "Rodo", "Sara", None],
        "random": np.random.rand(5),
        "groups": ["A", "A", "B", "C", "B"],
    }
)
print(df)

#### Nombrado de columnas
De forma predeterminada, si realizas una expresión, mantendrá el mismo nombre que la columna original. En el ejemplo a continuación, realizamos una expresión en la columna 'nrs'. Observa que el DataFrame de salida aún tiene el mismo nombre.

In [None]:
df_samename = df.select(pl.col("nrs") + 5)
print(df_samename)

Esto puede llegar a ser complicado porque estamos usando el mismo nombre que el DataFrame original aunque ya no representan lo mismo, además podríamos generar problemas, por ejemplo si hacemos lo mismo con dos columnas.

In [None]:
df_samename2 = df.select(
    pl.col("nrs") + 5,
    pl.col("nrs") - 5
)
print(df_samename2)

¡Podemos cambiar el nombre con la función / expresión, alias!

In [None]:
# Aber si muy muy, hazlo...

#### with_columns
Similar al comando `select`, el comando `with_columns` también entra en el tipo de contexto de selección. La principal diferencia entre `with_columns` y `select` es que `with_columns` retiene las columnas originales y agrega nuevas, mientras que `select` elimina las columnas originales.

In [None]:
out_select = df.select(
    pl.sum("nrs").alias("nrs_sum"),
    pl.col("random").count().alias("count"),
)

In [None]:
out_with = df.with_columns(
    pl.sum("nrs").alias("nrs_sum"),
    pl.col("random").count().alias("count"),
)

In [None]:
print(out_select)
print(out_with)

#### Contar valores únicos
Hay dos formas de contar valores únicos en Polars: una metodología exacta y una aproximación. La aproximación utiliza el algoritmo HyperLogLog++ para aproximar la cardinalidad y es especialmente útil para conjuntos de datos muy grandes donde una aproximación es suficiente.

In [None]:
df_alias = df.select(
    pl.col("names").n_unique().alias("unique"),
    pl.approx_n_unique("names").alias("unique_approx"),
)
print(df_alias)

#### Condicionales
Polars soporta condiciones tipo if-else en expresiones con la sintaxis when, then, otherwise. El predicado se coloca en la cláusula when y cuando esto se evalúa como verdadero, se aplica la expresión then; de lo contrario, se aplica la expresión otherwise (fila por fila).

In [None]:
df_conditional = df.select(
    pl.col("nrs"),
    pl.when(pl.col("nrs") > 2) # Hey como un if!
    .then(pl.lit(True))
    .otherwise(pl.lit(False)) # else
    .alias("conditional"),
)
print(df_conditional)

**🤚 ¿Qué significa ```pl.lit```?**

### Ejercicio 🦆: Iris!
Ya sé que todo el mundo usa el dataset de iris para ejercicios pero pues es que está chido.

In [None]:
df_iris = pl.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
# Voy a cambiar el nombre a las columnas
df_iris = df_iris.select(
    pl.col("sepal_length").alias("largo_sepalo"),
    pl.col("sepal_width").alias("ancho_sepalo"),
    pl.col("petal_length").alias("largo_petalo"),
    pl.col("petal_width").alias("ancho_petalo"),
    pl.col("species").alias("especie")
)

print(df_iris.head())

**¿Qué esquema tiene?**

In [None]:
# ¿Qué esquema tiene?

**Solo seleccionemos el largo del sépalo y el largo del pétalo, y sólo los últimos 5 registros.**

In [None]:
# Solo seleccionemos el largo del sépalo y el largo del pétalo, y sólo los últimos 5 registros. (Puedes hacerlo con regex?)

**¿Cómo podemos filtrar todas las flores que son virginica?**

In [None]:
# ¿Cómo podemos filtrar todas las flores que son virginica?

**Seleccionemos todas las columnas que no son la especie**

In [None]:
# Seleccionemos todas las columnas que no son la el ancho del pétalo

**Seleccionemos todas las que son float**

In [None]:
# Seleccionemos todas las que son float

**Añade una nueva columna llamada 'area_sepalo' la cual es el producto del largo del sépalo y el ancho del sépalo (así es, asumimos plantas cuadradas)**

In [None]:
# Añade una nueva columna llamada 'area_sepalo' la cual es el producto del largo del sépalo y el ancho del sépalo (así es, asumimos plantas cuadradas)

**Agrupar por especie: Agrupa los datos por la columna 'species' y calcula la media de 'sepal_length' y 'sepal_width' para cada grupo.**

In [None]:
# Agrupar por especie: Agrupa los datos por la columna 'especie' y calcula la media de 'largo_sépalo' y 'ancho_sépalo' para cada grupo.

**¿Crees que puedas ver los dataframes individuales de cada especie?**

In [None]:
# ¿Crees que puedas ver los dataframes individuales de cada especie?

**Contamos ocurrencias de cada especie**

In [None]:
# Contamos ocurrencias de cada especie

#### Ay buey, transformaciones más avanzadas
Vamos a hacer transformaciones de DS medio más perrillas.

**Normaliza el largo del sépalo y el ancho del sépalo usando [escalamiento min-max](https://nicolasurrego.medium.com/transformando-datos-en-oro-c%C3%B3mo-la-estandarizaci%C3%B3n-y-normalizaci%C3%B3n-mejoran-tus-resultados-fbe0840d2b94#:~:text=El%20Escalamiento%20Min%2DMax%2C%20tambi%C3%A9n,datos%20y%20el%20aprendizaje%20autom%C3%A1tico.).**

In [None]:
# Normaliza el largo del sépalo y el ancho del sépalo usando escalamiento min-max. (Haz que sean dos nuevas columnas llamadas igual pero con el sufijo "_norm"!)
out = df_iris.with_columns([
    ((pl.col('largo_sepalo') - pl.col('largo_sepalo').min()) /
     (pl.col('largo_sepalo').max() - pl.col('largo_sepalo').min())).name.suffix("_norm"),
    ((pl.col('ancho_sepalo') - pl.col('ancho_sepalo').min()) /
     (pl.col('ancho_sepalo').max() - pl.col('ancho_sepalo').min())).name.suffix('_norm')
])

print(out)

**Despivoteemos la tabla para que muestre como columnas las especies y como valores los anchos del sepalo**

In [None]:
# Despivoteemos la tabla para que muestre como columnas las especies y como valores los anchos del sepalo.
df_melted = df_iris.melt(id_vars=['especie'], variable_name="ancho_sepalo", value_vars="ancho_sepalo")
print(df_melted) # Meh ejemplo chafa...

In [None]:
# Ejemplo no tan chafa
import numpy as np

# Generando un dataframe con id de una persona, vendedores por ejemplo
np.random.seed(0)
data = {
    'id_persona': range(1, 11),  # Assuming 10 persons for the example
}

# Añadir datos de ventas por cada mes
months = ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio', 'Julio', 'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre']
for month in months:
    data[month] = np.random.randint(100, 1000, size=10)

# Crear el dataframe
df = pl.DataFrame(data)

print(df)

In [None]:
import matplotlib.pyplot as plt
plt.bar(df['id_persona'], df['Enero'])
plt.show()

**Pivotea esta tabla hasta que se vea una columna fecha, el valor del salario en esa fecha para cada id de persona.**

In [None]:
# pl.Config.set_tbl_rows(100)

In [None]:
# Pivotea esta tabla hasta que se vea una columna fecha, el valor del salario en esa fecha para cada id de persona.
out = df.melt(
    id_vars=['id_persona'],
    value_vars=['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio', 'Julio', 'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre'],
    variable_name='mes',
    value_name='salario'
)
print(out.filter(
    pl.col("id_persona") == 1
))

In [None]:
pl.Config.set_tbl_rows(5)

# Ejercicios 💪
## A chambiar

Estaremos poniendo en práctica lo aprendido con algunos ejercicios de [101 Pandas Exercises for Data Analysis](https://www.machinelearningplus.com/python/101-pandas-exercises-python/).

In [None]:
# ¿Cómo combinar múltiples dfs en un DataFrame?
df1 = pl.DataFrame({"letras": list("abcedfghijklmnopqrstuvwxyz")})
df2 = pl.DataFrame({"nums": np.arange(len(df1))})

print(df1, df2)

In [None]:
out = pl.concat([df1, df2], how = "horizontal")

print(out)

In [None]:
# ¿Cómo calcular el número de caracteres de cada palabra en un DataFrame?
df = pl.DataFrame({"palabras": ["esta", "es", "una", "palabra"]})
print(df)

In [None]:
out = df.with_columns(
    pl.col("palabras").str.len_chars().alias("Cuenta")
)

print(out)

In [None]:
# ¿Cómo convertir una cadena año-mes a fechas que comiencen en el 11 de cada mes?
df = pl.DataFrame(['Jan 2010', 'Feb 2011', 'Mar 2012'], schema = ["date"])
print(df)

In [None]:
out = df.with_columns(
    ('11 ' + pl.col("date")).str.to_date("%d %b %Y").alias("datetime")
)

print(out)

#### Ejercicio más 🐕
**Instrucción**: Lee el archivo en formato ```csv``` llamado ```ayuda.csv```.
Imprime un polars DataFrame cuya primera columna sea el id de la ciudad de salida, en la segunda columna esté el id de ciudad de entrada más cercana, en la tercera columna esté la distancia y en la cuarta columna esté la dirección correcta a la que tengo que ir.

# Extras
## Eager vs. Lazy

In [None]:
!wget https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv

In [None]:
%time
df = pl.read_csv("iris.csv")
df_small = df.filter(pl.col("sepal_length") > 5)
df_agg = df_small.group_by("species").agg(pl.col("sepal_width").mean())
print(df_agg)

In [None]:
%time
q = (
    pl.scan_csv("iris.csv")
    .filter(pl.col("sepal_length") > 5)
    .group_by("species")
    .agg(pl.col("sepal_width").mean())
)

df = q.collect()

print(df)