# Paquete Polars 

## Introdución

#### Polars es una librería que permite trabajar con datos.

### <ul>Se caracteriza por:</ul>
<li>Ser open-source</li>
<li>Funcionar con lenguaje Rust</li>
<li>Trabajar con distintos tipos y formatos (Json, SQL, Data Frames, csv)</li>
<li>Ser compatible con distintas librerías (numpy, plotly, etc)</li>
<li>Trabajar usando varios cores (núcleos) de un procesador</li>
<li>Ser estético (pero con cuadros no indexados)</li>
<br>
Entonces podemos hablar de una librería estética, práctica y rápida.
<br>
<img src="https://media.licdn.com/dms/image/D5612AQGgsf2IYeDHQQ/article-inline_image-shrink_1500_2232/0/1680839922335?e=1689206400&v=beta&t=-d4n7noPgLjq2Hq9ZZ-3BlGwcJi8uvi55-eoUXUBR3A" width = 500>

## Práctica
<h4>
    Trabajaremos con un archivo de prueba donde usaremos unas de las funciones más esenciales de esta librería. 
</h4>

<h3>
    1. Lectura y observación
</h3>

Polars tiene la capacidad de leer muchos formatos como excel, json, sql, csv, etc, en este caso usaremos un archivo .csv con el cual también testearemos la velocidad de esta librería.

In [63]:
import pandas as pd
import polars as pl
url = "https://raw.githubusercontent.com/JoaquinAmatRodrigo/Estadistica-machine-learning-python/master/data/sample_epd_201412.csv"

In [64]:
%%time
df_pd = pd.read_csv(url, sep=";")

CPU times: total: 406 ms
Wall time: 3.48 s


In [65]:
%%time
df = pl.read_csv(url, separator=";")

CPU times: total: 234 ms
Wall time: 2.63 s


<h3>
    1. Lectura
</h3>

Polars tiene la capacidad de leer muchos formatos como excel, json, sql, csv, etc, en este caso usaremos un archivo csv.

In [25]:
df = pl.read_csv(url, separator=";")
print(df)
print(type(df))

shape: (50_000, 26)
┌──────────┬────────────┬────────────┬────────────┬───┬──────────┬───────┬───────────┬────────────┐
│ YEAR_MON ┆ REGIONAL_O ┆ REGIONAL_O ┆ AREA_TEAM_ ┆ … ┆ ADQUSAGE ┆ NIC   ┆ ACTUAL_CO ┆ UNIDENTIFI │
│ TH       ┆ FFICE_NAME ┆ FFICE_CODE ┆ NAME       ┆   ┆ ---      ┆ ---   ┆ ST        ┆ ED         │
│ ---      ┆ ---        ┆ ---        ┆ ---        ┆   ┆ f64      ┆ f64   ┆ ---       ┆ ---        │
│ i64      ┆ str        ┆ str        ┆ str        ┆   ┆          ┆       ┆ f64       ┆ str        │
╞══════════╪════════════╪════════════╪════════════╪═══╪══════════╪═══════╪═══════════╪════════════╡
│ 201412   ┆ NORTH OF   ┆ Y54        ┆ GREATER    ┆ … ┆ 3.0      ┆ 4.5   ┆ 4.16564   ┆ N          │
│          ┆ ENGLAND    ┆            ┆ MANCHESTER ┆   ┆          ┆       ┆           ┆            │
│          ┆            ┆            ┆ AREA       ┆   ┆          ┆       ┆           ┆            │
│ 201412   ┆ NORTH OF   ┆ Y54        ┆ WEST       ┆ … ┆ 0.0      ┆ 8.8   ┆ 8.183

Si deseamos ver las características de tu DataFrame podemos usar:

In [27]:
print(df.shape) # Para ver el número de filas y columnas
df.describe() #Para ver una descripción completa de tu DataFrame


(50000, 26)


describe,YEAR_MONTH,REGIONAL_OFFICE_NAME,REGIONAL_OFFICE_CODE,AREA_TEAM_NAME,AREA_TEAM_CODE,PCO_NAME,PCO_CODE,PRACTICE_NAME,PRACTICE_CODE,ADDRESS_1,ADDRESS_2,ADDRESS_3,ADDRESS_4,POSTCODE,BNF_CHEMICAL_SUBSTANCE,CHEMICAL_SUBSTANCE_BNF_DESCR,BNF_CODE,BNF_DESCRIPTION,BNF_CHAPTER_PLUS_CODE,QUANTITY,ITEMS,TOTAL_QUANTITY,ADQUSAGE,NIC,ACTUAL_COST,UNIDENTIFIED
str,f64,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,str,f64,f64,f64,f64,f64,f64,str
"""count""",50000.0,"""50000""","""50000""","""50000""","""50000""","""50000""","""50000""","""50000""","""50000""","""50000""","""50000""","""50000""","""50000""","""50000""","""50000""","""50000""","""50000""","""50000""","""50000""",50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,"""50000"""
"""null_count""",0.0,"""0""","""0""","""0""","""0""","""0""","""0""","""0""","""0""","""24""","""2585""","""1111""","""7292""","""22""","""0""","""0""","""0""","""0""","""0""",0.0,0.0,0.0,0.0,0.0,0.0,"""0"""
"""mean""",201412.0,,,,,,,,,,,,,,,,,,,158.800484,5.0597,411.319542,120.445982,41.311326,38.300054,
"""std""",0.0,,,,,,,,,,,,,,,,,,,998.722709,16.986033,1836.927548,645.331458,112.181317,103.600127,
"""min""",201412.0,"""LONDON""","""-""","""ARDEN,HEREFORD…","""-""","""ADDACTION""","""-""","""(FRACTURE CLIN…","""-""","""-""","""& WELLBEING,EX…","""(OFF SOUTH HIL…","""-""","""-""","""0101010G0""","""Acamprosate ca…","""0101010G0AAABA…","""3M Micropore S…","""01: Gastro-Int…",0.5,1.0,0.5,0.0,0.01,0.06461,"""N"""
"""max""",201412.0,"""UNIDENTIFIED""","""Y57""","""WEST YORKSHIRE…","""Q70""","""YORK TEACHING …","""RYY00""","""ZETLAND MEDICA…","""Y04837""","""YPRES ROAD""","""ZACHARY MERTON…","""YORKLEY,LYDNEY…","""YORKSHIRE""","""YO8 9BX""","""2396""","""Zuclopenthixol…","""23965609646""","""palmdoc iCare …","""23: Stoma Appl…",45000.0,1152.0,115200.0,43007.99999,7256.56,6698.14673,"""Y"""
"""median""",201412.0,,,,,,,,,,,,,,,,,,,56.0,2.0,84.0,9.33333,12.65,11.86299,
"""25%""",201412.0,,,,,,,,,,,,,,,,,,,20.0,1.0,30.0,0.0,4.98,4.71941,
"""75%""",201412.0,,,,,,,,,,,,,,,,,,,100.0,4.0,224.0,56.0,35.97,33.23834,


<h3>
    2. Limpieza
</h3>

<h4>
    Para lograr una óptima distribución de datos.
</h4>

Como todo dataframe podemos dirigirnos hacia coordenadas específicas.

```python
    df([0,0])
```
Renombrar estas.
```python
    df = df.rename({"describe": "Describe"})
```

Hacer selección y exclusión de filas y/o columnas.
```python
    df = df.select([pl.col["YEAR_MONTH"]])

    print(df.select(
        [
            pl.exclude('YEAR_MONTH', 'NIC')
        ]     
    ))
```   
    Si necesitas operar una fila deberás usar la función select, mencionar una columna y agregarle la operación respectiva
```python
        df.select([pl.all(),
	    pl.col("ACTUAL_COST").sum())
```

Ordenar columnas de mayor a menor.
```python
    print(df.sort(by = "NIC", descending=True).head())
```
Filtrar valores
```python
    print(df.filter(
        (pl.col('NIC')<= 20) & (pl.col('ADQUSAJE') <= 100))
```

Y eliminar datos (como contar sus valores NaN)
```python
    df.drop(["YEAR_MONTH"].head()) #data frame nuevo
    df.drop_in_place(["YEAR_MONTH"].head()) #afecta al dataframe existente
```

<h3>
    3. Creación
</h3>

Con alias podemos entonces crear una nueva columna con tus especificaciones, TEN EN CUENTA QUE ESTO CREARÁ UN DATAFRAME NUEVO Y SI QUIERES QUE SE MANTENGA EN EL ORIGINAL LO TENDRÁS QUE ESPECIFICAR.

Más adelante veremos su uso práctico.

<h3>
    4. Trabajar con otras librerías
</h3>
Polars se adapta a trabajar con distintos paquetes como numpy y plotly que a medida que usen este paquete verán más adelante.

<img src="https://media.licdn.com/dms/image/D5612AQEa9t3yQ_rpKw/article-inline_image-shrink_1500_2232/0/1680839639281?e=1689206400&v=beta&t=j_Oq7i3qXNGv5GsFUyTCxcUjK6sCGbgwpqUCIrhvMDg" width = 850>
<img src="https://media.licdn.com/dms/image/D5612AQFADi9YmaHb2g/article-inline_image-shrink_1500_2232/0/1680839730807?e=1689206400&v=beta&t=xPeFdoFnL8ni0lzH3pPyea0NyBE1H_Ju_kzX8QQF1ik" width = 850>

Entonces con todo esto dicho, procederemos entonces a hacer un ejemplo más completo con el archivo que tenemos.

In [68]:
n = df.select([pl.all(),
	pl.col("ACTUAL_COST").sum().alias("ACTUAL_COST_SUM")]).head()
print(n)

shape: (5, 27)
┌──────────┬────────────┬────────────┬────────────┬───┬───────┬───────────┬────────────┬────────────┐
│ YEAR_MON ┆ REGIONAL_O ┆ REGIONAL_O ┆ AREA_TEAM_ ┆ … ┆ NIC   ┆ ACTUAL_CO ┆ UNIDENTIFI ┆ ACTUAL_COS │
│ TH       ┆ FFICE_NAME ┆ FFICE_CODE ┆ NAME       ┆   ┆ ---   ┆ ST        ┆ ED         ┆ T_SUM      │
│ ---      ┆ ---        ┆ ---        ┆ ---        ┆   ┆ f64   ┆ ---       ┆ ---        ┆ ---        │
│ i64      ┆ str        ┆ str        ┆ str        ┆   ┆       ┆ f64       ┆ str        ┆ f64        │
╞══════════╪════════════╪════════════╪════════════╪═══╪═══════╪═══════════╪════════════╪════════════╡
│ 201412   ┆ NORTH OF   ┆ Y54        ┆ GREATER    ┆ … ┆ 4.5   ┆ 4.16564   ┆ N          ┆ 1.9150e6   │
│          ┆ ENGLAND    ┆            ┆ MANCHESTER ┆   ┆       ┆           ┆            ┆            │
│          ┆            ┆            ┆ AREA       ┆   ┆       ┆           ┆            ┆            │
│ 201412   ┆ NORTH OF   ┆ Y54        ┆ WEST       ┆ … ┆ 8.8   ┆ 8.1

NOTA: Si queremos mostrar todas las columnas podemos ahorrarnos el select con with_columns

In [77]:
n = df.with_columns(
	[
		pl.sum("ACTUAL_COST").alias("ACTUAL_COST_SUM")
	]).head()
print(n)

shape: (5, 27)
┌──────────┬────────────┬────────────┬────────────┬───┬───────┬───────────┬────────────┬────────────┐
│ YEAR_MON ┆ REGIONAL_O ┆ REGIONAL_O ┆ AREA_TEAM_ ┆ … ┆ NIC   ┆ ACTUAL_CO ┆ UNIDENTIFI ┆ ACTUAL_COS │
│ TH       ┆ FFICE_NAME ┆ FFICE_CODE ┆ NAME       ┆   ┆ ---   ┆ ST        ┆ ED         ┆ T_SUM      │
│ ---      ┆ ---        ┆ ---        ┆ ---        ┆   ┆ f64   ┆ ---       ┆ ---        ┆ ---        │
│ i64      ┆ str        ┆ str        ┆ str        ┆   ┆       ┆ f64       ┆ str        ┆ f64        │
╞══════════╪════════════╪════════════╪════════════╪═══╪═══════╪═══════════╪════════════╪════════════╡
│ 201412   ┆ NORTH OF   ┆ Y54        ┆ GREATER    ┆ … ┆ 4.5   ┆ 4.16564   ┆ N          ┆ 1.9150e6   │
│          ┆ ENGLAND    ┆            ┆ MANCHESTER ┆   ┆       ┆           ┆            ┆            │
│          ┆            ┆            ┆ AREA       ┆   ┆       ┆           ┆            ┆            │
│ 201412   ┆ NORTH OF   ┆ Y54        ┆ WEST       ┆ … ┆ 8.8   ┆ 8.1

<h3>
    Conclusiones
</h3>
Polars es una librería que sirve para el trabajo con datos, puede mostrarse como un paquete no tan reconocido; sin embargo, eso no significa que las funciones que ofrezca sean pocas pues cada vez se está demostrando que las capacidades de esta librería son incluso mejores a las librerías tradicionales. Aquí se mostró una breve explicación sobre cómo enteder y trabajar con Polars, espero que con esto ya puedas empezar a practicar con este paquete.

<img src="https://media.tenor.com/Us7zpL-oxHoAAAAC/gato-baile-jajalol.gif">


<ul><h3>Bibliografía:</h3></ul>
<li><a href=https://towardsdatascience.com/speed-up-your-pandas-workflow-by-changing-a-single-line-of-code-11dfd85efcfb>Speed-up your Pandas Workflow by changing a single line of code</a></li>
<li><a href=https://www.linkedin.com/pulse/understanding-capabilities-polars-python-sumon-dey>Understanding the capabilities of Polars Python implementation</a></li>
<li><a href="https://www.jmgaguilera.com/rust_facil/04.html">Rust en espaniol facil</a></li>
<li><a href="https://www.youtube.com/watch?v=3RM3pWw2iRQ">Manipulación de Datos con #Polars en #python.</a></li>
<li><a href="https://www.youtube.com/shorts/vO8sAOrPNTw">Polars vs Pandas #shorts</a></li>