# Manipulación de archivos y datos por medio de Polars

La librería Polars se encarga del tratamiento de datos y conjuntos de datos, demostrando desempeños varias veces más veloz que Pandas.

La primera actividad a concretar es la instalación de la librería con el comando a través de pip.
Cabe señalar que la utilización del signo de porcentaje en esta línea, es para que la librería sea instalada en el entorno del mismo Jupyter.

In [73]:
%pip install polars

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


Continuamos con la importación de la librería. Además, importaremos la librería Pandas para realizar algunas comparaciones de velocidad.

In [74]:
import polars as pl
import pandas as pd

La primera revisión que haremos de esta librería, es la velocidad de lectura de un archivo CSV. Este archivo lo he utilizado en distintas ocasiones por lo que tiene un formato conocido.

In [75]:
%%time
pl_data = pl.read_csv("iris.csv")

CPU times: total: 0 ns
Wall time: 993 µs


In [76]:
%%time
pd_data = pd.read_csv("iris.csv")

CPU times: total: 0 ns
Wall time: 3 ms


Prácticamente la librería Polars demora menos de la mitad del tiempo que Pandas.

In [77]:
pl_data.head()

sepal.length,sepal.width,petal.length,petal.width,variety
f64,f64,f64,f64,str
5.1,3.5,1.4,0.2,"""Setosa"""
4.9,3.0,1.4,0.2,"""Setosa"""
4.7,3.2,1.3,0.2,"""Setosa"""
4.6,3.1,1.5,0.2,"""Setosa"""
5.0,3.6,1.4,0.2,"""Setosa"""


In [78]:
pd_data.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


Además, al revisar el Head de ambos dataframes generados en la lectura, podemos apreciar que internamente Polars ya ha identificado los tipos de datos que hay en cada columna.

In [79]:
pl_data.describe()

describe,sepal.length,sepal.width,petal.length,petal.width,variety
str,f64,f64,f64,f64,str
"""count""",150.0,150.0,150.0,150.0,"""150"""
"""null_count""",0.0,0.0,0.0,0.0,"""0"""
"""mean""",5.843333,3.057333,3.758,1.199333,
"""std""",0.828066,0.435866,1.765298,0.762238,
"""min""",4.3,2.0,1.0,0.1,"""Setosa"""
"""25%""",5.1,2.8,1.6,0.3,
"""50%""",5.8,3.0,4.4,1.3,
"""75%""",6.4,3.3,5.1,1.8,
"""max""",7.9,4.4,6.9,2.5,"""Virginica"""


In [80]:
pd_data.describe()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


En el método describe, también podemos apreciar que no deja fuera los valores no numéricos, ofreciendo un análisis más simple o en otro caso, un paso menos.

A continuación, revisaremos algunas de las opciones más comunes utilizadas en el trabajo con datos. Por ejemplo, la selección de subconjuntos de un DataFrame.

En el siguiente apartado mostramos cómo se pueden filtrar las columnas según nombre.

In [81]:
pl_data.select([pl.col(["sepal.length", "sepal.width"])]).head()

sepal.length,sepal.width
f64,f64
5.1,3.5
4.9,3.0
4.7,3.2
4.6,3.1
5.0,3.6


También podemos implementar funciones sobre las mismas selecciones. En este caso, implementaremos la función SUM.

In [82]:
pl_data.select([pl.col(["sepal.length", "sepal.width"])]).sum()

sepal.length,sepal.width
f64,f64
876.5,458.6


In [83]:
pl_data.groupby(
    ["variety"]
).agg([
    pl.count().alias("Cantidad"),
    pl.col("sepal.length").mean().alias("Promedio"),
    pl.col("sepal.length").min().alias("Mínimo"),
    pl.col("sepal.length").std().alias("Standar"),
    pl.col("sepal.length").max().alias("Máximo")
])

  pl_data.groupby(


variety,Cantidad,Promedio,Mínimo,Standar,Máximo
str,u32,f64,f64,f64,f64
"""Virginica""",50,6.588,4.9,0.63588,7.9
"""Setosa""",50,5.006,4.3,0.35249,5.8
"""Versicolor""",50,5.936,4.9,0.516171,7.0


La velocidad y las opciones de entrega de datos que ofrece Polars son muy buenas y simples de realizar.

En algunas ocasiones, al utilizar Pandas, uno de los puntos más complicados de diferenciar eran iloc y loc. En el caso de Polars, no están disponibles estas funciones, pero por el contrario, posee opciones más sencillas para seleccionar filas y columnas en específico. Siempre entregando el formato DataFrame en sus salidas.

In [84]:
# Aquí se puede apreciar el cómo se obtiene una fila (sexta) sin mayor problema
pl_data[5,:]

sepal.length,sepal.width,petal.length,petal.width,variety
f64,f64,f64,f64,str
5.4,3.9,1.7,0.4,"""Setosa"""


In [85]:
# También podemos obtener varias filas según sus índices. Para ello indicaremos los índices entre corchetes.
pl_data[[0,15,100], :]

sepal.length,sepal.width,petal.length,petal.width,variety
f64,f64,f64,f64,str
5.1,3.5,1.4,0.2,"""Setosa"""
5.7,4.4,1.5,0.4,"""Setosa"""
6.3,3.3,6.0,2.5,"""Virginica"""


In [86]:
# Para seleccionar una sección del DataFrame, [desde, hasta]
pl_data[135:139, :]

sepal.length,sepal.width,petal.length,petal.width,variety
f64,f64,f64,f64,str
7.7,3.0,6.1,2.3,"""Virginica"""
6.3,3.4,5.6,2.4,"""Virginica"""
6.4,3.1,5.5,1.8,"""Virginica"""
6.0,3.0,4.8,1.8,"""Virginica"""


Como se espera, también se pueden obtener porciones de columnas como se muestra a continuación.

In [87]:
# Le añadiré head(10) para limitar la cantidad de registros.
pl_data[:,2:5].head(10)

petal.length,petal.width,variety
f64,f64,str
1.4,0.2,"""Setosa"""
1.4,0.2,"""Setosa"""
1.3,0.2,"""Setosa"""
1.5,0.2,"""Setosa"""
1.4,0.2,"""Setosa"""
1.7,0.4,"""Setosa"""
1.4,0.3,"""Setosa"""
1.5,0.2,"""Setosa"""
1.4,0.2,"""Setosa"""
1.5,0.1,"""Setosa"""


In [88]:
# Obviamente se puede llevar al extremo de extraer un sólo valor.
pl_data[3,4]

'Setosa'

In [89]:
#También podemos traerla con formato de DF
pl_data[3,[4]]

variety
str
"""Setosa"""


En cuanto a presentación de datos hemos usado también una función muy útil: alias(). Esta función permite crear nuevas columnas en un DataFrame existente a partir de otros valores o al momento de presentar valores, usar la función para cambiar las cabeceras. Esto último es bastante útil para presentar resultados en informes.

In [90]:
# Al DataFrame le añadiremos una columna con el promedio obtenido de petal.width
pl_data_new = pl_data.select([pl.all(), pl.col("petal.width").mean().alias("Ancho pétalo")]).head()
pl_data_new

sepal.length,sepal.width,petal.length,petal.width,variety,Ancho pétalo
f64,f64,f64,f64,str,f64
5.1,3.5,1.4,0.2,"""Setosa""",1.199333
4.9,3.0,1.4,0.2,"""Setosa""",1.199333
4.7,3.2,1.3,0.2,"""Setosa""",1.199333
4.6,3.1,1.5,0.2,"""Setosa""",1.199333
5.0,3.6,1.4,0.2,"""Setosa""",1.199333


Aquí añadiremos una nueva columna con la suma de una columna existente. Algo que se debe tener en cuenta, es que si hacemos esto pero olvidamos el alias(), terminaríamos afectando la columna original.

In [91]:
pl_data.with_columns([
    pl.sum("sepal.width").alias("Ancho Sépalo")
    ])

sepal.length,sepal.width,petal.length,petal.width,variety,Ancho Sépalo
f64,f64,f64,f64,str,f64
5.1,3.5,1.4,0.2,"""Setosa""",458.6
4.9,3.0,1.4,0.2,"""Setosa""",458.6
4.7,3.2,1.3,0.2,"""Setosa""",458.6
4.6,3.1,1.5,0.2,"""Setosa""",458.6
5.0,3.6,1.4,0.2,"""Setosa""",458.6
5.4,3.9,1.7,0.4,"""Setosa""",458.6
4.6,3.4,1.4,0.3,"""Setosa""",458.6
5.0,3.4,1.5,0.2,"""Setosa""",458.6
4.4,2.9,1.4,0.2,"""Setosa""",458.6
4.9,3.1,1.5,0.1,"""Setosa""",458.6
