In [3]:
import polars as pl
import numpy as np

1. Read CSV

In [4]:
df = pl.read_csv('https://raw.githubusercontent.com/pola-rs/polars/main/examples/datasets/foods1.csv')
df

category,calories,fats_g,sugars_g
str,i64,f64,i64
"""vegetables""",45,0.5,2
"""seafood""",150,5.0,0
"""meat""",100,5.0,0
"""fruit""",60,0.0,11
"""seafood""",140,5.0,1
"""meat""",120,10.0,1
"""vegetables""",20,0.0,2
"""fruit""",30,0.0,5
"""seafood""",130,5.0,0
"""fruit""",50,4.5,0


2. Describe

La función df.describe() El método en polar se usa para generar estadísticas de resumen de varias características de un DataFrame. Devuelve un nuevo DataFrame que contiene el
recuento, la media, la desviación estándar, el mínimo, el percentil 25, la mediana, el percentil 75 y el máximo de cada columna numérica en el DataFrame original.

In [8]:
df.describe()

describe,category,calories,fats_g,sugars_g
str,str,f64,f64,f64
"""count""","""27""",27.0,27.0,27.0
"""null_count""","""0""",0.0,0.0,0.0
"""mean""",,88.592593,3.203704,3.444444
"""std""",,58.563088,3.484193,5.48658
"""min""","""fruit""",20.0,0.0,0.0
"""max""","""vegetables""",200.0,10.0,25.0
"""median""",,100.0,1.5,2.0


3. Select

df.select() es un método en polars que se usa para seleccionar las variables de un DataFrame, en la cual la podemos implementar combinandola con otra función como head(), sum(), mean() y muchas otras funciones para obtener un mejor análisis de nuestros datos.


In [11]:
df.select([pl.col(["calories"])]).head()

calories
i64
45
150
100
60
140


In [12]:
df.select([pl.col(["calories"])]).sum()

calories
i64
2392


Podemos seleccionar todo en orden inverso

In [14]:
(df.select([
pl.all(),
pl.all().reverse().suffix("_reverse")])).head()


category,calories,fats_g,sugars_g,category_reverse,calories_reverse,fats_g_reverse,sugars_g_reverse
str,i64,f64,i64,str,i64,f64,i64
"""vegetables""",45,0.5,2,"""fruit""",50,0.0,11
"""seafood""",150,5.0,0,"""vegetables""",30,0.0,5
"""meat""",100,5.0,0,"""meat""",100,7.0,0
"""fruit""",60,0.0,11,"""fruit""",130,0.0,25
"""seafood""",140,5.0,1,"""seafood""",130,1.5,0


In [16]:
(df.select([
pl.all(),
pl.all().sum().suffix("_sum")])).head()

category,calories,fats_g,sugars_g,category_sum,calories_sum,fats_g_sum,sugars_g_sum
str,i64,f64,i64,str,i64,f64,i64
"""vegetables""",45,0.5,2,,2392,86.5,93
"""seafood""",150,5.0,0,,2392,86.5,93
"""meat""",100,5.0,0,,2392,86.5,93
"""fruit""",60,0.0,11,,2392,86.5,93
"""seafood""",140,5.0,1,,2392,86.5,93


In [32]:
(df.select([
pl.col("calories").n_unique().alias("unique_calories")]))

unique_calories
u32
14


4. iloc

Polars no trae en si una función iloc como Pandas pero podemos usar la función Select para seleccionar filas y columnas. 
La indexación tiene un caso de uso limitado en polares hay algunos casos de uso en polars donde la indexación de soporte cuadrado es efectiva. 
Sin embargo, hay muchos casos de uso en los que la indexación le impide usar toda la potencia de los polares.
Casos de uso en los que la indexación es efectiva:
extraer un valor escalar de un marco de datos 
convertir una columna de marco de datos en una serie 
para análisis de datos exploratorios e inspeccionar algunas filas y/o columnas 

La primera desventaja de la indexación con soportes cuadrados es que la indexación solo funciona en modo ansioso. Cualquier paso de su consulta que involucre la indexación de soporte cuadrado no puede incluirse en una consulta perezosa, lo que significa que el paso no puede optimizarse como parte de una consulta perezosa y el paso no puede ser parte de una consulta de transmisión que procesa datos más grandes de memoria en lotes. 

In [33]:
df.head(7)

category,calories,fats_g,sugars_g
str,i64,f64,i64
"""vegetables""",45,0.5,2
"""seafood""",150,5.0,0
"""meat""",100,5.0,0
"""fruit""",60,0.0,11
"""seafood""",140,5.0,1
"""meat""",120,10.0,1
"""vegetables""",20,0.0,2


In [38]:
#Seleccionamos cualquier fila del df por su index 
df[2, :]

category,calories,fats_g,sugars_g
str,i64,f64,i64
"""meat""",100,5.0,0


In [39]:
#Seleccionamos varias filas
df[[2,4,6], :]

category,calories,fats_g,sugars_g
str,i64,f64,i64
"""meat""",100,5.0,0
"""seafood""",140,5.0,1
"""vegetables""",20,0.0,2


In [40]:
#Seleccionamos un conjunto de filas 
df[2:6, :]

category,calories,fats_g,sugars_g
str,i64,f64,i64
"""meat""",100,5.0,0
"""fruit""",60,0.0,11
"""seafood""",140,5.0,1
"""meat""",120,10.0,1


5. alias

La función alias() de Polars se usa para crear una nuevas columnas a un DataFrame nuevo
Para agregar una nuevas columnas a un DataFrame original usamos el parametro pl. all() , el que nos indica que se va acrear una nueva columna en el DataFrame original sinmodificarlo. 

La función devuelve un nuevo DataFrame con las columnas agregadas.


In [43]:
df.select([pl.col("calories").mean().alias("count_calories")])


count_calories
f64
88.592593


In [44]:
df.select([pl.all(),pl.col("calories").mean().alias("count_calories")]).head()

category,calories,fats_g,sugars_g,count_calories
str,i64,f64,i64,f64
"""vegetables""",45,0.5,2,88.592593
"""seafood""",150,5.0,0,88.592593
"""meat""",100,5.0,0,88.592593
"""fruit""",60,0.0,11,88.592593
"""seafood""",140,5.0,1,88.592593


In [50]:
df.with_columns(
    [
        pl.sum("calories").alias("calories_sum"),
        pl.col("sugars_g").count().alias("contar"),
    ]).head ()

category,calories,fats_g,sugars_g,calories_sum,contar
str,i64,f64,i64,i64,u32
"""vegetables""",45,0.5,2,2392,27
"""seafood""",150,5.0,0,2392,27
"""meat""",100,5.0,0,2392,27
"""fruit""",60,0.0,11,2392,27
"""seafood""",140,5.0,1,2392,27


Sin el alias

In [51]:
df.with_columns(
    [
        pl.sum("calories"),
        pl. col ("sugars_g").count(),
    ]).head()

category,calories,fats_g,sugars_g
str,i64,f64,u32
"""vegetables""",2392,0.5,27
"""seafood""",2392,5.0,27
"""meat""",2392,5.0,27
"""fruit""",2392,0.0,27
"""seafood""",2392,5.0,27


6. group by

df.groupby() es un método en la biblioteca de Polars que se utiliza para agrupar filas de un DataFrame en función de una o varias columnas. Esto le permite realizar operaciones agregadas en los grupos, como calcular la media, la suma o el recuento de los valores de cada grupo.
df.groupby() devuelve un objeto GroupBy, que luego puede usar para realizar varias operaciones en los grupos, como calcular la suma, la media o el recuento de los valores en cada grupo.

In [54]:
grouped=df.groupby('calories')
# Muestra La media de cada grupo
print(grouped.mean());

shape: (14, 4)
┌──────────┬──────────┬──────────┬──────────┐
│ calories ┆ category ┆ fats_g   ┆ sugars_g │
│ ---      ┆ ---      ┆ ---      ┆ ---      │
│ i64      ┆ str      ┆ f64      ┆ f64      │
╞══════════╪══════════╪══════════╪══════════╡
│ 20       ┆ null     ┆ 0.0      ┆ 2.0      │
│ 200      ┆ null     ┆ 8.0      ┆ 1.333333 │
│ 120      ┆ null     ┆ 10.0     ┆ 1.0      │
│ 22       ┆ null     ┆ 0.0      ┆ 3.0      │
│ …        ┆ …        ┆ …        ┆ …        │
│ 130      ┆ null     ┆ 2.166667 ┆ 8.333333 │
│ 50       ┆ null     ┆ 2.25     ┆ 5.5      │
│ 25       ┆ null     ┆ 0.0      ┆ 3.0      │
│ 150      ┆ null     ┆ 5.0      ┆ 0.0      │
└──────────┴──────────┴──────────┴──────────┘


In [55]:
grouped=df.groupby(['calories', 'fats_g'])
#Muestra la suma de cada grupo
print(grouped.sum());

shape: (19, 4)
┌──────────┬────────┬──────────┬──────────┐
│ calories ┆ fats_g ┆ category ┆ sugars_g │
│ ---      ┆ ---    ┆ ---      ┆ ---      │
│ i64      ┆ f64    ┆ str      ┆ i64      │
╞══════════╪════════╪══════════╪══════════╡
│ 50       ┆ 0.0    ┆ null     ┆ 11       │
│ 22       ┆ 0.0    ┆ null     ┆ 3        │
│ 20       ┆ 0.0    ┆ null     ┆ 2        │
│ 100      ┆ 7.0    ┆ null     ┆ 0        │
│ …        ┆ …      ┆ …        ┆ …        │
│ 30       ┆ 0.0    ┆ null     ┆ 13       │
│ 110      ┆ 7.0    ┆ null     ┆ 0        │
│ 130      ┆ 5.0    ┆ null     ┆ 0        │
│ 120      ┆ 10.0   ┆ null     ┆ 1        │
└──────────┴────────┴──────────┴──────────┘


In [58]:
df.groupby("category").agg([pl.col("calories").sum()])


category,calories
str,i64
"""seafood""",1250
"""vegetables""",192
"""meat""",540
"""fruit""",410


In [60]:
(df.lazy().groupby("category").agg([pl.col("calories").sum()])).collect()

category,calories
str,i64
"""meat""",540
"""seafood""",1250
"""fruit""",410
"""vegetables""",192


Esto permite a Polars insertar la expresión en el motor de consultas, realizar optimizaciones y almacenar en caché los resultados intermedios.

Rust difiere un poco de Python en este sentido. Donde el modo ansioso de Python es poco más que una fina capa sobre la API perezosa (lazy), el modo ansioso de Rust está más cerca de un detalle de implementación, y no se recomienda realmente para el uso del usuario final. Es posible que la API ansiosa en Rust tenga un alcance privado en algún momento en el futuro.
Por lo tanto, para el resto de este documento, suponga que los ejemplos de Rust están usando la API diferida.

7. sort values

La función .sort() de Polars le permite ordenar un DataFrame por una o varias columnas. Ordena el DataFrame según los valores de una o más columnas, en orden ascendente o descendente. La función devuelve un nuevo DataFrame ordenado por las columnas especificadas.

In [63]:
df_sorted=df.sort(by='category')
df_sorted.head()

category,calories,fats_g,sugars_g
str,i64,f64,i64
"""fruit""",60,0.0,11
"""fruit""",30,0.0,5
"""fruit""",50,4.5,0
"""fruit""",30,0.0,3
"""fruit""",60,0.0,11


8. sample

La función .sample() de Polar le permite seleccionar filas aleatoriamente de un DataFrame. Devuelve un nuevo DataFrame que contiene las filas seleccionadas aleatoriamente. 
La función toma varios parámetros que le permiten controlar el proceso de muestreo, como el número de filas a devolver, y si se debe o no muestrear con reemplazo y semilla para la reproducibilidad.

In [69]:
df.sample(n=5)

category,calories,fats_g,sugars_g
str,i64,f64,i64
"""seafood""",200,10.0,0
"""vegetables""",25,0.0,2
"""fruit""",130,0.0,25
"""seafood""",130,5.0,0
"""seafood""",140,5.0,1


frac: 
El parametro frac nos devuelve la fraccion de filas aleatorias

In [70]:
df.sample(frac=0.5).tail()

  df.sample(frac=0.5).tail()


category,calories,fats_g,sugars_g
str,i64,f64,i64
"""seafood""",130,5.0,0
"""seafood""",200,7.0,2
"""meat""",110,7.0,0
"""vegetables""",25,0.0,2
"""seafood""",200,7.0,2


seed: semilla para el generador de numeros aleatorios

In [72]:
df.sample(n=6, seed=123)

category,calories,fats_g,sugars_g
str,i64,f64,i64
"""vegetables""",45,0.5,2
"""seafood""",130,1.5,0
"""meat""",110,7.0,0
"""seafood""",200,7.0,2
"""fruit""",50,0.0,11
"""fruit""",30,0.0,3


En el ejemplo anterior, la primera vez df.sample() se usa para seleccionar aleatoriamente filas sin reemplazo, la segunda vez se usa para seleccionar aleatoriamente filas con
reemplazo y la última vez se usa para seleccionar aleatoriamente columnas sin reemplazo.

Es importante tener en cuenta que el DataFrame original permanece sin cambios y el nuevo Dataframe de sample se devuelve con las filas seleccionadas al azar. 

El método sample puede ser útil cuando desea seleccionar aleatoriamente un subcojunto de datos para probar o validar o cuando desea seleccionar aleatoriamente una muestra de
filas para un análsis posterior. El parámetro random_state es úbi para la reproducibildad y el parámetro axis = 1 le permite seleccionar columnas

9. exclude

Si desea excluir una columna completa.

In [73]:
df.select([
pl.exclude('calories')]).tail()

category,fats_g,sugars_g
str,f64,i64
"""seafood""",1.5,0
"""fruit""",0.0,25
"""meat""",7.0,0
"""vegetables""",0.0,5
"""fruit""",0.0,11


10. null count 

Cada columna en un DataFrame (o de manera equivalente, una serie) es una matriz de flechas o una colección de matrices de flechas basadas en el formato de flecha de Apache. Los datos que faltan se representan en Arrow y Polars con un valor nulo. Este valor faltante nulo se aplica a todos los tipos de datos, incluidos los valores numéricos.

Polars también permite valores de NotaNumber o NaN para columnas flotantes. Estos valores de NaN se consideran un tipo de datos de punto flotante en lugar de datos faltantes.
Discutimos los valores de NaN por separado a continuación.

Cada matriz Arrow utilizada por Polars almacena dos tipos de metadatos relacionados con los datos faltantes. Estos metadatos permiten a Polars mostrar rápidamente cuántos valores
faltantes hay y qué valores faltan.


In [75]:
null_count_df=df.null_count()
print(null_count_df)

shape: (1, 4)
┌──────────┬──────────┬────────┬──────────┐
│ category ┆ calories ┆ fats_g ┆ sugars_g │
│ ---      ┆ ---      ┆ ---    ┆ ---      │
│ u32      ┆ u32      ┆ u32    ┆ u32      │
╞══════════╪══════════╪════════╪══════════╡
│ 0        ┆ 0        ┆ 0      ┆ 0        │
└──────────┴──────────┴────────┴──────────┘


La segunda pieza de metadatos es una matriz llamada mapa de bits de validez que indica si cada valor de datos es válido o falta. El mapa de bits de validez es eficiente en memoria, ya que está codificado en bits: cada valor es un 0 o un 1. 
Esta codificación de bits significa que la sobrecarga de memoria por matriz es solo (longitud de la matriz / 8) bytes. El mapa de bits de validez es utilizado por el método is_null en Polars.

In [6]:
is_null_series = df.select(
    pl.col ("category").is_null(),
)
print(is_null_series)

shape: (27, 1)
┌──────────┐
│ category │
│ ---      │
│ bool     │
╞══════════╡
│ false    │
│ false    │
│ false    │
│ false    │
│ …        │
│ false    │
│ false    │
│ false    │
│ false    │
└──────────┘


In [7]:
is_null_series = df.select(
    pl.all().is_null(),
)
print(is_null_series)

shape: (27, 4)
┌──────────┬──────────┬────────┬──────────┐
│ category ┆ calories ┆ fats_g ┆ sugars_g │
│ ---      ┆ ---      ┆ ---    ┆ ---      │
│ bool     ┆ bool     ┆ bool   ┆ bool     │
╞══════════╪══════════╪════════╪══════════╡
│ false    ┆ false    ┆ false  ┆ false    │
│ false    ┆ false    ┆ false  ┆ false    │
│ false    ┆ false    ┆ false  ┆ false    │
│ false    ┆ false    ┆ false  ┆ false    │
│ …        ┆ …        ┆ …      ┆ …        │
│ false    ┆ false    ┆ false  ┆ false    │
│ false    ┆ false    ┆ false  ┆ false    │
│ false    ┆ false    ┆ false  ┆ false    │
│ false    ┆ false    ┆ false  ┆ false    │
└──────────┴──────────┴────────┴──────────┘


12. fillna

El método filina() en Polars se usa para completar los valores faltantes en un DataFrame con un valor o método específico. De manera predeterminada, reemplaza los valores faltantes
con NaN, pero puede especificar un valor diferente para usar en su lugar, como se muestra a continuación:
• un literal como 0 o "0*
• una estrategia como llenar hacia adelante
• una expresión como reemplazar con valores de otra columna
• interpolación

In [9]:
datos=pl.DataFrame(
    {
        "coll": [1, 2, 3,4,5,6],
        "col2": [1, None, 3,10, None, np.nan],
    },
)
print(datos)

shape: (6, 2)
┌──────┬──────┐
│ coll ┆ col2 │
│ ---  ┆ ---  │
│ i64  ┆ f64  │
╞══════╪══════╡
│ 1    ┆ 1.0  │
│ 2    ┆ null │
│ 3    ┆ 3.0  │
│ 4    ┆ 10.0 │
│ 5    ┆ null │
│ 6    ┆ NaN  │
└──────┴──────┘


Rellenar con el valor literal especificado:
podemos completar los datos que faltan con un valor literal especificado con pl.lit:


In [10]:
fill_literal_df = (
    datos.with_columns(
        pl.col("col2").fill_null(
        pl.lit(2),
        #pl.Lit(3),
        ),
    ))
print (fill_literal_df)

shape: (6, 2)
┌──────┬──────┐
│ coll ┆ col2 │
│ ---  ┆ ---  │
│ i64  ┆ f64  │
╞══════╪══════╡
│ 1    ┆ 1.0  │
│ 2    ┆ 2.0  │
│ 3    ┆ 3.0  │
│ 4    ┆ 10.0 │
│ 5    ┆ 2.0  │
│ 6    ┆ NaN  │
└──────┴──────┘


Rellenar con una expresión: Para mayor flexibilidad, podemos completar los datos que faltan con una expresión. Por ejemplo, para llenar nulos con el valor de la mediana de esa columna:


In [12]:
fill_median_df = datos.with_columns(
pl.col("col2").fill_null (pl.median("col2"))) # usamos La mediana
print(fill_median_df)

shape: (6, 2)
┌──────┬──────┐
│ coll ┆ col2 │
│ ---  ┆ ---  │
│ i64  ┆ f64  │
╞══════╪══════╡
│ 1    ┆ 1.0  │
│ 2    ┆ 6.5  │
│ 3    ┆ 3.0  │
│ 4    ┆ 10.0 │
│ 5    ┆ 6.5  │
│ 6    ┆ NaN  │
└──────┴──────┘


13. Drop

df.drop() es un método utilizado en la biblioteca de Polars para eliminar filas o columnas de un DataFrame especificando las etiquetas correspondientes. Se puede usar para colocar una
o varias filas o columnas en función de sus etiquetas.
Puede eliminar una fila específica llamando a df.drop() y pasando la etiqueta de índice de la fila que desea eliminar, y el parámetro del eje establecido en 0 (el valor predeterminado es 0)


In [13]:
df.drop(['calories']).head()

category,fats_g,sugars_g
str,f64,i64
"""vegetables""",0.5,2
"""seafood""",5.0,0
"""meat""",5.0,0
"""fruit""",0.0,11
"""seafood""",5.0,1


Si se desea modificar el DataFrame original se debe de utilizar drop_in_place()

14. Eliminando duplicados

In [15]:
df1= pl.DataFrame(
    {
        "A":[1,4,4,7,7,10,10,13,16],
        "B":[2,5,5,8,18,11,11,14,17],
        "C":[3,8,6,9,9,12,12,15,18],
    }
)
df1

A,B,C
i64,i64,i64
1,2,3
4,5,8
4,5,6
7,8,9
7,18,9
10,11,12
10,11,12
13,14,15
16,17,18


In [16]:
df1.unique()

A,B,C
i64,i64,i64
13,14,15
10,11,12
1,2,3
4,5,8
16,17,18
4,5,6
7,18,9
7,8,9


15. Pivot

pl.pivot() es un método en la biblioteca de Polars que se usa para crear una tabla dinámica a partir de un DataFrame. Una tabla dinámica es una tabla que resume y agrega datos de una manera más significativa y organizada, mediante la creación de una nueva tabla con una o más columnas como índice, una o más columnas como valores y una o más columnas como atributos.


In [5]:
pivot_table=df.pivot(values="calories", index="category", columns="sugars_g")
pivot_table.head()

  pivot_table=df.pivot(values="calories", index="category", columns="sugars_g")


category,2,0,11,1,5,3,4,25
str,i64,i64,i64,i64,i64,i64,i64,i64
"""vegetables""",45.0,,,,30.0,22.0,25.0,
"""seafood""",200.0,150.0,,140.0,,,,
"""meat""",,100.0,,120.0,,,,
"""fruit""",,50.0,60.0,,30.0,30.0,,130.0
