Esta es una introducción a las funciones más básicas de Polars

In [31]:
import polars as pl

# Crear un DataFrame de ejemplo
df = pl.DataFrame({
    'nombre': ['Juan', 'María', 'Pedro', 'Ana', 'Juan'],
    'edad': [25, 35, 40, 30, 32],
    'ciudad': ['Bogotá', 'Medellín', 'Cali', 'Barranquilla', 'Cali']
})

# Seleccionar una columna por nombre
nombre_col = df['nombre']
print(nombre_col)

# Seleccionar varias columnas por nombre
nombre_y_edad_cols = df.select(['nombre', 'edad'])
print(nombre_y_edad_cols)

# Filtrar filas que cumplan una condición
mayores_de_30 = df.filter(pl.col('edad') > 30)
print(mayores_de_30)



shape: (5,)
Series: 'nombre' [str]
[
	"Juan"
	"María"
	"Pedro"
	"Ana"
	"Juan"
]
shape: (5, 2)
┌────────┬──────┐
│ nombre ┆ edad │
│ ---    ┆ ---  │
│ str    ┆ i64  │
╞════════╪══════╡
│ Juan   ┆ 25   │
│ María  ┆ 35   │
│ Pedro  ┆ 40   │
│ Ana    ┆ 30   │
│ Juan   ┆ 32   │
└────────┴──────┘
shape: (3, 3)
┌────────┬──────┬──────────┐
│ nombre ┆ edad ┆ ciudad   │
│ ---    ┆ ---  ┆ ---      │
│ str    ┆ i64  ┆ str      │
╞════════╪══════╪══════════╡
│ María  ┆ 35   ┆ Medellín │
│ Pedro  ┆ 40   ┆ Cali     │
│ Juan   ┆ 32   ┆ Cali     │
└────────┴──────┴──────────┘


En polars no se indexan datos, una alternativa en esta librería es definir un dato como llave para una fila completa 

In [32]:
dfindex=df.filter(pl.col("nombre")=='Juan')
print(dfindex)

shape: (2, 3)
┌────────┬──────┬────────┐
│ nombre ┆ edad ┆ ciudad │
│ ---    ┆ ---  ┆ ---    │
│ str    ┆ i64  ┆ str    │
╞════════╪══════╪════════╡
│ Juan   ┆ 25   ┆ Bogotá │
│ Juan   ┆ 32   ┆ Cali   │
└────────┴──────┴────────┘


Con esta función podemos saber el número de la fila de nuestro dato deseado

In [34]:
# Para saber qué numero de fila es el dato deseado 
dfcolumna=df.select(pl.arg_where(pl.col("nombre")=='Juan')).to_series()
print(dfcolumna)

shape: (2,)
Series: 'nombre' [u32]
[
	0
	4
]


In [28]:
dfcolumna1=df.select(pl.arg_where(pl.col("nombre")=='Ana')).to_series()
print(dfcolumna1)

shape: (1,)
Series: 'nombre' [u32]
[
	3
]


Filtrado de datos en Polars

In [36]:
# Estamos filtrando las filas que contengan el nombre Juan y Ana
filtro=df.filter(pl.col("nombre").is_in(['Juan','Ana']))
print(filtro)

shape: (3, 3)
┌────────┬──────┬──────────────┐
│ nombre ┆ edad ┆ ciudad       │
│ ---    ┆ ---  ┆ ---          │
│ str    ┆ i64  ┆ str          │
╞════════╪══════╪══════════════╡
│ Juan   ┆ 25   ┆ Bogotá       │
│ Ana    ┆ 30   ┆ Barranquilla │
│ Juan   ┆ 32   ┆ Cali         │
└────────┴──────┴──────────────┘


Realizamos un left join, en polars no hay la necesidad de indexar. 
Como hay columnas que tienen el mismo nombre se utiliza "on". 

In [46]:
df_left = pl.DataFrame({'nombre':['Ale','Ana','Ale'],
                        'num':[2,3,1],
                        'class':[True,False,False]})
df_right = pl.DataFrame({'nombre':['Ale','Eduardo','Sebastian'],
                            'score':[.99,.88,.66]})
df_left.join(df_right,on=['nombre'],how='left')
print (df_left.join)

<bound method DataFrame.join of shape: (3, 3)
┌────────┬─────┬───────┐
│ nombre ┆ num ┆ class │
│ ---    ┆ --- ┆ ---   │
│ str    ┆ i64 ┆ bool  │
╞════════╪═════╪═══════╡
│ Ale    ┆ 2   ┆ true  │
│ Ana    ┆ 3   ┆ false │
│ Ale    ┆ 1   ┆ false │
└────────┴─────┴───────┘>
