# Lectura 42: Selección de columnas

In [1]:
from datetime import date, datetime
import polars as pl

df = pl.DataFrame(
    {
        "id_ciudad": [10,7,5],
        "ciudad": ["Guadalajara", "Monterrey", "CDMX"],
        "fecha": pl.date_range(date(2024, 4, 1), date(2024, 4, 3), "1d", eager=True),
        "monto": [56.90, 100.50, 1345.30],
        "tiene_aeropuerto": [False, True, False],
        "log": pl.datetime_range(
            datetime(2024, 4, 1), datetime(2024, 4, 1, 0, 0, 2), "1s", eager=True
        ),
    }
).with_row_index("id")

print(df)

shape: (3, 7)
┌─────┬───────────┬─────────────┬────────────┬────────┬──────────────────┬─────────────────────┐
│ id  ┆ id_ciudad ┆ ciudad      ┆ fecha      ┆ monto  ┆ tiene_aeropuerto ┆ log                 │
│ --- ┆ ---       ┆ ---         ┆ ---        ┆ ---    ┆ ---              ┆ ---                 │
│ u32 ┆ i64       ┆ str         ┆ date       ┆ f64    ┆ bool             ┆ datetime[μs]        │
╞═════╪═══════════╪═════════════╪════════════╪════════╪══════════════════╪═════════════════════╡
│ 0   ┆ 10        ┆ Guadalajara ┆ 2024-04-01 ┆ 56.9   ┆ false            ┆ 2024-04-01 00:00:00 │
│ 1   ┆ 7         ┆ Monterrey   ┆ 2024-04-02 ┆ 100.5  ┆ true             ┆ 2024-04-01 00:00:01 │
│ 2   ┆ 5         ┆ CDMX        ┆ 2024-04-03 ┆ 1345.3 ┆ false            ┆ 2024-04-01 00:00:02 │
└─────┴───────────┴─────────────┴────────────┴────────┴──────────────────┴─────────────────────┘


Hasta ahora hemos seleccionado columnas de un DataFrame o un LazyFrame con la función `col`.

In [2]:
from polars import col

df.select(col('id'), col('fecha'))

id,fecha
u32,date
0,2024-04-01
1,2024-04-02
2,2024-04-03


## Seleccionar todas las columnas o todas menos algunas

Podemos seleccionar todas las columnas en un DataFrame proporcionando el argumento `*`:

In [3]:
df.select(col('*'))

id,id_ciudad,ciudad,fecha,monto,tiene_aeropuerto,log
u32,i64,str,date,f64,bool,datetime[μs]
0,10,"""Guadalajara""",2024-04-01,56.9,False,2024-04-01 00:00:00
1,7,"""Monterrey""",2024-04-02,100.5,True,2024-04-01 00:00:01
2,5,"""CDMX""",2024-04-03,1345.3,False,2024-04-01 00:00:02


O equivalentemente podemos realizar lo siguiente:

In [4]:
df.select(pl.all())

id,id_ciudad,ciudad,fecha,monto,tiene_aeropuerto,log
u32,i64,str,date,f64,bool,datetime[μs]
0,10,"""Guadalajara""",2024-04-01,56.9,False,2024-04-01 00:00:00
1,7,"""Monterrey""",2024-04-02,100.5,True,2024-04-01 00:00:01
2,5,"""CDMX""",2024-04-03,1345.3,False,2024-04-01 00:00:02


A menudo, no solo queremos incluir todas las columnas, sino incluirlas todas y excluir algunas. Esto también se puede hacer realizar como se muestra a continuación.

In [5]:
df.select(col('*').exclude('id', 'log'))

id_ciudad,ciudad,fecha,monto,tiene_aeropuerto
i64,str,date,f64,bool
10,"""Guadalajara""",2024-04-01,56.9,False
7,"""Monterrey""",2024-04-02,100.5,True
5,"""CDMX""",2024-04-03,1345.3,False


## Selección de columnas por múltiples strings

Especificar varios strings permite que las expresiones se expandan a todas las columnas coincidentes, veamos un ejemplo.

In [6]:
df.select(col('fecha', 'log').dt.to_string('%Y-%m-%d'))

fecha,log
str,str
"""2024-04-01""","""2024-04-01"""
"""2024-04-02""","""2024-04-01"""
"""2024-04-03""","""2024-04-01"""


## Selección de columnas por expresiones regulares

La selección de varias columnas también es posible mediante expresiones regulares, asegurándose de ajustar la expresión regular con `^` y `$` para que la función `col` sepa que se espera una selección de expresiones regulares.

En el siguiente ejemplo vamos a buscar todas las columnas que empiecen por `id`.

In [7]:
df.select(pl.col("^id.*$"))

id,id_ciudad
u32,i64
0,10
1,7
2,5


## Selección de columnas por tipo de datos

La función `col` puede seleccionar varias columnas utilizando tipos de datos de Polars.

In [8]:
df.select(col(pl.Int64, pl.Utf8, pl.Datetime))

id_ciudad,ciudad,log
i64,str,datetime[μs]
10,"""Guadalajara""",2024-04-01 00:00:00
7,"""Monterrey""",2024-04-01 00:00:01
5,"""CDMX""",2024-04-01 00:00:02


# Selección de columnas usando selectores

Polars también permite el uso de selecciones intuitivas para columnas basadas en su nombre, tipo u otras propiedades.

En el siguiente ejemplo vamos a seleccionar las columnas enteras.

In [9]:
import polars.selectors as cs

df.select(cs.integer())

id,id_ciudad
u32,i64
0,10
1,7
2,5


En este otro ejemplo vamos a seleccionar todas las columnas numéricas menos la primera columna.

In [10]:
df.select(cs.numeric() - cs.first())

id_ciudad,monto
i64,f64
10,56.9
7,100.5
5,1345.3


Podemos seleccionar una columna también por su nombre y agregar negación al selector. Veamos un ejemplo donde tomamos una columnas por su nombre y usamos la negación de un selector para devolver todas las columnas que no sean numéricas.

In [11]:
df.select(cs.by_name('id') | ~cs.numeric())

id,ciudad,fecha,tiene_aeropuerto,log
u32,str,date,bool,datetime[μs]
0,"""Guadalajara""",2024-04-01,False,2024-04-01 00:00:00
1,"""Monterrey""",2024-04-02,True,2024-04-01 00:00:01
2,"""CDMX""",2024-04-03,False,2024-04-01 00:00:02


Los selectores también nos permiten realizar selección de columnas por búsqueda de substrings.

In [12]:
df.select(cs.contains('id'))

id,id_ciudad
u32,i64
0,10
1,7
2,5
