# Lectura 42: Selección de columnas

In [None]:
from datetime import date, datetime
import polars as pl

df = pl.DataFrame(
    {
        "id_ciudad": [10,7,5],
        "ciudad": ["Guadalajara", "Monterrey", "CDMX"],
        "fecha": pl.date_range(date(2024, 4, 1), date(2024, 4, 3), "1d", eager=True),
        "monto": [56.90, 100.50, 1345.30],
        "tiene_aeropuerto": [False, True, False],
        "log": pl.datetime_range(
            datetime(2024, 4, 1), datetime(2024, 4, 1, 0, 0, 2), "1s", eager=True
        ),
    }
).with_row_index("id")

print(df)

Hasta ahora hemos seleccionado columnas de un DataFrame o un LazyFrame con la función `col`.

In [None]:
from polars import col

df.select(col('id'), col('fecha'))

## Seleccionar todas las columnas o todas menos algunas

Podemos seleccionar todas las columnas en un DataFrame proporcionando el argumento `*`:

In [None]:
df.select(col('*'))

O equivalentemente podemos realizar lo siguiente:

In [None]:
df.select(pl.all())

A menudo, no solo queremos incluir todas las columnas, sino incluirlas todas y excluir algunas. Esto también se puede hacer realizar como se muestra a continuación.

In [None]:
df.select(col('*').exclude('id', 'log'))

## Selección de columnas por múltiples strings

Especificar varios strings permite que las expresiones se expandan a todas las columnas coincidentes, veamos un ejemplo.

In [None]:
df.select(col('fecha', 'log').dt.to_string('%Y-%m-%d'))

## Selección de columnas por expresiones regulares

La selección de varias columnas también es posible mediante expresiones regulares, asegurándose de ajustar la expresión regular con `^` y `$` para que la función `col` sepa que se espera una selección de expresiones regulares.

En el siguiente ejemplo vamos a buscar todas las columnas que empiecen por `id`.

In [None]:
df.select(pl.col("^id.*$"))

## Selección de columnas por tipo de datos

La función `col` puede seleccionar varias columnas utilizando tipos de datos de Polars.

In [None]:
df.select(col(pl.Int64, pl.Utf8, pl.Datetime))

# Selección de columnas usando selectores

Polars también permite el uso de selecciones intuitivas para columnas basadas en su nombre, tipo u otras propiedades.

En el siguiente ejemplo vamos a seleccionar las columnas enteras.

In [None]:
import polars.selectors as cs

df.select(cs.integer())

En este otro ejemplo vamos a seleccionar todas las columnas numéricas menos la primera columna.

In [None]:
df.select(cs.numeric() - cs.first())

Podemos seleccionar una columna también por su nombre y agregar negación al selector. Veamos un ejemplo donde tomamos una columnas por su nombre y usamos la negación de un selector para devolver todas las columnas que no sean numéricas.

In [None]:
df.select(cs.by_name('id') | ~cs.numeric())

Los selectores también nos permiten realizar selección de columnas por búsqueda de substrings.

In [None]:
df.select(cs.contains('id'))