# Working with Textual, Temporal, and Nested Data Types

In [27]:
import polars as pl

## String

## String Methods

### String methods for conversion

| Method                | Description                                                                 |
|-----------------------|-----------------------------------------------------------------------------|
| `Expr.str.decode()`   | Decodes a byte string to a Unicode string using a specified encoding.        |
| `Expr.str.encode()`   | Encodes a string to bytes using a specified encoding.                        |
| `Expr.str.json_decode()` | Parses a JSON string and returns the corresponding data structure.         |
| `Expr.str.json_path_match()` | Extracts data from a JSON string using a JSONPath expression.          |
| `Expr.str.strptime()` | Parses a string into a datetime object using a specified format.             |
| `Expr.str.to_date()`  | Converts a string to a date object.                                          |
| `Expr.str.to_datetime()` | Converts a string to a datetime object.                                   |
| `Expr.str.to_decimal()` | Converts a string to a decimal number.                                     |
| `Expr.str.to_integer()` | Converts a string to an integer.                                           |
| `Expr.str.to_time()`  | Converts a string to a time object.                                          |

### Métodos de cadena para describir y consultar

| Método                        | Descripción                                                                                       |
|-------------------------------|---------------------------------------------------------------------------------------------------|
| `Expr.str.contains()`         | Verifica si la cadena contiene un patrón o subcadena especificada.                                |
| `Expr.str.contains_any()`     | Verifica si la cadena contiene alguno de los patrones especificados.                              |
| `Expr.str.count_matches()`    | Cuenta cuántas veces aparece un patrón en la cadena.                                              |
| `Expr.str.ends_with()`        | Verifica si la cadena termina con una subcadena especificada.                                     |
| `Expr.str.find()`             | Devuelve el índice de la primera aparición de una subcadena o patrón en la cadena.                |
| `Expr.str.len_bytes()`        | Devuelve la longitud de la cadena en bytes.                                                       |
| `Expr.str.len_chars()`        | Devuelve la longitud de la cadena en caracteres.                                                  |
| `Expr.str.starts_with()`      | Verifica si la cadena comienza con una subcadena especificada.                                    |

### Strings method for manipulation

| Método                           | Descripción                                                                                           |
|-----------------------------------|-------------------------------------------------------------------------------------------------------|
| `Expr.str.concat()`               | Concatena varias cadenas en una sola.                                                                 |
| `Expr.str.escape_regex()`         | Escapa caracteres especiales en una cadena para usarlos en expresiones regulares.                     |
| `Expr.str.explode()`              | Divide una cadena en partes y las convierte en filas separadas.                                       |
| `Expr.str.extract()`              | Extrae la primera coincidencia de un patrón de expresión regular en la cadena.                        |
| `Expr.str.extract_all()`          | Extrae todas las coincidencias de un patrón de expresión regular en la cadena.                        |
| `Expr.str.extract_groups()`       | Extrae grupos de coincidencias de una expresión regular en la cadena.                                 |
| `Expr.str.extract_many()`         | Extrae múltiples coincidencias de varios patrones en la cadena.                                       |
| `Expr.str.head()`                 | Devuelve los primeros caracteres de la cadena.                                                        |
| `Expr.str.join()`                 | Une una lista de cadenas usando un separador especificado.                                            |
| `Expr.str.pad_end()`              | Rellena la cadena al final con un carácter hasta alcanzar una longitud específica.                    |
| `Expr.str.pad_start()`            | Rellena la cadena al inicio con un carácter hasta alcanzar una longitud específica.                   |
| `Expr.str.replace()`              | Reemplaza la primera aparición de un patrón por otra subcadena.                                       |
| `Expr.str.replace_all()`          | Reemplaza todas las apariciones de un patrón por otra subcadena.                                      |
| `Expr.str.replace_many()`         | Reemplaza múltiples patrones por sus respectivas subcadenas en la cadena.                             |
| `Expr.str.reverse()`              | Invierte el orden de los caracteres en la cadena.                                                     |
| `Expr.str.slice()`                | Extrae una subcadena usando índices de inicio y fin.                                                  |
| `Expr.str.split()`                | Divide la cadena en una lista de subcadenas usando un separador.                                      |
| `Expr.str.split_exact()`          | Divide la cadena en un número exacto de partes usando un separador.                                   |
| `Expr.str.splitn()`               | Divide la cadena en un número limitado de partes usando un separador.                                 |
| `Expr.str.strip_chars()`          | Elimina los caracteres especificados de ambos extremos de la cadena.                                  |
| `Expr.str.strip_chars_end()`      | Elimina los caracteres especificados solo del final de la cadena.                                     |
| `Expr.str.strip_chars_start()`    | Elimina los caracteres especificados solo del inicio de la cadena.                                    |
| `Expr.str.strip_prefix()`         | Elimina el prefijo especificado de la cadena si está presente.                                        |
| `Expr.str.strip_suffix()`         | Elimina el sufijo especificado de la cadena si está presente.                                         |
| `Expr.str.tail()`                 | Devuelve los últimos caracteres de la cadena.                                                         |
| `Expr.str.to_lowercase()`         | Convierte todos los caracteres de la cadena a minúsculas.                                             |
| `Expr.str.to_littlecase()`        | Convierte la cadena a minúsculas (sinónimo de `to_lowercase`).                                        |
| `Expr.str.to_uppercase()`         | Convierte todos los caracteres de la cadena a mayúsculas.                                             |
| `Expr.str.zfill()`                | Rellena la cadena con ceros a la izquierda hasta alcanzar una longitud específica.                    |

### String Examples

In [28]:
corpus = pl.DataFrame(
    {
        "raw_data": [
            "  Data Science is amazing ",
            "Data_analysis > Data entry",
            " Python$Polars; Fast",
        ]
    }
)
corpus

raw_data
str
""" Data Science is amazing """
"""Data_analysis > Data entry"""
""" Python$Polars; Fast"""


In [29]:
corpus = corpus.with_columns(
    processed_text=pl.col("raw_data")
    .str.strip_chars()  # Remove leading/trailing whitespace
    .str.to_lowercase()  # Convert to lowercase
    .str.replace_all("_", " ")  # Replace underscores with spaces
)
corpus

raw_data,processed_text
str,str
""" Data Science is amazing ""","""data science is amazing"""
"""Data_analysis > Data entry""","""data analysis > data entry"""
""" Python$Polars; Fast""","""python$polars; fast"""


In [30]:
corpus.with_columns(
    first_5_chars=pl.col("processed_text").str.slice(0, 5),
    firs_word=pl.col("processed_text")
    .str.split(" ")
    .list.get(0),
    second_word=pl.col("processed_text")
    .str.split(" ")
    .list.get(1),
    
)

raw_data,processed_text,first_5_chars,firs_word,second_word
str,str,str,str,str
""" Data Science is amazing ""","""data science is amazing""","""data ""","""data""","""science"""
"""Data_analysis > Data entry""","""data analysis > data entry""","""data ""","""data""","""analysis"""
""" Python$Polars; Fast""","""python$polars; fast""","""pytho""","""python$polars;""","""fast"""


In [31]:
corpus.with_columns(
    len_chars=pl.col("processed_text").str.len_chars(),
    len_bytes=pl.col("processed_text").str.len_bytes(),
    count_a=pl.col("processed_text").str.count_matches("a"),
)

raw_data,processed_text,len_chars,len_bytes,count_a
str,str,u32,u32,u32
""" Data Science is amazing ""","""data science is amazing""",23,23,4
"""Data_analysis > Data entry""","""data analysis > data entry""",26,26,6
""" Python$Polars; Fast""","""python$polars; fast""",19,19,2


In [32]:
posts = pl.DataFrame(
    {
        "post": [
            "Loving #python and #polars",
            "A boomer post without hashtags",
        ]
    }
)

hashtag_regex = r"#(\w+)"

posts.with_columns(
    hashtags=pl.col("post").str.extract_all(hashtag_regex)
)

post,hashtags
str,list[str]
"""Loving #python and #polars""","[""#python"", ""#polars""]"
"""A boomer post without hashtags""",[]


## Categorical

### Categorical vs String (Utf8) en Polars

Resumen rápido: Categorical es un tipo de datos que almacena un diccionario de valores únicos y usa códigos enteros para representar cada valor; Utf8 (string) almacena las cadenas tal cual.

- Categorical:
  - Almacena internamente códigos enteros que apuntan a un diccionario de valores únicos (dictionary encoding).
  - Ventajas: menor uso de memoria cuando hay valores repetidos, comparaciones más rápidas, agrupaciones y joins más eficientes (operaciones sobre enteros).
  - Ideal para columnas de baja cardinalidad (pocas categorías), claves de join o features categóricas para modelos.


In [33]:
cats = pl.DataFrame(
    {
        "name": ["Persian cat", "Siamese Cat", "Lynx", "Lynx"]
    },
    schema=[("name", pl.Categorical)]
)

In [34]:
cats.with_columns(
    name_physical=pl.col("name").to_physical()
)

name,name_physical
cat,u32
"""Persian cat""",0
"""Siamese Cat""",1
"""Lynx""",2
"""Lynx""",2


## Categorical Methods

| Método                      | Descripción                                                                                   |
|-----------------------------|-----------------------------------------------------------------------------------------------|
| `Expr.cat.get_categories()` | Devuelve una lista con todas las categorías únicas presentes en una columna categórica.        |

In [35]:
more_cats = pl.DataFrame(
    {
        "name": ["Maine Coon Cat", "Lynx", "Lynx", "Siamese Cat"]
    }, schema={"name": pl.Categorical},
)

In [36]:
more_cats.with_columns(
    name_physical=pl.col("name").to_physical()
)

name,name_physical
cat,u32
"""Maine Coon Cat""",3
"""Lynx""",2
"""Lynx""",2
"""Siamese Cat""",1


In [37]:
cats.join(more_cats, on="name")

name
cat
"""Lynx"""
"""Lynx"""
"""Lynx"""
"""Lynx"""
"""Siamese Cat"""


In [38]:
with pl.StringCache():
    left = pl.DataFrame(
        {
            "categorical_column": ["value3", "value2", "value1"],
            "other": ["a", "b", "c"],
        },
        schema={"categorical_column": pl.Categorical, "other": pl.String},
    )
    right = pl.DataFrame(
        {
            "categorical_column": ["value2", "value3", "value4"],
            "other": ["d", "e", "f"],
        },
        schema={"categorical_column": pl.Categorical, "other": pl.String},
    )

In [39]:
left.join(right, on="categorical_column")

categorical_column,other,other_right
cat,str,str
"""value2""","""b""","""d"""
"""value3""","""a""","""e"""


In [40]:

pl.enable_string_cache()

In [41]:
right.select(pl.col("categorical_column").cat.get_categories())

categorical_column
str
"""Persian cat"""
"""Siamese Cat"""
"""Lynx"""
"""Maine Coon Cat"""
"""value3"""
…
"""value1"""
"""value4"""
"""Polar"""
"""Panda"""


In [42]:
sorting_comparison_df = cats.select(cat_lexical=pl.col("name")).with_columns(
    cat_physical=pl.col("cat_lexical").to_physical()
)

sorting_comparison_df

cat_lexical,cat_physical
cat,u32
"""Persian cat""",0
"""Siamese Cat""",1
"""Lynx""",2
"""Lynx""",2


In [43]:
sorting_comparison_df.with_columns(
   pl.col("cat_lexical").cast(pl.Categorical())
).sort(by="cat_lexical")

cat_lexical,cat_physical
cat,u32
"""Lynx""",2
"""Lynx""",2
"""Persian cat""",0
"""Siamese Cat""",1


In [44]:
sorting_comparison_df.with_columns(
    pl.col("cat_lexical").cast(pl.Categorical("lexical"))
).sort(by="cat_lexical")

cat_lexical,cat_physical
cat,u32
"""Lynx""",2
"""Lynx""",2
"""Persian cat""",0
"""Siamese Cat""",1


## Enum

In [45]:
bear_enum_dtype = pl.Enum(["Polar", "Panda", "Brown"])
bear_enum_dtype

Enum(categories=['Polar', 'Panda', 'Brown'])

In [46]:
bear_enum_series = pl.Series(
    ["Polar", "Panda", "Brown", "Brown", "Polar"], dtype=bear_enum_dtype
)
bear_enum_series

"""Polar"""
"""Panda"""
"""Brown"""
"""Brown"""
"""Polar"""


In [47]:
bear_cat_series = pl.Series(
    ["Polar", "Panda", "Brown", "Brown", "Polar"], dtype=pl.Categorical
)
bear_cat_series

"""Polar"""
"""Panda"""
"""Brown"""
"""Brown"""
"""Polar"""


##  **Temporal**

| Data type | Description | Example | Storage |
|-----------|-------------|---------|---------|
| **Date** | Represents a calendar date without a time of day. | Birthdays | Int32 representing the amount of days since the Unix epoch (1970-01-01). |
| **Datetime** | Represents a calendar date and a time of day on that date. | Timestamps in logging | Int64 since the Unix epoch, and can have different units such as ns, us, ms. |
| **Duration** | Represents a time interval, the difference between two points in time. It’s similar to `timedelta` in Python. | Elapsed time between two events | Int64 created when subtracting Date/Datetime. |
| **Time** | Focuses only on a time of day. | Scheduling of daily tasks. | Int64 representing nanoseconds since midnight. |

## Temporal Methods

El espacio de nombres `Expr.dt` en Polars proporciona una variedad de métodos para convertir, describir y manipular tipos de datos temporales.

---

### Métodos temporales para conversión

Estos métodos permiten convertir datos temporales a y desde otros tipos de datos o formatos.

| Método                           | Descripción                                                                                      |
|-----------------------------------|--------------------------------------------------------------------------------------------------|
| `Expr.dt.cast_time_unit(...)`     | Convierte los datos subyacentes a otra unidad de tiempo.                                         |
| `Expr.dt.strftime(...)`           | Convierte una columna de Date/Time/Datetime en una columna de String con el formato dado.        |
| `Expr.dt.to_string(...)`          | Convierte una columna de Date/Time/Datetime en una columna de String con el formato dado.        |

---

### Métodos temporales para descripción y consulta

Estos métodos devuelven atributos o propiedades de los datos temporales.

| Método                                 | Descripción                                                                                   |
|-----------------------------------------|-----------------------------------------------------------------------------------------------|
| `Expr.dt.base_utc_offset()`             | Desplazamiento base respecto a UTC.                                                           |
| `Expr.dt.century()`                     | Extrae el siglo de la representación Date subyacente.                                         |
| `Expr.dt.date()`                        | Extrae la fecha de un Datetime.                                                               |
| `Expr.dt.datetime()`                    | Devuelve el Datetime.                                                                         |
| `Expr.dt.day()`                         | Extrae el día de la representación Date subyacente.                                           |
| `Expr.dt.dst_offset()`                  | Desplazamiento adicional actualmente en efecto (por horario de verano, por ejemplo).          |
| `Expr.dt.epoch(...)`                    | Obtiene el tiempo transcurrido desde el Unix epoch en la unidad de tiempo dada.               |
| `Expr.dt.hour()`                        | Extrae la hora de la representación Datetime subyacente.                                      |
| `Expr.dt.is_leap_year()`                | Determina si el año de la Date subyacente es bisiesto.                                        |
| `Expr.dt.iso_year()`                    | Extrae el año ISO de la representación Date subyacente.                                       |
| `Expr.dt.microsecond()`                 | Extrae los microsegundos de la representación Datetime subyacente.                            |
| `Expr.dt.millennium()`                  | Extrae el milenio de la representación Date subyacente.                                       |
| `Expr.dt.millisecond()`                 | Extrae los milisegundos de la representación Datetime subyacente.                             |
| `Expr.dt.minute()`                      | Extrae los minutos de la representación Datetime subyacente.                                  |
| `Expr.dt.month()`                       | Extrae el mes de la representación Date subyacente.                                           |
| `Expr.dt.nanosecond()`                  | Extrae los nanosegundos de la representación Datetime subyacente.                             |
| `Expr.dt.ordinal_day()`                 | Extrae el día ordinal de la representación Date subyacente.                                   |
| `Expr.dt.quarter()`                     | Extrae el trimestre de la representación Date subyacente.                                     |
| `Expr.dt.second(...)`                   | Extrae los segundos de la representación Datetime subyacente.                                 |
| `Expr.dt.time()`                        | Extrae la hora.                                                                               |
| `Expr.dt.timestamp(...)`                | Devuelve un timestamp en la unidad de tiempo dada.                                            |
| `Expr.dt.total_days()`                  | Extrae el total de días de un tipo de dato Duration.                                          |
| `Expr.dt.total_hours()`                 | Extrae el total de horas de un tipo de dato Duration.                                         |
| `Expr.dt.total_microseconds()`          | Extrae el total de microsegundos de un tipo de dato Duration.                                 |
| `Expr.dt.total_milliseconds()`          | Extrae el total de milisegundos de un tipo de dato Duration.                                  |
| `Expr.dt.total_minutes()`               | Extrae el total de minutos de un tipo de dato Duration.                                       |
| `Expr.dt.total_nanoseconds()`           | Extrae el total de nanosegundos de un tipo de dato Duration.                                  |
| `Expr.dt.total_seconds()`               | Extrae el total de segundos de un tipo de dato Duration.                                      |
| `Expr.dt.year()`                        | Extrae el año de la representación Date subyacente.                                           |

---

### Métodos temporales para manipulación

Estos métodos permiten manipular y transformar datos temporales.

| Método                                  | Descripción                                                                                   |
|------------------------------------------|-----------------------------------------------------------------------------------------------|
| `Expr.dt.add_business_days(...)`         | Desplaza por n días hábiles.                                                                  |
| `Expr.dt.combine(...)`                   | Crea un Datetime naive a partir de una expresión Date/Datetime existente y una hora.           |
| `Expr.dt.convert_time_zone(...)`         | Convierte a la zona horaria dada para una expresión de tipo Datetime.                         |
| `Expr.dt.month_start()`                  | Retrocede al primer día del mes.                                                              |
| `Expr.dt.month_end()`                    | Avanza al último día del mes.                                                                 |
| `Expr.dt.offset_by(...)`                 | Desplaza esta fecha por un desplazamiento relativo de tiempo.                                 |
| `Expr.dt.replace_time_zone(...)`         | Reemplaza la zona horaria para una expresión de tipo Datetime.                                |
| `Expr.dt.round(...)`                     | Divide el rango Date/Datetime en intervalos (redondea al intervalo más cercano).              |
| `Expr.dt.truncate(...)`                  | Divide el rango Date/Datetime en intervalos (trunca al intervalo).                            |
| `Expr.dt.week()`                         | Extrae la semana de la representación Date subyacente.                                        |
| `Expr.dt.weekday()`                      | Extrae el día de la semana de la representación Date subyacente.                              |
| `Expr.dt.with_time_unit(...)`            | Establece la unidad de tiempo de una expresión de tipo Datetime o Duration.                   |


## Temporal Examples

In [48]:
pl.read_csv("data/all_stocks.csv", try_parse_dates=True)

symbol,date,open,high,low,close,adj close,volume
str,date,f64,f64,f64,f64,f64,i64
"""ASML""",1999-01-04,11.765625,12.28125,11.765625,12.140625,7.522523,1801867
"""ASML""",1999-01-05,11.859375,14.25,11.71875,13.96875,8.655257,8241600
"""ASML""",1999-01-06,14.25,17.601563,14.203125,16.875,10.456018,16400267
"""ASML""",1999-01-07,14.742188,17.8125,14.53125,16.851563,10.441495,17722133
"""ASML""",1999-01-08,16.078125,16.289063,15.023438,15.796875,9.787995,10696000
…,…,…,…,…,…,…,…
"""TSM""",2023-06-26,102.019997,103.040001,100.089996,100.110001,99.125954,8560000
"""TSM""",2023-06-27,101.150002,102.790001,100.019997,102.080002,101.076591,9732000
"""TSM""",2023-06-28,100.5,101.879997,100.220001,100.919998,99.927986,8160900
"""TSM""",2023-06-29,101.339996,101.519997,100.019997,100.639999,99.650742,7383900


Converting to and on a String

In [49]:
dates = pl.DataFrame(
    {
        'date_str': [
            "2023-12-31", "2024-02-29"
        ] 
    }
).with_columns(
    date=pl.col("date_str").str.to_date("%Y-%m-%d")
)
dates

date_str,date
str,date
"""2023-12-31""",2023-12-31
"""2024-02-29""",2024-02-29


In [50]:
dates.with_columns(formatted_date=pl.col("date").dt.to_string("%d-%m-%Y"))

date_str,date,formatted_date
str,date,str
"""2023-12-31""",2023-12-31,"""31-12-2023"""
"""2024-02-29""",2024-02-29,"""29-02-2024"""


In [51]:
pl.DataFrame(
    {
        "monday": pl.date_range(
            start=pl.date(2024, 10, 28),
            end=pl.date(2024, 12, 1),
            interval="1w",  
            eager=True,  
        ),
    }
)

monday
date
2024-10-28
2024-11-04
2024-11-11
2024-11-18
2024-11-25


Time zones

In [52]:
pl.DataFrame(  
    {
        "utc_mixed_offset": [
        "2021-03-27T00:00:00+0100",
        "2021-03-28T00:00:00+0100",
        "2021-03-29T00:00:00+0200",
        "2021-03-30T00:00:00+0200",
        ]
    }
).with_columns(
    parsed=pl.col("utc_mixed_offset").str.to_datetime(
    "%Y-%m-%dT%H:%M:%S%z"
)  
).with_columns(
    converted=pl.col("parsed").dt.convert_time_zone("Europe/Amsterdam")  
)

utc_mixed_offset,parsed,converted
str,"datetime[μs, UTC]","datetime[μs, Europe/Amsterdam]"
"""2021-03-27T00:00:00+0100""",2021-03-26 23:00:00 UTC,2021-03-27 00:00:00 CET
"""2021-03-28T00:00:00+0100""",2021-03-27 23:00:00 UTC,2021-03-28 00:00:00 CET
"""2021-03-29T00:00:00+0200""",2021-03-28 22:00:00 UTC,2021-03-29 00:00:00 CEST
"""2021-03-30T00:00:00+0200""",2021-03-29 22:00:00 UTC,2021-03-30 00:00:00 CEST


## List

Existen tres formas principales de almacenar una colección de datos en una sola columna en Polars: usando un **Array**, una **List** o un **Struct**.

- **Array**: Es una colección de elementos del mismo tipo y longitud fija. Útil para datos numéricos o vectores donde cada fila tiene la misma cantidad de elementos.
- **List**: Permite almacenar una secuencia de elementos del mismo tipo, pero de longitud variable. Es ideal para casos donde cada fila puede tener diferente cantidad de elementos.
- **Struct**: Permite agrupar múltiples columnas bajo una sola columna, donde cada campo puede tener un tipo diferente. Es útil para representar registros o entidades con atributos heterogéneos.

Cada uno tiene ventajas según el tipo de datos y la estructura que necesites modelar.

### Métodos para el tipo de dato List en Polars

| Método                                      | Descripción                                                                                           |
|----------------------------------------------|-------------------------------------------------------------------------------------------------------|
| `Expr.list.all()`                           | Evalúa si todos los valores booleanos en una List son verdaderos.                                     |
| `Expr.list.any()`                           | Evalúa si algún valor booleano en una List es verdadero.                                              |
| `Expr.list.arg_max()`                       | Devuelve el índice del valor máximo en cada sub-List.                                                 |
| `Expr.list.arg_min()`                       | Devuelve el índice del valor mínimo en cada sub-List.                                                 |
| `Expr.list.concat(...)`                     | Concatena los Arrays en una List Series en tiempo lineal.                                             |
| `Expr.list.contains(...)`                   | Verifica si las sub-List contienen el elemento dado.                                                  |
| `Expr.list.count_matches(...)`              | Cuenta cuántas veces aparece un valor en los elementos de la List.                                    |
| `Expr.list.diff(...)`                       | Calcula la primera diferencia discreta entre elementos desplazados de cada sub-List.                  |
| `Expr.list.drop_nulls()`                    | Elimina todos los valores nulos en la List.                                                           |
| `Expr.list.eval(...)`                       | Ejecuta cualquier expresión de Polars sobre los elementos de la List.                                 |
| `Expr.list.explode()`                       | Devuelve una columna con una fila separada por cada elemento de la List.                              |
| `Expr.list.first()`                         | Obtiene el primer valor de las sub-List.                                                              |
| `Expr.list.gather(...)`                     | Toma sub-List por múltiples índices.                                                                  |
| `Expr.list.gather_every(...)`               | Toma cada n-ésimo valor desde un offset en las sub-List.                                              |
| `Expr.list.get(...)`                        | Obtiene el valor por índice en las sub-List.                                                          |
| `Expr.list.head(...)`                       | Extrae los primeros n valores de cada sub-List.                                                       |
| `Expr.list.join(...)`                       | Une todos los elementos String de una sub-List usando un separador.                                   |
| `Expr.list.last()`                          | Obtiene el último valor de las sub-List.                                                              |
| `Expr.list.len()`                           | Devuelve el número de elementos en cada List.                                                         |
| `Expr.list.max()`                           | Calcula el valor máximo de las List en el Array.                                                      |
| `Expr.list.mean()`                          | Calcula el valor medio de las List en el Array.                                                       |
| `Expr.list.median()`                        | Calcula el valor mediano de las List en el Array.                                                     |
| `Expr.list.min()`                           | Calcula el valor mínimo de las List en el Array.                                                      |
| `Expr.list.n_unique()`                      | Cuenta el número de valores únicos en cada sub-List.                                                  |
| `Expr.list.reverse()`                       | Invierte los Arrays en la List.                                                                       |
| `Expr.list.sample(...)`                     | Muestra aleatoriamente elementos de la List.                                                          |
| `Expr.list.set_difference(...)`             | Calcula la diferencia de conjuntos entre los elementos de esta List y otra.                           |
| `Expr.list.set_intersection(...)`           | Calcula la intersección de conjuntos entre los elementos de esta List y otra.                         |
| `Expr.list.set_symmetric_difference(...)`   | Calcula la diferencia simétrica de conjuntos entre los elementos de esta List y otra.                 |
| `Expr.list.set_union(...)`                  | Calcula la unión de conjuntos entre los elementos de esta List y otra.                                |
| `Expr.list.shift(...)`                      | Desplaza los valores de la List por el número dado de índices.                                        |
| `Expr.list.slice(...)`                      | Extrae una porción de cada sub-List.                                                                  |
| `Expr.list.sort(...)`                       | Ordena las List en esta columna.                                                                      |
| `Expr.list.std(...)`                        | Calcula la desviación estándar de las List en el Array.                                               |
| `Expr.list.sum()`                           | Suma todos los valores de las List en el Array.                                                       |
| `Expr.list.tail(...)`                       | Extrae los últimos n valores de cada sub-List.                                                        |
| `Expr.list.to_array(...)`                   | Convierte una columna List en una columna Array con el mismo tipo de dato interno.                    |
| `Expr.list.to_struct(...)`                  | Convierte una Series de tipo List a una Series de tipo Struct.                                        |
| `Expr.list.unique(...)`                     | Obtiene los valores únicos/distintos en la List.                                                      |
| `Expr.list.var(...)`                        | Calcula la varianza de las List en el Array.                                                          |

## List Examples

In [54]:
bools = pl.DataFrame(
    {
        "values": [[True, True], [False, False, True], [False]]
    }
)

bools.with_columns(
    all_true=pl.col("values").list.all(),
    any_true=pl.col("values").list.any(),
)

values,all_true,any_true
list[bool],bool,bool
"[true, true]",True,True
"[false, false, true]",False,True
[false],False,False


In [None]:
groups = pl.DataFrame({"ages": [[18, 21], [30, 40, 50], [42, 69]]})

# Evalúa si cada elemento de la lista 'ages' es mayor a 40, usando procesamiento paralelo
groups = groups.with_columns(
    over_forty=pl.col("ages").list.eval(
        pl.element() > 40,
        parallel=True  # acelera el cálculo si es posible
    )
)

# Verifica si todos los valores en la lista 'over_forty' son True (es decir, si todos son > 40)
groups = groups.with_columns(
    all_over_forty=pl.col("over_forty").list.all()
)

groups

ages,over_forty,all_over_forty
list[i64],list[bool],bool
"[18, 21]","[false, false]",False
"[30, 40, 50]","[false, false, true]",False
"[42, 69]","[true, true]",True


In [56]:
groups.with_columns(
    ages_sorted_descending=pl.col("ages").list.sort(descending=True)
)

ages,ages_sorted_descending
list[i64],list[i64]
"[18, 21]","[21, 18]"
"[30, 40, 50]","[50, 40, 30]"
"[42, 69]","[69, 42]"


In [57]:
groups.explode("ages")

ages
i64
18
21
30
40
50
42
69


In [58]:
groups.select(pl.col("ages").list.explode())

ages
i64
18
21
30
40
50
42
69


## Métodos para el tipo de dato Array en Polars

El tipo de dato **Array** permite almacenar secuencias de longitud fija con valores del mismo tipo, siendo más eficiente en memoria y rendimiento que List. A continuación se muestra una tabla con los métodos principales disponibles para manipular, consultar y convertir datos de tipo Array en Polars.

| Método                        | Descripción                                                                                           |
|-------------------------------|-------------------------------------------------------------------------------------------------------|
| `Expr.arr.all()`              | Evalúa si todos los valores booleanos en cada sub-Array son verdaderos.                              |
| `Expr.arr.any()`              | Evalúa si algún valor booleano en cada sub-Array es verdadero.                                       |
| `Expr.arr.arg_max()`          | Devuelve el índice del valor máximo en cada sub-Array.                                               |
| `Expr.arr.arg_min()`          | Devuelve el índice del valor mínimo en cada sub-Array.                                               |
| `Expr.arr.contains(...)`      | Verifica si los sub-Arrays contienen el elemento dado.                                               |
| `Expr.arr.count_matches(...)` | Cuenta cuántas veces aparece un valor en los elementos del Array.                                    |
| `Expr.arr.explode()`          | Devuelve una columna con una fila separada por cada elemento del Array.                              |
| `Expr.arr.first()`            | Obtiene el primer valor de los sub-Arrays.                                                           |
| `Expr.arr.get(...)`           | Obtiene el valor por índice en los sub-Arrays.                                                       |
| `Expr.arr.join(...)`          | Une todos los elementos String de un sub-Array usando un separador.                                  |
| `Expr.arr.last()`             | Obtiene el último valor de los sub-Arrays.                                                           |
| `Expr.arr.max()`              | Calcula el valor máximo de los sub-Arrays.                                                           |
| `Expr.arr.median()`           | Calcula el valor mediano de los sub-Arrays.                                                          |
| `Expr.arr.min()`              | Calcula el valor mínimo de los sub-Arrays.                                                           |
| `Expr.arr.n_unique()`         | Cuenta el número de valores únicos en cada sub-Array.                                                |
| `Expr.arr.reverse()`          | Invierte los Arrays en esta columna.                                                                 |
| `Expr.arr.shift(...)`         | Desplaza los valores del Array por el número dado de índices.                                        |
| `Expr.arr.sort(...)`          | Ordena los Arrays en esta columna.                                                                   |
| `Expr.arr.std(...)`           | Calcula la desviación estándar de los valores en los sub-Arrays.                                     |
| `Expr.arr.sum()`              | Suma todos los valores de los sub-Arrays.                                                            |
| `Expr.arr.to_list()`          | Convierte una columna Array en una columna List con el mismo tipo de dato interno.                   |
| `Expr.arr.to_struct(...)`     | Convierte una Series de tipo Array a una Series de tipo Struct.                                      |
| `Expr.arr.unique(...)`        | Obtiene los valores únicos/distintos en el Array.                                                    |
| `Expr.arr.var(...)`           | Calcula la varianza de los valores en los sub-Arrays.                                                |

## Array Examples

In [59]:
# Ejemplo reproducible: DataFrame con columna Array para temperaturas semanales por ciudad
events = pl.DataFrame(
    [
        pl.Series(
            "location", ["Paris", "Amsterdam", "Barcelona"], dtype=pl.String
        ),
        pl.Series(
            "temperatures",
            [
                [23, 27, 21, 22, 24, 23, 22],
                [17, 19, 15, 22, 18, 20, 21],
                [30, 32, 28, 29, 34, 33, 31],
            ],
            dtype=pl.Array(pl.Int64, shape=7),
        ),
    ]
)

events

location,temperatures
str,"array[i64, 7]"
"""Paris""","[23, 27, … 22]"
"""Amsterdam""","[17, 19, … 21]"
"""Barcelona""","[30, 32, … 31]"


In [62]:
events.with_columns(
    median=pl.col("temperatures").arr.median(),
    max=pl.col("temperatures").arr.max(),
    warmest_dow=pl.col("temperatures").arr.arg_max()
)

location,temperatures,median,max,warmest_dow
str,"array[i64, 7]",f64,i64,u32
"""Paris""","[23, 27, … 22]",23.0,27,1
"""Amsterdam""","[17, 19, … 21]",19.0,22,3
"""Barcelona""","[30, 32, … 31]",31.0,34,4


### Tipo de dato Struct en Polars

Un **Struct** es un tipo de dato anidado que permite almacenar múltiples Series (campos) dentro de una sola Series, similar a un diccionario de Python con claves y valores nombrados. Cada campo puede tener su propio tipo de dato, lo que facilita el manejo eficiente de datos heterogéneos. Los Structs permiten realizar operaciones multicolumna manteniendo el paradigma de expresiones en Polars, y no duplican datos: referencian los buffers existentes para eficiencia de memoria.

#### Métodos principales para Struct

| Método                          | Descripción                                                      |
|----------------------------------|------------------------------------------------------------------|
| `Expr.struct.field(...)`         | Recupera un campo del Struct como una nueva Series.              |
| `Expr.struct.json_encode()`      | Convierte el Struct en una columna String con valores JSON.       |
| `Expr.struct.rename_fields(...)` | Renombra los campos del Struct.                                  |
| `Expr.struct.unnest()`           | Expande el Struct en sus campos individuales.                    |
| `Expr.struct.with_fields(...)`   | Añade o sobrescribe campos en el Struct.                         |

Los Structs son ideales para trabajar con datos anidados o agrupados, permitiendo operaciones complejas y manteniendo el uso de memoria eficiente.

## Struct Examples

In [63]:
from datetime import date

orders = pl.DataFrame(
	{
		"customer_id": [2781, 6139, 5392],
		"order_details": [
			{"amount": 250.00, "date": date(2024, 1, 3), "items": 5},
			{"amount": 150.00, "date": date(2024, 1, 5), "items": 1},
			{"amount": 100.00, "date": date(2024, 1, 2), "items": 3},
		],
	},
)
orders

customer_id,order_details
i64,struct[3]
2781,"{250.0,2024-01-03,5}"
6139,"{150.0,2024-01-05,1}"
5392,"{100.0,2024-01-02,3}"


In [67]:
orders.select(pl.col("order_details").struct.field("amount"))

amount
f64
250.0
150.0
100.0


The same as Expr.struct.field("*")

In [65]:
# return multiple columns
oder_details_df = orders.unnest("order_details")
oder_details_df

customer_id,amount,date,items
i64,f64,date,i64
2781,250.0,2024-01-03,5
6139,150.0,2024-01-05,1
5392,100.0,2024-01-02,3


In [69]:
oder_details_df.select(
    "amount",
    "date",
    "items",
     order_details=pl.struct(pl.col("amount"), pl.col("date"), pl.col("items")),
)

amount,date,items,order_details
f64,date,i64,struct[3]
250.0,2024-01-03,5,"{250.0,2024-01-03,5}"
150.0,2024-01-05,1,"{150.0,2024-01-05,1}"
100.0,2024-01-02,3,"{100.0,2024-01-02,3}"


In [70]:
basket = pl.DataFrame(
    {
        "fruit": ["cherry", "apple", "banana", "banana", "apple", "banana"],
    }
)
basket

fruit
str
"""cherry"""
"""apple"""
"""banana"""
"""banana"""
"""apple"""
"""banana"""


In [71]:
basket.select(pl.col("fruit").value_counts(sort=True))

fruit
struct[2]
"{""banana"",3}"
"{""apple"",2}"
"{""cherry"",1}"


In [72]:
basket.select(pl.col("fruit").value_counts(sort=True).struct.unnest())

fruit,count
str,u32
"""banana""",3
"""apple""",2
"""cherry""",1


### Resumen del capítulo: Tipos de datos en Polars

En este capítulo se exploraron los principales tipos de datos en Polars que cuentan con espacios de nombres y métodos especializados para su manipulación eficiente:

- **Strings**: Se destacó cómo Polars optimiza el almacenamiento de cadenas de longitud variable mediante layouts de memoria eficientes.
- **Categorical y Enum**: Se explicó cómo estos tipos permiten trabajar con cadenas repetidas de forma eficiente en memoria, usando codificación por diccionario y categorías fijas.
- **Datos temporales**: Se revisaron los tipos Date, Datetime, Time y Duration, mostrando cómo facilitan el manejo de información basada en fechas y tiempos, y los métodos disponibles para conversión, consulta y manipulación.
- **Tipos anidados**: Se presentaron List, Array y Struct, que permiten almacenar secuencias y datos estructurados en una sola columna, facilitando el trabajo con datos complejos y heterogéneos.

Con estos tipos de datos y sus métodos, Polars permite trabajar de manera flexible y eficiente con una amplia variedad de estructuras y necesidades de datos. En el siguiente capítulo se abordarán técnicas para resumir y agregar información.