# Working with Textual, Temporal, and Nested Data Types

In [1]:
import polars as pl

## String

## String Methods

### String methods for conversion

| Method                | Description                                                                 |
|-----------------------|-----------------------------------------------------------------------------|
| `Expr.str.decode()`   | Decodes a byte string to a Unicode string using a specified encoding.        |
| `Expr.str.encode()`   | Encodes a string to bytes using a specified encoding.                        |
| `Expr.str.json_decode()` | Parses a JSON string and returns the corresponding data structure.         |
| `Expr.str.json_path_match()` | Extracts data from a JSON string using a JSONPath expression.          |
| `Expr.str.strptime()` | Parses a string into a datetime object using a specified format.             |
| `Expr.str.to_date()`  | Converts a string to a date object.                                          |
| `Expr.str.to_datetime()` | Converts a string to a datetime object.                                   |
| `Expr.str.to_decimal()` | Converts a string to a decimal number.                                     |
| `Expr.str.to_integer()` | Converts a string to an integer.                                           |
| `Expr.str.to_time()`  | Converts a string to a time object.                                          |

### Métodos de cadena para describir y consultar

| Método                        | Descripción                                                                                       |
|-------------------------------|---------------------------------------------------------------------------------------------------|
| `Expr.str.contains()`         | Verifica si la cadena contiene un patrón o subcadena especificada.                                |
| `Expr.str.contains_any()`     | Verifica si la cadena contiene alguno de los patrones especificados.                              |
| `Expr.str.count_matches()`    | Cuenta cuántas veces aparece un patrón en la cadena.                                              |
| `Expr.str.ends_with()`        | Verifica si la cadena termina con una subcadena especificada.                                     |
| `Expr.str.find()`             | Devuelve el índice de la primera aparición de una subcadena o patrón en la cadena.                |
| `Expr.str.len_bytes()`        | Devuelve la longitud de la cadena en bytes.                                                       |
| `Expr.str.len_chars()`        | Devuelve la longitud de la cadena en caracteres.                                                  |
| `Expr.str.starts_with()`      | Verifica si la cadena comienza con una subcadena especificada.                                    |

### Strings method for manipulation

| Método                           | Descripción                                                                                           |
|-----------------------------------|-------------------------------------------------------------------------------------------------------|
| `Expr.str.concat()`               | Concatena varias cadenas en una sola.                                                                 |
| `Expr.str.escape_regex()`         | Escapa caracteres especiales en una cadena para usarlos en expresiones regulares.                     |
| `Expr.str.explode()`              | Divide una cadena en partes y las convierte en filas separadas.                                       |
| `Expr.str.extract()`              | Extrae la primera coincidencia de un patrón de expresión regular en la cadena.                        |
| `Expr.str.extract_all()`          | Extrae todas las coincidencias de un patrón de expresión regular en la cadena.                        |
| `Expr.str.extract_groups()`       | Extrae grupos de coincidencias de una expresión regular en la cadena.                                 |
| `Expr.str.extract_many()`         | Extrae múltiples coincidencias de varios patrones en la cadena.                                       |
| `Expr.str.head()`                 | Devuelve los primeros caracteres de la cadena.                                                        |
| `Expr.str.join()`                 | Une una lista de cadenas usando un separador especificado.                                            |
| `Expr.str.pad_end()`              | Rellena la cadena al final con un carácter hasta alcanzar una longitud específica.                    |
| `Expr.str.pad_start()`            | Rellena la cadena al inicio con un carácter hasta alcanzar una longitud específica.                   |
| `Expr.str.replace()`              | Reemplaza la primera aparición de un patrón por otra subcadena.                                       |
| `Expr.str.replace_all()`          | Reemplaza todas las apariciones de un patrón por otra subcadena.                                      |
| `Expr.str.replace_many()`         | Reemplaza múltiples patrones por sus respectivas subcadenas en la cadena.                             |
| `Expr.str.reverse()`              | Invierte el orden de los caracteres en la cadena.                                                     |
| `Expr.str.slice()`                | Extrae una subcadena usando índices de inicio y fin.                                                  |
| `Expr.str.split()`                | Divide la cadena en una lista de subcadenas usando un separador.                                      |
| `Expr.str.split_exact()`          | Divide la cadena en un número exacto de partes usando un separador.                                   |
| `Expr.str.splitn()`               | Divide la cadena en un número limitado de partes usando un separador.                                 |
| `Expr.str.strip_chars()`          | Elimina los caracteres especificados de ambos extremos de la cadena.                                  |
| `Expr.str.strip_chars_end()`      | Elimina los caracteres especificados solo del final de la cadena.                                     |
| `Expr.str.strip_chars_start()`    | Elimina los caracteres especificados solo del inicio de la cadena.                                    |
| `Expr.str.strip_prefix()`         | Elimina el prefijo especificado de la cadena si está presente.                                        |
| `Expr.str.strip_suffix()`         | Elimina el sufijo especificado de la cadena si está presente.                                         |
| `Expr.str.tail()`                 | Devuelve los últimos caracteres de la cadena.                                                         |
| `Expr.str.to_lowercase()`         | Convierte todos los caracteres de la cadena a minúsculas.                                             |
| `Expr.str.to_littlecase()`        | Convierte la cadena a minúsculas (sinónimo de `to_lowercase`).                                        |
| `Expr.str.to_uppercase()`         | Convierte todos los caracteres de la cadena a mayúsculas.                                             |
| `Expr.str.zfill()`                | Rellena la cadena con ceros a la izquierda hasta alcanzar una longitud específica.                    |

### String Examples

In [3]:
corpus = pl.DataFrame(
    {
        "raw_data": [
            "  Data Science is amazing ",
            "Data_analysis > Data entry",
            " Python$Polars; Fast",
        ]
    }
)
corpus

raw_data
str
""" Data Science is amazing """
"""Data_analysis > Data entry"""
""" Python$Polars; Fast"""


In [4]:
corpus = corpus.with_columns(
    processed_text=pl.col("raw_data")
    .str.strip_chars()  # Remove leading/trailing whitespace
    .str.to_lowercase()  # Convert to lowercase
    .str.replace_all("_", " ")  # Replace underscores with spaces
)
corpus

raw_data,processed_text
str,str
""" Data Science is amazing ""","""data science is amazing"""
"""Data_analysis > Data entry""","""data analysis > data entry"""
""" Python$Polars; Fast""","""python$polars; fast"""


In [5]:
corpus.with_columns(
    first_5_chars=pl.col("processed_text").str.slice(0, 5),
    firs_word=pl.col("processed_text")
    .str.split(" ")
    .list.get(0),
    second_word=pl.col("processed_text")
    .str.split(" ")
    .list.get(1),
    
)

raw_data,processed_text,first_5_chars,firs_word,second_word
str,str,str,str,str
""" Data Science is amazing ""","""data science is amazing""","""data ""","""data""","""science"""
"""Data_analysis > Data entry""","""data analysis > data entry""","""data ""","""data""","""analysis"""
""" Python$Polars; Fast""","""python$polars; fast""","""pytho""","""python$polars;""","""fast"""


In [7]:
corpus.with_columns(
    len_chars=pl.col("processed_text").str.len_chars(),
    len_bytes=pl.col("processed_text").str.len_bytes(),
    count_a=pl.col("processed_text").str.count_matches("a"),
)

raw_data,processed_text,len_chars,len_bytes,count_a
str,str,u32,u32,u32
""" Data Science is amazing ""","""data science is amazing""",23,23,4
"""Data_analysis > Data entry""","""data analysis > data entry""",26,26,6
""" Python$Polars; Fast""","""python$polars; fast""",19,19,2


In [8]:
posts = pl.DataFrame(
    {
        "post": [
            "Loving #python and #polars",
            "A boomer post without hashtags",
        ]
    }
)

hashtag_regex = r"#(\w+)"

posts.with_columns(
    hashtags=pl.col("post").str.extract_all(hashtag_regex)
)

post,hashtags
str,list[str]
"""Loving #python and #polars""","[""#python"", ""#polars""]"
"""A boomer post without hashtags""",[]
