# CLASE 5.2: MANIPULACIÓN DE DATOS EN ESTRUCTURAS DE **<font color="mediumorchid">POLARS</font>**.
---

## Carga y guardado de datos en **<font color="mediumorchid">Polars</font>**.
Como ya hemos visto en todo el desarrollo de la asignatura, en general, el acceso a la información de interés propia de algún fenómeno, proceso o sistema que estamos interesados en analizar, suele provenir de archivos externos, muchas veces preprocesados por terceros. Por lo tanto, es común que hagamos uso de funciones especializadas en leer y/o acceder a tales archivos, o bien, que guarden las series y/o DataFrames que construyamos como resultado de algún análisis en nuestro computador. En **<font color="mediumorchid">Polars</font>**, tales funciones se resumen en un conjunto conocido como **IO** (del inglés **Input/Output**).

Antes de comentar las funciones de IO propias de **<font color="mediumorchid">Polars</font>**, importaremos esta librería (junto con **<font color="mediumorchid">Numpy</font>** y **<font color="mediumorchid">Pandas</font>**) a fin de hacer las correspondientes comparaciones en tiempo de ejecución que, en esta sección, sí serán de enorme importancia:

In [1]:
import numpy as np
import pandas as pd
import polars as pl

En esta sección, haremos uso de algunos archivos ubicados en la carpeta `datasets`, a fin de ejemplificar en primera instancia el cómo acceder a la data contenida en los mismos mediante el uso de algunas funciones de IO en **<font color="mediumorchid">Polars</font>**. Partiremos, como en el caso de **<font color="mediumorchid">Pandas</font>**, mostrando el acceso a archivos nativos de Microsoft Excel, a los que podremos acceder siempre por medio de la función `pl.read_excel()`. Sin embargo, para ello, será necesario instalar un motor de lectura de archivos de este tipo distinto del usado en **<font color="mediumorchid">Pandas</font>**, llamado `xlsx2csv`. Para ello, mediante nuestra consola, escribimos la instrucción:

    pip install xlsx2csv

Y ya podemos acceder a nuestros archivos de Excel:

In [2]:
# Acceso a un archivo nativo de Excel en Polars.
data = pl.read_excel(source="datasets/pillars_data.xlsx")

In [3]:
# Mostramos las primeras 5 filas de este DataFrame.
print(data.head())

shape: (5, 7)
┌────────────┬────────────┬──────┬──────────┬────────────────┬───────────┬─────────────┐
│ x          ┆ y          ┆ z    ┆ area     ┆ frec_fracturas ┆ sigma_z   ┆ tiraje_prom │
│ ---        ┆ ---        ┆ ---  ┆ ---      ┆ ---            ┆ ---       ┆ ---         │
│ f64        ┆ f64        ┆ i64  ┆ f64      ┆ f64            ┆ f64       ┆ f64         │
╞════════════╪════════════╪══════╪══════════╪════════════════╪═══════════╪═════════════╡
│ 776.718035 ┆ 259.185135 ┆ 1125 ┆ 286.5643 ┆ 1.979          ┆ 11.126392 ┆ 122.685     │
│ 811.143435 ┆ 263.059235 ┆ 1125 ┆ 286.5643 ┆ 3.07           ┆ 9.646313  ┆ 121.178     │
│ 845.568835 ┆ 266.933335 ┆ 1125 ┆ 286.5643 ┆ 3.07           ┆ 10.590594 ┆ 118.942     │
│ 879.994235 ┆ 270.807435 ┆ 1125 ┆ 286.5643 ┆ 1.75           ┆ 10.605144 ┆ 120.012     │
│ 914.419635 ┆ 274.681535 ┆ 1125 ┆ 286.5643 ┆ 0.67           ┆ 10.059537 ┆ 122.787     │
└────────────┴────────────┴──────┴──────────┴────────────────┴───────────┴─────────────┘


Como en el caso de **<font color="mediumorchid">Pandas</font>**, el acceso a archivos nativos y/o creados por Microsoft Excel en **<font color="mediumorchid">Polars</font>** es una tarea que consume varios recursos de memoria, y puede catalogarse como de ejecución *lenta*. Sin embargo, **<font color="mediumorchid">Polars</font>** es capaz de acceder a estos archivos más rápido que **<font color="mediumorchid">Pandas</font>**:

In [4]:
%timeit pd.read_excel(io="datasets/pillars_data.xlsx")
%timeit pl.read_excel(source="datasets/pillars_data.xlsx")

55.5 ms ± 3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
30.3 ms ± 671 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


Es posible seleccionar cualquier hoja en un libro de Excel accediendo al archivo mediante la función `pl.read_excel()`, usando el parámetro `sheet_name` para especificar el nombre de la hoja de interés. Podemos, igualmente, guardar cualquier DataFrame de interés en este formato en **<font color="mediumorchid">Polars</font>**, haciendo uso del método `write_excel()`, especificando la ruta y el nombre del archivo resultante mediante el parámetro `workbook`. Sin embargo, para ello, necesitamos instalar primero la librería `xlsxwriter`, a fin de dotar a **<font color="mediumorchid">Polars</font>** con la capacidad de crear este tipo de archivos:

    pip install XlsxWriter

Y ahora sí ya estamos en condiciones de almacenar nuestro DataFrame en un formato de libro de Excel:

In [5]:
# Almacenamos el DataFrame en un formato de Excel (con un nombre diferente).
data.write_excel(workbook="datasets/pillars_data_copy.xlsx")

<xlsxwriter.workbook.Workbook at 0x7f8d6270e1c0>

Por supuesto, existen otros formatos de archivos a los cuales podemos acceder por medio de **<font color="mediumorchid">Polars</font>**. Una opción muy popular, conforme lo visto en **<font color="mediumorchid">Pandas</font>**, corresponde a los archivos `csv`, los cuales pueden cargarse fácilmente por medio de la función `pl_read_csv()`, especificando la ruta y/o nombre del archivo de interés por medio del parámetro `source`:

In [6]:
# Cargamos un archivo csv por medio de Polars.
data = pl.read_csv(source="datasets/pillars_data.csv")

In [7]:
# Mostramos las primeras 5 filas de este DataFrame.
print(data.head())

shape: (5, 7)
┌────────────┬────────────┬──────┬──────────┬────────────────┬───────────┬─────────────┐
│ x          ┆ y          ┆ z    ┆ area     ┆ frec_fracturas ┆ sigma_z   ┆ tiraje_prom │
│ ---        ┆ ---        ┆ ---  ┆ ---      ┆ ---            ┆ ---       ┆ ---         │
│ f64        ┆ f64        ┆ i64  ┆ f64      ┆ f64            ┆ f64       ┆ f64         │
╞════════════╪════════════╪══════╪══════════╪════════════════╪═══════════╪═════════════╡
│ 776.718035 ┆ 259.185135 ┆ 1125 ┆ 286.5643 ┆ 1.979          ┆ 11.126392 ┆ 122.685     │
│ 811.143435 ┆ 263.059235 ┆ 1125 ┆ 286.5643 ┆ 3.07           ┆ 9.646313  ┆ 121.178     │
│ 845.568835 ┆ 266.933335 ┆ 1125 ┆ 286.5643 ┆ 3.07           ┆ 10.590594 ┆ 118.942     │
│ 879.994235 ┆ 270.807435 ┆ 1125 ┆ 286.5643 ┆ 1.75           ┆ 10.605144 ┆ 120.012     │
│ 914.419635 ┆ 274.681535 ┆ 1125 ┆ 286.5643 ┆ 0.67           ┆ 10.059537 ┆ 122.787     │
└────────────┴────────────┴──────┴──────────┴────────────────┴───────────┴─────────────┘


El archivo cuya data hemos cargado corresponde a una tabla que muestra algunos parámetros de interés relativos a unos pilares del nivel de producción de una mina explotada mediante el método Panel Caving. Las columnas que definen a esta tabla (y que se muestran en el DataFrame) son las siguientes:

- `x`: Coordenada X (en metros) del pilar en el sistema de referencia de la mina.
- `y`: Coordenada Y (en metros) del pilar en el sistema de referencia de la mina.
- `z`: Coordenada Z (en metros) del pilar en el sistema de referencia de la mina.
- `area`: Área del pilar (en metros cuadrados).
- `frec_fracturas`: Frecuencia de fracturas asociada al pilar (en número de fracturas por metro lineal), y que corresponde a una estimación de la calidad geotécnica del macizo rocoso que constituye cada pilar.
- `sigma_z`: Carga vertical pre-minería (en MPa) estimada sobre el pilar mediante modelamiento numérico de esfuerzos.
- `tiraje_prom`: Tonelaje promedio de mineral extraído desde los puntos de extracción inmediatamente adyacentes a cada pilar.

Como en el caso de la carga directa de datos desde archivos de Excel, **<font color="mediumorchid">Polars</font>**, suele ser mucho más rápido que **<font color="mediumorchid">Pandas</font>** al cargar archivos de tipo `csv`. Para el caso de nuestro archivo:

In [8]:
%timeit pd.read_csv(filepath_or_buffer="datasets/pillars_data.csv")
%timeit pl.read_csv(source="datasets/pillars_data.csv")

1.7 ms ± 61.6 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
327 µs ± 8.68 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Vemos pues que **<font color="mediumorchid">Polars</font>** carga el mismo archivo `csv`, aproximadamente, cuatro veces más rápido que **<font color="mediumorchid">Pandas</font>**.

Existen varios parámetros de interés que podemos manipular en la función `pl.read_csv()`. Algunos que puntualmente resultan muy importantes son:

- `try_parse_dates`: Parámetro Booleano que permite dejar que **<font color="mediumorchid">Polars</font>** intente especificar datos que podrían representar fechas, transformando tales datos en un formato adecuado a dichas fechas (siempre que corresponda). 
- `null_values`: Parámetro que permite especificar uno o más valores (normalmente strings) en una lista que serán intepreetados por **<font color="mediumorchid">Polars</font>** como datos de tipo `nan`. Se trata de un parámetro especialmente útil cuando descargamos datos directamente desde sensores, ya que, si conocemos los códigos de error, podemos usarlos para que **<font color="mediumorchid">Polars</font>** automáticamente los interprete como datos nulos y, de esa manera, el tipo de dato asociado a una determinada columna no se vea distorsionado. En **<font color="mediumorchid">Pandas</font>** existe un parámetro que hace exactamente lo mismo para el caso de la función `pd.read_csv()`, llamado `na_values`.
- `separator`: Parámetro que permite especificar el caracter que actúa como delimitador de cada columna en el archivo. En archivos de tipo `csv`, dicho separador suele ser una coma (que corresponde al parámetro por defecto, y que se especifica como `","`), pero puede haber casos en los cuales el separador es un punto y coma (`";"`), u otros caracteres que podemos revisar en la correspondiente [documentación](https://pola-rs.github.io/polars/py-polars/html/reference/api/polars.read_csv.html).

**<font color="mediumorchid">Polars</font>** igualmente nos permite guardar cualquier serie o DataFrame en nuestro computador en formato `csv`, haciendo uso del método `write_csv()`:

In [9]:
# Guardado de nuestro DataFrame en formato csv.
data.write_csv(file="datasets/pillars_data.csv")

**<font color="mediumorchid">Polars</font>** también nos permite **escanear** cualquier archivo `csv` y guardarlo en una estructura de datos (u objeto) llamada `LazyFrame`. Tal estructura es muy parecida a un DataFrame, con la **enorme** diferencia de que un LazyFrame no dispondrá de ningún agregado visual que nos permita gastar recursos en imprimirlo, mostrarlo o *jugar* con él. Vale decir, se trata de un objeto donde *sabemos* que están nuestros datos, pero que no mostraremos (ni dejaremos que **<font color="mediumorchid">Polars</font>** lo vea) a no ser que *nosotros* lo deseemos.

El escaneo de un archivo `csv` puede realizarse por medio de la función `pl_scan_csv()`, y que tiene casi los mismos parámetros que `pl.read_csv()`:

In [10]:
df = pl.scan_csv(source="datasets/pillars_data.csv")

La variable `df` es, en efecto, un LazyFrame de **<font color="mediumorchid">Polars</font>**:

In [11]:
type(df)

polars.lazyframe.frame.LazyFrame

Estos objetos son propios de la llamada **lazy API** de **<font color="mediumorchid">Polars</font>**, y que corresponde a una interfaz extremadamente eficiente con el gasto de recursos computacionales a la hora de manipular estructuras de datos. Tal eficiencia llegar al punto de ni siquiera gastar recursos en mostrar los datos almacenados en pantalla al intentar imprimirlos:

In [12]:
# Un LazyFrame no se imprime en pantalla.
print(df)

naive plan: (run LazyFrame.explain(optimized=True) to see the optimized plan)


  CSV SCAN datasets/pillars_data.csv
  PROJECT */7 COLUMNS


Si queremos, podemos extraer los datos de un LazyFrame por medio del método `fetch()`, usando el parámetro `n_rows` para especificar cuántas filas queremos recuperar:

In [13]:
# Recuperamos las 5 primeras filas de nuestro LazyFrame.
print(df.fetch(n_rows=5))

shape: (5, 7)
┌────────────┬────────────┬──────┬──────────┬────────────────┬───────────┬─────────────┐
│ x          ┆ y          ┆ z    ┆ area     ┆ frec_fracturas ┆ sigma_z   ┆ tiraje_prom │
│ ---        ┆ ---        ┆ ---  ┆ ---      ┆ ---            ┆ ---       ┆ ---         │
│ f64        ┆ f64        ┆ i64  ┆ f64      ┆ f64            ┆ f64       ┆ f64         │
╞════════════╪════════════╪══════╪══════════╪════════════════╪═══════════╪═════════════╡
│ 776.718035 ┆ 259.185135 ┆ 1125 ┆ 286.5643 ┆ 1.979          ┆ 11.126392 ┆ 122.685     │
│ 811.143435 ┆ 263.059235 ┆ 1125 ┆ 286.5643 ┆ 3.07           ┆ 9.646313  ┆ 121.178     │
│ 845.568835 ┆ 266.933335 ┆ 1125 ┆ 286.5643 ┆ 3.07           ┆ 10.590594 ┆ 118.942     │
│ 879.994235 ┆ 270.807435 ┆ 1125 ┆ 286.5643 ┆ 1.75           ┆ 10.605144 ┆ 120.012     │
│ 914.419635 ┆ 274.681535 ┆ 1125 ┆ 286.5643 ┆ 0.67           ┆ 10.059537 ┆ 122.787     │
└────────────┴────────────┴──────┴──────────┴────────────────┴───────────┴─────────────┘


El acceso a los datos de un archivo `csv` por medio de un escaneo permite igualmente ahorrar tiempo de ejecución:

In [14]:
%timeit pl.read_csv(source="datasets/pillars_data.csv")
%timeit pl.scan_csv(source="datasets/pillars_data.csv")

338 µs ± 8.2 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
107 µs ± 2.22 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


Vemos que `pl.scan_csv()` se ejecuta aproximadamente tres veces más rápido que `pl.read_csv()`.

**<font color="mediumorchid">Polars</font>** nos permite cargar datos desde otros tipos de archivos, incluyendo JSON, bases de datos y parquet. Por el momento, nos limitaremos a archivos estáticos propios de máquinas locales como `xlsx` y `csv`, y dejaremos el resto para un momento posterior.

## Iteraciones sobre filas... otra vez.
Como en el caso de **<font color="mediumorchid">Pandas</font>**, no es recomendable la iteración por filas en **<font color="mediumorchid">Polars</font>**, ya que no resulta eficiente en términos de tiempos de ejecución. Sin embargo, ello no quiere decir que **<font color="mediumorchid">Polars</font>** no nos ofrezca formad de hacerlo en caso de ser necesario. El método apto para construir iteraciones de este tipo, aplicable sobre series y DataFrames, es `iter_rows()`.

`iter_rows()` permite retornar filas de un DataFrame en un formato de tuplas o de diccionarios, de manera similar al método `row()`, dependiendo de si usamos el parámetro Booleano `named`. Sin embargo, la diferencia esencial entre ambos métodos, es que `iter_rows()` nos permite construir **generadores** aptos para cualquier tipo de cálculo iterativo:

In [15]:
# El método iter_rows() nos permite construir generadores.
data.iter_rows(named=False)

<generator object DataFrame.iter_rows at 0x7f8d672c5120>

El generador anterior nos permite construir cálculos iterativos de cualquier índole. Por ejemplo, mediante comprensiones de listas:

In [16]:
# Construimos una lista con los primeros 5 valores del esfuerzo vertical pre-minería
# (sigma_z) para cada pilar.
[row["sigma_z"] for row in data.head().iter_rows(named=True)]

[11.126392, 9.646313, 10.590594, 10.605144, 10.059537]

Y, por supuesto, también mediante bucles completos. Para ejemplificar una iteración por filas usando un bucle de tipo `for`, vamos a construir una nueva columna llamada `calidad_roca`, y que categorizará la calidad geotécnica de cada pilar conforme la siguiente clasificación:

- Si $FF\leq 1.25$, entonces la roca es de buena calidad.
- Si $FF\in (1.25,2.25]$, entonces la roca es de calidad regular.
- Si $FF>2.25$, entonces la roca es de mala calidad.

Lo que haremos será crear esta columna usando el método `iter_rows()`, asignando una categoría correspondiente dependiendo del valor asociado a la columna `frec_fracturas` en cada una de las filas del DataFrame, asignando tales valores a una serie previamente construida, con un tipo de dato conveniente, asignando luego dicha serie como una nueva columna al DataFrame mediante el método `with_columns()`:

In [17]:
# Inicializamos una serie con valores de tipo string iguales a "a".
s = pl.Series(values=np.full(fill_value="a", shape=data.shape[0]), name="calidad_roca")

In [18]:
# Mediante una iteración por filas, determinamos la categoría asociada a la calidad de
# la roca de los pilares y asignamos cada valor a la serie anterior.
for i, row_i in enumerate(data.iter_rows(named=True)):
    if row_i["frec_fracturas"] <= 1.25:
        qa_i = "Buena calidad"
    elif  row_i["frec_fracturas"] > 2.25:
        qa_i = "Mala calidad"
    else:
        qa_i = "Calidad regular"
    s[i] = qa_i

In [19]:
# Asignamos la serie anterior a nuestro DataFrame.
data = data.with_columns([s])

In [20]:
# Mostramos las primeras filas de nuestro DataFrame.
print(data.head())

shape: (5, 8)
┌────────────┬────────────┬──────┬──────────┬────────────┬───────────┬─────────────┬───────────────┐
│ x          ┆ y          ┆ z    ┆ area     ┆ frec_fract ┆ sigma_z   ┆ tiraje_prom ┆ calidad_roca  │
│ ---        ┆ ---        ┆ ---  ┆ ---      ┆ uras       ┆ ---       ┆ ---         ┆ ---           │
│ f64        ┆ f64        ┆ i64  ┆ f64      ┆ ---        ┆ f64       ┆ f64         ┆ str           │
│            ┆            ┆      ┆          ┆ f64        ┆           ┆             ┆               │
╞════════════╪════════════╪══════╪══════════╪════════════╪═══════════╪═════════════╪═══════════════╡
│ 776.718035 ┆ 259.185135 ┆ 1125 ┆ 286.5643 ┆ 1.979      ┆ 11.126392 ┆ 122.685     ┆ Calidad       │
│            ┆            ┆      ┆          ┆            ┆           ┆             ┆ regular       │
│ 811.143435 ┆ 263.059235 ┆ 1125 ┆ 286.5643 ┆ 3.07       ┆ 9.646313  ┆ 121.178     ┆ Mala calidad  │
│ 845.568835 ┆ 266.933335 ┆ 1125 ┆ 286.5643 ┆ 3.07       ┆ 10.590594 ┆ 118.94

Vamos a replicar todo el proceso anterior por medio de una función, a fin de poder medir el tiempo de ejecución de este procedimiento. Haremos un procedimiento similar en **<font color="mediumorchid">Pandas</font>**, de manera tal que podamos comparar los tiempos de ejecución resultantes en ambas librerías:

In [21]:
# Metemos todo el proceso anterior vía Polars en una función.
def classify_rock_qa_polars(data: pl.DataFrame) -> pd.DataFrame:
    # Inicializamos una serie con valores de tipo string iguales a "a".
    s = pl.Series(values=np.full(fill_value="a", shape=data.shape[0]), name="calidad_roca")
    
    # Mediante una iteración por filas, determinamos la categoría asociada a la calidad de
    # la roca de los pilares y asignamos cada valor a la serie anterior.
    for i, row_i in enumerate(data.iter_rows(named=True)):
        if row_i["frec_fracturas"] <= 1.25:
            qa_i = "Buena calidad"
        elif  row_i["frec_fracturas"] > 2.25:
            qa_i = "Mala calidad"
        else:
            qa_i = "Calidad regular"
        s[i] = qa_i
    
    # Asignamos la serie anterior a nuestro DataFrame.
    data = data.with_columns([s])
    
    return data

In [22]:
# Y también metemos todo en un proceso de Pandas, a fin de comparar.
# Una función para iterar por filas en un DataFrame de Pandas y hacer la clasificación.
def classify_rock_qa_pandas(data: pd.DataFrame) -> pd.DataFrame:
    # Definimos la nueva columna y la inicializamos con un NaN.
    data["calidad_roca"] = np.nan

    # Clasificamos los valores de la frecuencia de fracturas mediante un loop.
    for row in data.index:
        if data.loc[row, "frec_fracturas"] <= 1.25:
            data.loc[row, "calidad_roca"] = "Buena calidad"
        elif data.loc[row, "frec_fracturas"] > 2.25:
            data.loc[row, "calidad_roca"] = "Mala calidad"
        else:
            data.loc[row, "calidad_roca"] = "Calidad regular"
    return data

In [23]:
# Cargamos los datos en un DataFrame de Pandas.
df = pd.read_csv(filepath_or_buffer="datasets/pillars_data.csv")

In [24]:
%timeit classify_rock_qa_polars(data)
%timeit classify_rock_qa_pandas(df)

97.9 ms ± 9.7 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
93.7 ms ± 6.17 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


Vemos pues que, para este caso particular, **<font color="mediumorchid">Polars</font>** es igual de ineficiente que **<font color="mediumorchid">Pandas</font>** a la hora de generar iteraciones por filas sobre DataFrames. Y, además, su sintaxis no resulta en absoluto familiar con respecto a la de **<font color="mediumorchid">Pandas</font>** o, incluso, de **<font color="mediumorchid">Numpy</font>**. Tomaremos ésto como una motivación adicional para hacer todo el esfuerzo posible a fin de vectorizar las operaciones que queramos realizar sobre estructuras de datos de **<font color="mediumorchid">Polars</font>**. La anterior, puntualmente, podemos realizarla fácilmente mediante la función `np.where()`:

In [25]:
# Cargamos nuevamente nuestra data en un DataFrame de Polars, a fin de partir desde cero.
data = pl.read_csv(source="datasets/pillars_data.csv")

In [26]:
# Definimos una forma más eficiente de realizar la operación anterior.
def classify_rock_qa_vect(data: pl.DataFrame) -> pl.DataFrame:
    s = np.where(
        data["frec_fracturas"] <= 1.25, "Buena calidad",
        np.where(data["frec_fracturas"] > 2.25, "Mala calidad", "Calidad regular")
    )
    s = pl.Series(values=s)
    df = data.with_columns([s.alias("calidad_roca")])
    return df

In [27]:
# Revisamos su tiempo de ejecución.
%timeit classify_rock_qa_vect(data)

424 µs ± 6.53 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


¡Esta función es más de 200 veces más rápida que la anterior, tras haber evitado la iteración por filas!

Y ahora sí, ya podemos crear nuestra columna que permite categorizar la calidad de la roca constituyente de nuestros pilares:

In [28]:
# Aplicamos nuestra función vectorizada.
data = classify_rock_qa_vect(data)

In [29]:
# Mostramos las primeras filas de nuestro DataFrame.
print(data.head())

shape: (5, 8)
┌────────────┬────────────┬──────┬──────────┬────────────┬───────────┬─────────────┬───────────────┐
│ x          ┆ y          ┆ z    ┆ area     ┆ frec_fract ┆ sigma_z   ┆ tiraje_prom ┆ calidad_roca  │
│ ---        ┆ ---        ┆ ---  ┆ ---      ┆ uras       ┆ ---       ┆ ---         ┆ ---           │
│ f64        ┆ f64        ┆ i64  ┆ f64      ┆ ---        ┆ f64       ┆ f64         ┆ str           │
│            ┆            ┆      ┆          ┆ f64        ┆           ┆             ┆               │
╞════════════╪════════════╪══════╪══════════╪════════════╪═══════════╪═════════════╪═══════════════╡
│ 776.718035 ┆ 259.185135 ┆ 1125 ┆ 286.5643 ┆ 1.979      ┆ 11.126392 ┆ 122.685     ┆ Calidad       │
│            ┆            ┆      ┆          ┆            ┆           ┆             ┆ regular       │
│ 811.143435 ┆ 263.059235 ┆ 1125 ┆ 286.5643 ┆ 3.07       ┆ 9.646313  ┆ 121.178     ┆ Mala calidad  │
│ 845.568835 ┆ 266.933335 ┆ 1125 ┆ 286.5643 ┆ 3.07       ┆ 10.590594 ┆ 118.94

## Agregaciones por agrupamiento.

Cuando empezamos a dar nuestros primeros pasos en **<font color="mediumorchid">Polars</font>**, aprendimos que sus estructuras de datos pueden manipularse por medio de dos conjuntos importantes de transformaciones propias de su lenguaje de dominio específico (DSL), denominadas **contextos** y **expresiones**. Dos de los contextos ya fueron revisados en detalle previamente, siendo usados fundamentalmente para seleccionar datos (mediante los métodos `select()` y  `with_columns()`) y filtrarlos (por medio del método `filter()`). No obstante, nos quedó un contexto pendiente y que nos comprometimos a revisar, y que corresponde a la construcción de **agregaciones vía agrupamientos** por medio de los métodos `groupby()` y `agg()`.

Bajo el contexto `groupby()`, podemos trabajar cualquier tipo de expresión de **<font color="mediumorchid">Polars</font>** por medio de grupos construidos a partir de categorías existentes en un DataFrame, de tal forma que podamos generar cualquier tipo de agregación a partir de tales grupos. Por ejemplo, en nuestro DataFrame anterior (`data`), podemos usar el contexto `groupby()` para construir cualquier tipo de agregación en función de las categorías previamente construidas para calificar la calidad del macizo rocoso constituyente de cada pilar. La agregación toma como argumento el nombre de la columna que define a los grupos (en nuestro caso, `"calidad_roca"`), y luego hace uso del método `agg()` para generar las agregaciones que queramos, debido a que el resultado de la aplicación del método `groupby()` es un objeto preparado para construir tales agregaciones:

In [30]:
data.groupby("calidad_roca")

<polars.dataframe.groupby.GroupBy at 0x7f8d674b45e0>

De esta manera, construiremos la siguiente agregación: Calcularemos el promedio de la carga vertical pre-minería (columna `"sigma_z"`) y de la frecuencia de fracturas por metro lineal (columna `"frec_fracturas"`), y el máximo valor de tiraje adyacente (columna `"tiraje_prom"`) asociados a cada una de las calidades de macizo rocoso previamente definidas. Cada una de estas agregaciones se mostrará con un determinado alias, que definimos en la misma agregación por medio del método `alias()`, de la misma forma en que hicimos con los contextos `select_columns()`, `with_columns()` y `filter()`. La preservación de la **sintaxis contextual** de **<font color="mediumorchid">Polars</font>** es, por supuesto, parte de su lenguaje de dominio específico:

In [31]:
# Construimos las agregaciones encadenando al contexto groupby() el método agg().
result = data.groupby("calidad_roca").agg(
    pl.col("sigma_z").mean().alias("avg_sigma_z"),
    pl.col("frec_fracturas").mean().alias("avg_frec_fracturas"),
    pl.col("tiraje_prom").max().alias("max_tiraje_ady")
)

In [32]:
# Mostramos el resultado.
print(result)

shape: (3, 4)
┌─────────────────┬─────────────┬────────────────────┬────────────────┐
│ calidad_roca    ┆ avg_sigma_z ┆ avg_frec_fracturas ┆ max_tiraje_ady │
│ ---             ┆ ---         ┆ ---                ┆ ---            │
│ str             ┆ f64         ┆ f64                ┆ f64            │
╞═════════════════╪═════════════╪════════════════════╪════════════════╡
│ Mala calidad    ┆ 12.192455   ┆ 3.003736           ┆ 192.489        │
│ Calidad regular ┆ 12.355339   ┆ 1.751776           ┆ 193.471        │
│ Buena calidad   ┆ 13.552295   ┆ 0.735853           ┆ 201.307        │
└─────────────────┴─────────────┴────────────────────┴────────────────┘


Vemos pues que el método `agg()` es el ideal para construir cualquier tipo de agregación por medio de un agrupamiento previo conforme alguna columna de interés que sea categórica. 

Existen otras opciones para generar agregaciones de mayor complejidad. Por ejemplo, podemos hacer uso del método `apply()` sobre una agrupación realizada previamente con el contexto `groupby()` para construir un cálculo usando cualquier función que deseemos, similar a lo que ya hemos hecho usando la librería **<font color="mediumorchid">Pandas</font>**. Sin embargo, no lo haremos acá porque, como veremos más adelante, será mucho más eficiente realizar tales cálculos de este tipo aprovechando las **expresiones** provistas por **<font color="mediumorchid">Polars</font>**.

## Expresiones.

El pilar fundamental de la rapidez de **<font color="mediumorchid">Polars</font>** a la hora de realizar cualquier tipo de manipulación de sus estructuras de datos radica en las llamadas **expresiones**, y que, al igual que los contextos, son parte integral de su lenguaje de dominio específico (DSL). Estas expresiones representan una enorme cantidad de operaciones que podemos realizar sobre estructuras de datos de **<font color="mediumorchid">Polars</font>**. Por ejemplo:

- Extraer una muestra aleatoria de distintas filas de un DataFrame.
- Multiplicar los valores de una columna en un DataFrame por algún escalar.
- Extraer una columna que contenga los años que definen los *timestamps* definidos en otra columna en un determinado DataFrame.
- Convertir una columna de valores de tipo string en otra que elimine ciertos caracteres problemáticos (por ejemplo, que transforme cualquier caracter en mayúsculas en el mismo, pero en minúsculas).

**<font color="mediumorchid">Polars</font>** implementa las operaciones definidas por expresiones muy rápido, paralelizando tales operaciones cuando éstas se definen para varias columnas en un DataFrame. Estas expresiones pueden idearse como aplicaciones cuyo dominio y codominio son series de **<font color="mediumorchid">Polars</font>**, lo que permite manpipular los datos almacenados en un DataFrame encadenando estas expresiones serie a serie (o columna a columna).

Al mostrar previamente los contextos de **<font color="mediumorchid">Polars</font>**, ya trabajamos con expresiones, aunque nunca las definimos formalmente. Por ejemplo, definimos el siguiente filtro:

In [33]:
# Un filtro sencillo que se define a partir de una expresión.
data.filter((pl.col("calidad_roca") == "Mala calidad") & (pl.col("sigma_z") >= 20.0))

x,y,z,area,frec_fracturas,sigma_z,tiraje_prom,calidad_roca
f64,f64,i64,f64,f64,f64,f64,str
1052.121235,290.177935,1125,286.9684,3.07,20.386906,119.57,"""Mala calidad"""
1086.546635,294.052035,1125,285.655,3.07,26.811494,123.548,"""Mala calidad"""
1080.540535,280.294935,1125,285.7422,3.07,24.334748,122.197,"""Mala calidad"""
1114.965935,284.169135,1125,248.9047,3.07,25.943104,126.022,"""Mala calidad"""
1108.959835,270.410235,1125,286.5643,3.07,25.763218,125.252,"""Mala calidad"""
1102.952735,256.652235,1125,286.5643,3.07,21.843244,126.931,"""Mala calidad"""
1190.809535,84.682135,1125,183.5212,3.07,20.67544,141.254,"""Mala calidad"""
1275.050635,-95.653065,1125,644.9389,3.07,22.167532,148.145,"""Mala calidad"""
1366.417235,-94.689765,1125,557.4125,3.07,26.730452,147.198,"""Mala calidad"""
1336.637035,-94.482565,1125,550.7097,3.07,27.14646,145.482,"""Mala calidad"""


En el filtro anterior, la **expresión** que permite a **<font color="mediumorchid">Polars</font>** transformar el DataFrame `data` en una versión filtrada del mismo es `(pl.col("calidad_roca") == "Mala calidad") & (pl.col("sigma_z") >= 20.0)`. Tal expresión es la combinación de otras dos expresiones más simples, que son `pl.col("calidad_roca") == "Mala calidad"` y `pl.col("sigma_z") >= 20.0`.

Las selecciones de datos en DataFrames también trabajan conforme expresiones, las que a su vez implementan las transformaciones que queremos realizar:

In [34]:
# Las selecciones también trabajan conforme expresiones.
data_2 = data.select(
    [
        (np.sqrt(pl.col("x")**2 + pl.col("y")**2)).alias("r"),
        (np.rad2deg(np.arctan(pl.col("y") / pl.col("x")))).alias("theta"),
        (pl.col("area") * pl.col("frec_fracturas")).alias("p32"),
    ]
)

In [35]:
# Imprimimos las primeras filas de este nuevo DataFrame.
print(data_2.head())

shape: (5, 3)
┌────────────┬───────────┬────────────┐
│ r          ┆ theta     ┆ p32        │
│ ---        ┆ ---       ┆ ---        │
│ f64        ┆ f64       ┆ f64        │
╞════════════╪═══════════╪════════════╡
│ 818.821007 ┆ 18.453478 ┆ 567.11075  │
│ 852.733155 ┆ 17.968225 ┆ 879.752401 │
│ 886.701788 ┆ 17.520121 ┆ 879.752401 │
│ 920.720653 ┆ 17.105107 ┆ 501.487525 │
│ 954.784382 ┆ 16.719686 ┆ 191.998081 │
└────────────┴───────────┴────────────┘


En la selección anterior, que da lugar a un nuevo DataFrame, las **expresiones** que nos permiten llegar al resultado deseado son las siguientes:

- `(np.sqrt(pl.col("x")**2 + pl.col("y")**2)).alias("r")`, que permite construir la coordenada radial $r=x^{2}+y^{2}$ propia de un sistema de coordenadas polares para los pilares. Tal expresión es compuesta, ya que se ha construido a partir de las expresiones `pl.col("x")**2` y `pl.col("y")**2`.
- `(np.rad2deg(np.arctan(pl.col("y") / pl.col("x")))).alias("theta")`, que permite construir la coordenada transversal $\theta = \arctan(y/x)$ propia de un sistema de coordenadas polares para los pilares. Esta expresión también es compuesta, porque igualmente depende de las expresiones `pl.col("x")**2` y `pl.col("y")**2`.
- `(pl.col("area") * pl.col("frec_fracturas")).alias("p32")`, que permite construir una estimación de la frecuencia de fracturas por superficie del pilar completa (en metros cuadrados por metro lineal, y que típicamente se denomina $P_{32}$. Esta expresión también es compuesta, ya que depende de las expresiones `pl.col("area")` y `pl.col("frec_fracturas")`.

Cada una de las expresiones anteriores se ejecuta en paralelo, a fin de maximizar la eficiencia en el tiempo de ejecución del contexto completo. Esta es una de las grandes diferencias que tiene **<font color="mediumorchid">Polars</font>** en relación a **<font color="mediumorchid">Pandas</font>**.

### Operatoria básica.
Con *operaciones básicas* nos referimos al conjunto de todas las operaciones que son expresables por medio de operadores sencillos. Ejemplos de este tipo de operaciones son la suma (`+`), resta (`-`), multiplicación (`*`) y división (`/`) para el caso de **datos de tipo numérico**, y la disyunción (`&`) y conjunción (`|`) lógicas para el caso de **data de tipo string o no numérica**.

Vamos a ejemplificar el uso más fundamental de estos operadores para el caso numérico. Para ello, crearemos algunas series de **<font color="mediumorchid">Polars</font>** a partir de arreglos aleatorizados de **<font color="mediumorchid">Numpy</font>**:

In [36]:
# Generamos una semilla aleatoria fija.
rng = np.random.default_rng(42)

In [37]:
# Construimos unos arreglos unidimensionales a partir de los cuales generaremos algunas series.
a1 = rng.uniform(low=-1, high=1, size=10)
a2 = rng.normal(loc=0, scale=1, size=10)

In [38]:
# Construimos una serie de Polars a partir del arreglo anterior.
s1 = pl.Series(values=a1, name="x1")
s2 = pl.Series(values=a2, name="x2")

In [39]:
# Mostramos las primeras filas de la serie s1 en pantalla.
s1.head(n=5)

x1
f64
0.547912
-0.122243
0.717196
0.394736
-0.811645


In [40]:
# Mostramos las primeras filas de la serie s2 en pantalla.
s2.head(n=5)

x2
f64
0.879398
0.777792
0.066031
1.127241
0.467509


Luego, para el caso de la suma (`+`) y la multiplicación (`*`), tenemos que:

In [41]:
# Suma de las series s1 y s2.
(s1 + s2).head(n=5)

x1
f64
1.42731
0.655549
0.783227
1.521977
-0.344136


In [42]:
# Multiplicación de las series s1 y s2.
(s1 * s2).head(n=5)

x1
f64
0.481833
-0.09508
0.047357
0.444963
-0.379452


Podemos observar que, si bien ésto no se explicita, **<font color="mediumorchid">Polars</font>** alinea las correspondientes series en términos de las posiciones relativas que ocupan cada una de sus filas.

Las operaciones de este tipo suelen aplicarse conforme el lenguaje de dominio específico de **<font color="mediumorchid">Polars</font>** por medio de expresiones bajo un contexto determinado. Por ejemplo, si creamos un DataFrame a partir de un arreglo bidimensional aleatoriamente definido:

In [43]:
# Creamos un arreglo bidimensional aleatorizado (con números normalmente distribuidos).
d1 = rng.normal(loc=0, scale=1, size=(5, 5))

In [44]:
# Creamos un DataFrame a partir del arreglo anterior.
df1 = pl.DataFrame(data=d1, schema=[f"x{j}" for j in range(1, 6)])

In [45]:
# Mostramos este DataFrame en pantalla.
print(df1)

shape: (5, 5)
┌───────────┬───────────┬───────────┬───────────┬──────────┐
│ x1        ┆ x2        ┆ x3        ┆ x4        ┆ x5       │
│ ---       ┆ ---       ┆ ---       ┆ ---       ┆ ---      │
│ f64       ┆ f64       ┆ f64       ┆ f64       ┆ f64      │
╞═══════════╪═══════════╪═══════════╪═══════════╪══════════╡
│ -0.184862 ┆ -0.352134 ┆ 2.141648  ┆ 1.128972  ┆ 0.743254 │
│ -0.68093  ┆ 0.532309  ┆ -0.406415 ┆ -0.113947 ┆ 0.543154 │
│ 1.222541  ┆ 0.365444  ┆ -0.512243 ┆ -0.840156 ┆ -0.66551 │
│ -0.154529 ┆ 0.412733  ┆ -0.813773 ┆ -0.824481 ┆ 0.232161 │
│ -0.428328 ┆ 0.430821  ┆ 0.615979  ┆ 0.650593  ┆ 0.116686 │
└───────────┴───────────┴───────────┴───────────┴──────────┘


Entonces podemos usar expresiones simples para generar las siguientes operaciones aritméticas:

In [46]:
# Aplicación de operaciones sencillas por medio de expresiones encadenadas en un contexto.
result = df1.select(
    [
        # Multiplicamos la columna x1 por 2 y luego le sumamos 10.
        (pl.col("x1") * 2 + 10).alias("2x1 + 10"),
        # Dividimos las columnas x2 y x4, y el resultado se lo sumamos a x5.
        (pl.col("x2") / pl.col("x4") + pl.col("x5")).alias("x2/x4 + x5"),
        # Sumamos la columna x1 con el triple de la columna x5, y el resultado
        # lo dividimos por 3.
        ((pl.col("x1") + 3 * pl.col("x5")) * 3).alias("3(x1 + 3x5)")
    ]
)

In [47]:
# Mostramos el resultado anterior.
print(result)

shape: (5, 3)
┌───────────┬────────────┬─────────────┐
│ 2x1 + 10  ┆ x2/x4 + x5 ┆ 3(x1 + 3x5) │
│ ---       ┆ ---        ┆ ---         │
│ f64       ┆ f64        ┆ f64         │
╞═══════════╪════════════╪═════════════╡
│ 9.630275  ┆ 0.431348   ┆ 6.1347      │
│ 8.638141  ┆ -4.128378  ┆ 2.8456      │
│ 12.445083 ┆ -1.100481  ┆ -2.321963   │
│ 9.690941  ┆ -0.268435  ┆ 1.625863    │
│ 9.143344  ┆ 0.778883   ┆ -0.234811   │
└───────────┴────────────┴─────────────┘


Las operaciones de comparación también son sencillas de implementar por medio de expresiones. Por ejemplo, para el caso del DataFrame `data`, que contiene la información relativa a los pilares que trabajamos con anterioridad, podemos generar un contexto que admita este tipo de expresiones a fin de construir un resultado Booleano que puede utilizarse fácilmente como filtro para otras operaciones:

In [48]:
# Aplicación de operaciones de comparación sencillas por medio de expresiones 
# encadenadas en un contexto.
result = data.select(
    [
        # Todos los pilares cuya área sea menor o igual que 250 m^2.
        (pl.col("area") <= 250).alias("area <= 250 m^2"),
        # Todos los pilares cuya calidad geotécnica sea mala.
        (pl.col("calidad_roca") == "Mala calidad").alias("calidad == mala"),
        # Todos los pilares cuya carga vertical pre-minería sea mayor que 18 MPa.
        (pl.col("sigma_z") > 18.0).alias("sigma_z > 18 MPa")
    ]
)

In [49]:
# Mostramos las primeras filas del resultado anterior.
print(result.head())

shape: (5, 3)
┌─────────────────┬─────────────────┬──────────────────┐
│ area <= 250 m^2 ┆ calidad == mala ┆ sigma_z > 18 MPa │
│ ---             ┆ ---             ┆ ---              │
│ bool            ┆ bool            ┆ bool             │
╞═════════════════╪═════════════════╪══════════════════╡
│ false           ┆ false           ┆ false            │
│ false           ┆ true            ┆ false            │
│ false           ┆ true            ┆ false            │
│ false           ┆ false           ┆ false            │
│ false           ┆ false           ┆ false            │
└─────────────────┴─────────────────┴──────────────────┘


Por supuesto, es posible construir infinitas expresiones de acuerdo a las condiciones del problema particular que queramos abordar, usando operadores fundamentales tanto aritméticos como de comparación. Los anteriores fueron simplemente ejemplos sencillos de lo mucho que podemos hacer al manipular estructuras de datos vía contextos y expresiones básicas en **<font color="mediumorchid">Polars</font>**.

### Funciones aplicables sobre DataFrames.
Las expresiones de **<font color="mediumorchid">Polars</font>** nos ofrecen un gran número de funciones y/o rutinas pre-establecidas que nos permiten construir *queries* o consultas de datos de enorme complejidad, sin tener que recurrir a funciones definidas por nosotros y que, en muchos casos, tendrán un tiempo de ejecución nativo de Python y por consiguiente no serán igual de rápidas que las rutinas nativas de **<font color="mediumorchid">Polars</font>**.

Estas rutinas son todas aplicables en un contexto de selección de datos (por ejemplo, vía `select()` o `with_columns()`).

A fin de aprender algunas de estas funciones, vamos a construir un DataFrame que simulará algunos datos operacionales relativos a una planta de flotación, durante un total de 1000 horas (una hora por registro):

In [50]:
# Construiremos el DataFrame a partir de nuestra semilla aleatoria fija.
df_flot = pl.DataFrame(
    {
        "ley_alim": rng.normal(loc=0.8, scale=0.2, size=1000),
        "alim_flot": rng.normal(loc=2000, scale=250, size=1000),
        "sol_alim": rng.uniform(low=38, high=44, size=1000),
        "num_cells_off": rng.poisson(lam=0.5, size=1000),
        "niv_med_esp": rng.uniform(low=10, high=60, size=1000),
        "dif_niv_esp": rng.uniform(low=-30, high=10, size=1000),
        "ley_conc": rng.uniform(low=28.5, high=31.5, size=1000),
        "ley_cola": rng.normal(loc=0.03, scale=0.005, size=1000)
    }
)

In [51]:
# Mostramos las primeras filas de este DataFrame
print(df_flot.head())

shape: (5, 8)
┌──────────┬─────────────┬───────────┬────────────┬───────────┬─────────────┬───────────┬──────────┐
│ ley_alim ┆ alim_flot   ┆ sol_alim  ┆ num_cells_ ┆ niv_med_e ┆ dif_niv_esp ┆ ley_conc  ┆ ley_cola │
│ ---      ┆ ---         ┆ ---       ┆ off        ┆ sp        ┆ ---         ┆ ---       ┆ ---      │
│ f64      ┆ f64         ┆ f64       ┆ ---        ┆ ---       ┆ f64         ┆ f64       ┆ f64      │
│          ┆             ┆           ┆ i64        ┆ f64       ┆             ┆           ┆          │
╞══════════╪═════════════╪═══════════╪════════════╪═══════════╪═════════════╪═══════════╪══════════╡
│ 0.843738 ┆ 1785.198495 ┆ 43.115736 ┆ 3          ┆ 45.186831 ┆ -24.029143  ┆ 29.189195 ┆ 0.028975 │
│ 0.974286 ┆ 1865.584356 ┆ 41.431704 ┆ 0          ┆ 59.507281 ┆ 7.177497    ┆ 29.857525 ┆ 0.026371 │
│ 0.844719 ┆ 2135.648616 ┆ 39.282985 ┆ 0          ┆ 22.131268 ┆ -15.446129  ┆ 29.558203 ┆ 0.024677 │
│ 0.935783 ┆ 1761.093708 ┆ 43.400548 ┆ 0          ┆ 23.711929 ┆ -25.952022  ┆

Las columnas de este DataFrame representan la siguiente información:

- `ley_alim`: Ley de cobre de alimentación de la planta (% Cu).
- `alim_flot`: Tonelaje de mineral que entra a la planta de flotación (tph).
- `sol_alim`: Porcentaje de sólidos en la alimentación de la planta (%).
- `num_cells_off`: Número de celdas en el circuito que se encuentran fuera de servicio.
- `niv_med_esp`: Valor medio de espesor de espuma en el circuito (mm).
- `dif_niv_esp`: Diferencia de espesores de espuma entre el primer y el último banco en el circuito (mm).
- `ley_conc`: Ley de concentrado resultante del proceso (% Cu).
- `ley_cola`: Ley de relave resultante del proceso (% Cu).

Crearemos algunas variables categóricas adicionales en este DataFrame, a fin de contar con información numérica que será útil para mostrar la implementación de algunas rutinas nativas de **<font color="mediumorchid">Polars</font>**:

In [52]:
# Creamos categorías para leyes de relave.
s1 = pl.Series(
    values=np.where(
        df_flot["ley_cola"] >= 0.038, "Relaves con alta ley", "Relaves controlados"
    )
)

In [53]:
# Creamos categorías para los niveles de espuma en la pulpa.
s2 = pl.Series(
    values=np.where(
        df_flot["dif_niv_esp"] >= 0, 
        "Perfil no recuperativo",
        np.where(
            df_flot["dif_niv_esp"] < -15.0,
            "Perfil muy recuperativo",
            "Perfil medianamente recuperativo"
        )
    )
)

In [54]:
# Añádimos esta información a nuestro DataFrame.
df_flot = df_flot.with_columns([
    s1.alias("cond_relaves"), s2.alias("perfil_niveles")
])

In [55]:
# Mostramos las primeras filas del DataFrame.
df_flot.head()

ley_alim,alim_flot,sol_alim,num_cells_off,niv_med_esp,dif_niv_esp,ley_conc,ley_cola,cond_relaves,perfil_niveles
f64,f64,f64,i64,f64,f64,f64,f64,str,str
0.843738,1785.198495,43.115736,3,45.186831,-24.029143,29.189195,0.028975,"""Relaves contro…","""Perfil muy rec…"
0.974286,1865.584356,41.431704,0,59.507281,7.177497,29.857525,0.026371,"""Relaves contro…","""Perfil no recu…"
0.844719,2135.648616,39.282985,0,22.131268,-15.446129,29.558203,0.024677,"""Relaves contro…","""Perfil muy rec…"
0.935783,1761.093708,43.400548,0,23.711929,-25.952022,28.854379,0.020639,"""Relaves contro…","""Perfil muy rec…"
0.813516,2109.378062,40.055902,0,50.676327,-23.01264,31.332929,0.023267,"""Relaves contro…","""Perfil muy rec…"


Una de las rutinas nativas de **<font color="mediumorchid">Polars</font>** más elementales corresponde a `select()`, que sabemos que corresponde al método contextual preferido para seleccionar información de un DataFrame. Es posible seleccionar un número arbitrario de columnas a partir de este contexto, incluyendo todas las columnas del DataFrame en cuestión. Para esto último, basta con usar la expresión `pl.col("*")`, que es equivalente al uso del símbolo `:` en **<font color="mediumorchid">Numpy</font>** para recuperar todos los elementos relativos al eje de un arreglo:

In [56]:
# Selección de todas las columnas en un DataFrame.
selection = df_flot.select([pl.col("*")])

In [57]:
# Efectivamente, la selección anterior equivale al mismo DataFrame, ya que tiene sus mismas dimensiones.
selection.shape

(1000, 10)

Otra rutina muy usada en **<font color="mediumorchid">Polars</font>** corresponde a `exclude()`, y que nos permite seleccionar un número arbitrario de columnas en un DataFrame, exceptuando a un grupo determinado de columnas que especificamos por su nombre en caso de ser sólo una, o por medio de una lista de Python en el caso de ser más de una:

In [58]:
# Excluimos tres columnas de nuestro DataFrame en esta selección.
selection = df_flot.select([pl.exclude(["cond_relaves", "perfil_niveles"])])

In [59]:
# Mostramos las primeras filas de la selección anterior.
selection.head()

ley_alim,alim_flot,sol_alim,num_cells_off,niv_med_esp,dif_niv_esp,ley_conc,ley_cola
f64,f64,f64,i64,f64,f64,f64,f64
0.843738,1785.198495,43.115736,3,45.186831,-24.029143,29.189195,0.028975
0.974286,1865.584356,41.431704,0,59.507281,7.177497,29.857525,0.026371
0.844719,2135.648616,39.282985,0,22.131268,-15.446129,29.558203,0.024677
0.935783,1761.093708,43.400548,0,23.711929,-25.952022,28.854379,0.020639
0.813516,2109.378062,40.055902,0,50.676327,-23.01264,31.332929,0.023267


**<font color="mediumorchid">Polars</font>** también nos provee de rutinas que nos permiten contar el número de valores distintos que puede tomar una variable de tipo categórica. Tales rutinas corresponden a `n_unique()` y `approx_unique()`.

El método `n_unique()` nos permite contar el número de valores distintos ocurrentes en cualquier columna de un DataFrame, independiente de su tipo. Naturalmente, es una rutina pensada para la cuantía de valores únicos para variables categóricas u ordinales, aplicable sobretodo para DataFrames con una cantidad no demasiado grande (menor a unos cientos de miles) de filas.

Por otro lado, el método `approx_unique()` nos permite hacer virtualmente lo mismo que con `n_unique()`. La diferencia es que `approx_unique()`, como su nombre lo sugiere, es una rutina que estima un valor aproximado de los valores únicos que toma una columna, lo que resulta muy útil en el contexto de DataFrames que almacenan millones de registros o más. Se trata pues de una rutina pensada para un contexto de *big data*:

In [60]:
# Cuantía de valores únicos mediante n_unique().
counts = df_flot.select(
    [
        pl.col("cond_relaves").n_unique().alias("num_cond_relaves"),
        pl.col("perfil_niveles").n_unique().alias("num_perfiles")
    ]
)

In [61]:
# Mostramos el resultado anterior.
print(counts)

shape: (1, 2)
┌──────────────────┬──────────────┐
│ num_cond_relaves ┆ num_perfiles │
│ ---              ┆ ---          │
│ u32              ┆ u32          │
╞══════════════════╪══════════════╡
│ 2                ┆ 3            │
└──────────────────┴──────────────┘


In [62]:
# Cuantía de valores únicos mediante approx_unique().
counts = df_flot.select(
    [
        pl.col("cond_relaves").approx_unique().alias("num_cond_relaves"),
        pl.col("perfil_niveles").approx_unique().alias("num_perfiles")
    ]
)

In [63]:
# Mostramos el resultado anterior.
print(counts)

shape: (1, 2)
┌──────────────────┬──────────────┐
│ num_cond_relaves ┆ num_perfiles │
│ ---              ┆ ---          │
│ u32              ┆ u32          │
╞══════════════════╪══════════════╡
│ 2                ┆ 3            │
└──────────────────┴──────────────┘


En una situación para la cual los DataFrames que manipulamos no tienen una enorme cantidad de registros, como ocurre en un contexto de *big data*, `n_unique()` y `approx_unique()` nos darán los mismos resultados, y con tiempos de ejecución similares:

In [64]:
%timeit df_flot.select([pl.col("cond_relaves").n_unique().alias("num_cond_relaves"), pl.col("perfil_niveles").n_unique().alias("num_perfiles")])
%timeit df_flot.select([pl.col("cond_relaves").approx_unique().alias("num_cond_relaves"), pl.col("perfil_niveles").approx_unique().alias("num_perfiles")])

86.1 µs ± 1.36 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
103 µs ± 8.33 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


Por lo tanto, es normal que en un contexto minero, simplemente nos limitemos a utilizar `n_unique()` para realizar cuantías como las anteriores.

Otra rutina de cuantía muy común es `value_counts()`, y que nos permite contar el número de filas en un DataFrame para el cual el valor de una determinada columna se repite. También es útil para saber cómo se estratifica un dataset en función de ciertas variables categóricas:

In [65]:
# Generamos una cuantía de instancias por categoría.
df_flot.select(
    [
        pl.col("perfil_niveles").value_counts().alias("cuantia_instancias_por_perfil")
    ]
)

cuantia_instancias_por_perfil
struct[2]
"{""Perfil no recuperativo"",245}"
"{""Perfil muy recuperativo"",376}"
"{""Perfil medianamente recuperativo"",379}"


La expresión `value_counts()` retorna un DataFrame con un mapeo de las cuantías requeridas (del tipo `Struct`), que se lee como `{valor: número de ocurrencias}`.

**<font color="mediumorchid">Polars</font>** soporta igualmente sentencias condicionales que son propias de la sintaxis de su lenguaje específico, y se resumen por medio de los métodos `when()`, `then()` y `otherwise()`.

El método `when()` nos permite **evaluar una determinada condición**, que luego puede ser utilizada para implementar alguna expresión por medio del método `then()`. Cuando la condición especificada por medio de `when()` no se cumple, podemos implementar igualmente alguna expresión por medio del método `otherwise()`:

In [66]:
# Creamos una columna categórica que evalúe las condiciones de las leyes de alimentación.
feed_cats = df_flot.select(
    [
        pl.col("ley_alim"),
        pl.when(pl.col("ley_alim") <= 0.70) # La condición sobre la cual trabajaremos.
        .then(pl.lit("Baja ley")) # Valor si la condición se cumple.
        .otherwise(pl.lit("Ley normal")) # Valor si la condición no se cumple.
    ]
)

In [67]:
# Mostramos las primeras 8 filas de este resultado.
print(feed_cats.head(n=8))

shape: (8, 2)
┌──────────┬────────────┐
│ ley_alim ┆ literal    │
│ ---      ┆ ---        │
│ f64      ┆ str        │
╞══════════╪════════════╡
│ 0.843738 ┆ Ley normal │
│ 0.974286 ┆ Ley normal │
│ 0.844719 ┆ Ley normal │
│ 0.935783 ┆ Ley normal │
│ 0.813516 ┆ Ley normal │
│ 0.857824 ┆ Ley normal │
│ 0.926258 ┆ Ley normal │
│ 0.508569 ┆ Baja ley   │
└──────────┴────────────┘


Observemos que las expresiones condicionales encadenadas por medio de `when()` trabajan de la misma forma que la función `numpy.where()`, pero aprovechando el lenguaje específico de dominio de **<font color="mediumorchid">Polars</font>** a fin de lograr un tiempo de ejecución más rápido. De hecho, es posible anidar varias condiciones de tipo `when()`, usualmente especificándolas en la expresión `otherwise()`. Para comparar ambas alternativas, crearemos dos funciones que construirán la columna `"perfil_niveles"`, y que ya habíamos construido rápidamente en forma previa mediante la función `numpy.where()`. Esta columna nos permitirá establecer la condición de los perfiles de rendimiento del circuito de flotación representado en el DataFrame, considerando las siguientes condiciones:

- Si la diferencia de niveles de espuma no es negativa (lo que implica que los niveles de espuma a lo largo del circuito no decrecen), el perfil se definirá como **no recuperativo**.
- Si la diferencia de niveles de espuma es menor que -15 mm, el perfil se definirá como **muy recuperativo**.
- Valores intermedios de la diferencia de pefiles (entre -15 mm y 0) serán categorizados como **medianamente recuperativos**.

De esta manera, tenemos que:

In [68]:
# Definimos una función que permite construir la columna "perfil_niveles" mediante la función
# numpy.where(), para luego comparar su rendimiento con el método when() de Polars.
def create_level_conditions_where(data: pl.DataFrame) -> pl.DataFrame:
    s = pl.Series(
        values=np.where(
            df_flot["dif_niv_esp"] >= 0, 
            "Perfil no recuperativo",
            np.where(
                df_flot["dif_niv_esp"] < -15.0,
                "Perfil muy recuperativo",
                "Perfil medianamente recuperativo"
            )
        )
    )
    df = data.with_columns([s.alias("perfil_niveles")])
    return df

In [69]:
# Definimos una función que hará exactamente lo mismo, pero usando el método when().
def create_level_conditions_when(data: pl.DataFrame) -> pl.DataFrame:
    df = data.with_columns(
        [
            pl.when(pl.col("dif_niv_esp") >= 0)
            .then(pl.lit("Perfil no recuperativo"))
            .otherwise(
                pl.when(pl.col("dif_niv_esp") < -15.0)
                .then(pl.lit("Perfil muy recuperativo"))
                .otherwise(pl.lit("Perfil medianamente recuperativo"))
            ).alias("perfil_niveles")
        ]
    )
    return df

Como ya creamos esta columna antes, la eliminaremos para testear nuestras funciones. **Para eliminar una columna de un DataFrame**, basta con utilizar el método `drop()`:

In [70]:
# Eliminamos la columna "perfil_niveles".
df_flot = df_flot.drop("perfil_niveles")

In [71]:
# Chequeamos que esta columna ya no existe imprimiendo en pantalla nuestro DataFrame.
df_flot.head()

ley_alim,alim_flot,sol_alim,num_cells_off,niv_med_esp,dif_niv_esp,ley_conc,ley_cola,cond_relaves
f64,f64,f64,i64,f64,f64,f64,f64,str
0.843738,1785.198495,43.115736,3,45.186831,-24.029143,29.189195,0.028975,"""Relaves contro…"
0.974286,1865.584356,41.431704,0,59.507281,7.177497,29.857525,0.026371,"""Relaves contro…"
0.844719,2135.648616,39.282985,0,22.131268,-15.446129,29.558203,0.024677,"""Relaves contro…"
0.935783,1761.093708,43.400548,0,23.711929,-25.952022,28.854379,0.020639,"""Relaves contro…"
0.813516,2109.378062,40.055902,0,50.676327,-23.01264,31.332929,0.023267,"""Relaves contro…"


Y vemos que la columna `"perfil_niveles"` ya no existe. Notemos que el método `drop()`, a diferencia de lo que ocurre en **<font color="mediumorchid">Pandas</font>**, no requiere de un parámetro `axis` que especifique el eje de la tabla respecto del cual eliminamos parte de la misma. Por lo tanto, `drop()` únicamente elimina columnas en un DataFrame. Y no realiza la modificación en el acto, razón por la cual asignamos el resultado de la eliminación a una variable con el mismo nombre (es decir, no disponemos de un parámetro `in_place`).

Por cierto, si deseamos eliminar más de una columna, basta con especificar sus nombres por medio de una lista de Python.

Ahora sí testeamos nuestras funciones:

In [72]:
%timeit create_level_conditions_where(df_flot)
%timeit create_level_conditions_when(df_flot)

525 µs ± 19.7 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
226 µs ± 3.37 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Y observamos que la creación de la columna categórica `"perfil_niveles"` se realiza el doble de rápido por medio de una expresión de tipo `when()` que cuando se realiza esto mismo por medio de la función `numpy.where()`. Esto no es menor, ya que las rutinas de **<font color="mediumorchid">Numpy</font>** son vectorizadas y muy rápidas. **<font color="mediumorchid">Polars</font>** es capaz de hacer el trabajo incluso más rápido que **<font color="mediumorchid">Numpy</font>** cuando nos apegamos a la estructura de su lenguaje.

In [73]:
# Creamos la columna nuevamente, usando nuestra función creada íntegramente en Polars.
df_flot = create_level_conditions_when(df_flot)

In [74]:
# Mostramos las primeras filas de nuestro resultado.
df_flot.head()

ley_alim,alim_flot,sol_alim,num_cells_off,niv_med_esp,dif_niv_esp,ley_conc,ley_cola,cond_relaves,perfil_niveles
f64,f64,f64,i64,f64,f64,f64,f64,str,str
0.843738,1785.198495,43.115736,3,45.186831,-24.029143,29.189195,0.028975,"""Relaves contro…","""Perfil muy rec…"
0.974286,1865.584356,41.431704,0,59.507281,7.177497,29.857525,0.026371,"""Relaves contro…","""Perfil no recu…"
0.844719,2135.648616,39.282985,0,22.131268,-15.446129,29.558203,0.024677,"""Relaves contro…","""Perfil muy rec…"
0.935783,1761.093708,43.400548,0,23.711929,-25.952022,28.854379,0.020639,"""Relaves contro…","""Perfil muy rec…"
0.813516,2109.378062,40.055902,0,50.676327,-23.01264,31.332929,0.023267,"""Relaves contro…","""Perfil muy rec…"


Notemos que, al usar la expresión `when()`, hemos escrito los cambios relativos a las condiciones así definidas en una nueva columna por medio de la función `pl.lit()`.

### Cambios en los tipos de datos.
Las expresiones que permiten transformar los datos relativos a una columna en un DataFrame en datos de otro tipo se agrupan en los llamados **métodos de casting**. En términos literales, *casting* es la acción de transformar un tipo de dato en otro. **<font color="mediumorchid">Polars</font>** hace uso de Arrow para gestionar la data almacenada en la memoria de nuestro sistema y permite que la implementación nativa en Rust realice las conversiones de tipo. Tales conversiones se aglutinan en el método `cast()`.

El método `cast()` incluye un parámetro Booleano llamado `strict`, y que determina la forma en la cual **<font color="mediumorchid">Polars</font>** se comportará cuando se encuentre con algún valor que no pueda ser transformado desde el tipo (`DateType`) de origen al tipo (`DateType`) objetivo. Por defecto, `cast()` se setea con `strict=True`, lo que significa que **<font color="mediumorchid">Polars</font>** levantará un error (y nos notificará al respecto) cuando la conversión no pueda realizarse. Por otro lado, si seteamos `strict=False`, **<font color="mediumorchid">Polars</font>** transformará cualquier valor problemático en un registro vacío, que en esta librería se denomina `null` (y es equivalente a lo que, en **<font color="mediumorchid">Pandas</font>**, conocemos como `nan`).

#### Caso 1: Datos numéricos.
Para ejemplificar el *casting* de datos numéricos, crearemos un DataFrame acorde, que contendrá columnas numéricas de distintos tipos (conforme los tipos de Arrow). Este es el mismo ejemplo que podemos ver en la [documentación](https://pola-rs.github.io/polars-book/user-guide/expressions/casting/#numerics) de **<font color="mediumorchid">Polars</font>**:

In [75]:
# Creamos nuestro DataFrame para jugar un poco con las conversiones de datos.
df = pl.DataFrame(
    {
        "integers": [1, 2, 3, 4, 5],
        "big_integers": [1, 10000002, 3, 10000004, 10000005],
        "floats": [4.0, 5.0, 6.0, 7.0, 8.0],
        "floats_with_decimal": [4.532, 5.5, 6.5, 7.5, 8.5],
    }
)

In [76]:
# Imprimimos nuestro DataFrame en pantalla.
print(df)

shape: (5, 4)
┌──────────┬──────────────┬────────┬─────────────────────┐
│ integers ┆ big_integers ┆ floats ┆ floats_with_decimal │
│ ---      ┆ ---          ┆ ---    ┆ ---                 │
│ i64      ┆ i64          ┆ f64    ┆ f64                 │
╞══════════╪══════════════╪════════╪═════════════════════╡
│ 1        ┆ 1            ┆ 4.0    ┆ 4.532               │
│ 2        ┆ 10000002     ┆ 5.0    ┆ 5.5                 │
│ 3        ┆ 3            ┆ 6.0    ┆ 6.5                 │
│ 4        ┆ 10000004     ┆ 7.0    ┆ 7.5                 │
│ 5        ┆ 10000005     ┆ 8.0    ┆ 8.5                 │
└──────────┴──────────────┴────────┴─────────────────────┘


Para realizar conversiones de tipo entre números enteros y de punto flotante, y viceversa, aplicamos el método `cast()`. Estas conversiones se realizan por medio de expresiones de **<font color="mediumorchid">Polars</font>** en un contexto determinado:

In [77]:
# Conversión de números de punto flotante a enteros y viceversa.
result = df.select(
    [
        pl.col("integers").cast(pl.Float32).alias("enteros_a_flotantes"),
        pl.col("floats").cast(pl.Int32).alias("flotantes_a_enteros"),
        pl.col("floats_with_decimal").cast(pl.Int32).alias("decimales_a_enteros"),
    ]
)

In [78]:
# Mostramos el resultado anterior.
print(result)

shape: (5, 3)
┌─────────────────────┬─────────────────────┬─────────────────────┐
│ enteros_a_flotantes ┆ flotantes_a_enteros ┆ decimales_a_enteros │
│ ---                 ┆ ---                 ┆ ---                 │
│ f32                 ┆ i32                 ┆ i32                 │
╞═════════════════════╪═════════════════════╪═════════════════════╡
│ 1.0                 ┆ 4                   ┆ 4                   │
│ 2.0                 ┆ 5                   ┆ 5                   │
│ 3.0                 ┆ 6                   ┆ 6                   │
│ 4.0                 ┆ 7                   ┆ 7                   │
│ 5.0                 ┆ 8                   ┆ 8                   │
└─────────────────────┴─────────────────────┴─────────────────────┘


Las conversiones anteriores truncan cualquier decimal al llevar valores de punto flotante a enteros.

El *casting* de columnas en un DataFrame puede resultar útil para reducir el consumo de memoria por efecto de la manipulación de datos en una estructura de tamaño muy grande. Para ello, podemos modificar el número de bits asociados a la representación de un número (cuando ésto no sea un problema). En el siguiente bloque de código, generamos un **downcast** de `Int32` a `Int16` y de `Float64` a `Float32`, a fin de reducir el consumo de memoria en manipulaciones sucesivas de nuestro DataFrame:

In [79]:
# Downcast en datos numéricos.
result = df.select(
    [
        pl.col("integers").cast(pl.Int16).alias("enteros_de_16bits"),
        pl.col("floats").cast(pl.Float32).alias("flotantes_de_32bits"),
    ]
)

In [80]:
# Mostramos el resultado anterior.
print(result)

shape: (5, 2)
┌───────────────────┬─────────────────────┐
│ enteros_de_16bits ┆ flotantes_de_32bits │
│ ---               ┆ ---                 │
│ i16               ┆ f32                 │
╞═══════════════════╪═════════════════════╡
│ 1                 ┆ 4.0                 │
│ 2                 ┆ 5.0                 │
│ 3                 ┆ 6.0                 │
│ 4                 ┆ 7.0                 │
│ 5                 ┆ 8.0                 │
└───────────────────┴─────────────────────┘


Al implementar cualquier tipo de downcast en un DataFrame, es muy importante asegurarnos que el número de bits escogidos (por ejemplo, 64, 32 o 16) sea suficiente para representar los números más pequeños y más grandes en una determinada columna. Por ejemplo, el uso de un tipo entero de 32 bits (`Int32`) nos permite manipular enteros en el rango `[-2147483648, 2147483647]`, mientras que el tipo entero de 8 bits (`Int8`) cubre enteros en el rango `[-128, 127]`. Intentar la implementación de cualquier downcast en un DataFrame cuyos valores, en la columna de interés, exceden el rango cubierto por el tipo de dato requerido generará que **<font color="mediumorchid">Polars</font>** levante un error (de tipo `ComputeError`). Cuando esto ocurre, hablamos de un problema de **overflow** en las conversiones de tipos:

In [81]:
# Un problema de overflow.
try:
    out = df.select([pl.col("big_integers").cast(pl.Int8)])
    print(out)
except Exception as e:
    print(e)

strict conversion from `i64` to `i8` failed for value(s) [10000002, 10000004, 10000005]; if you were trying to cast Utf8 to temporal dtypes, consider using `strptime`


Cuando ocurren problemas de overflow, y no queremos conservar los valores problemáticos, podemos setear el parámetro `strict=False`, a fin de que **<font color="mediumorchid">Polars</font>** transforme todos los valores problemáticos en `null`:

In [82]:
# Transformamos valores no convertibles según el tipo objetivo a null.
result = df.select([pl.col("big_integers").cast(pl.Int8, strict=False)])

In [83]:
# Mostramos el resultado anterior.
print(result)

shape: (5, 1)
┌──────────────┐
│ big_integers │
│ ---          │
│ i8           │
╞══════════════╡
│ 1            │
│ null         │
│ 3            │
│ null         │
│ null         │
└──────────────┘


Recordemos que `null` es una representación de carencia de datos en una posición de un DataFrame, similar a la que hacemos en **<font color="mediumorchid">Pandas</font>** por medio de `nan`.

#### Caso 2: Cambios en strings.
Es posible generar castings en datos de tipo string y convertirlos en datos numéricos, y viceversa, mediante el método `cast()` (siempre que aquello tenga sentido). Para ejemplificar este caso, construiremos un DataFrame que será útil para mostrar este tipo de conversiones:

In [84]:
# Creamos nuestro DataFrame para jugar con las conversiones de datos aplicables a strings.
df = pl.DataFrame(
    {
        "integers": [1, 2, 3, 4, 5],
        "float": [4.0, 5.03, 6.0, 7.0, 8.0],
        "floats_as_string": ["4.0", "5.0", "6.0", "7.0", "8.0"],
    }
)

Haremos la siguiente conversión: Las columnas `"integers"` y `"float"` serán convertidas a strings de tipo `Utf8` (encoding de Arrow de tipo UTF de 8 bits), y la columna `"floats_as_string"` será convertida en un tipo flotante de 64 bits:

In [85]:
# Generamos las conversiones de string a números y de números a string.
result = df.select(
    [
        pl.col("integers").cast(pl.Utf8).alias("enteros_a_strings"),
        pl.col("float").cast(pl.Utf8).alias("flotantes_a_strings"),
        pl.col("floats_as_string").cast(pl.Float64).alias("strings_a_flotantes"),
    ]
)

In [86]:
# Mostramos el resultado anterior.
print(result)

shape: (5, 3)
┌───────────────────┬─────────────────────┬─────────────────────┐
│ enteros_a_strings ┆ flotantes_a_strings ┆ strings_a_flotantes │
│ ---               ┆ ---                 ┆ ---                 │
│ str               ┆ str                 ┆ f64                 │
╞═══════════════════╪═════════════════════╪═════════════════════╡
│ 1                 ┆ 4.0                 ┆ 4.0                 │
│ 2                 ┆ 5.03                ┆ 5.0                 │
│ 3                 ┆ 6.0                 ┆ 6.0                 │
│ 4                 ┆ 7.0                 ┆ 7.0                 │
│ 5                 ┆ 8.0                 ┆ 8.0                 │
└───────────────────┴─────────────────────┴─────────────────────┘


Naturalmente, este tipo de conversiones no están exentas de eventuales problemas. Si tratamos de convertir una columna que contiene strings a valores numéricos, y dicha columna posee algún valor que no es posible de convertir en un número, **<font color="mediumorchid">Polars</font>** levantará igualmente un error (de tipo `ComputeError`), informándonos la razón por la cual ésto ha ocurrido. Como antes, seteando `strict=False`, permitirá que **<font color="mediumorchid">Polars</font>** ignore tales errores y transforme cualquier valor "problemático" en un `null`:

In [87]:
# Creamos nuestro DataFrame para testear el caso anterior.
df = pl.DataFrame(
    {
        "integers": [1, 2, 3, 4, 5],
        "float": [4.0, 5.03, 6.0, 7.0, 8.0],
        "strings": ["cuatro", "5.0", "6.0", "siete", "8.0"],
    }
)

In [88]:
# La conversión de la columna "strings" a números levamtará una excepción.
try:
    result = df.select([pl.col("strings").cast(pl.Float32)])
except Exception as e:
    print(e)

strict conversion from `str` to `f32` failed for value(s) ["siete", "cuatro"]; if you were trying to cast Utf8 to temporal dtypes, consider using `strptime`


In [89]:
# ... pero la podemos "evitar" seteando el parámetro strict=False.
result = df.select([pl.col("strings").cast(pl.Float32, strict=False)])

In [90]:
# Mostramos el resultado anterior.
print(result)

shape: (5, 1)
┌─────────┐
│ strings │
│ ---     │
│ f32     │
╞═════════╡
│ null    │
│ 5.0     │
│ 6.0     │
│ null    │
│ 8.0     │
└─────────┘


#### Caso 3: Conversiones de fechas.
Como ocurre en **<font color="mediumorchid">Pandas</font>** con el objeto `pandas.Timestamp` especializado en el tratamiento de datos temporales (o *timestamps*), en **<font color="mediumorchid">Polars</font>** es posible igualmente manipular data temporal por medio de tipos especializados, basados en los existentes en Arrow, como `Date` (para data con granularidad mínima de días) o `Datetime` (para data con granularidad mínima de microsegundos). Por lo tanto, es posible generar conversiones de tipo entre datos numéricos y *timestamps*, aprovechando que **<font color="mediumorchid">Polars</font>** es compatible, al igual que **<font color="mediumorchid">Pandas</font>**, con representaciones de tiempo propias de las librerías nativas **<font color="mediumorchid">Datetime</font>** y **<font color="mediumorchid">Dateutils</font>**:

In [91]:
from datetime import date, datetime

Vamos a profundizar en el manejo de series de tiempo en **<font color="mediumorchid">Polars</font>** más adelante. Sin embargo, para el siguiente ejemplo, haremos uso de algunas funciones propias del manejo de data temporal en esta librería. En particular, construiremos un DataFrame compuesto por dos secuencias regulares de datos temporales usando la función `pl.date_range()` para tales efectos. Esta función permite retornar una secuencia temporal regular entre los timestamps `start` y `end`. Usaremos además el parámetro Booleano `eager`, seteándolo en `False`, para que la función retorne una serie en vez de una expresión de **<font color="mediumorchid">Polars</font>**:

In [92]:
# Creamos un DataFrame a partir de dos secuencias temporales regulares.
df = pl.DataFrame(
    {
        "date": pl.date_range(start=date(2023, 1, 1), end=date(2023, 1, 5), eager=True),
        "datetime": pl.date_range(
            datetime(2023, 1, 1), datetime(2023, 1, 5), eager=True
        ),
    }
)

In [93]:
# Mostramos este DataFrame en pantalla.
print(df)

shape: (5, 2)
┌────────────┬─────────────────────┐
│ date       ┆ datetime            │
│ ---        ┆ ---                 │
│ date       ┆ datetime[μs]        │
╞════════════╪═════════════════════╡
│ 2023-01-01 ┆ 2023-01-01 00:00:00 │
│ 2023-01-02 ┆ 2023-01-02 00:00:00 │
│ 2023-01-03 ┆ 2023-01-03 00:00:00 │
│ 2023-01-04 ┆ 2023-01-04 00:00:00 │
│ 2023-01-05 ┆ 2023-01-05 00:00:00 │
└────────────┴─────────────────────┘


Vemos pues que los formatos de tiempo que muestra nuestro DataFrame (que, recordemos, están basados en los tipos `Date` y `Datetime` de Arrow) son iguales, en presentación, a los *timestamps* que aprendimos a utilizar en **<font color="mediumorchid">Polars</font>**.

Podemos utilizar el método `cast()` para realizar conversiones de estos tipos a otros de naturaleza numérica, debido a que `Date` y `Datetime` son casos particulares de enteros de 64 bits:

In [94]:
# Realizamos una conversión a tipos numéricos.
result = df.select(
    [
        pl.col("date").cast(pl.Int64).alias("date_a_int64"), 
        pl.col("datetime").cast(pl.Int64).alias("datetime_a_int64")
    ]
)

In [95]:
# Mostramos el resultado anterior.
print(result)

shape: (5, 2)
┌──────────────┬──────────────────┐
│ date_a_int64 ┆ datetime_a_int64 │
│ ---          ┆ ---              │
│ i64          ┆ i64              │
╞══════════════╪══════════════════╡
│ 19358        ┆ 1672531200000000 │
│ 19359        ┆ 1672617600000000 │
│ 19360        ┆ 1672704000000000 │
│ 19361        ┆ 1672790400000000 │
│ 19362        ┆ 1672876800000000 │
└──────────────┴──────────────────┘


Podemos además realizar conversiones entre strings y tipos como `Date` y `Datetime`, haciendo uso de los métodos `strftime()` y `strptime()`, los que además requieren especificar el formato de fechas a utilizar. Tal formato tiene una sintaxis denominada **chrono-format**, y que se puede consultar en la correspondiente [documentación](https://docs.rs/chrono/latest/chrono/format/strftime/index.html). Algunos códigos de frecuencia asociados a este formato se detallan en la Tabla (2.1).

</p> <p style="text-align: center;">Tabla (2.1): Algunos códigos de frecuencia usados para especificar el formato de una fecha o timestamp en <font color="mediumorchid">Polars</font></p>

| Código de frecuencia | Ejemplo  | Descripción                                                          |
| :------------------- | :------- | :------------------------------------------------------------------- |
| `%Y`                 | `2021`   | Año mostrado como un número entero de cuatro dígitos.                |
| `%m`                 | `08`     | Mes codificado como un número, desde `01` a `12` (dos dígitos).      |
| `%b`                 | `Aug`    | Mes codificado como un string, de tres letras (idioma inglés).       |
| `%B`                 | `August` | Mes codificado como un string, con todas sus letras (idioma inglés). |
| `%d`                 | `18`     | Día codificado como un número, desde `01` a `31` (dos dígitos).      |
| `%H`                 | `08`     | Hora codificada como un número desde `00` a `23` (dos dígitos).      |
| `%M`                 | `32`     | Minuto codificado como un número desde `00` a `59` (dos dígitos).    |
| `%S`                 | `48`     | Segundo codificado como un número desde `00` a `60` (dos dígitos).   |

En general, usamos únicamente `strftime()` para generar conversiones entre strings y timestamps en **<font color="mediumorchid">Polars</font>**. El uso de `strptime()` es muy parecido, salvo que éste último método nos entrega más opciones relativas a cambios en zonas horarias:

In [96]:
# Creamos un DataFrame que usaremos para testear los cambios de tipo entre strings y timestamps.
df = pl.DataFrame(
    {
        "date": pl.date_range(start=date(2023, 8, 1), end=date(2023, 8, 5), eager=True),
        "string": [
            "2023-08-01",
            "2023-08-02",
            "2023-08-03",
            "2023-08-04",
            "2023-08-05",
        ],
    }
)

In [97]:
# Hacemos cambios de fotmato mediante el método strftime().
result = df.select(
    [
        pl.col("date").dt.strftime("%Y-%m-%d").alias("formateo_a_date"),
        pl.col("string").str.strptime(pl.Datetime, "%Y-%m-%d").alias("formateo_a_datetime"),
    ]
)

In [98]:
# Mostramos el resultado anterior.
print(result)

shape: (5, 2)
┌─────────────────┬─────────────────────┐
│ formateo_a_date ┆ formateo_a_datetime │
│ ---             ┆ ---                 │
│ str             ┆ datetime[μs]        │
╞═════════════════╪═════════════════════╡
│ 2023-08-01      ┆ 2023-08-01 00:00:00 │
│ 2023-08-02      ┆ 2023-08-02 00:00:00 │
│ 2023-08-03      ┆ 2023-08-03 00:00:00 │
│ 2023-08-04      ┆ 2023-08-04 00:00:00 │
│ 2023-08-05      ┆ 2023-08-05 00:00:00 │
└─────────────────┴─────────────────────┘


### Evaluación de strings.
Es posible hacer uso de expresiones de **<font color="mediumorchid">Polars</font>** para construir evaluaciones de strings en las columnas de un DataFrame, siempre que tales columnas tengan un tipo `Utf-8`, que es el más común (y utilizado) de los tipos a la hora de manipular strings en una estructura de datos de **<font color="mediumorchid">Polars</font>**: La manipulación de strings puede ser un tanto ineficiente debido a que su tamaño en la memoria de nuestro computador es esencialmente impredecible (lo que provoca que la CPU deba acceder a una cantidad enorme de localizaciones aleatorias en la memoria). El uso del backend de Arrow en **<font color="mediumorchid">Polars</font>** para evaluar strings permite evitar este problema, ya que Arrow aloja todos los strings en un DataFrame en un bloque continuo de memoria, consiguiendo así una manipulación eficiente de datos de este tipo. Para ello, usamos el evaluador `str`, el cual se aplica sobre cualquier expresión de **<font color="mediumorchid">Polars</font>** en un contexto dado.

Un ejemplo de evaluador es `n_chars()`, que nos permite determinar el número de caracteres asociados a una fila en una columna dada. Por ejemplo, si consideramos el DataFrame con el que trabajamos previamente en el análisis de ldatos asociados a una planta de flotación:

In [99]:
# Recordemos nuestro DataFrame relativo a un circuito de flotación, para el cual construimos
# las siguientes columnas con strings.
print(df_flot[["cond_relaves", "perfil_niveles"]].head())

shape: (5, 2)
┌─────────────────────┬─────────────────────────┐
│ cond_relaves        ┆ perfil_niveles          │
│ ---                 ┆ ---                     │
│ str                 ┆ str                     │
╞═════════════════════╪═════════════════════════╡
│ Relaves controlados ┆ Perfil muy recuperativo │
│ Relaves controlados ┆ Perfil no recuperativo  │
│ Relaves controlados ┆ Perfil muy recuperativo │
│ Relaves controlados ┆ Perfil muy recuperativo │
│ Relaves controlados ┆ Perfil muy recuperativo │
└─────────────────────┴─────────────────────────┘


La evaluación del número de caracteres en ambas columnas resulta sencilla por medio del método `n_chars()`, asociado al evaluador `str`:

In [100]:
# Número de caracteres por fila en cada columna.
result = df_flot.select(
    [
        pl.col("cond_relaves").str.n_chars().alias("n_caract_cond_relaves"),
        pl.col("perfil_niveles").str.n_chars().alias("n_caract_perfil_niveles"),
    ]
)

In [101]:
# Mostramos las primeras filas del resultado anterior.
print(result.head())

shape: (5, 2)
┌───────────────────────┬─────────────────────────┐
│ n_caract_cond_relaves ┆ n_caract_perfil_niveles │
│ ---                   ┆ ---                     │
│ u32                   ┆ u32                     │
╞═══════════════════════╪═════════════════════════╡
│ 19                    ┆ 23                      │
│ 19                    ┆ 22                      │
│ 19                    ┆ 23                      │
│ 19                    ┆ 23                      │
│ 19                    ┆ 23                      │
└───────────────────────┴─────────────────────────┘
