# CLASE 5.2: MANIPULACIÓN DE DATOS EN ESTRUCTURAS DE **<font color="mediumorchid">POLARS</font>**.
---

## Carga y guardado de datos en **<font color="mediumorchid">Polars</font>**.
Como ya hemos visto en todo el desarrollo de la asignatura, en general, el acceso a la información de interés propia de algún fenómeno, proceso o sistema que estamos interesados en analizar, suele provenir de archivos externos, muchas veces preprocesados por terceros. Por lo tanto, es común que hagamos uso de funciones especializadas en leer y/o acceder a tales archivos, o bien, que guarden las series y/o DataFrames que construyamos como resultado de algún análisis en nuestro computador. En **<font color="mediumorchid">Polars</font>**, tales funciones se resumen en un conjunto conocido como **IO** (del inglés **Input/Output**).

Antes de comentar las funciones de IO propias de **<font color="mediumorchid">Polars</font>**, importaremos esta librería (junto con **<font color="mediumorchid">Numpy</font>** y **<font color="mediumorchid">Pandas</font>**) a fin de hacer las correspondientes comparaciones en tiempo de ejecución que, en esta sección, sí serán de enorme importancia:

In [1]:
import numpy as np
import pandas as pd
import polars as pl

En esta sección, haremos uso de algunos archivos ubicados en la carpeta `datasets`, a fin de ejemplificar en primera instancia el cómo acceder a la data contenida en los mismos mediante el uso de algunas funciones de IO en **<font color="mediumorchid">Polars</font>**. Partiremos, como en el caso de **<font color="mediumorchid">Pandas</font>**, mostrando el acceso a archivos nativos de Microsoft Excel, a los que podremos acceder siempre por medio de la función `pl.read_excel()`. Sin embargo, para ello, será necesario instalar un motor de lectura de archivos de este tipo distinto del usado en **<font color="mediumorchid">Pandas</font>**, llamado `xlsx2csv`. Para ello, mediante nuestra consola, escribimos la instrucción:

    pip install xlsx2csv

Y ya podemos acceder a nuestros archivos de Excel:

In [2]:
# Acceso a un archivo nativo de Excel en Polars.
data = pl.read_excel(source="datasets/pillars_data.xlsx")

In [3]:
# Mostramos las primeras 5 filas de este DataFrame.
print(data.head())

shape: (5, 7)
┌────────────┬────────────┬──────┬──────────┬────────────────┬───────────┬─────────────┐
│ x          ┆ y          ┆ z    ┆ area     ┆ frec_fracturas ┆ sigma_z   ┆ tiraje_prom │
│ ---        ┆ ---        ┆ ---  ┆ ---      ┆ ---            ┆ ---       ┆ ---         │
│ f64        ┆ f64        ┆ i64  ┆ f64      ┆ f64            ┆ f64       ┆ f64         │
╞════════════╪════════════╪══════╪══════════╪════════════════╪═══════════╪═════════════╡
│ 776.718035 ┆ 259.185135 ┆ 1125 ┆ 286.5643 ┆ 1.979          ┆ 11.126392 ┆ 122.685     │
│ 811.143435 ┆ 263.059235 ┆ 1125 ┆ 286.5643 ┆ 3.07           ┆ 9.646313  ┆ 121.178     │
│ 845.568835 ┆ 266.933335 ┆ 1125 ┆ 286.5643 ┆ 3.07           ┆ 10.590594 ┆ 118.942     │
│ 879.994235 ┆ 270.807435 ┆ 1125 ┆ 286.5643 ┆ 1.75           ┆ 10.605144 ┆ 120.012     │
│ 914.419635 ┆ 274.681535 ┆ 1125 ┆ 286.5643 ┆ 0.67           ┆ 10.059537 ┆ 122.787     │
└────────────┴────────────┴──────┴──────────┴────────────────┴───────────┴─────────────┘


Como en el caso de **<font color="mediumorchid">Pandas</font>**, el acceso a archivos nativos y/o creados por Microsoft Excel en **<font color="mediumorchid">Polars</font>** es una tarea que consume varios recursos de memoria, y puede catalogarse como de ejecución *lenta*. Sin embargo, **<font color="mediumorchid">Polars</font>** es capaz de acceder a estos archivos más rápido que **<font color="mediumorchid">Pandas</font>**:

In [4]:
%timeit pd.read_excel(io="datasets/pillars_data.xlsx")
%timeit pl.read_excel(source="datasets/pillars_data.xlsx")

95.1 ms ± 1.06 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
52.6 ms ± 163 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


Es posible seleccionar cualquier hoja en un libro de Excel accediendo al archivo mediante la función `pl.read_excel()`, usando el parámetro `sheet_name` para especificar el nombre de la hoja de interés. Podemos, igualmente, guardar cualquier DataFrame de interés en este formato en **<font color="mediumorchid">Polars</font>**, haciendo uso del método `write_excel()`, especificando la ruta y el nombre del archivo resultante mediante el parámetro `workbook`. Sin embargo, para ello, necesitamos instalar primero la librería `xlsxwriter`, a fin de dotar a **<font color="mediumorchid">Polars</font>** con la capacidad de crear este tipo de archivos:

    pip install XlsxWriter

Y ahora sí ya estamos en condiciones de almacenar nuestro DataFrame en un formato de libro de Excel:

In [5]:
# Almacenamos el DataFrame en un formato de Excel (con un nombre diferente).
data.write_excel(workbook="datasets/pillars_data_copy.xlsx")

<xlsxwriter.workbook.Workbook at 0x7fa3b0abdc40>

Por supuesto, existen otros formatos de archivos a los cuales podemos acceder por medio de **<font color="mediumorchid">Polars</font>**. Una opción muy popular, conforme lo visto en **<font color="mediumorchid">Pandas</font>**, corresponde a los archivos `csv`, los cuales pueden cargarse fácilmente por medio de la función `pl_read_csv()`, especificando la ruta y/o nombre del archivo de interés por medio del parámetro `source`:

In [6]:
# Cargamos un archivo csv por medio de Polars.
data = pl.read_csv(source="datasets/pillars_data.csv")

In [7]:
# Mostramos las primeras 5 filas de este DataFrame.
print(data.head())

shape: (5, 7)
┌────────────┬────────────┬──────┬──────────┬────────────────┬───────────┬─────────────┐
│ x          ┆ y          ┆ z    ┆ area     ┆ frec_fracturas ┆ sigma_z   ┆ tiraje_prom │
│ ---        ┆ ---        ┆ ---  ┆ ---      ┆ ---            ┆ ---       ┆ ---         │
│ f64        ┆ f64        ┆ i64  ┆ f64      ┆ f64            ┆ f64       ┆ f64         │
╞════════════╪════════════╪══════╪══════════╪════════════════╪═══════════╪═════════════╡
│ 776.718035 ┆ 259.185135 ┆ 1125 ┆ 286.5643 ┆ 1.979          ┆ 11.126392 ┆ 122.685     │
│ 811.143435 ┆ 263.059235 ┆ 1125 ┆ 286.5643 ┆ 3.07           ┆ 9.646313  ┆ 121.178     │
│ 845.568835 ┆ 266.933335 ┆ 1125 ┆ 286.5643 ┆ 3.07           ┆ 10.590594 ┆ 118.942     │
│ 879.994235 ┆ 270.807435 ┆ 1125 ┆ 286.5643 ┆ 1.75           ┆ 10.605144 ┆ 120.012     │
│ 914.419635 ┆ 274.681535 ┆ 1125 ┆ 286.5643 ┆ 0.67           ┆ 10.059537 ┆ 122.787     │
└────────────┴────────────┴──────┴──────────┴────────────────┴───────────┴─────────────┘


El archivo cuya data hemos cargado corresponde a una tabla que muestra algunos parámetros de interés relativos a unos pilares del nivel de producción de una mina explotada mediante el método Panel Caving. Las columnas que definen a esta tabla (y que se muestran en el DataFrame) son las siguientes:

- `x`: Coordenada X (en metros) del pilar en el sistema de referencia de la mina.
- `y`: Coordenada Y (en metros) del pilar en el sistema de referencia de la mina.
- `z`: Coordenada Z (en metros) del pilar en el sistema de referencia de la mina.
- `area`: Área del pilar (en metros cuadrados).
- `frec_fracturas`: Frecuencia de fracturas asociada al pilar (en número de fracturas por metro lineal), y que corresponde a una estimación de la calidad geotécnica del macizo rocoso que constituye cada pilar.
- `sigma_z`: Carga vertical pre-minería (en MPa) estimada sobre el pilar mediante modelamiento numérico de esfuerzos.
- `tiraje_prom`: Tonelaje promedio de mineral extraído desde los puntos de extracción inmediatamente adyacentes a cada pilar.

Como en el caso de la carga directa de datos desde archivos de Excel, **<font color="mediumorchid">Polars</font>**, suele ser mucho más rápido que **<font color="mediumorchid">Pandas</font>** al cargar archivos de tipo `csv`. Para el caso de nuestro archivo:

In [8]:
%timeit pd.read_csv(filepath_or_buffer="datasets/pillars_data.csv")
%timeit pl.read_csv(source="datasets/pillars_data.csv")

2.78 ms ± 37.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
569 µs ± 10.5 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Vemos pues que **<font color="mediumorchid">Polars</font>** carga el mismo archivo `csv`, aproximadamente, cuatro veces más rápido que **<font color="mediumorchid">Pandas</font>**.

Existen varios parámetros de interés que podemos manipular en la función `pl.read_csv()`. Algunos que puntualmente resultan muy importantes son:

- `try_parse_dates`: Parámetro Booleano que permite dejar que **<font color="mediumorchid">Polars</font>** intente especificar datos que podrían representar fechas, transformando tales datos en un formato adecuado a dichas fechas (siempre que corresponda). 
- `null_values`: Parámetro que permite especificar uno o más valores (normalmente strings) en una lista que serán intepreetados por **<font color="mediumorchid">Polars</font>** como datos de tipo `nan`. Se trata de un parámetro especialmente útil cuando descargamos datos directamente desde sensores, ya que, si conocemos los códigos de error, podemos usarlos para que **<font color="mediumorchid">Polars</font>** automáticamente los interprete como datos nulos y, de esa manera, el tipo de dato asociado a una determinada columna no se vea distorsionado. En **<font color="mediumorchid">Pandas</font>** existe un parámetro que hace exactamente lo mismo para el caso de la función `pd.read_csv()`, llamado `na_values`.
- `separator`: Parámetro que permite especificar el caracter que actúa como delimitador de cada columna en el archivo. En archivos de tipo `csv`, dicho separador suele ser una coma (que corresponde al parámetro por defecto, y que se especifica como `","`), pero puede haber casos en los cuales el separador es un punto y coma (`";"`), u otros caracteres que podemos revisar en la correspondiente [documentación](https://pola-rs.github.io/polars/py-polars/html/reference/api/polars.read_csv.html).

**<font color="mediumorchid">Polars</font>** igualmente nos permite guardar cualquier serie o DataFrame en nuestro computador en formato `csv`, haciendo uso del método `write_csv()`:

In [9]:
# Guardado de nuestro DataFrame en formato csv.
data.write_csv(file="datasets/pillars_data.csv")

**<font color="mediumorchid">Polars</font>** también nos permite **escanear** cualquier archivo `csv` y guardarlo en una estructura de datos (u objeto) llamada `LazyFrame`. Tal estructura es muy parecida a un DataFrame, con la **enorme** diferencia de que un LazyFrame no dispondrá de ningún agregado visual que nos permita gastar recursos en imprimirlo, mostrarlo o *jugar* con él. Vale decir, se trata de un objeto donde *sabemos* que están nuestros datos, pero que no mostraremos (ni dejaremos que **<font color="mediumorchid">Polars</font>** lo vea) a no ser que *nosotros* lo deseemos.

El escaneo de un archivo `csv` puede realizarse por medio de la función `pl_scan_csv()`, y que tiene casi los mismos parámetros que `pl.read_csv()`:

In [10]:
df = pl.scan_csv(source="datasets/pillars_data.csv")

La variable `df` es, en efecto, un LazyFrame de **<font color="mediumorchid">Polars</font>**:

In [11]:
type(df)

polars.lazyframe.frame.LazyFrame

Estos objetos son propios de la llamada **lazy API** de **<font color="mediumorchid">Polars</font>**, y que corresponde a una interfaz extremadamente eficiente con el gasto de recursos computacionales a la hora de manipular estructuras de datos. Tal eficiencia llegar al punto de ni siquiera gastar recursos en mostrar los datos almacenados en pantalla al intentar imprimirlos:

In [12]:
# Un LazyFrame no se imprime en pantalla.
print(df)

naive plan: (run LazyFrame.explain(optimized=True) to see the optimized plan)


  CSV SCAN datasets/pillars_data.csv
  PROJECT */7 COLUMNS


Si queremos, podemos extraer los datos de un LazyFrame por medio del método `fetch()`, usando el parámetro `n_rows` para especificar cuántas filas queremos recuperar:

In [13]:
# Recuperamos las 5 primeras filas de nuestro LazyFrame.
print(df.fetch(n_rows=5))

shape: (5, 7)
┌────────────┬────────────┬──────┬──────────┬────────────────┬───────────┬─────────────┐
│ x          ┆ y          ┆ z    ┆ area     ┆ frec_fracturas ┆ sigma_z   ┆ tiraje_prom │
│ ---        ┆ ---        ┆ ---  ┆ ---      ┆ ---            ┆ ---       ┆ ---         │
│ f64        ┆ f64        ┆ i64  ┆ f64      ┆ f64            ┆ f64       ┆ f64         │
╞════════════╪════════════╪══════╪══════════╪════════════════╪═══════════╪═════════════╡
│ 776.718035 ┆ 259.185135 ┆ 1125 ┆ 286.5643 ┆ 1.979          ┆ 11.126392 ┆ 122.685     │
│ 811.143435 ┆ 263.059235 ┆ 1125 ┆ 286.5643 ┆ 3.07           ┆ 9.646313  ┆ 121.178     │
│ 845.568835 ┆ 266.933335 ┆ 1125 ┆ 286.5643 ┆ 3.07           ┆ 10.590594 ┆ 118.942     │
│ 879.994235 ┆ 270.807435 ┆ 1125 ┆ 286.5643 ┆ 1.75           ┆ 10.605144 ┆ 120.012     │
│ 914.419635 ┆ 274.681535 ┆ 1125 ┆ 286.5643 ┆ 0.67           ┆ 10.059537 ┆ 122.787     │
└────────────┴────────────┴──────┴──────────┴────────────────┴───────────┴─────────────┘


El acceso a los datos de un archivo `csv` por medio de un escaneo permite igualmente ahorrar tiempo de ejecución:

In [14]:
%timeit pl.read_csv(source="datasets/pillars_data.csv")
%timeit pl.scan_csv(source="datasets/pillars_data.csv")

560 µs ± 7.67 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
187 µs ± 2.13 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


Vemos que `pl.scan_csv()` se ejecuta aproximadamente tres veces más rápido que `pl.read_csv()`.

**<font color="mediumorchid">Polars</font>** nos permite cargar datos desde otros tipos de archivos, incluyendo JSON, bases de datos y parquet. Por el momento, nos limitaremos a archivos estáticos propios de máquinas locales como `xlsx` y `csv`, y dejaremos el resto para un momento posterior.

## Iteraciones sobre filas... otra vez.
Como en el caso de **<font color="mediumorchid">Pandas</font>**, no es recomendable la iteración por filas en **<font color="mediumorchid">Polars</font>**, ya que no resulta eficiente en términos de tiempos de ejecución. Sin embargo, ello no quiere decir que **<font color="mediumorchid">Polars</font>** no nos ofrezca formad de hacerlo en caso de ser necesario. El método apto para construir iteraciones de este tipo, aplicable sobre series y DataFrames, es `iter_rows()`.

`iter_rows()` permite retornar filas de un DataFrame en un formato de tuplas o de diccionarios, de manera similar al método `row()`, dependiendo de si usamos el parámetro Booleano `named`. Sin embargo, la diferencia esencial entre ambos métodos, es que `iter_rows()` nos permite construir **generadores** aptos para cualquier tipo de cálculo iterativo:

In [15]:
# El método iter_rows() nos permite construir generadores.
data.iter_rows(named=False)

<generator object DataFrame.iter_rows at 0x7fa3b207e9e0>

El generador anterior nos permite construir cálculos iterativos de cualquier índole. Por ejemplo, mediante comprensiones de listas:

In [16]:
# Construimos una lista con los primeros 5 valores del esfuerzo vertical pre-minería
# (sigma_z) para cada pilar.
[row["sigma_z"] for row in data.head().iter_rows(named=True)]

[11.126392, 9.646313, 10.590594, 10.605144, 10.059537]

Y, por supuesto, también mediante bucles completos. Para ejemplificar una iteración por filas usando un bucle de tipo `for`, vamos a construir una nueva columna llamada `calidad_roca`, y que categorizará la calidad geotécnica de cada pilar conforme la siguiente clasificación:

- Si $FF\leq 1.25$, entonces la roca es de buena calidad.
- Si $FF\in (1.25,2.25]$, entonces la roca es de calidad regular.
- Si $FF>2.25$, entonces la roca es de mala calidad.

Lo que haremos será crear esta columna usando el método `iter_rows()`, asignando una categoría correspondiente dependiendo del valor asociado a la columna `frec_fracturas` en cada una de las filas del DataFrame, asignando tales valores a una serie previamente construida, con un tipo de dato conveniente, asignando luego dicha serie como una nueva columna al DataFrame mediante el método `with_columns()`:

In [17]:
# Inicializamos una serie con valores de tipo string iguales a "a".
s = pl.Series(values=np.full(fill_value="a", shape=data.shape[0]), name="calidad_roca")

In [18]:
# Mediante una iteración por filas, determinamos la categoría asociada a la calidad de
# la roca de los pilares y asignamos cada valor a la serie anterior.
for i, row_i in enumerate(data.iter_rows(named=True)):
    if row_i["frec_fracturas"] <= 1.25:
        qa_i = "Buena calidad"
    elif  row_i["frec_fracturas"] > 2.25:
        qa_i = "Mala calidad"
    else:
        qa_i = "Calidad regular"
    s[i] = qa_i

In [19]:
# Asignamos la serie anterior a nuestro DataFrame.
data = data.with_columns([s])

In [20]:
# Mostramos las primeras filas de nuestro DataFrame.
print(data.head())

shape: (5, 8)
┌────────────┬────────────┬──────┬──────────┬────────────┬───────────┬─────────────┬───────────────┐
│ x          ┆ y          ┆ z    ┆ area     ┆ frec_fract ┆ sigma_z   ┆ tiraje_prom ┆ calidad_roca  │
│ ---        ┆ ---        ┆ ---  ┆ ---      ┆ uras       ┆ ---       ┆ ---         ┆ ---           │
│ f64        ┆ f64        ┆ i64  ┆ f64      ┆ ---        ┆ f64       ┆ f64         ┆ str           │
│            ┆            ┆      ┆          ┆ f64        ┆           ┆             ┆               │
╞════════════╪════════════╪══════╪══════════╪════════════╪═══════════╪═════════════╪═══════════════╡
│ 776.718035 ┆ 259.185135 ┆ 1125 ┆ 286.5643 ┆ 1.979      ┆ 11.126392 ┆ 122.685     ┆ Calidad       │
│            ┆            ┆      ┆          ┆            ┆           ┆             ┆ regular       │
│ 811.143435 ┆ 263.059235 ┆ 1125 ┆ 286.5643 ┆ 3.07       ┆ 9.646313  ┆ 121.178     ┆ Mala calidad  │
│ 845.568835 ┆ 266.933335 ┆ 1125 ┆ 286.5643 ┆ 3.07       ┆ 10.590594 ┆ 118.94

Vamos a replicar todo el proceso anterior por medio de una función, a fin de poder medir el tiempo de ejecución de este procedimiento. Haremos un procedimiento similar en **<font color="mediumorchid">Pandas</font>**, de manera tal que podamos comparar los tiempos de ejecución resultantes en ambas librerías:

In [21]:
# Metemos todo el proceso anterior vía Polars en una función.
def classify_rock_qa_polars(data: pl.DataFrame) -> pd.DataFrame:
    # Inicializamos una serie con valores de tipo string iguales a "a".
    s = pl.Series(values=np.full(fill_value="a", shape=data.shape[0]), name="calidad_roca")
    
    # Mediante una iteración por filas, determinamos la categoría asociada a la calidad de
    # la roca de los pilares y asignamos cada valor a la serie anterior.
    for i, row_i in enumerate(data.iter_rows(named=True)):
        if row_i["frec_fracturas"] <= 1.25:
            qa_i = "Buena calidad"
        elif  row_i["frec_fracturas"] > 2.25:
            qa_i = "Mala calidad"
        else:
            qa_i = "Calidad regular"
        s[i] = qa_i
    
    # Asignamos la serie anterior a nuestro DataFrame.
    data = data.with_columns([s])
    
    return data

In [22]:
# Y también metemos todo en un proceso de Pandas, a fin de comparar.
# Una función para iterar por filas en un DataFrame de Pandas y hacer la clasificación.
def classify_rock_qa_pandas(data: pd.DataFrame) -> pd.DataFrame:
    # Definimos la nueva columna y la inicializamos con un NaN.
    data["calidad_roca"] = np.nan

    # Clasificamos los valores de la frecuencia de fracturas mediante un loop.
    for row in data.index:
        if data.loc[row, "frec_fracturas"] <= 1.25:
            data.loc[row, "calidad_roca"] = "Buena calidad"
        elif data.loc[row, "frec_fracturas"] > 2.25:
            data.loc[row, "calidad_roca"] = "Mala calidad"
        else:
            data.loc[row, "calidad_roca"] = "Calidad regular"
    return data

In [23]:
# Cargamos los datos en un DataFrame de Pandas.
df = pd.read_csv(filepath_or_buffer="datasets/pillars_data.csv")

In [24]:
%timeit classify_rock_qa_polars(data)
%timeit classify_rock_qa_pandas(df)

150 ms ± 4.8 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
154 ms ± 2.36 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


Vemos pues que, para este caso particular, **<font color="mediumorchid">Polars</font>** es igual de ineficiente que **<font color="mediumorchid">Pandas</font>** a la hora de generar iteraciones por filas sobre DataFrames. Y, además, su sintaxis no resulta en absoluto familiar con respecto a la de **<font color="mediumorchid">Pandas</font>** o, incluso, de **<font color="mediumorchid">Numpy</font>**. Tomaremos ésto como una motivación adicional para hacer todo el esfuerzo posible a fin de vectorizar las operaciones que queramos realizar sobre estructuras de datos de **<font color="mediumorchid">Polars</font>**. La anterior, puntualmente, podemos realizarla fácilmente mediante la función `np.where()`:

In [25]:
# Cargamos nuevamente nuestra data en un DataFrame de Polars, a fin de partir desde cero.
data = pl.read_csv(source="datasets/pillars_data.csv")

In [26]:
# Definimos una forma más eficiente de realizar la operación anterior.
def classify_rock_qa_vect(data: pl.DataFrame) -> pl.DataFrame:
    s = np.where(
        data["frec_fracturas"] <= 1.25, "Buena calidad",
        np.where(data["frec_fracturas"] > 2.25, "Mala calidad", "Calidad regular")
    )
    s = pl.Series(values=s)
    df = data.with_columns([s.alias("calidad_roca")])
    return df

In [27]:
# Revisamos su tiempo de ejecución.
%timeit classify_rock_qa_vect(data)

747 µs ± 19.7 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


¡Esta función es más de 200 veces más rápida que la anterior, tras haber evitado la iteración por filas!

Y ahora sí, ya podemos crear nuestra columna que permite categorizar la calidad de la roca constituyente de nuestros pilares:

In [28]:
# Aplicamos nuestra función vectorizada.
data = classify_rock_qa_vect(data)

In [29]:
# Mostramos las primeras filas de nuestro DataFrame.
print(data.head())

shape: (5, 8)
┌────────────┬────────────┬──────┬──────────┬────────────┬───────────┬─────────────┬───────────────┐
│ x          ┆ y          ┆ z    ┆ area     ┆ frec_fract ┆ sigma_z   ┆ tiraje_prom ┆ calidad_roca  │
│ ---        ┆ ---        ┆ ---  ┆ ---      ┆ uras       ┆ ---       ┆ ---         ┆ ---           │
│ f64        ┆ f64        ┆ i64  ┆ f64      ┆ ---        ┆ f64       ┆ f64         ┆ str           │
│            ┆            ┆      ┆          ┆ f64        ┆           ┆             ┆               │
╞════════════╪════════════╪══════╪══════════╪════════════╪═══════════╪═════════════╪═══════════════╡
│ 776.718035 ┆ 259.185135 ┆ 1125 ┆ 286.5643 ┆ 1.979      ┆ 11.126392 ┆ 122.685     ┆ Calidad       │
│            ┆            ┆      ┆          ┆            ┆           ┆             ┆ regular       │
│ 811.143435 ┆ 263.059235 ┆ 1125 ┆ 286.5643 ┆ 3.07       ┆ 9.646313  ┆ 121.178     ┆ Mala calidad  │
│ 845.568835 ┆ 266.933335 ┆ 1125 ┆ 286.5643 ┆ 3.07       ┆ 10.590594 ┆ 118.94

## Agregaciones.

Cuando empezamos a dar nuestros primeros pasos en **<font color="mediumorchid">Polars</font>**, aprendimos que sus estructuras de datos pueden manipularse por medio de dos conjuntos importantes de transformaciones propias de su lenguaje de dominio específico (DSL), denominadas **contextos** y **expresiones**. Dos de los contextos ya fueron revisados en detalle previamente, siendo usados fundamentalmente para seleccionar datos (mediante los métodos `select_columns()` y  `with_columns()`) y filtrarlos (por medio del método `filter()`). No obstante, nos quedó un contexto pendiente y que nos comprometimos a revisar, y que corresponde a la construcción de **agregaciones** por medio de los métodos `groupby()` y `agg()`.

Bajo el contexto `groupby()`, podemos trabajar cualquier tipo de expresión de **<font color="mediumorchid">Polars</font>** por medio de grupos construidos a partir de categorías existentes en un DataFrame, de tal forma que podamos generar cualquier tipo de agregación a partir de tales grupos. Por ejemplo, en nuestro DataFrame anterior (`data`), podemos usar el contexto `groupby()` para construir cualquier tipo de agregación en función de las categorías previamente construidas para calificar la calidad del macizo rocoso constituyente de cada pilar. La agregación toma como argumento el nombre de la columna que define a los grupos (en nuestro caso, `"calidad_roca"`), y luego hace uso del método `agg()` para generar las agregaciones que queramos, debido a que el resultado de la aplicación del método `groupby()` es un objeto preparado para construir tales agregaciones:

In [30]:
data.groupby("calidad_roca")

<polars.dataframe.groupby.GroupBy at 0x7fa3b242e850>

De esta manera, construiremos la siguiente agregación: Calcularemos el promedio de la carga vertical pre-minería (columna `"sigma_z"`) y de la frecuencia de fracturas por metro lineal (columna `"frec_fracturas"`), y el máximo valor de tiraje adyacente (columna `"tiraje_prom"`) asociados a cada una de las calidades de macizo rocoso previamente definidas. Cada una de estas agregaciones se mostrará con un determinado alias, que definimos en la misma agregación por medio del método `alias()`, de la misma forma en que hicimos con los contextos `select_columns()`, `with_columns()` y `filter()`. La preservación de la **sintaxis contextual** de **<font color="mediumorchid">Polars</font>** es, por supuesto, parte de su lenguaje de dominio específico:

In [31]:
# Construimos las agregaciones encadenando al contexto groupby() el método agg().
result = data.groupby("calidad_roca").agg(
    pl.col("sigma_z").mean().alias("avg_sigma_z"),
    pl.col("frec_fracturas").mean().alias("avg_frec_fracturas"),
    pl.col("tiraje_prom").max().alias("max_tiraje_ady")
)

In [32]:
# Mostramos el resultado.
print(result)

shape: (3, 4)
┌─────────────────┬─────────────┬────────────────────┬────────────────┐
│ calidad_roca    ┆ avg_sigma_z ┆ avg_frec_fracturas ┆ max_tiraje_ady │
│ ---             ┆ ---         ┆ ---                ┆ ---            │
│ str             ┆ f64         ┆ f64                ┆ f64            │
╞═════════════════╪═════════════╪════════════════════╪════════════════╡
│ Calidad regular ┆ 12.355339   ┆ 1.751776           ┆ 193.471        │
│ Mala calidad    ┆ 12.192455   ┆ 3.003736           ┆ 192.489        │
│ Buena calidad   ┆ 13.552295   ┆ 0.735853           ┆ 201.307        │
└─────────────────┴─────────────┴────────────────────┴────────────────┘
