## Table of Contents
* [Introducción](#chapter1)
   
* [Instalación](#chapter2)
  
* [Conceptos](#chapter3)
    * [Section 3.1](#section_3_1)
        * [Sub Section 3.1.1](#sub_section_3_1_1)
        * [Sub Section 3.1.2](#sub_section_3_1_2)
    * [Section 3.2](#section_3_2)
        * [Sub Section 3.2.1](#sub_section_3_2_1)
        * [Sub Section 3.2.2](#sub_section_3_2_2)



## Introducción <a class="anchor" id="chapter1"></a>

Polars es una biblioteca de análisis de datos de alto rendimiento y fácil de usar en Python. A diferencia de Pandas, Polars cuenta con un diseño y arquitectura optimizada para el procesamiento de grandes conjuntos de datos.

Polars se basa en Rust, un lenguaje de programación que se enfoca en la seguridad, la eficiencia y la concurrencia.Polars utiliza la librería Apache Arrow para trabajar con datos en memoria, lo que permite una transferencia de datos más rápida entre diferentes procesos y un mejor acceso a los datos. Arrow también utiliza un formato de datos columnar, que es más eficiente para muchas operaciones de manipulación de datos que el formato de fila utilizado por Pandas.   

<img src= "https://raw.githubusercontent.com/pola-rs/polars-static/master/logos/polars_github_logo_rect_dark_name.svg" alt="nombre de la imagen" width="680" height="300">   


### Características:
- Utiliza todos los núcleos disponibles .
- Maneja de conjuntos de datos extensos.
- Tiene una API que es consistente y predecible.
- Tiene un esquema estricto .

### Objetivos:
- Reduce las copias redundantes. 
- Atraviese la caché de memoria de manera eficiente. 
- Minimiza la contención en el paralelismo.
- Cumple con un procesamiento de datos de código abierto.
- Reutiliza las asignaciones de memoria. 
- Ofrece herramientas para el análisis y la visualización de datos.


## Instalación <a class="anchor" id="chapter2"></a>

## Pasos para una instalación correcta de Polars.  

1. Abrir en una terminal o línea de comandos y ejecutar el siguiente comando para instalar Polars y sus dependencias:   
--------------------------------- 

pip install polars

---------------------------------
2. Luego, inicia Jupyter Notebook ejecutando el siguiente comando en la misma terminal:  
--------------------------------------- 

jupyter notebook

--------------------------------------- 
3. Crea un nuevo notebook y comienza a importar las librerías necesarias para trabajar con Polars:  
--------------------------------------- 

import polars as pl

--------------------------------------- 
4. Ahora puede comenzar a utilizar Polars en su notebook.   

## Indicadores de características.    
Siguiendo los pasos mostrados se instala el núcleo de Polars en el sistema. Sin embargo, es posible que también se necesite instalar las dependencias opcionales.Con esto se busca reducir líneas de código, dependiendo del lenguaje de programación que se desee emplear.

### Python  

<img src= "https://logos-world.net/wp-content/uploads/2021/10/Python-Symbol.png"  width="350" height="300">

**Código en Python**
```python
pip install polars[numpy, fsspec] 
```
  



| Etiqueta     |  Descripción                                                                    |
|:------------:|:-------------------------------------------------------------------------------:|
| all          | Método para evaluar determinadas condiciones                                    |
| pandas       | Convierte datos desde Pandas Dataframes/Series                                  |
| numpy        | Convierte datos hacia y desde matrices numpy                                    |
| pyarrow      | Lee formatos de datos usando PyArrow                                            |
| fsspec       | Compatibilidad con la lectura de sistemas de archivos remotos                   |
| connectorx   | Soporte para leer desde bases de datos SQL                                      |
| xlsx2csv     | Soporte para leer desde archivos de Excel                                       |
| deltalake    | Soporte para lectura de Delta Lake Tables                                       |
| timezone     | Soporte de zona horaria                                                         |

  
### Rust  

<img src= "https://upload.wikimedia.org/wikipedia/commons/thumb/d/d5/Rust_programming_language_black_logo.svg/144px-Rust_programming_language_black_logo.svg.png" alt="nombre de la imagen" width="180" height="300">

**Código en Rust**
```python
[dependencies]
polars = { version = "0.26.1", features = ["lazy","temporal","describe","json","parquet","dtype-datetime"]}
```
Características de suscripción:
  - **Tipos de datos adicionales**
  
    - dtype-date
    - dtype-datetime
    - dtype-time
    - dtype-duration
    - dtype-i8
    - dtype-i16
    - dtype-u8
    - dtype-u16
    - dtype-categorical
    - dtype-struct 
   
  
  - ***performant:***Eficiente procesamiento de grandes datos.
  - ***lazy:***Evaluación de expresiones postergadas.
  - ***sql:***Soporte de consultas SQL en Polars.
  - ***streaming:***Procesamiento de datos en tiempo real en Polars.
  - ***random:***Generación de datos aleatorios eficiente.
  - **Relacionado con el rendimiento:**
     - nightly
     - performant
  - **Relacionado con OI:**
      - serde
      - decompress
  - **DataFrame operaciones:**  
      - dynamic_groupby
      - cross_join
      - partition_by
  - **Series/ Expressionoperaciones:** 
      - repeat_by
      - mode
      - rank
    

 ## Conceptos <a class="anchor" id="chapter3"></a>


# <font color="#CD0000">Tipos de Datos </font> 
Debido a que Polars se basa en **Arrows** hace que sea eficiente en caché y esté sea respaldado para la comunicación entre procesos. La mayoría de los tipos de datos siguen la implementación exacta de Arrow, con la excepción de Utf8, Categoricaly Object.  

**Algunos ejemplos de tipos de datos:**

| Grupo    | Tipo         | Detalles                                                                             |
|----------|--------------|:------------------------------------------------------------------------------------:|
| **Numérico** | Int8         | Entero con signo de 8 bits.                                                          |
|          | Int16        | Entero con signo de 16 bits.                                                         |
|          | Int32        | Entero con signo de 32 bits.                                                         |
|          | Int64        | Entero con signo de 64 bits.                                                         |
|          | UInt8        | Entero sin signo de 8 bits.                                                          |
|          | UInt16       | Entero sin signo de 16 bits.                                                         |
|          | UInt32       | Entero sin signo de 32 bits.                                                         |
|          | UInt64       | Entero sin signo de 64 bits.                                                         |
|          | Float32      | Punto flotante de 32 bits.                                                           |
|          | Float64      | Punto flotante de 64 bits.                                                           |
| **Anidado** | Struct       | Estructura de matriz que junta valores múltiples en una sola columna.    |
| **Temporal** | Date         | Representación de fecha.      |
| **Otro**     | Boolean      | Tipo booleano efectivamente empaquetado en bits.                                     |
|          | Utf8         | Cadena de datos .                   |
|          | Binary       | Almacenar datos como bytes.                                                          |
|          | Categorical | Una codificación categórica de un conjunto de cadenas.                                |   


# <font color="#CD0000">Estructura de Datos </font>   
Las estructuras de datos de la base central proporcionadas por Polars son *Series* y *DataFrames*.

## Series  
Las *Series* tienen tipos de datos específicos y unidimensionales, como enteros, flotantes, cadenas, fechas y horas, pueden contener valores faltantes. 

In [1]:
import polars as pl
s = pl.Series("longitud_sepalo",[5.1, 4.9, 4.7, 4.6, 5.0])#los 5 primeros datos de iris.csv(longitud_sepalo)
print(s)

shape: (5,)
Series: 'longitud_sepalo' [f64]
[
	5.1
	4.9
	4.7
	4.6
	5.0
]


## DataFrame  
Es una estructura de datos bidimensional respaldada por Series, está compuesto por filas y columnas, donde cada columna es una serie y las filas contienen datos que pertenecen a cada serie.

**pl.read_csv()**  
Esta función de polars en Python se usa para leer un archivo CSV(valores separados por coma) y convertirlo en un dataframe de polars.

In [2]:
df = pl.read_csv("iris.csv")
print(df)

shape: (150, 5)
┌─────────────┬────────────┬─────────────┬────────────┬────────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            │
╞═════════════╪════════════╪═════════════╪════════════╪════════════════╡
│ 5.1         ┆ 3.5        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    │
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa    │
│ 4.6         ┆ 3.1        ┆ 1.5         ┆ 0.2        ┆ Iris-setosa    │
│ …           ┆ …          ┆ …           ┆ …          ┆ …              │
│ 6.3         ┆ 2.5        ┆ 5.0         ┆ 1.9        ┆ Iris-virginica │
│ 6.5         ┆ 3.0        ┆ 5.2         ┆ 2.0        ┆ Iris-virginica │
│ 6.2         ┆ 3.4        ┆ 5.4         ┆ 2.3        ┆ Iris-virginica │
│ 5.9         ┆ 3.0        ┆ 5.1   

- <font size = 4.8> **Head** </font>  
Es una función que se utiliza para obtener las primeras filas de un *DataFrame*. Por defecto, devuelve las primeras 5 filas, pero se puede especificar el número de filas que se desea obtener. 

In [3]:
print(df.head(3))

shape: (3, 5)
┌─────────────┬────────────┬─────────────┬────────────┬─────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class       │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---         │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str         │
╞═════════════╪════════════╪═════════════╪════════════╪═════════════╡
│ 5.1         ┆ 3.5        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa │
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa │
└─────────────┴────────────┴─────────────┴────────────┴─────────────┘


- <font size = 4.8> **Tail** </font>  
Es una función que se utiliza para obtener las últimas filas de un *DataFrame*. Por defecto, muestra las últimas 5 filas, pero se puede especificar el número de filas que se desea ver.

In [4]:
print(df.tail(3))

shape: (3, 5)
┌─────────────┬────────────┬─────────────┬────────────┬────────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            │
╞═════════════╪════════════╪═════════════╪════════════╪════════════════╡
│ 6.5         ┆ 3.0        ┆ 5.2         ┆ 2.0        ┆ Iris-virginica │
│ 6.2         ┆ 3.4        ┆ 5.4         ┆ 2.3        ┆ Iris-virginica │
│ 5.9         ┆ 3.0        ┆ 5.1         ┆ 1.8        ┆ Iris-virginica │
└─────────────┴────────────┴─────────────┴────────────┴────────────────┘


- <font size = 4.8> **Sample** </font>    
Permite tomar una muestra aleatoria de filas de un *DataFrame*.  

In [5]:
print(df.sample(2))

shape: (2, 5)
┌─────────────┬────────────┬─────────────┬────────────┬────────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            │
╞═════════════╪════════════╪═════════════╪════════════╪════════════════╡
│ 4.9         ┆ 3.1        ┆ 1.5         ┆ 0.1        ┆ Iris-setosa    │
│ 5.7         ┆ 2.5        ┆ 5.0         ┆ 2.0        ┆ Iris-virginica │
└─────────────┴────────────┴─────────────┴────────────┴────────────────┘


- <font size = 4.8> **Describe** </font>  
Proporciona estadísticas descriptivas para todas las columnas numéricas de un *DataFrame*, como la media, la desviación estándar, el mínimo y el máximo. También proporciona el número de valores no nulos en cada columna.

In [6]:
print(df.describe())

shape: (9, 6)
┌────────────┬─────────────┬────────────┬─────────────┬────────────┬────────────────┐
│ describe   ┆ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          │
│ ---        ┆ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            │
│ str        ┆ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            │
╞════════════╪═════════════╪════════════╪═════════════╪════════════╪════════════════╡
│ count      ┆ 150.0       ┆ 150.0      ┆ 150.0       ┆ 150.0      ┆ 150            │
│ null_count ┆ 0.0         ┆ 0.0        ┆ 0.0         ┆ 0.0        ┆ 0              │
│ mean       ┆ 5.843333    ┆ 3.054      ┆ 3.758667    ┆ 1.198667   ┆ null           │
│ std        ┆ 0.828066    ┆ 0.433594   ┆ 1.76442     ┆ 0.763161   ┆ null           │
│ min        ┆ 4.3         ┆ 2.0        ┆ 1.0         ┆ 0.1        ┆ Iris-setosa    │
│ max        ┆ 7.9         ┆ 4.4        ┆ 6.9         ┆ 2.5        ┆ Iris-virginica │
│ median     ┆ 5.8         ┆ 3.0        

# <font color="#CD0000">Contextos </font> 
Se refiere a la configuración y ajuste de los parámetros que afectan el rendimiento y el comportamiento de la biblioteca.En general, el contexto de Polars es una herramienta útil para optimizar el rendimiento y la eficiencia de las operaciones de procesamiento de datos.  


- <font size = 4.8> **Select** </font>   
Se usa para seleccionar las variables de un *DataFrame*, en la cual se puede implemntar combinandola con otras funciones como **head()**, **sum()**,**mean()** y muchas otras funciones para obtener un mejor análisis de nuestros datos.  
Se tiene en cuenta que una selección puede producir nuevas columnas que son agregaciones, combinaciones de expresiones o literales.

In [7]:
print(df.select([pl.col(["petallength","petalwidth"])]).sum())
##
longitud_petalo =  df.select([
    pl.mean("petallength").alias("media"),
    pl.median("petallength").alias("mediana"),
    pl.sum("petallength").alias("sum"),
    pl.min("petallength").alias("min"),
    pl.max("petallength").alias("max"),
    pl.col("petallength").max().alias("other_max"),
    pl.std("petallength").alias("std_dev"),
    pl.var("petallength").alias("varianza"),
    
])
print(longitud_petalo)

shape: (1, 2)
┌─────────────┬────────────┐
│ petallength ┆ petalwidth │
│ ---         ┆ ---        │
│ f64         ┆ f64        │
╞═════════════╪════════════╡
│ 563.8       ┆ 179.8      │
└─────────────┴────────────┘
shape: (1, 8)
┌──────────┬─────────┬───────┬─────┬─────┬───────────┬─────────┬──────────┐
│ media    ┆ mediana ┆ sum   ┆ min ┆ max ┆ other_max ┆ std_dev ┆ varianza │
│ ---      ┆ ---     ┆ ---   ┆ --- ┆ --- ┆ ---       ┆ ---     ┆ ---      │
│ f64      ┆ f64     ┆ f64   ┆ f64 ┆ f64 ┆ f64       ┆ f64     ┆ f64      │
╞══════════╪═════════╪═══════╪═════╪═════╪═══════════╪═════════╪══════════╡
│ 3.758667 ┆ 4.35    ┆ 563.8 ┆ 1.0 ┆ 6.9 ┆ 6.9       ┆ 1.76442 ┆ 3.113179 │
└──────────┴─────────┴───────┴─────┴─────┴───────────┴─────────┴──────────┘


De manera similar a *select* también existe **with_columns** que también es una entrada al contexto de selección. La principal diferencia es que **with_columns** conserva las columnas originales y agrega otras nuevas mientras selectelimina las columnas originales.


In [8]:
wc =df.with_columns([
    pl.sum("petalwidth").alias("suma_ancho_petalo"),
    pl.col("class").count().alias("contar"),
])
print(wc)

shape: (150, 7)
┌─────────────┬────────────┬─────────────┬────────────┬────────────────┬───────────────────┬────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          ┆ suma_ancho_petalo ┆ contar │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            ┆ ---               ┆ ---    │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            ┆ f64               ┆ u32    │
╞═════════════╪════════════╪═════════════╪════════════╪════════════════╪═══════════════════╪════════╡
│ 5.1         ┆ 3.5        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    ┆ 179.8             ┆ 150    │
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    ┆ 179.8             ┆ 150    │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa    ┆ 179.8             ┆ 150    │
│ 4.6         ┆ 3.1        ┆ 1.5         ┆ 0.2        ┆ Iris-setosa    ┆ 179.8             ┆ 150    │
│ …           ┆ …          ┆ …           ┆ …          ┆ …         

- <font size = 4.8> **Filter** </font>  
Se utiliza para filtrar las filas de un *DataFrame* según una condición determinada. Toma una función de filtro como argumento y devuelve un nuevo DataFrame que contiene solo las filas que cumplen la condición.  


In [9]:
fil = df.filter(
    (pl.col("sepallength")<5)&(pl.col("class")=="Iris-setosa")
)
print(fil)

shape: (20, 5)
┌─────────────┬────────────┬─────────────┬────────────┬─────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class       │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---         │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str         │
╞═════════════╪════════════╪═════════════╪════════════╪═════════════╡
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa │
│ 4.6         ┆ 3.1        ┆ 1.5         ┆ 0.2        ┆ Iris-setosa │
│ 4.6         ┆ 3.4        ┆ 1.4         ┆ 0.3        ┆ Iris-setosa │
│ …           ┆ …          ┆ …           ┆ …          ┆ …           │
│ 4.5         ┆ 2.3        ┆ 1.3         ┆ 0.3        ┆ Iris-setosa │
│ 4.4         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa │
│ 4.8         ┆ 3.0        ┆ 1.4         ┆ 0.3        ┆ Iris-setosa │
│ 4.6         ┆ 3.2        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa │
└────

- <font size = 4.8> **Groupby / Aggregation** </font>  
Se utiliza para agrupar fila de un *DataFrame* en función de una o varias columnas y realizar cálculos agregados en esas agrupaciones, pueden producir resultados de cualquier longitud.  

In [10]:
group1 = df.groupby('class')
print(group1.mean())

group2 = df.groupby('class')
print(group2.sum())

group3 = df.groupby('class')
print(group3.max())

shape: (3, 5)
┌─────────────────┬─────────────┬────────────┬─────────────┬────────────┐
│ class           ┆ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth │
│ ---             ┆ ---         ┆ ---        ┆ ---         ┆ ---        │
│ str             ┆ f64         ┆ f64        ┆ f64         ┆ f64        │
╞═════════════════╪═════════════╪════════════╪═════════════╪════════════╡
│ Iris-virginica  ┆ 6.588       ┆ 2.974      ┆ 5.552       ┆ 2.026      │
│ Iris-versicolor ┆ 5.936       ┆ 2.77       ┆ 4.26        ┆ 1.326      │
│ Iris-setosa     ┆ 5.006       ┆ 3.418      ┆ 1.464       ┆ 0.244      │
└─────────────────┴─────────────┴────────────┴─────────────┴────────────┘
shape: (3, 5)
┌─────────────────┬─────────────┬────────────┬─────────────┬────────────┐
│ class           ┆ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth │
│ ---             ┆ ---         ┆ ---        ┆ ---         ┆ ---        │
│ str             ┆ f64         ┆ f64        ┆ f64         ┆ f64        │
╞═════════

# <font color="#CD0000">API </font>   

## Lazy / Eager API   
Se utiliza para operaciones de transformación de datos que se realizan en memoria y se ejecutan de forma sincrónica. Con esta API, las operaciones se realizan de manera perezosa (lazy) o ansiosa (eager). Las operaciones perezosas son aquellas que no se ejecutan inmediatamente y se retrasan hasta que sea necesario, mientras que las operaciones ansiosas se ejecutan inmediatamente y devuelven los resultados en el momento de la llamada.A pesar de eso,esperar a la ejecución hasta el último minuto puede tener importantes ventajas de rendimiento, por lo que se prefiere la **lazy API** en la mayoría de los casos.

### Eager
En este ejemplo, usaremos **eager API** para:
- Leer el conjunto de datos iris .
- Filtrar el conjunto de datos según la longitud del sépalo.
- Calcular la media del ancho del sépalo por especie .

Cada paso se ejecuta inmediatamente devolviendo los resultados intermedios. Esto puede ser muy derrochador, ya que podríamos trabajar o cargar datos adicionales que no se están utilizando. Si, en cambio, usamos la **lazy API**y esperamos la ejecución hasta que se definan todos los pasos, entonces el planificador de consultas podría realizar varias optimizaciones.

In [11]:
df_small = df.filter(pl.col("sepallength") > 5)
df_agg = df_small.groupby("class").agg(pl.col("sepalwidth").mean())
print(df_agg)

shape: (3, 2)
┌─────────────────┬────────────┐
│ class           ┆ sepalwidth │
│ ---             ┆ ---        │
│ str             ┆ f64        │
╞═════════════════╪════════════╡
│ Iris-setosa     ┆ 3.713636   │
│ Iris-virginica  ┆ 2.983673   │
│ Iris-versicolor ┆ 2.804255   │
└─────────────────┴────────────┘


### Lazy  
En este caso:

- Empuje de predicado: aplica filtros lo antes posible mientras lee el conjunto de datos, por lo tanto, solo lee filas con una longitud de sépalo superior a 5.
- Desplazamiento de proyección: selecciona solo las columnas que se necesitan mientras lee el conjunto de datos, eliminando así la necesidad de cargar columnas adicionales (por ejemplo, longitud de pétalo y ancho de pétalo).   

Estos reducira significativamente la carga en la memoria , lo que le permitirá colocar conjuntos de datos más grandes en la memoria y procesarlos más rápido.

In [12]:
q1 = (
    pl.scan_csv("iris.csv")
    .filter(pl.col("sepallength") > 5)
    .groupby("class")
    .agg(pl.col("sepalwidth").mean())
)

df_lazy = q1.collect()#collect() informa a Polars que quiere ejecutarla
print(df_lazy)

shape: (3, 2)
┌─────────────────┬────────────┐
│ class           ┆ sepalwidth │
│ ---             ┆ ---        │
│ str             ┆ f64        │
╞═════════════════╪════════════╡
│ Iris-setosa     ┆ 3.713636   │
│ Iris-virginica  ┆ 2.983673   │
│ Iris-versicolor ┆ 2.804255   │
└─────────────────┴────────────┘


**¿Cómo saber cuál usar?**  
En general, si los datos caben en la memoria, es posible que se pueda utilizar la **Eager API**. Si trabajas con grandes conjuntos de datos o se realiza operaciones complejas, es posible que se necesite utilizar la  **Lazy API**.

## Streaming API   
Se utiliza para operaciones que se realizan en un flujo continuo de datos. Esta API se basa en un modelo push, en el que los datos se transmiten de forma asincrónica a través de un flujo de datos. En lugar de procesar todos los datos de una vez, se procesan los datos en pequeños fragmentos a medida que se van recibiendo. Esto hace que la **streaming API** sea adecuada para el procesamiento de datos en tiempo real y para el manejo de grandes volúmenes de datos que no caben en memoria.  
Para decirle a Polars que queremos ejecutar una consulta en modo streaming le pasamos el **streaming=True** argumento a collect.

In [13]:
q2 = (
    pl.scan_csv("iris.csv")
    .filter(pl.col("sepallength") > 5)
    .groupby("class")
    .agg(pl.col("sepalwidth").mean())
)

df_streaming = q2.collect(streaming=True)
print(df_streaming)

shape: (3, 2)
┌─────────────────┬────────────┐
│ class           ┆ sepalwidth │
│ ---             ┆ ---        │
│ str             ┆ f64        │
╞═════════════════╪════════════╡
│ Iris-setosa     ┆ 3.713636   │
│ Iris-versicolor ┆ 2.804255   │
│ Iris-virginica  ┆ 2.983673   │
└─────────────────┴────────────┘


# Expresiones  
# <font color="#CD0000">Operadores básicos   </font>  

## Numerical  

In [14]:
df_numerical = df.select([
    
        (pl.col("sepallength") + 5).alias("sepallength + 5"), #longitud de sepalo +5
        (pl.col("sepallength") - 5).alias("sepallength - 5"),#longitud de sepalo -5
        (pl.col("sepallength") * pl.col("sepalwidth")).alias("sepallength * sepalwidth"),#longitud por ancho del sepalo
        (pl.col("sepallength") / pl.col("sepalwidth")).alias("sepallength / sepalwidth"),#longitud entre el ancho del sepalo
    ])

print(df_numerical)

shape: (150, 4)
┌─────────────────┬─────────────────┬──────────────────────────┬──────────────────────────┐
│ sepallength + 5 ┆ sepallength - 5 ┆ sepallength * sepalwidth ┆ sepallength / sepalwidth │
│ ---             ┆ ---             ┆ ---                      ┆ ---                      │
│ f64             ┆ f64             ┆ f64                      ┆ f64                      │
╞═════════════════╪═════════════════╪══════════════════════════╪══════════════════════════╡
│ 10.1            ┆ 0.1             ┆ 17.85                    ┆ 1.457143                 │
│ 9.9             ┆ -0.1            ┆ 14.7                     ┆ 1.633333                 │
│ 9.7             ┆ -0.3            ┆ 15.04                    ┆ 1.46875                  │
│ 9.6             ┆ -0.4            ┆ 14.26                    ┆ 1.483871                 │
│ …               ┆ …               ┆ …                        ┆ …                        │
│ 11.3            ┆ 1.3             ┆ 15.75                    ┆

## Logical   
Devuelve **true** o **false**.

In [15]:
df_logical = df.select([
    
        (pl.col("sepalwidth") <= 0.5).alias("sepalwidth < 0.5"),
        (pl.col("sepalwidth") != 1).alias("sepallength != 1"),
        (pl.col("sepallength") == 1).alias("sepallength == 1"),
        ((pl.col("sepalwidth") <= 0.5) & (pl.col("sepallength") > 1)).alias("and_expr"),  # and
        ((pl.col("sepalwidth") <= 0.5) | (pl.col("sepallength") > 1)).alias("or_expr"),  # or
    ])

print(df_logical)

shape: (150, 5)
┌──────────────────┬──────────────────┬──────────────────┬──────────┬─────────┐
│ sepalwidth < 0.5 ┆ sepallength != 1 ┆ sepallength == 1 ┆ and_expr ┆ or_expr │
│ ---              ┆ ---              ┆ ---              ┆ ---      ┆ ---     │
│ bool             ┆ bool             ┆ bool             ┆ bool     ┆ bool    │
╞══════════════════╪══════════════════╪══════════════════╪══════════╪═════════╡
│ false            ┆ true             ┆ false            ┆ false    ┆ true    │
│ false            ┆ true             ┆ false            ┆ false    ┆ true    │
│ false            ┆ true             ┆ false            ┆ false    ┆ true    │
│ false            ┆ true             ┆ false            ┆ false    ┆ true    │
│ …                ┆ …                ┆ …                ┆ …        ┆ …       │
│ false            ┆ true             ┆ false            ┆ false    ┆ true    │
│ false            ┆ true             ┆ false            ┆ false    ┆ true    │
│ false            ┆ tru

# <font color="#CD0000">Funciones </font> 
Las expresiones tienen una gran cantidad de funciones integradas, estos le permiten crear consultas complejas sin necesidad de funciones definidas por el usuario. 

## Selección columna 
<font color="#474747">**SELECCIONA TODAS LAS COLUMNAS**</font> 


In [16]:
##all
df_all = df.select([pl.col("*")])

##Es equivalente a
df_all = df.select([pl.all()])
print(df_all)

shape: (150, 5)
┌─────────────┬────────────┬─────────────┬────────────┬────────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            │
╞═════════════╪════════════╪═════════════╪════════════╪════════════════╡
│ 5.1         ┆ 3.5        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    │
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa    │
│ 4.6         ┆ 3.1        ┆ 1.5         ┆ 0.2        ┆ Iris-setosa    │
│ …           ┆ …          ┆ …           ┆ …          ┆ …              │
│ 6.3         ┆ 2.5        ┆ 5.0         ┆ 1.9        ┆ Iris-virginica │
│ 6.5         ┆ 3.0        ┆ 5.2         ┆ 2.0        ┆ Iris-virginica │
│ 6.2         ┆ 3.4        ┆ 5.4         ┆ 2.3        ┆ Iris-virginica │
│ 5.9         ┆ 3.0        ┆ 5.1   

<font color="#474747">**SELECCIONA TODAS LAS COLUMNAS EXCEPTO**</font> 

In [17]:
##exclude  
df_exclu = df.select([pl.exclude("class")])#excluye la columna "class"
print(df_exclu)

shape: (150, 4)
┌─────────────┬────────────┬─────────────┬────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth │
│ ---         ┆ ---        ┆ ---         ┆ ---        │
│ f64         ┆ f64        ┆ f64         ┆ f64        │
╞═════════════╪════════════╪═════════════╪════════════╡
│ 5.1         ┆ 3.5        ┆ 1.4         ┆ 0.2        │
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        │
│ 4.6         ┆ 3.1        ┆ 1.5         ┆ 0.2        │
│ …           ┆ …          ┆ …           ┆ …          │
│ 6.3         ┆ 2.5        ┆ 5.0         ┆ 1.9        │
│ 6.5         ┆ 3.0        ┆ 5.2         ┆ 2.0        │
│ 6.2         ┆ 3.4        ┆ 5.4         ┆ 2.3        │
│ 5.9         ┆ 3.0        ┆ 5.1         ┆ 1.8        │
└─────────────┴────────────┴─────────────┴────────────┘


## Nomenclatura de columnas   
Renombra a las columnas en un *DataFrame* con **alias( )**. En Polars, los nombres de columna deben ser únicos y no pueden contener espacios ni caracteres especiales, excepto guiones bajos y puntos.

In [18]:
## alias modifica el nombre de la columna
df_alias = df.select(
    [
        (pl.col("sepalwidth") + 5).alias("sepalwidth + 5"),
        (pl.col("sepalwidth") - 5).alias("sepalwidth - 5"),
    ]
)
print(df_alias)

shape: (150, 2)
┌────────────────┬────────────────┐
│ sepalwidth + 5 ┆ sepalwidth - 5 │
│ ---            ┆ ---            │
│ f64            ┆ f64            │
╞════════════════╪════════════════╡
│ 8.5            ┆ -1.5           │
│ 8.0            ┆ -2.0           │
│ 8.2            ┆ -1.8           │
│ 8.1            ┆ -1.9           │
│ …              ┆ …              │
│ 7.5            ┆ -2.5           │
│ 8.0            ┆ -2.0           │
│ 8.4            ┆ -1.6           │
│ 8.0            ┆ -2.0           │
└────────────────┴────────────────┘


En caso de que se desee agregar un sufijo **(suffix( ))** o un prefijo **(prefix( ))**.

In [19]:
#sufijo
df_su =df.select([
       pl.col("sepalwidth"),
        pl.col("sepalwidth").sum().suffix("_sum")]).head()

#prefijo
df_pref = df.select([
          pl.col("sepallength"),
          pl.col("sepallength").mean().prefix("mean_")]).head()

print(df_su,df_pref)

shape: (5, 2)
┌────────────┬────────────────┐
│ sepalwidth ┆ sepalwidth_sum │
│ ---        ┆ ---            │
│ f64        ┆ f64            │
╞════════════╪════════════════╡
│ 3.5        ┆ 458.1          │
│ 3.0        ┆ 458.1          │
│ 3.2        ┆ 458.1          │
│ 3.1        ┆ 458.1          │
│ 3.6        ┆ 458.1          │
└────────────┴────────────────┘ shape: (5, 2)
┌─────────────┬──────────────────┐
│ sepallength ┆ mean_sepallength │
│ ---         ┆ ---              │
│ f64         ┆ f64              │
╞═════════════╪══════════════════╡
│ 5.1         ┆ 5.843333         │
│ 4.9         ┆ 5.843333         │
│ 4.7         ┆ 5.843333         │
│ 4.6         ┆ 5.843333         │
│ 5.0         ┆ 5.843333         │
└─────────────┴──────────────────┘


## Contar valores únicos   
Dos formas de contar valores únicos por aproximación **(aprox_unique( ))** o metodología exacta **(n_unique( ))** .

In [20]:
#cuantos tipos de 'class' y 'petallength' existen
##approx_unique( ) 
df_aprox = df.select([
    
        pl.approx_unique("petallength").alias("unique_petallength"),
        pl.approx_unique("class").alias("unique_approx_clase"),  ])
  


##n_unique( ) 
df_uni = df.select([
    pl.col("petallength").n_unique().alias("longitud_petalo"),
    pl.col("class").n_unique().alias("clase"),])
    
print(df_aprox,df_uni)

shape: (1, 2)
┌────────────────────┬─────────────────────┐
│ unique_petallength ┆ unique_approx_clase │
│ ---                ┆ ---                 │
│ u32                ┆ u32                 │
╞════════════════════╪═════════════════════╡
│ 43                 ┆ 3                   │
└────────────────────┴─────────────────────┘ shape: (1, 2)
┌─────────────────┬───────┐
│ longitud_petalo ┆ clase │
│ ---             ┆ ---   │
│ u32             ┆ u32   │
╞═════════════════╪═══════╡
│ 43              ┆ 3     │
└─────────────────┴───────┘


## Condicionales  
Polars admite condiciones similares a if en expresión con la sintaxis **when**, **then**, **otherwise**.    

El predicado se coloca en **when** y cuando se evalúa como **true** se usa la expresión **then** y en **false** se usa **otherwise**.

In [21]:
df_condicional = df.select([
        pl.col("sepalwidth"),
        pl.when(pl.col("sepalwidth") > 3.1)#condición
        .then(pl.lit(True))
        .otherwise(pl.lit(False))
        .alias("conditional"),
    ])
print(df_condicional)

shape: (150, 2)
┌────────────┬─────────────┐
│ sepalwidth ┆ conditional │
│ ---        ┆ ---         │
│ f64        ┆ bool        │
╞════════════╪═════════════╡
│ 3.5        ┆ true        │
│ 3.0        ┆ false       │
│ 3.2        ┆ true        │
│ 3.1        ┆ false       │
│ …          ┆ …           │
│ 2.5        ┆ false       │
│ 3.0        ┆ false       │
│ 3.4        ┆ true        │
│ 3.0        ┆ false       │
└────────────┴─────────────┘


# <font color="#CD0000">Fundición </font>
La fundición en Polars se refiere a la conversión de datos de una columna a otro tipo de datos.  

Si se encuentra un valor que no se puede convertir, el comportamiento predeterminado es **"strict=True"**, lo que significa que se generará un error. Pero si se establece en **"strict=False"**, los valores que no se puedan convertir se convertirán silenciosamente a "null".   

## Numerics  
Se invoca a la función **cast( )**.  


In [22]:
#EJEMPLO 1
ct1 = pl.DataFrame({
    
        "integers": [1, 2, 3, 4, 5],
        "character": ["rojo", "azul", "amarillo", "verde", "blanco"],
        "floats": [4.3, 5.4, 6.7, 7.2, 8.0],   })


print(ct1)
#conversión de datos con 'cast( )'
#Los valores decimales se redoondean hacia abajo
out1 = ct1.select(
    [
        pl.col("integers").cast(pl.Float32).alias("integers_as_floats"),
        pl.col("floats").cast(pl.Int32).alias("floats_as_integers"),
        pl.col("character").cast(pl.Int16, strict=False).alias("character_as_integers")
    ])
print(out1)

shape: (5, 3)
┌──────────┬───────────┬────────┐
│ integers ┆ character ┆ floats │
│ ---      ┆ ---       ┆ ---    │
│ i64      ┆ str       ┆ f64    │
╞══════════╪═══════════╪════════╡
│ 1        ┆ rojo      ┆ 4.3    │
│ 2        ┆ azul      ┆ 5.4    │
│ 3        ┆ amarillo  ┆ 6.7    │
│ 4        ┆ verde     ┆ 7.2    │
│ 5        ┆ blanco    ┆ 8.0    │
└──────────┴───────────┴────────┘
shape: (5, 3)
┌────────────────────┬────────────────────┬───────────────────────┐
│ integers_as_floats ┆ floats_as_integers ┆ character_as_integers │
│ ---                ┆ ---                ┆ ---                   │
│ f32                ┆ i32                ┆ i16                   │
╞════════════════════╪════════════════════╪═══════════════════════╡
│ 1.0                ┆ 4                  ┆ null                  │
│ 2.0                ┆ 5                  ┆ null                  │
│ 3.0                ┆ 6                  ┆ null                  │
│ 4.0                ┆ 7                  ┆ null      

## Booleanos   
Los booleanos se pueden expresar como **1 ( True)** o **0 ( False)**. Es posible realizar operaciones de conversión entre un numérico *DataType* y un booleano, y viceversa. Sin embargo, tenga en cuenta que no se permite la conversión de una cadena **(Utf8)** a un booleano.

In [23]:
#EJEMPLO 2
##cast(pl.Boolean)
ct2 = pl.DataFrame({
    
        "integers": [-1, 0, 2, 3, 4],
        "floats": [0.0, 1.0, 2.0, 3.0, 4.0],})
        


out2 = ct2.select([
    
        pl.col("integers").cast(pl.Boolean),
        pl.col("floats").cast(pl.Boolean),])
 
print(out2)

shape: (5, 2)
┌──────────┬────────┐
│ integers ┆ floats │
│ ---      ┆ ---    │
│ bool     ┆ bool   │
╞══════════╪════════╡
│ true     ┆ false  │
│ false    ┆ true   │
│ true     ┆ true   │
│ true     ┆ true   │
│ true     ┆ true   │
└──────────┴────────┘


## Date  
Los tipos de datos temporales como **Date** o **Datetime** se representan como el número de días (**Date**) y microsegundos (**Datetime**) desde la época. 

In [24]:
#EJEMPLO 3
from datetime import date, datetime

ct3 = pl.DataFrame({
    
        "date": pl.date_range(date(2001,1, 7), date(2005, 1, 10), eager=True),
        "datetime": pl.date_range(datetime(2001,1, 7), datetime(2005, 1, 10), eager=True),
         })

out3 = ct3.select([pl.col("date").cast(pl.Int64), pl.col("datetime").cast(pl.Int64)])
print(out3)

shape: (1_465, 2)
┌───────┬──────────────────┐
│ date  ┆ datetime         │
│ ---   ┆ ---              │
│ i64   ┆ i64              │
╞═══════╪══════════════════╡
│ 11329 ┆ 978825600000000  │
│ 11330 ┆ 978912000000000  │
│ 11331 ┆ 978998400000000  │
│ 11332 ┆ 979084800000000  │
│ …     ┆ …                │
│ 12790 ┆ 1105056000000000 │
│ 12791 ┆ 1105142400000000 │
│ 12792 ┆ 1105228800000000 │
│ 12793 ┆ 1105315200000000 │
└───────┴──────────────────┘


Para realizar operaciones de conversión entre *cadenas* y *Dates*/ *Datetimes*, *strftime* y *strptime* se utilizan. Polars adopta la sintaxis de formato crono al formatear. Vale la pena señalar que *strptime* presenta opciones adicionales que admiten la funcionalidad de la zona horaria. Consulte la documentación de la API para obtener más información.

In [25]:
##strftime y strptime
ct4 = pl.DataFrame({
    
        "date": pl.date_range(date(2022, 1, 1), date(2022, 1, 5), eager=True),
        "string": [
            "2022-01-01",
            "2022-01-02",
            "2022-01-03",
            "2022-01-04",
            "2022-01-05",
        ],})
    


out4 = ct4.select([
    
        pl.col("date").dt.strftime("%Y-%m-%d"),
        pl.col("string").str.strptime(pl.Datetime, "%Y-%m-%d"),
    ])

print(out4)

shape: (5, 2)
┌────────────┬─────────────────────┐
│ date       ┆ string              │
│ ---        ┆ ---                 │
│ str        ┆ datetime[μs]        │
╞════════════╪═════════════════════╡
│ 2022-01-01 ┆ 2022-01-01 00:00:00 │
│ 2022-01-02 ┆ 2022-01-02 00:00:00 │
│ 2022-01-03 ┆ 2022-01-03 00:00:00 │
│ 2022-01-04 ┆ 2022-01-04 00:00:00 │
│ 2022-01-05 ┆ 2022-01-05 00:00:00 │
└────────────┴─────────────────────┘


# <font color="#CD0000">Strings </font>
Las operaciones realizadas en cadenas *Utf8* .

<font color="#474747">**ACCESO AL ESPACIO DE NOMBRES DE CADENA**</font>  
**str** se puede acceder al espacio de nombres a través del **.str** atributo de una columna con *Utf8* tipo de datos.


In [26]:
#lengths y n_chars
df_len = df.select(
    [
        pl.col("class").str.lengths().alias("byte_count"),#recuento de bytes
        pl.col("class").str.n_chars().alias("letter_count"),#recuento de letras
    ]
)
print(df_len)

shape: (150, 2)
┌────────────┬──────────────┐
│ byte_count ┆ letter_count │
│ ---        ┆ ---          │
│ u32        ┆ u32          │
╞════════════╪══════════════╡
│ 11         ┆ 11           │
│ 11         ┆ 11           │
│ 11         ┆ 11           │
│ 11         ┆ 11           │
│ …          ┆ …            │
│ 14         ┆ 14           │
│ 14         ┆ 14           │
│ 14         ┆ 14           │
│ 14         ┆ 14           │
└────────────┴──────────────┘


<font color="#474747">**COMPROBAR LA EXISTENCIA DE UN PATRÓN**</font>   
El **contains** es un método que acepta un patron de expresión regular.
Si la subcadena buscada se encuentra al inicio se usa **starts_with** y para el final **ends_with**.


In [27]:
df_patron = df.select([
        pl.col("class"),
        pl.col("class").str.contains("nica").alias("subcadea_is"),
        pl.col("class").str.starts_with("Iris").alias("subcadea_Iris"),#inicio
        pl.col("class").str.ends_with("osa").alias("subcadea_osa"),#fin
    ])
print(df_patron)

shape: (150, 4)
┌────────────────┬─────────────┬───────────────┬──────────────┐
│ class          ┆ subcadea_is ┆ subcadea_Iris ┆ subcadea_osa │
│ ---            ┆ ---         ┆ ---           ┆ ---          │
│ str            ┆ bool        ┆ bool          ┆ bool         │
╞════════════════╪═════════════╪═══════════════╪══════════════╡
│ Iris-setosa    ┆ false       ┆ true          ┆ true         │
│ Iris-setosa    ┆ false       ┆ true          ┆ true         │
│ Iris-setosa    ┆ false       ┆ true          ┆ true         │
│ Iris-setosa    ┆ false       ┆ true          ┆ true         │
│ …              ┆ …           ┆ …             ┆ …            │
│ Iris-virginica ┆ true        ┆ true          ┆ false        │
│ Iris-virginica ┆ true        ┆ true          ┆ false        │
│ Iris-virginica ┆ true        ┆ true          ┆ false        │
│ Iris-virginica ┆ true        ┆ true          ┆ false        │
└────────────────┴─────────────┴───────────────┴──────────────┘


<font color="#474747">**EXTRAER UN PATRÓN**</font>   
El **extract** método nos permite extraer un patrón de una cadena específica.


In [28]:
#group_index=1 se utiliza para especificar que se extraiga el primer grupo de coincidencias del patrón (el patrón completo en este caso).
df_extract = df.select(pl.col("class").str.extract(r"setosa", group_index=0))

print(df_extract)

shape: (150, 1)
┌────────┐
│ class  │
│ ---    │
│ str    │
╞════════╡
│ setosa │
│ setosa │
│ setosa │
│ setosa │
│ …      │
│ null   │
│ null   │
│ null   │
│ null   │
└────────┘


El método **extract_all** extrae todas las ocurrencia. 

In [29]:
df_extract_all = df.select(pl.col("class").str.extract_all(r"(setosa|versicolor|virginica)"))

print(df_extract_all)

shape: (150, 1)
┌───────────────┐
│ class         │
│ ---           │
│ list[str]     │
╞═══════════════╡
│ ["setosa"]    │
│ ["setosa"]    │
│ ["setosa"]    │
│ ["setosa"]    │
│ …             │
│ ["virginica"] │
│ ["virginica"] │
│ ["virginica"] │
│ ["virginica"] │
└───────────────┘


<font color="#474747">**REEMPLAZAR UN PATRÓN**</font>   
Polars proporciona los métodos **replace** y **replace_all**, ambas reemplazan patrones.

In [30]:
df_replace = df.select(pl.col("class").str.replace(r"setosa", "foo"),
                      pl.col("class").str.replace_all("Iris", "flor", literal=True).alias("remplazo_de_Iris"),)

print(df_replace)

shape: (150, 2)
┌────────────────┬──────────────────┐
│ class          ┆ remplazo_de_Iris │
│ ---            ┆ ---              │
│ str            ┆ str              │
╞════════════════╪══════════════════╡
│ Iris-foo       ┆ flor-setosa      │
│ Iris-foo       ┆ flor-setosa      │
│ Iris-foo       ┆ flor-setosa      │
│ Iris-foo       ┆ flor-setosa      │
│ …              ┆ …                │
│ Iris-virginica ┆ flor-virginica   │
│ Iris-virginica ┆ flor-virginica   │
│ Iris-virginica ┆ flor-virginica   │
│ Iris-virginica ┆ flor-virginica   │
└────────────────┴──────────────────┘


# <font color="#CD0000">Agregación </font> 
Usando **groupby**.
## Agregaciones básicas  
Se puede hacer cualquier tipo de combinación con las diferentes expresiones.  


In [31]:
a = (df.lazy().groupby("class").agg
     ([pl.count(),
          pl.col("petallength"),
          pl.first("petalwidth"),  ]).sort("count", descending=True).limit(5))


df_aggre = a.collect()
print(df_aggre)

shape: (3, 4)
┌─────────────────┬───────┬───────────────────┬────────────┐
│ class           ┆ count ┆ petallength       ┆ petalwidth │
│ ---             ┆ ---   ┆ ---               ┆ ---        │
│ str             ┆ u32   ┆ list[f64]         ┆ f64        │
╞═════════════════╪═══════╪═══════════════════╪════════════╡
│ Iris-versicolor ┆ 50    ┆ [4.7, 4.5, … 4.1] ┆ 1.4        │
│ Iris-virginica  ┆ 50    ┆ [6.0, 5.1, … 5.1] ┆ 2.5        │
│ Iris-setosa     ┆ 50    ┆ [1.4, 1.4, … 1.4] ┆ 0.2        │
└─────────────────┴───────┴───────────────────┴────────────┘


## Condicionales 

In [32]:
#agg es una función que agrega una columna
#la función lazy ayuda a agrupar
df_1 = (df.lazy().groupby("class").agg([pl.col("sepallength").sum()])).collect()
print(df_1)

shape: (3, 2)
┌─────────────────┬─────────────┐
│ class           ┆ sepallength │
│ ---             ┆ ---         │
│ str             ┆ f64         │
╞═════════════════╪═════════════╡
│ Iris-versicolor ┆ 296.8       │
│ Iris-setosa     ┆ 250.3       │
│ Iris-virginica  ┆ 329.4       │
└─────────────────┴─────────────┘


## Filtración  
Se puede filtrar en grupos con **filter()**.

In [33]:
df_filtrar =df.filter((pl.col("petallength")<4)&(pl.col("class")=="Iris-versicolor")) 
print(df_filtrar)

shape: (11, 5)
┌─────────────┬────────────┬─────────────┬────────────┬─────────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class           │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---             │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str             │
╞═════════════╪════════════╪═════════════╪════════════╪═════════════════╡
│ 4.9         ┆ 2.4        ┆ 3.3         ┆ 1.0        ┆ Iris-versicolor │
│ 5.2         ┆ 2.7        ┆ 3.9         ┆ 1.4        ┆ Iris-versicolor │
│ 5.0         ┆ 2.0        ┆ 3.5         ┆ 1.0        ┆ Iris-versicolor │
│ 5.6         ┆ 2.9        ┆ 3.6         ┆ 1.3        ┆ Iris-versicolor │
│ …           ┆ …          ┆ …           ┆ …          ┆ …               │
│ 5.5         ┆ 2.4        ┆ 3.7         ┆ 1.0        ┆ Iris-versicolor │
│ 5.8         ┆ 2.7        ┆ 3.9         ┆ 1.2        ┆ Iris-versicolor │
│ 5.0         ┆ 2.3        ┆ 3.3         ┆ 1.0        ┆ Iris-versicolor │
│ 5.1         ┆ 2.5    

## Clasificación   
Ordenar **sort()** y agrupar **groupby()**.

In [34]:
grupo = df.groupby("class").mean() 
print(grupo)

orden = df.sort("sepalwidth")#por defecto de menor a mayor
print(orden)

shape: (3, 5)
┌─────────────────┬─────────────┬────────────┬─────────────┬────────────┐
│ class           ┆ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth │
│ ---             ┆ ---         ┆ ---        ┆ ---         ┆ ---        │
│ str             ┆ f64         ┆ f64        ┆ f64         ┆ f64        │
╞═════════════════╪═════════════╪════════════╪═════════════╪════════════╡
│ Iris-versicolor ┆ 5.936       ┆ 2.77       ┆ 4.26        ┆ 1.326      │
│ Iris-setosa     ┆ 5.006       ┆ 3.418      ┆ 1.464       ┆ 0.244      │
│ Iris-virginica  ┆ 6.588       ┆ 2.974      ┆ 5.552       ┆ 2.026      │
└─────────────────┴─────────────┴────────────┴─────────────┴────────────┘
shape: (150, 5)
┌─────────────┬────────────┬─────────────┬────────────┬─────────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class           │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---             │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str             │
╞═══════

# <font color="#CD0000">Datos perdidos </font> 
## null  
Los datos que faltan se representan en Arrows y Polars con un null,este **null** valor faltante se aplica a todos los tipos de datos, incluidos los valores numéricos.  


In [35]:
#EJEMPLO 4
EJ4 = pl.DataFrame({
        "col1": [1, 2, 3],
        "col2": [16, None, 48],
        "col3":["manzana","fresa ","uva"]
    },)
print(EJ4)

shape: (3, 3)
┌──────┬──────┬─────────┐
│ col1 ┆ col2 ┆ col3    │
│ ---  ┆ ---  ┆ ---     │
│ i64  ┆ i64  ┆ str     │
╞══════╪══════╪═════════╡
│ 1    ┆ 16   ┆ manzana │
│ 2    ┆ null ┆ fresa   │
│ 3    ┆ 48   ┆ uva     │
└──────┴──────┴─────────┘


### <font color="#474747">Filtrar con is_null y is_not_null</font> 

In [36]:
##is_null
EJ4_isnull = EJ4.filter(pl.col("col2").is_null())
print(EJ4_isnull)#filtra la filas con datos nulos

##is_not_null
EJ4_isnot = EJ4.filter(pl.col("col2").is_not_null())
print(EJ4_isnot)#filtra todas las filas sin datos nulos 

shape: (1, 3)
┌──────┬──────┬────────┐
│ col1 ┆ col2 ┆ col3   │
│ ---  ┆ ---  ┆ ---    │
│ i64  ┆ i64  ┆ str    │
╞══════╪══════╪════════╡
│ 2    ┆ null ┆ fresa  │
└──────┴──────┴────────┘
shape: (2, 3)
┌──────┬──────┬─────────┐
│ col1 ┆ col2 ┆ col3    │
│ ---  ┆ ---  ┆ ---     │
│ i64  ┆ i64  ┆ str     │
╞══════╪══════╪═════════╡
│ 1    ┆ 16   ┆ manzana │
│ 3    ┆ 48   ┆ uva     │
└──────┴──────┴─────────┘


### <font color="#474747">Rellenar datos faltantes </font> 
Usando **fill_null( )**.

- **Rellenar con un valor específico**
Usando **pl.lit( )** .

In [37]:
valor = EJ4.with_columns(pl.col("col2").fill_null(pl.lit(32)))
print(valor)

shape: (3, 3)
┌──────┬──────┬─────────┐
│ col1 ┆ col2 ┆ col3    │
│ ---  ┆ ---  ┆ ---     │
│ i64  ┆ i64  ┆ str     │
╞══════╪══════╪═════════╡
│ 1    ┆ 16   ┆ manzana │
│ 2    ┆ 32   ┆ fresa   │
│ 3    ┆ 48   ┆ uva     │
└──────┴──────┴─────────┘


- **Rellenar con una expresión**   

In [38]:
exp = EJ4.with_columns(pl.col("col2").fill_null(pl.sum("col2")))
print(exp)

shape: (3, 3)
┌──────┬──────┬─────────┐
│ col1 ┆ col2 ┆ col3    │
│ ---  ┆ ---  ┆ ---     │
│ i64  ┆ i64  ┆ str     │
╞══════╪══════╪═════════╡
│ 1    ┆ 16   ┆ manzana │
│ 2    ┆ 64   ┆ fresa   │
│ 3    ┆ 48   ┆ uva     │
└──────┴──────┴─────────┘


- **Rellenar con interpolación**   
Usando **interpolate( )**.

In [39]:
polacion = EJ4.with_columns("col2").interpolate()
print(polacion)

shape: (3, 3)
┌──────┬──────┬─────────┐
│ col1 ┆ col2 ┆ col3    │
│ ---  ┆ ---  ┆ ---     │
│ i64  ┆ i64  ┆ str     │
╞══════╪══════╪═════════╡
│ 1    ┆ 16   ┆ manzana │
│ 2    ┆ 32   ┆ fresa   │
│ 3    ┆ 48   ┆ uva     │
└──────┴──────┴─────────┘


## NotaNumbero NaN valores
Polars también permite **NotaNumber** o **NaN** valores para columnas flotantes,en Polars no se consideran datos faltantes. 
 


In [40]:
import numpy as np

#EJEMPLO 5
EJ5 = pl.DataFrame({"valor":[1.0,np.NaN,float("nan"),21]})
print(EJ5)

shape: (4, 1)
┌───────┐
│ valor │
│ ---   │
│ f64   │
╞═══════╡
│ 1.0   │
│ NaN   │
│ NaN   │
│ 21.0  │
└───────┘


Tienen las funciones de **is_nan( )** y **fill_nan( )**.

In [41]:
#fill_nan
fill_nan = EJ5.with_columns(pl.col("valor").fill_nan(None)).mean()
print(fill_nan)#saca la media de los valores que no sean "NaN"

#is_nan
is_nan = EJ5.with_columns(pl.col("valor").is_nan())
print(is_nan)#todos los datos NaN 

shape: (1, 1)
┌───────┐
│ valor │
│ ---   │
│ f64   │
╞═══════╡
│ 11.0  │
└───────┘
shape: (4, 1)
┌───────┐
│ valor │
│ ---   │
│ bool  │
╞═══════╡
│ false │
│ true  │
│ true  │
│ false │
└───────┘


# <font color="#CD0000">Folds </font> 
Polars permite dividir un *DataFrame* en un número específico de pliegues(folds).Luego se puede aplicar una función específica a cada pliegue en paralelo para acelerar el procesamiento.  



In [42]:
#EJEMPLO 6
EJ6 = pl.DataFrame({"col1":[1,2,3],
                   "col2":[10,20,30],
                   "col3":[5,15,25]})
print(EJ6)

shape: (3, 3)
┌──────┬──────┬──────┐
│ col1 ┆ col2 ┆ col3 │
│ ---  ┆ ---  ┆ ---  │
│ i64  ┆ i64  ┆ i64  │
╞══════╪══════╪══════╡
│ 1    ┆ 10   ┆ 5    │
│ 2    ┆ 20   ┆ 15   │
│ 3    ┆ 30   ┆ 25   │
└──────┴──────┴──────┘


## Suma manual  
Usando **sum( )** y **fold( )**.

In [43]:
#se hace una suma por filas
sum_manu = EJ6.select(
    pl.fold(acc=pl.lit(0), function=lambda acc, x: acc + x, exprs=pl.all())
    .alias("sum"),)

print(sum_manu)

shape: (3, 1)
┌─────┐
│ sum │
│ --- │
│ i64 │
╞═════╡
│ 16  │
│ 37  │
│ 58  │
└─────┘


## Condicional

In [44]:
#filtra la(s) donde todos sus elementos cumplan con la condición
condicional = EJ6.filter(
    pl.fold(acc=pl.lit(True),function=lambda acc, x: acc & x,
            exprs=pl.col("*") > 2,))#condición

print(condicional)

shape: (1, 3)
┌──────┬──────┬──────┐
│ col1 ┆ col2 ┆ col3 │
│ ---  ┆ ---  ┆ ---  │
│ i64  ┆ i64  ┆ i64  │
╞══════╪══════╪══════╡
│ 3    ┆ 30   ┆ 25   │
└──────┴──────┴──────┘


## Datos de pliegues y cuerdas  
Usando **concat_str( ).** 

In [45]:
#Concatenación por filas
fs = EJ6.select([pl.concat_str(["col1","col2","col3"]).alias("concatenación"), ])

print(fs)

shape: (3, 1)
┌───────────────┐
│ concatenación │
│ ---           │
│ str           │
╞═══════════════╡
│ 1105          │
│ 22015         │
│ 33025         │
└───────────────┘


# <font color="#CD0000">Listas </font> 


In [46]:
#EJEMPLO 7
EJ7 = pl.DataFrame({
        "alumnos":["Ivan","Ariana","Frank","Angie"],
        "aritmetica":[14,12,17,15],
        "quimica":[15,13,18,14],
        "literatura":[14,18,16,17],
})
print(EJ7)

shape: (4, 4)
┌─────────┬────────────┬─────────┬────────────┐
│ alumnos ┆ aritmetica ┆ quimica ┆ literatura │
│ ---     ┆ ---        ┆ ---     ┆ ---        │
│ str     ┆ i64        ┆ i64     ┆ i64        │
╞═════════╪════════════╪═════════╪════════════╡
│ Ivan    ┆ 14         ┆ 15      ┆ 14         │
│ Ariana  ┆ 12         ┆ 13      ┆ 18         │
│ Frank   ┆ 17         ┆ 18      ┆ 16         │
│ Angie   ┆ 15         ┆ 14      ┆ 17         │
└─────────┴────────────┴─────────┴────────────┘


## Calculos en filas  
Las operaciones de lista se pueden realizar utilizando el espacio de nombres **pl.list**, que proporciona varias funciones útiles para trabajar con 'listas', como 'flatten', 'unique', 'slice', 'length', entre otras.
También existe **concat_list** .

In [47]:
#se excluye la columna alumnos y se forma una columna llamada "calificaciones" 
#con las notas de los alumnos en listas

listas =EJ7.select([pl.concat_list(pl.all().exclude("alumnos"))
                    .alias("calificaciones")])
print(listas)

shape: (4, 1)
┌────────────────┐
│ calificaciones │
│ ---            │
│ list[i64]      │
╞════════════════╡
│ [14, 15, 14]   │
│ [12, 13, 18]   │
│ [17, 18, 16]   │
│ [15, 14, 17]   │
└────────────────┘


# <font color="#CD0000">Funciones definidas por el usuario </font> 


In [48]:
#Ejemplo 8
EJ8 = pl.DataFrame({
    "keys":["a","c","c"],
    "values":[14,25,36],
})

print(EJ8)

shape: (3, 2)
┌──────┬────────┐
│ keys ┆ values │
│ ---  ┆ ---    │
│ str  ┆ i64    │
╞══════╪════════╡
│ a    ┆ 14     │
│ c    ┆ 25     │
│ c    ┆ 36     │
└──────┴────────┘


In [49]:
#ejericio 1
out5 = EJ8.groupby("keys", maintain_order=True).agg(
    [
        pl.col("values").map(lambda s: s.shift()).alias("shift_map"),
        pl.col("values").shift().alias("shift_expression"),
    ]
)
print(out5)

shape: (2, 3)
┌──────┬───────────┬──────────────────┐
│ keys ┆ shift_map ┆ shift_expression │
│ ---  ┆ ---       ┆ ---              │
│ str  ┆ list[i64] ┆ list[i64]        │
╞══════╪═══════════╪══════════════════╡
│ a    ┆ [null]    ┆ [null]           │
│ c    ┆ [14, 25]  ┆ [null, 25]       │
└──────┴───────────┴──────────────────┘


Se puede comprobar que los resultados en el ejercicio 1 no son los correctos ya que c tiene valores de a.
Ahora se arreglara el ejercicio 1.

In [50]:
out6 = EJ8.groupby("keys", maintain_order=True).agg(
    [
        pl.col("values").apply(lambda s: s.shift()).alias("shift_map"),
        pl.col("values").shift().alias("shift_expression"),
    ]
)
print(out6)

shape: (2, 3)
┌──────┬────────────┬──────────────────┐
│ keys ┆ shift_map  ┆ shift_expression │
│ ---  ┆ ---        ┆ ---              │
│ str  ┆ list[i64]  ┆ list[i64]        │
╞══════╪════════════╪══════════════════╡
│ a    ┆ [null]     ┆ [null]           │
│ c    ┆ [null, 25] ┆ [null, 25]       │
└──────┴────────────┴──────────────────┘


# <font color="#CD0000">Numpy </font>  
Polars admite alguna funciones *Numpy* .

In [51]:
import numpy as np  
#Excluimos la columna 'class' por no tener datos numericos
df_sinclass = df.select([
    pl.exclude("class")])#usando numpy
  
#Ahora todas las otras columnas son reemplazadas por sus logaritmos
df_su = df_sinclass.select( [
        np.log(pl.all()).suffix("_log"),])#usando polars

print(df_su)

shape: (150, 4)
┌─────────────────┬────────────────┬─────────────────┬────────────────┐
│ sepallength_log ┆ sepalwidth_log ┆ petallength_log ┆ petalwidth_log │
│ ---             ┆ ---            ┆ ---             ┆ ---            │
│ f64             ┆ f64            ┆ f64             ┆ f64            │
╞═════════════════╪════════════════╪═════════════════╪════════════════╡
│ 1.629241        ┆ 1.252763       ┆ 0.336472        ┆ -1.609438      │
│ 1.589235        ┆ 1.098612       ┆ 0.336472        ┆ -1.609438      │
│ 1.547563        ┆ 1.163151       ┆ 0.262364        ┆ -1.609438      │
│ 1.526056        ┆ 1.131402       ┆ 0.405465        ┆ -1.609438      │
│ …               ┆ …              ┆ …               ┆ …              │
│ 1.84055         ┆ 0.916291       ┆ 1.609438        ┆ 0.641854       │
│ 1.871802        ┆ 1.098612       ┆ 1.648659        ┆ 0.693147       │
│ 1.824549        ┆ 1.223775       ┆ 1.686399        ┆ 0.832909       │
│ 1.774952        ┆ 1.098612       ┆ 1.629241   

### OTRAS FUNCIONES NUMPY EN POLARS 
**np.exp()**: Esta función devuelve el exponencial de un número. Es decir, eleva el número a la constante matemática e, que es aproximadamente 2.718.


In [52]:
# Aplicar función np.exp() a la columna "sepallength"
out7 = df.select(pl.col("sepallength").apply(lambda x: np.exp(x)).alias("exp"))

print(out7)

shape: (150, 1)
┌────────────┐
│ exp        │
│ ---        │
│ f64        │
╞════════════╡
│ 164.021907 │
│ 134.28978  │
│ 109.947172 │
│ 99.484316  │
│ …          │
│ 544.57191  │
│ 665.141633 │
│ 492.749041 │
│ 365.037468 │
└────────────┘


**np.cos()**: Esta función devuelve el coseno de un número. El coseno es una función trigonométrica que devuelve el cociente de la longitud del cateto adyacente y la hipotenusa de un triángulo rectángulo.

In [53]:
# Aplicar función np.cos() a la columna "sepal_length"
out8 = df.select(pl.col("sepallength").apply(lambda x: np.cos(x)).alias("cos"))

print(out8)

shape: (150, 1)
┌───────────┐
│ cos       │
│ ---       │
│ f64       │
╞═══════════╡
│ 0.377978  │
│ 0.186512  │
│ -0.012389 │
│ -0.112153 │
│ …         │
│ 0.999859  │
│ 0.976588  │
│ 0.996542  │
│ 0.927478  │
└───────────┘


# Transformaciones


## Joins
<b>Los joins son una serie de sentencias las cuales tienen como objetivo el combinar 2 tablas de datos. Dependiendo del objetivo del usuario estas pueden separarse en:</b>

- Inner join
- Left join
- Outer join
- Cross join
- Semi join
- Anti join
- Asof join


![joins](https://help.pyramidanalytics.com/content/root/MainClient/apps/Model/Model%20Pro/Data%20Flow/Joins/Images/UnionDiagram.png)

Con el proposito de presentar mejor cada función, crearemos 2 data frames, el primero llamado 'Estudiantes', el cual tendra como atributos: 'ID_Estudiante','Nombre', 'Edad', 'Carrera' y 'Sexo'. Y el segundo llamado 'Notas', el cual tendra como atributos:'ID_Notas', 'ID_Estudiante' y 'Nota'. La llave foranea (es decir la columna que unira a ambos data frames) sera 'ID_Estudiante'.

In [54]:
from datetime import datetime

Estudiantes = pl.DataFrame({"ID_Estudiante":[1001,1002,1003,1004,1005,1006]
                            ,"Nombre":["Juliana","Fernando","Lucero","Josselyn","Ismael","Ximena"]
                     , "Edad":[21,19,19,20,29,20], "Carrera":["Estadistica Informatica","Economia","Gestion","Gestion","Economia","Estadistica Informatica"]
                     , "Sexo":["F","M","F","F","M","F"]})

Notas = pl.DataFrame({"ID_Notas":[2001,2002,2003,2004,2005], "ID_Estudiante":[1001,1002,1003,1004,1005],"Nota":[18,0,10,17,20]})

print(Estudiantes)
print(Notas)

shape: (6, 5)
┌───────────────┬──────────┬──────┬─────────────────────────┬──────┐
│ ID_Estudiante ┆ Nombre   ┆ Edad ┆ Carrera                 ┆ Sexo │
│ ---           ┆ ---      ┆ ---  ┆ ---                     ┆ ---  │
│ i64           ┆ str      ┆ i64  ┆ str                     ┆ str  │
╞═══════════════╪══════════╪══════╪═════════════════════════╪══════╡
│ 1001          ┆ Juliana  ┆ 21   ┆ Estadistica Informatica ┆ F    │
│ 1002          ┆ Fernando ┆ 19   ┆ Economia                ┆ M    │
│ 1003          ┆ Lucero   ┆ 19   ┆ Gestion                 ┆ F    │
│ 1004          ┆ Josselyn ┆ 20   ┆ Gestion                 ┆ F    │
│ 1005          ┆ Ismael   ┆ 29   ┆ Economia                ┆ M    │
│ 1006          ┆ Ximena   ┆ 20   ┆ Estadistica Informatica ┆ F    │
└───────────────┴──────────┴──────┴─────────────────────────┴──────┘
shape: (5, 3)
┌──────────┬───────────────┬──────┐
│ ID_Notas ┆ ID_Estudiante ┆ Nota │
│ ---      ┆ ---           ┆ ---  │
│ i64      ┆ i64           ┆ i64  │


### Inner join:
<b>La función 'inner join' une aquellas filas de ambas tablas que tengan un parametro en comun el cual sera definido por 'on', es decir que generara un data frame con la interseccion de ambas tablas.</b>

In [55]:
inner_join = Estudiantes.join(Notas,how="inner",on="ID_Estudiante")

print(inner_join)

shape: (5, 7)
┌───────────────┬──────────┬──────┬─────────────────────────┬──────┬──────────┬──────┐
│ ID_Estudiante ┆ Nombre   ┆ Edad ┆ Carrera                 ┆ Sexo ┆ ID_Notas ┆ Nota │
│ ---           ┆ ---      ┆ ---  ┆ ---                     ┆ ---  ┆ ---      ┆ ---  │
│ i64           ┆ str      ┆ i64  ┆ str                     ┆ str  ┆ i64      ┆ i64  │
╞═══════════════╪══════════╪══════╪═════════════════════════╪══════╪══════════╪══════╡
│ 1001          ┆ Juliana  ┆ 21   ┆ Estadistica Informatica ┆ F    ┆ 2001     ┆ 18   │
│ 1002          ┆ Fernando ┆ 19   ┆ Economia                ┆ M    ┆ 2002     ┆ 0    │
│ 1003          ┆ Lucero   ┆ 19   ┆ Gestion                 ┆ F    ┆ 2003     ┆ 10   │
│ 1004          ┆ Josselyn ┆ 20   ┆ Gestion                 ┆ F    ┆ 2004     ┆ 17   │
│ 1005          ┆ Ismael   ┆ 29   ┆ Economia                ┆ M    ┆ 2005     ┆ 20   │
└───────────────┴──────────┴──────┴─────────────────────────┴──────┴──────────┴──────┘


### Left join:
<b>La función 'left join' une aquellas filas de la segunda tabla que tengan un parametro en comun con la primera tabla, manteniendo esta ultima.</b>

In [56]:
left_join_1 = Estudiantes.join(Notas,how="left",on="ID_Estudiante")

left_join_2 = Notas.join(Estudiantes,how="left",on="ID_Estudiante")

print(left_join_1)
print(left_join_2)


shape: (6, 7)
┌───────────────┬──────────┬──────┬─────────────────────────┬──────┬──────────┬──────┐
│ ID_Estudiante ┆ Nombre   ┆ Edad ┆ Carrera                 ┆ Sexo ┆ ID_Notas ┆ Nota │
│ ---           ┆ ---      ┆ ---  ┆ ---                     ┆ ---  ┆ ---      ┆ ---  │
│ i64           ┆ str      ┆ i64  ┆ str                     ┆ str  ┆ i64      ┆ i64  │
╞═══════════════╪══════════╪══════╪═════════════════════════╪══════╪══════════╪══════╡
│ 1001          ┆ Juliana  ┆ 21   ┆ Estadistica Informatica ┆ F    ┆ 2001     ┆ 18   │
│ 1002          ┆ Fernando ┆ 19   ┆ Economia                ┆ M    ┆ 2002     ┆ 0    │
│ 1003          ┆ Lucero   ┆ 19   ┆ Gestion                 ┆ F    ┆ 2003     ┆ 10   │
│ 1004          ┆ Josselyn ┆ 20   ┆ Gestion                 ┆ F    ┆ 2004     ┆ 17   │
│ 1005          ┆ Ismael   ┆ 29   ┆ Economia                ┆ M    ┆ 2005     ┆ 20   │
│ 1006          ┆ Ximena   ┆ 20   ┆ Estadistica Informatica ┆ F    ┆ null     ┆ null │
└───────────────┴──────────┴─

### Outer join:
<b>La función 'outer join' que genera un data frame con las filas de ambos data frames ingresados, ademas pueden existir columnas nulas si la clave foranea no existe en la segunda tabla.</b>

In [57]:
outer_join_1 = Estudiantes.join(Notas,on = "ID_Estudiante",how="outer")

outer_join_2 = Notas.join(Estudiantes, on = "ID_Estudiante",how= "outer")

print(outer_join_1)
print(outer_join_2)

shape: (6, 7)
┌───────────────┬──────────┬──────┬─────────────────────────┬──────┬──────────┬──────┐
│ ID_Estudiante ┆ Nombre   ┆ Edad ┆ Carrera                 ┆ Sexo ┆ ID_Notas ┆ Nota │
│ ---           ┆ ---      ┆ ---  ┆ ---                     ┆ ---  ┆ ---      ┆ ---  │
│ i64           ┆ str      ┆ i64  ┆ str                     ┆ str  ┆ i64      ┆ i64  │
╞═══════════════╪══════════╪══════╪═════════════════════════╪══════╪══════════╪══════╡
│ 1001          ┆ Juliana  ┆ 21   ┆ Estadistica Informatica ┆ F    ┆ 2001     ┆ 18   │
│ 1002          ┆ Fernando ┆ 19   ┆ Economia                ┆ M    ┆ 2002     ┆ 0    │
│ 1003          ┆ Lucero   ┆ 19   ┆ Gestion                 ┆ F    ┆ 2003     ┆ 10   │
│ 1004          ┆ Josselyn ┆ 20   ┆ Gestion                 ┆ F    ┆ 2004     ┆ 17   │
│ 1005          ┆ Ismael   ┆ 29   ┆ Economia                ┆ M    ┆ 2005     ┆ 20   │
│ 1006          ┆ Ximena   ┆ 20   ┆ Estadistica Informatica ┆ F    ┆ null     ┆ null │
└───────────────┴──────────┴─

### Cross join:
<b>La función 'cross join' genera un data frame con todas las posibles combinaciones de filas entre los 2 data frame ingresados.</b>


En este ejemplo queremos obtener todas las maneras diferentes en que podemos vestir a una persona, para ello, creamos 2 data frames, el primero llamado 'camisas' el cual tendra como atributos 'camisa_color' con los posibles colores de camisas y 'Marca_camisa' con las respectivas marcas de camisas, el segundo data frame contendra 'pantalon_color' con los posibles colores de pantalones y 'Marca_pantalon' con las respetivas marcas de pantalones.

In [58]:
Camisas = pl.DataFrame({"Camisa_Color":["Rojo","Azul","Negro"], "Marca_Camisa":["Charvet","Lorenzini","Kabbaz"]})

Pantalones = pl.DataFrame({"Pantalon_Color":["Negro","Marron","Azul"], "Marca_pantalon":["Levis","The brand","AJ"]})

print(Camisas)
print(Pantalones)

shape: (3, 2)
┌──────────────┬──────────────┐
│ Camisa_Color ┆ Marca_Camisa │
│ ---          ┆ ---          │
│ str          ┆ str          │
╞══════════════╪══════════════╡
│ Rojo         ┆ Charvet      │
│ Azul         ┆ Lorenzini    │
│ Negro        ┆ Kabbaz       │
└──────────────┴──────────────┘
shape: (3, 2)
┌────────────────┬────────────────┐
│ Pantalon_Color ┆ Marca_pantalon │
│ ---            ┆ ---            │
│ str            ┆ str            │
╞════════════════╪════════════════╡
│ Negro          ┆ Levis          │
│ Marron         ┆ The brand      │
│ Azul           ┆ AJ             │
└────────────────┴────────────────┘


In [59]:
Cross_join = Camisas.join(Pantalones,how="cross")
print(Cross_join)

shape: (9, 4)
┌──────────────┬──────────────┬────────────────┬────────────────┐
│ Camisa_Color ┆ Marca_Camisa ┆ Pantalon_Color ┆ Marca_pantalon │
│ ---          ┆ ---          ┆ ---            ┆ ---            │
│ str          ┆ str          ┆ str            ┆ str            │
╞══════════════╪══════════════╪════════════════╪════════════════╡
│ Rojo         ┆ Charvet      ┆ Negro          ┆ Levis          │
│ Rojo         ┆ Charvet      ┆ Marron         ┆ The brand      │
│ Rojo         ┆ Charvet      ┆ Azul           ┆ AJ             │
│ Azul         ┆ Lorenzini    ┆ Negro          ┆ Levis          │
│ Azul         ┆ Lorenzini    ┆ Marron         ┆ The brand      │
│ Azul         ┆ Lorenzini    ┆ Azul           ┆ AJ             │
│ Negro        ┆ Kabbaz       ┆ Negro          ┆ Levis          │
│ Negro        ┆ Kabbaz       ┆ Marron         ┆ The brand      │
│ Negro        ┆ Kabbaz       ┆ Azul           ┆ AJ             │
└──────────────┴──────────────┴────────────────┴──────────────

### Semi join:
<b>La función 'semi join' tiene como objetivo generar un data frame con los mismos atributos de la primera tabla pero manteniendo solo aquellas filas las cuales tenian una llave foranea que aparecia tambien en la segunda tabla.</b>

In [60]:
semi_join_1 = Estudiantes.join(Notas,how="semi",on="ID_Estudiante")
print(semi_join_1)

semi_join_2 = Notas.join(Estudiantes,how="semi",on="ID_Estudiante")
print(semi_join_2)

shape: (5, 5)
┌───────────────┬──────────┬──────┬─────────────────────────┬──────┐
│ ID_Estudiante ┆ Nombre   ┆ Edad ┆ Carrera                 ┆ Sexo │
│ ---           ┆ ---      ┆ ---  ┆ ---                     ┆ ---  │
│ i64           ┆ str      ┆ i64  ┆ str                     ┆ str  │
╞═══════════════╪══════════╪══════╪═════════════════════════╪══════╡
│ 1001          ┆ Juliana  ┆ 21   ┆ Estadistica Informatica ┆ F    │
│ 1002          ┆ Fernando ┆ 19   ┆ Economia                ┆ M    │
│ 1003          ┆ Lucero   ┆ 19   ┆ Gestion                 ┆ F    │
│ 1004          ┆ Josselyn ┆ 20   ┆ Gestion                 ┆ F    │
│ 1005          ┆ Ismael   ┆ 29   ┆ Economia                ┆ M    │
└───────────────┴──────────┴──────┴─────────────────────────┴──────┘
shape: (5, 3)
┌──────────┬───────────────┬──────┐
│ ID_Notas ┆ ID_Estudiante ┆ Nota │
│ ---      ┆ ---           ┆ ---  │
│ i64      ┆ i64           ┆ i64  │
╞══════════╪═══════════════╪══════╡
│ 2001     ┆ 1001          ┆ 18  

### Anti join:
<b>La función 'anti join' tiene como objetivo el devolver un data frame con los mismos atributos de la primera tabla pero manteniendo solo aquellas filas las cuales NO tenian una llave foranea que aparecia tambien en la segunda tabla.</b>

Para explicar mejor esta y la función que sigue crearemos unos nuevos data frames, los cuales seran, 'Vendedores' con atributos: 'ID_Vendedor' y 'Nombre'. Y 'Ventas' con atributos: 'ID_Venta', 'Monto', 'ID_Vendedor' y 'Tiempo'. En las que el atributo 'ID_Vendedor' estara designada como llave foranea.

In [103]:
Vendedores = pl.DataFrame({"ID_Vendedor":[2001,2002,2003,2004], "Nombre":["Luigi","Antonio","Ismael","Diego"]})

Ventas = pl.DataFrame({"ID_Venta":[1,2,3,4,5,6,7], "Monto":[150,200,70,97,500,466,500],
                       "ID_Vendedor":[2001,2004,2001,2004,2001,2001,2001],
                      "Tiempo":[datetime(2023,1,1,8,35,0),datetime(2023,1,1,9,35,0),datetime(2023,1,1,10,35,0),
                                      datetime(2023,1,1,8,20,0),datetime(2023,1,1,10,15,0),datetime(2023,1,1,13,35,0),
                                      datetime(2023,1,1,15,35,0)]})
print(Vendedores)
print(Ventas)

shape: (4, 2)
┌─────────────┬─────────┐
│ ID_Vendedor ┆ Nombre  │
│ ---         ┆ ---     │
│ i64         ┆ str     │
╞═════════════╪═════════╡
│ 2001        ┆ Luigi   │
│ 2002        ┆ Antonio │
│ 2003        ┆ Ismael  │
│ 2004        ┆ Diego   │
└─────────────┴─────────┘
shape: (7, 4)
┌──────────┬───────┬─────────────┬─────────────────────┐
│ ID_Venta ┆ Monto ┆ ID_Vendedor ┆ Tiempo              │
│ ---      ┆ ---   ┆ ---         ┆ ---                 │
│ i64      ┆ i64   ┆ i64         ┆ datetime[μs]        │
╞══════════╪═══════╪═════════════╪═════════════════════╡
│ 1        ┆ 150   ┆ 2001        ┆ 2023-01-01 08:35:00 │
│ 2        ┆ 200   ┆ 2004        ┆ 2023-01-01 09:35:00 │
│ 3        ┆ 70    ┆ 2001        ┆ 2023-01-01 10:35:00 │
│ 4        ┆ 97    ┆ 2004        ┆ 2023-01-01 08:20:00 │
│ 5        ┆ 500   ┆ 2001        ┆ 2023-01-01 10:15:00 │
│ 6        ┆ 466   ┆ 2001        ┆ 2023-01-01 13:35:00 │
│ 7        ┆ 500   ┆ 2001        ┆ 2023-01-01 15:35:00 │
└──────────┴───────┴────────

In [97]:
anti_join_1 = Vendedores.join(Ventas,how="anti",on="ID_Vendedor")
anti_join_2 = Ventas.join(Vendedores,how="anti",on="ID_Vendedor")
print(anti_join_1)
print(anti_join_2)

shape: (2, 2)
┌─────────────┬─────────┐
│ ID_Vendedor ┆ Nombre  │
│ ---         ┆ ---     │
│ i64         ┆ str     │
╞═════════════╪═════════╡
│ 2002        ┆ Antonio │
│ 2003        ┆ Ismael  │
└─────────────┴─────────┘
shape: (0, 4)
┌──────────┬───────┬─────────────┬──────────────┐
│ ID_Venta ┆ Monto ┆ ID_Vendedor ┆ Fecha y hora │
│ ---      ┆ ---   ┆ ---         ┆ ---          │
│ i64      ┆ i64   ┆ i64         ┆ datetime[μs] │
╞══════════╪═══════╪═════════════╪══════════════╡
└──────────┴───────┴─────────────┴──────────────┘


### Asof join:
<b>La función 'asof join' tiene como objetivo el unir 2 tablas por una columna fecha buscando en la segunda tabla una fila tiempo lo mas cercana a la primera tabla.</b>

Para ejemplificarlo mejor crearemos un data frame llamado 'llegada' con los atributos: 'Tiempo' y 'articulo_comprado':

In [109]:
llegada = pl.DataFrame({"Tiempo":[datetime(2023,1,1,9,37),datetime(2023,1,1,8,37),datetime(2023,1,1,10,37),datetime(2023,1,1,8,22),
                                               datetime(2023,1,1,10,17),datetime(2023,1,1,13,37),datetime(2023,1,1,15,37)],
                       "articulo_comprado":["bicicleta","televisor","lapop","mesa de trabajo","ropero","audifonos","celular"]})
print(llegada)

shape: (7, 2)
┌─────────────────────┬───────────────────┐
│ Tiempo              ┆ articulo_comprado │
│ ---                 ┆ ---               │
│ datetime[μs]        ┆ str               │
╞═════════════════════╪═══════════════════╡
│ 2023-01-01 09:37:00 ┆ bicicleta         │
│ 2023-01-01 08:37:00 ┆ televisor         │
│ 2023-01-01 10:37:00 ┆ lapop             │
│ 2023-01-01 08:22:00 ┆ mesa de trabajo   │
│ 2023-01-01 10:17:00 ┆ ropero            │
│ 2023-01-01 13:37:00 ┆ audifonos         │
│ 2023-01-01 15:37:00 ┆ celular           │
└─────────────────────┴───────────────────┘


In [110]:
Asof = Ventas.join_asof(llegada, on="Tiempo")
print(Asof)

shape: (7, 5)
┌──────────┬───────┬─────────────┬─────────────────────┬───────────────────┐
│ ID_Venta ┆ Monto ┆ ID_Vendedor ┆ Tiempo              ┆ articulo_comprado │
│ ---      ┆ ---   ┆ ---         ┆ ---                 ┆ ---               │
│ i64      ┆ i64   ┆ i64         ┆ datetime[μs]        ┆ str               │
╞══════════╪═══════╪═════════════╪═════════════════════╪═══════════════════╡
│ 1        ┆ 150   ┆ 2001        ┆ 2023-01-01 08:35:00 ┆ null              │
│ 2        ┆ 200   ┆ 2004        ┆ 2023-01-01 09:35:00 ┆ null              │
│ 3        ┆ 70    ┆ 2001        ┆ 2023-01-01 10:35:00 ┆ televisor         │
│ 4        ┆ 97    ┆ 2004        ┆ 2023-01-01 08:20:00 ┆ televisor         │
│ 5        ┆ 500   ┆ 2001        ┆ 2023-01-01 10:15:00 ┆ televisor         │
│ 6        ┆ 466   ┆ 2001        ┆ 2023-01-01 13:35:00 ┆ ropero            │
│ 7        ┆ 500   ┆ 2001        ┆ 2023-01-01 15:35:00 ┆ audifonos         │
└──────────┴───────┴─────────────┴─────────────────────┴──────

## Concatenación
<b>Se hace referencia a juntar o unir 2 data frames separados, para ello se utiliza la función 'concat'.</b>

![imagen2](https://4.bp.blogspot.com/-FF1BB_1Nmuk/WHf7Nd7t0nI/AAAAAAAAC_c/t-aI-S-w2JMcaGk9VCoq3iqVdoFuNZ6jwCLcB/s1600/tabulate.png)

### Concatenación vertical (how = vertical):
<b>Tiene como función concatenar todos los data frames de una lista en el orden en que fueron escritos en esta, uno encima de otro, de modo que todos los data frames tengan las mismas columnas.</b>

Para este ejemplo creamos 3 data, frames los cuales como condición importante es que deben tener el mismo número y nombre de columnas:

In [67]:
tabla1 = pl.DataFrame({"a":[1,2],"b":[3,2]})
tabla2 = pl.DataFrame({"a":[5],"b":[7]})
tabla3 = pl.DataFrame({"a":[9],"b":[11]})

concatenacion_vertical = pl.concat([tabla1,tabla2,tabla3],how="vertical",)
print(concatenacion_vertical)

shape: (4, 2)
┌─────┬─────┐
│ a   ┆ b   │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 1   ┆ 3   │
│ 2   ┆ 2   │
│ 5   ┆ 7   │
│ 9   ┆ 11  │
└─────┴─────┘


## Concatenación horizontal:
<b>Tiene como función concatenar todos los data frames de una lista en el orden en que fueron escritos en esta, uno al costado de otro, de manera que todos tengan el mismo número de filas.</b>

Para este ejemplo creamos 3 data frames, los cuales como unica condición es que deben tener el mismo numero de filas:

In [68]:
tabla1 = pl.DataFrame({"a":[1,2,5],"b":[3,0,2],"c":[3,5,6]})
tabla2 = pl.DataFrame({"d":[5,4,5],"e":[7,100,0],"f":[2,5,6]})
tabla3 = pl.DataFrame({"g":[9,47,4],"h":[11,5,7],"i":[4,5,6]})

concatenacion_horizontal = pl.concat([tabla1,tabla2,tabla3],how="horizontal")
print(concatenacion_horizontal)

shape: (3, 9)
┌─────┬─────┬─────┬─────┬───┬─────┬─────┬─────┬─────┐
│ a   ┆ b   ┆ c   ┆ d   ┆ … ┆ f   ┆ g   ┆ h   ┆ i   │
│ --- ┆ --- ┆ --- ┆ --- ┆   ┆ --- ┆ --- ┆ --- ┆ --- │
│ i64 ┆ i64 ┆ i64 ┆ i64 ┆   ┆ i64 ┆ i64 ┆ i64 ┆ i64 │
╞═════╪═════╪═════╪═════╪═══╪═════╪═════╪═════╪═════╡
│ 1   ┆ 3   ┆ 3   ┆ 5   ┆ … ┆ 2   ┆ 9   ┆ 11  ┆ 4   │
│ 2   ┆ 0   ┆ 5   ┆ 4   ┆ … ┆ 5   ┆ 47  ┆ 5   ┆ 5   │
│ 5   ┆ 2   ┆ 6   ┆ 5   ┆ … ┆ 6   ┆ 4   ┆ 7   ┆ 6   │
└─────┴─────┴─────┴─────┴───┴─────┴─────┴─────┴─────┘


## Concatenación diagonal
<b>Tiene com funcion concatenar todos los data frames de una lista en el orden en que fueron escritos, sin embargo a diferencia de las anteriores aplicaciones, la restriccion esta en que dentro de un mismo data frame todos los atributos deben tener el mismo numero de filas.</b>

Para este ejemplo crearemos 3 data frames, con la restriccion que individualmente cada atributo en un mismo data frame debe tener el mismo numero de filas.

In [69]:
tabla1 = pl.DataFrame({"a":[1],"b":[2],"c":[6]})
tabla2 = pl.DataFrame({"a":[5,4,5],"e":[7,5,0],"l":[2,5,6]})
tabla3 = pl.DataFrame({"g":[9,4],"h":[5,7],"i":[6,6]})

concatenacion_diagonal = pl.concat([tabla1,tabla2,tabla3],how="diagonal")
print(concatenacion_diagonal)

shape: (6, 8)
┌──────┬──────┬──────┬──────┬──────┬──────┬──────┬──────┐
│ a    ┆ b    ┆ c    ┆ e    ┆ l    ┆ g    ┆ h    ┆ i    │
│ ---  ┆ ---  ┆ ---  ┆ ---  ┆ ---  ┆ ---  ┆ ---  ┆ ---  │
│ i64  ┆ i64  ┆ i64  ┆ i64  ┆ i64  ┆ i64  ┆ i64  ┆ i64  │
╞══════╪══════╪══════╪══════╪══════╪══════╪══════╪══════╡
│ 1    ┆ 2    ┆ 6    ┆ null ┆ null ┆ null ┆ null ┆ null │
│ 5    ┆ null ┆ null ┆ 7    ┆ 2    ┆ null ┆ null ┆ null │
│ 4    ┆ null ┆ null ┆ 5    ┆ 5    ┆ null ┆ null ┆ null │
│ 5    ┆ null ┆ null ┆ 0    ┆ 6    ┆ null ┆ null ┆ null │
│ null ┆ null ┆ null ┆ null ┆ null ┆ 9    ┆ 5    ┆ 6    │
│ null ┆ null ┆ null ┆ null ┆ null ┆ 4    ┆ 7    ┆ 6    │
└──────┴──────┴──────┴──────┴──────┴──────┴──────┴──────┘


## Pivots:
<b>Esta función tiene el objetivo de convertir los valores de una columna en columnas de un nuevo data frame, es decir, convertir una columna en el nuevo eje x.</b>

![imagen3](https://desktop.arcgis.com/es/arcmap/latest/tools/data-management-toolbox/GUID-8669BC07-5BFC-4D76-A3AB-C4E08350F985-web.gif)

Para ilustrar mejor el ejemplo crearemos un data frame llamado "Alumnos", el cual tendra como atributos:'Nombre', 'Edad', 'Sexo', 'Carrera' y 'Ciclos_llevados':

In [70]:
Alumnos = pl.DataFrame({"Nombre":["Fernando","Juliana","josselyn","Lucero","Ismael"],
                       "Edad":[29,20,20,26,21],"Sexo":["M","F","F","F","M"],
                       "Carrera":["Estadistica","Gestion","Gestion","Estadistica","Economia"],
                        "Ciclos_llevados":[1,5,8,6,9]})
print(Alumnos)

shape: (5, 5)
┌──────────┬──────┬──────┬─────────────┬─────────────────┐
│ Nombre   ┆ Edad ┆ Sexo ┆ Carrera     ┆ Ciclos_llevados │
│ ---      ┆ ---  ┆ ---  ┆ ---         ┆ ---             │
│ str      ┆ i64  ┆ str  ┆ str         ┆ i64             │
╞══════════╪══════╪══════╪═════════════╪═════════════════╡
│ Fernando ┆ 29   ┆ M    ┆ Estadistica ┆ 1               │
│ Juliana  ┆ 20   ┆ F    ┆ Gestion     ┆ 5               │
│ josselyn ┆ 20   ┆ F    ┆ Gestion     ┆ 8               │
│ Lucero   ┆ 26   ┆ F    ┆ Estadistica ┆ 6               │
│ Ismael   ┆ 21   ┆ M    ┆ Economia    ┆ 9               │
└──────────┴──────┴──────┴─────────────┴─────────────────┘


Utilizando la funcion 'pivot' las nuevas columnas seran los datos de la columna 'Carrera' , el identificador o id sera 'Nombre' y los datos que pondran en las nuevas columnas seran los datos de la columna 'Ciclos_llevados':

In [71]:
pivot = Alumnos.pivot(index="Nombre",columns="Carrera",values="Ciclos_llevados",
                     aggregate_function="first")
print(pivot)

shape: (5, 4)
┌──────────┬─────────────┬─────────┬──────────┐
│ Nombre   ┆ Estadistica ┆ Gestion ┆ Economia │
│ ---      ┆ ---         ┆ ---     ┆ ---      │
│ str      ┆ i64         ┆ i64     ┆ i64      │
╞══════════╪═════════════╪═════════╪══════════╡
│ Fernando ┆ 1           ┆ null    ┆ null     │
│ Juliana  ┆ null        ┆ 5       ┆ null     │
│ josselyn ┆ null        ┆ 8       ┆ null     │
│ Lucero   ┆ 6           ┆ null    ┆ null     │
│ Ismael   ┆ null        ┆ null    ┆ 9        │
└──────────┴─────────────┴─────────┴──────────┘


## Melts:
<b>Es una función que se utiliza para transformar un data frame de forma que las columnas se conviertan en filas en un nuevo data frame resultando, esto desagregando los datos por una o mas columnas.</b>

![imagen4](https://www.maximaformacion.es/wp-content/uploads/2021/08/melt.png.webp)


Para este ejemplo, crearemos un data frame llamado "Ventas" con atributos: 'Mes', 'Producto_A', 'Producto_B' y 'Producto_C':

In [72]:
Ventas = pl.DataFrame({"Mes":["enero","febrero","marzo"],
                      "Producto_A":[100,200,100],
                      "Producto_B":[1500,1000,1200],
                      "Producto_C":[500,200,600]})

print(Ventas)

shape: (3, 4)
┌─────────┬────────────┬────────────┬────────────┐
│ Mes     ┆ Producto_A ┆ Producto_B ┆ Producto_C │
│ ---     ┆ ---        ┆ ---        ┆ ---        │
│ str     ┆ i64        ┆ i64        ┆ i64        │
╞═════════╪════════════╪════════════╪════════════╡
│ enero   ┆ 100        ┆ 1500       ┆ 500        │
│ febrero ┆ 200        ┆ 1000       ┆ 200        │
│ marzo   ┆ 100        ┆ 1200       ┆ 600        │
└─────────┴────────────┴────────────┴────────────┘


Utilizando la función 'melts', se genera un nuevo data frame el cual tiene como identificador o ID la columna 'Mes', las columnas ´Producto_A´, 'Producto_B' y 'Producto_C' se convierten en datos de la columna 'variable' y los antiguos datos de estas columnas se transforman en datos de la nueva columna 'value'.

In [73]:
melt = Ventas.melt(id_vars="Mes", value_vars=["Producto_A","Producto_B","Producto_C"])
print(melt)

shape: (9, 3)
┌─────────┬────────────┬───────┐
│ Mes     ┆ variable   ┆ value │
│ ---     ┆ ---        ┆ ---   │
│ str     ┆ str        ┆ i64   │
╞═════════╪════════════╪═══════╡
│ enero   ┆ Producto_A ┆ 100   │
│ febrero ┆ Producto_A ┆ 200   │
│ marzo   ┆ Producto_A ┆ 100   │
│ enero   ┆ Producto_B ┆ 1500  │
│ febrero ┆ Producto_B ┆ 1000  │
│ marzo   ┆ Producto_B ┆ 1200  │
│ enero   ┆ Producto_C ┆ 500   │
│ febrero ┆ Producto_C ┆ 200   │
│ marzo   ┆ Producto_C ┆ 600   │
└─────────┴────────────┴───────┘


## Series de tiempo:
<b>colecciones de observaciones sobre un determinado fenómeno efectuadas en sucesivos momentos del tiempo, usualmente equiespaciados.</b>

![imagen](https://blog.invgate.com/hubfs/coste-del-tiempo-de-inactividad-de-servicios.jpg)

### Análisis:
El paquete 'Polars' posee los siguientes datos de fecha y hora:
- Date: Se usa para representar una fecha
- Time: Se usa para representar una hora
- Datetime: Se usa para representar fecha y hora
- Duration: Una variación que se genera al restar Date/Datetime

#### Convertir una columna de fechas y horas de cadena a formato fecha:
Para esto primero crearemos un data frame llamado 'Documentos', el cual tendra como atributos: 'ID', 'Fecha' y 'Estado_respuesta':

In [75]:
Documentos = pl.DataFrame({"ID":[1001,1002,1003,1004],
                        "Fecha":["19/01/2022","22/06/2021","02/12/2023","16/05/2023"],
                       "Estado_respuesta":["Respondido","Pendiente","Pendiente","Respondido"]})
print(Documentos)

shape: (4, 3)
┌──────┬────────────┬──────────────────┐
│ ID   ┆ Fecha      ┆ Estado_respuesta │
│ ---  ┆ ---        ┆ ---              │
│ i64  ┆ str        ┆ str              │
╞══════╪════════════╪══════════════════╡
│ 1001 ┆ 19/01/2022 ┆ Respondido       │
│ 1002 ┆ 22/06/2021 ┆ Pendiente        │
│ 1003 ┆ 02/12/2023 ┆ Pendiente        │
│ 1004 ┆ 16/05/2023 ┆ Respondido       │
└──────┴────────────┴──────────────────┘


Ahora utilizamos la funcion 'str.strotime' para la conversion, y utilizamos el argumento 'format' para designar como esta estructurada la fecha en formato cadena.

In [76]:
conversion_fecha = Documentos.with_columns(pl.col("Fecha").str.strptime(pl.Date,format="%d/%m/%Y"))
print(conversion_fecha)

shape: (4, 3)
┌──────┬────────────┬──────────────────┐
│ ID   ┆ Fecha      ┆ Estado_respuesta │
│ ---  ┆ ---        ┆ ---              │
│ i64  ┆ date       ┆ str              │
╞══════╪════════════╪══════════════════╡
│ 1001 ┆ 2022-01-19 ┆ Respondido       │
│ 1002 ┆ 2021-06-22 ┆ Pendiente        │
│ 1003 ┆ 2023-12-02 ┆ Pendiente        │
│ 1004 ┆ 2023-05-16 ┆ Respondido       │
└──────┴────────────┴──────────────────┘


#### Extracción de una caracteristica de la fecha de una columna:
Utilizando el anterior data frame con la fecha lla convertida llamado ´conversion_fecha´, podemos obtener informacion de esta como el año, el mes o el dia, y establecerlo en una nueva columna:

In [77]:
año = conversion_fecha.with_columns(pl.col("Fecha").dt.year().alias("Año"))
print(año)
mes = conversion_fecha.with_columns(pl.col("Fecha").dt.month().alias("Mes(en número)"))
print(mes)
dia = conversion_fecha.with_columns(pl.col("Fecha").dt.day().alias("Dia(en número)"))
print(dia)

shape: (4, 4)
┌──────┬────────────┬──────────────────┬──────┐
│ ID   ┆ Fecha      ┆ Estado_respuesta ┆ Año  │
│ ---  ┆ ---        ┆ ---              ┆ ---  │
│ i64  ┆ date       ┆ str              ┆ i32  │
╞══════╪════════════╪══════════════════╪══════╡
│ 1001 ┆ 2022-01-19 ┆ Respondido       ┆ 2022 │
│ 1002 ┆ 2021-06-22 ┆ Pendiente        ┆ 2021 │
│ 1003 ┆ 2023-12-02 ┆ Pendiente        ┆ 2023 │
│ 1004 ┆ 2023-05-16 ┆ Respondido       ┆ 2023 │
└──────┴────────────┴──────────────────┴──────┘
shape: (4, 4)
┌──────┬────────────┬──────────────────┬────────────────┐
│ ID   ┆ Fecha      ┆ Estado_respuesta ┆ Mes(en número) │
│ ---  ┆ ---        ┆ ---              ┆ ---            │
│ i64  ┆ date       ┆ str              ┆ u32            │
╞══════╪════════════╪══════════════════╪════════════════╡
│ 1001 ┆ 2022-01-19 ┆ Respondido       ┆ 1              │
│ 1002 ┆ 2021-06-22 ┆ Pendiente        ┆ 6              │
│ 1003 ┆ 2023-12-02 ┆ Pendiente        ┆ 12             │
│ 1004 ┆ 2023-05-16 ┆ Respon

#### Conversion de zona horaria:
Es posible convertir horas de una zona horaria a otra, para ello crearemos una lista con fecha y hora:

In [78]:
Datos = [
    "2015-02-27T00:00:00+0800",
    "2012-12-28T00:00:00+0200",
    "2006-06-29T00:00:00+0300",
    "2017-03-30T00:00:00+0200",
]

Luego lo convertiremos de cadena a formato hora y fecha, al mismo tiempo que establecemos la zona horaria con la función 'convert_time_zone':

In [79]:
conversion = (
    pl.Series(Datos)
    .str.strptime(pl.Datetime, format="%Y-%m-%dT%H:%M:%S%z", utc=True)
    .dt.convert_time_zone("Europe/Brussels")
)
print(conversion)

shape: (4,)
Series: '' [datetime[μs, Europe/Brussels]]
[
	2015-02-26 17:00:00 CET
	2012-12-27 23:00:00 CET
	2006-06-28 23:00:00 CEST
	2017-03-30 00:00:00 CEST
]


### Filtración:
El filtrado de columnas de tiempo al igual que otras columnas se hace usando '.filter', pero como el formato fecha es un formato especial la columna siempre debe ser comparada con el mismo formato. Con el motivo de hacer mas facil la compresion del filtrado crearemos un data frame llamado 'Ingreso', el cual tendra como atributos 'Nombre' y 'Fecha_ingreso':

In [80]:
Ingreso = pl.DataFrame({"Nombre":["Sebastian","Paula","Vicente","Maria","Renata"],
                       "Fecha_ingreso":[datetime(2023,1,3,12,53),datetime(2023,1,23,8),datetime(2022,12,11,16,24),datetime(2022,5,16,13,56),
                                       datetime(2023,1,1,18,58)]})
print(Ingreso)

shape: (5, 2)
┌───────────┬─────────────────────┐
│ Nombre    ┆ Fecha_ingreso       │
│ ---       ┆ ---                 │
│ str       ┆ datetime[μs]        │
╞═══════════╪═════════════════════╡
│ Sebastian ┆ 2023-01-03 12:53:00 │
│ Paula     ┆ 2023-01-23 08:00:00 │
│ Vicente   ┆ 2022-12-11 16:24:00 │
│ Maria     ┆ 2022-05-16 13:56:00 │
│ Renata    ┆ 2023-01-01 18:58:00 │
└───────────┴─────────────────────┘


#### Filtrado por fechas individuales:
En este caso por ejemplo filtraremos todas aquellos ingresos los cuales hayan sido en el año 2023 y despues filtraremos todos los ingresos que hayan sido en enero:


In [81]:
filtro_2023 = Ingreso.filter(pl.col("Fecha_ingreso").dt.year() == 2023)
filtro_enero = Ingreso.filter(pl.col('Fecha_ingreso').dt.month() == 1)

print(filtro_2023)
print(filtro_enero)


shape: (3, 2)
┌───────────┬─────────────────────┐
│ Nombre    ┆ Fecha_ingreso       │
│ ---       ┆ ---                 │
│ str       ┆ datetime[μs]        │
╞═══════════╪═════════════════════╡
│ Sebastian ┆ 2023-01-03 12:53:00 │
│ Paula     ┆ 2023-01-23 08:00:00 │
│ Renata    ┆ 2023-01-01 18:58:00 │
└───────────┴─────────────────────┘
shape: (3, 2)
┌───────────┬─────────────────────┐
│ Nombre    ┆ Fecha_ingreso       │
│ ---       ┆ ---                 │
│ str       ┆ datetime[μs]        │
╞═══════════╪═════════════════════╡
│ Sebastian ┆ 2023-01-03 12:53:00 │
│ Paula     ┆ 2023-01-23 08:00:00 │
│ Renata    ┆ 2023-01-01 18:58:00 │
└───────────┴─────────────────────┘


#### Filtrado de fechas por rango:
Se puede utilizar el metodo 'is_between' para filtrar un rango amplio de fechas que cumplan con una condición.
En este ejemplo filtraremos todas las fechas que esten entre el 15 de noviembre de 2022 y el 1 de enero de 2023:

In [82]:
Filtro_rango = Ingreso.filter(pl.col("Fecha_ingreso").is_between(datetime(2022,11,15),datetime(2023,1,1)))
print(Filtro_rango)

shape: (1, 2)
┌─────────┬─────────────────────┐
│ Nombre  ┆ Fecha_ingreso       │
│ ---     ┆ ---                 │
│ str     ┆ datetime[μs]        │
╞═════════╪═════════════════════╡
│ Vicente ┆ 2022-12-11 16:24:00 │
└─────────┴─────────────────────┘


### Agrupamiento:
#### Agrupando por ventanas fijas:
Utilizando 'groupby_dynamic' se pueden agrupar datos en subconjuntos o ventanas de tamaño fijo.
Para ejemplificar su funcion crearemos un data frame llamado 'Valores' con atributos: 'Fecha' y 'Valor', donde los datos del atributo fecha deben ser fechas en orden ascendente:

In [83]:
Valores = pl.DataFrame({"Fecha":["2019-04-02","2019-06-05","2020-03-23","2020-04-25","2021-04-28","2021-07-15"
                                 ,"2022-05-08","2020-08-12","2023-05-24","2023-09-15","2024-06-18","2024-12-25"],
                        "Valor":[1500,2020,2360,8410,5821,8452,5026,2658,2695,2639,4874,8423]})
Valores = Valores.with_columns(pl.col("Fecha").str.strptime(pl.Date,format="%Y-%m-%d"))

print(Valores)

shape: (12, 2)
┌────────────┬───────┐
│ Fecha      ┆ Valor │
│ ---        ┆ ---   │
│ date       ┆ i64   │
╞════════════╪═══════╡
│ 2019-04-02 ┆ 1500  │
│ 2019-06-05 ┆ 2020  │
│ 2020-03-23 ┆ 2360  │
│ 2020-04-25 ┆ 8410  │
│ …          ┆ …     │
│ 2023-05-24 ┆ 2695  │
│ 2023-09-15 ┆ 2639  │
│ 2024-06-18 ┆ 4874  │
│ 2024-12-25 ┆ 8423  │
└────────────┴───────┘


Ahora utilizando 'groipby_dynamic' para definir la columna 'Fecha' a agrupar y tambien definir de cuanto en cuanto seria la separacion de agrupacion. En este ejemplo tambien haremos que se genere una nueva columna con el promedio anual y otra columna la cual indicara el año del promedio:

In [84]:
Agrup_ventana = Valores.groupby_dynamic("Fecha",every="1y").agg(pl.col("Valor").mean())
Agrup_ventana = Agrup_ventana.with_columns(pl.col("Fecha").dt.year().alias("Año"))

print(Agrup_ventana)

shape: (6, 3)
┌────────────┬────────┬──────┐
│ Fecha      ┆ Valor  ┆ Año  │
│ ---        ┆ ---    ┆ ---  │
│ date       ┆ f64    ┆ i32  │
╞════════════╪════════╪══════╡
│ 2019-01-01 ┆ 1760.0 ┆ 2019 │
│ 2020-01-01 ┆ 5385.0 ┆ 2020 │
│ 2021-01-01 ┆ 7136.5 ┆ 2021 │
│ 2022-01-01 ┆ 5026.0 ┆ 2022 │
│ 2023-01-01 ┆ 2667.0 ┆ 2023 │
│ 2024-01-01 ┆ 6648.5 ┆ 2024 │
└────────────┴────────┴──────┘


## Lazy API
es una API que permite construir un grafo acíclico dirigido de operaciones, donde cada operación produce una nueva columna y se conecta a la columna de entrada anterior.

![](https://res.cloudinary.com/practicaldev/image/fetch/s--w1rnUo2F--/c_imagga_scale,f_auto,fl_progressive,h_420,q_auto,w_1000/https://dev-to-uploads.s3.amazonaws.com/uploads/articles/6wbkl53j5os9245hb1lo.png)

### Uso: 
Para poder usarlo en un data frame se debe utilizar '.lazy()', esto hara que el data frame se convierta en un lazy frame.
Para ejemplificar esto crearemos un data frame llamado 'Notas' con atributos: 'Alumno', 'Puntaje_matematicas' y 'Puntaje_lenguaje': 

In [85]:
Notas = pl.DataFrame({"Alumno":["Fernando","Juliana","Josselyn"],"Puntaje_matematicas":[5,17,17],"Puntaje_lenguaje":[14,13,15]})
print(Notas)

shape: (3, 3)
┌──────────┬─────────────────────┬──────────────────┐
│ Alumno   ┆ Puntaje_matematicas ┆ Puntaje_lenguaje │
│ ---      ┆ ---                 ┆ ---              │
│ str      ┆ i64                 ┆ i64              │
╞══════════╪═════════════════════╪══════════════════╡
│ Fernando ┆ 5                   ┆ 14               │
│ Juliana  ┆ 17                  ┆ 13               │
│ Josselyn ┆ 17                  ┆ 15               │
└──────────┴─────────────────────┴──────────────────┘


In [86]:
Notas_lazy = Notas.lazy()

### Esquema:
Para poder ver el esquema de una lazy frame se utiliza '.schema'. Asi del ejemplo anterior obtenemos:

In [87]:
print(Notas_lazy.schema)

{'Alumno': Utf8, 'Puntaje_matematicas': Int64, 'Puntaje_lenguaje': Int64}


En este esquema describe la forma en que los datos estan organizados en el data frame.

# IO #
IO en polars, hace referencia a la entrada y salida (Input/Output) para leer y escribir datos en diferentes formatos.
Tales como CSV, JSON, Parquet y más. Tal como se mostrarán líneas abajo. Los métodos de IO de Polars se pueden utilizar para cargar datos desde archivos en diferentes formatos y también para escribir los resultados de tus operaciones en un formato deseado.
![](https://raw.githubusercontent.com/pola-rs/polars-static/master/logos/polars_github_logo_rect_dark_name.svg)

 ## 1. CSV #
Un archivo CSV (Comma-Separated Values) es un formato que se utiliza para almacenar datos tabulares, donde cada línea del archivo representa una fila y los valores de cada fila están separados por comas u otros delimitadores. Este tipo de formato se utiliza ampliamente para intercambiar datos entre diferentes aplicaciones, ya que fácilmente legible y fácil de procesar.

### 1.1 Lectura, Escritura y Escaneo ##
En polars tenemos tres métodos de lectura y escritura de archivos CSV.

### 1.1.1 Lectura ###
Para leer un archivo CSV se usa el método *read_csv*. Tal como se ve en el siguiente ejemplo, usando el data sets *iris*

In [2]:
import polars as pl
lecturairis = pl.read_csv('iris.csv')


### 1.1.2 Escritura ###
Para escribir un DataFrame en un archivo CSV utilizando Polars, puedes utilizar el método *write_csv*. Tal como se ve en el siguiente ejemplo:

In [3]:
notas_estudiantes = pl.DataFrame({"notas": [0, 1, 2, 3,4,5,6], "Estudiantes": ["Ana", "Beto", "Carla", "Dante", "Elena", "Franck", "Galia"]})
notas_estudiantes.write_csv("relacion2.csv")

### 1.1.3 Escanear ###
Escanear un archivo CSV, permite una manipulación más avanzada de los datos antes de convertirlos en un DataFrame. Para esto usamos el método *scan_csv*. Como en el siguiente ejemplo:

In [4]:
scanIris = pl.scan_csv("iris.csv")

## Parquet ##
Parquet es un formato de archivo columnar diseñado para el almacenamiento eficiente y el procesamiento de datos. En Polars, se puede trabajar con archivos  de este tipo utilizando las funciones proporcionadas por la biblioteca.

## 2.1 Lectura, Escritura y Escaneo ##

En Polars, se puede leer, escribir y escanear archivos Parquet utilizando las funciones proporcionadas por la biblioteca.

### 2.1.1 Lectura ###
Lee un archivo Parquet utilizando la función *read_parquet*. Como en el siguiente ejemplo: En el cuál usaremos un archivo test con extensión parquet. Obtenida de Kaggle, en la siguiente dirección web https://www.kaggle.com/datasets/alvinleenh/tps-rocket-league-data-float16-parquet-format

In [None]:
test_parquet = pl.read_parquet('test.parquet')

### 2.1.2 Escritura ###
Para escribir un DataFrame en un archivo Parquet, utilizamos el método *write_parquet*. Tal como se ve en el siguiente ejemplo.

In [5]:
notas_parquet = pl.DataFrame({"notas": [0, 1, 2, 3,4,5,6], "Estudiantes": ["Ana", "Beto", "Carla", "Dante", "Elena", "Franck", "Galia"]})
notas_parquet.write_parquet("test2.parquet")

### 2.1.3 Escaneo ###
Para escanear y manipular un archivo Parquet sin cargarlo en un DataFrame, se puede utilizar el método *scan_parquet*. La forma de usarse, se puede ver con el siguiente ejemplo.

In [None]:
test_parquet = pl.scan_parquet("test.parquet")

# 3. Archivos JSON #
Los archivos JSON (JavaScript Object Notation) son un formato de almacenamiento y transmisión de datos basado en texto. Son ampliamente utilizados para representar y transmitir datos estructurados en aplicaciones web y sistemas de intercambio de datos.

En un archivo JSON, los datos se organizan en una estructura jerárquica de pares clave-valor. Estos pares clave-valor pueden contener diferentes tipos de datos, como cadenas de texto, números, booleanos, objetos anidados y listas.

## 3.1 Lectura, Escritura y Escaneo
Aunque Polars no tiene un formato de archivo JSON específico, puedes leer y escribir datos en formato JSON utilizando las funciones proporcionadas por la biblioteca. 

### 3.1.1 Lectura ###
Para leer un archivo JSON, se utiliza el método "read_json". Cabe señalar que el archivo json debe tener un formato array para ser leído.

In [None]:
prueba_json = pl.read_json("jsonprueba.json")

### 3.1.2 Escritura ###
Para escribir un DataFrame en un archivo JSON, utiliza el método *write_json*. Tal como se puede ver en el siguiente ejemplo.

In [None]:
df = pl.DataFrame({"notas": [0, 1, 2, 3,4,5,6], "Estudiantes": ["Ana", "Beto", "Carla", "Dante", "Elena", "Franck", "Galia"]})
# guardando en formato json
df.write_json("relacion2.json")
# guardando en formato ndjson
df.write_ndjson("relacion2.json")

### 3.1.3 Escaneo ###
Polars permite escanear una entrada JSON, solo para json delimitado por saltos de línea . El escaneo retrasa el análisis real del archivo y, en su lugar, devuelve un contenedor de cálculo diferido llamado *LazyFrame*.

In [None]:
relacion_ndjson = pl.scan_ndjson("relacion2.json")

# 4. Múltiple #
En Polars, el término "multiple" se utiliza para referirse a varias operaciones o funciones aplicadas a múltiples columnas o filas de un DataFrame al mismo tiempo. Esto puede incluir operaciones matemáticas, transformaciones, filtrado de datos, agregación, entre otros.

## 4.1 Manejo de varios archivos ##
En Polars, puedes manejar varios archivos utilizando las funciones proporcionadas para lectura y escritura de datos. Considerando las necesidades y capacidad de la memoria. En el siguiente ejemplo se tiene un código el cuál a partir de un dataframe, se puede obtener cinco archivos en formato csv, cada cuál con su respectivo nombre.

In [6]:
notas_estudiantes = pl.DataFrame({"notas": [0, 1, 2, 3,4,5,6], "Estudiantes": ["Ana", "Beto", "Carla", "Dante", "Elena", "Franck", "Galia"]})

for i in range(5):
    notas_estudiantes.write_csv(f"archivo{i}.csv")

## 4.2 Lectura de un solo *DataFrame* ##
Se puede leer varios archivos en un solo DataFrame, para esto se hace uso de patrones globales:

In [7]:
leer_archivos = pl.read_csv("archivo*.csv")

In [8]:
print(leer_archivos)

shape: (35, 2)
┌───────┬─────────────┐
│ notas ┆ Estudiantes │
│ ---   ┆ ---         │
│ i64   ┆ str         │
╞═══════╪═════════════╡
│ 0     ┆ Ana         │
│ 1     ┆ Beto        │
│ 2     ┆ Carla       │
│ 3     ┆ Dante       │
│ …     ┆ …           │
│ 3     ┆ Dante       │
│ 4     ┆ Elena       │
│ 5     ┆ Franck      │
│ 6     ┆ Galia       │
└───────┴─────────────┘


## 4.3 Lectura y procesamiento paralelo
Si el objetivo es que los archivos no tengan que estar en una sola tabla, también se puede crear un plan de consulta para cada archivo y ejecutarlos en paralelo como grupos de subprocesos.

Toda la ejecución del plan de consulta es paralela y no requiere ninguna comunicación.

In [9]:
import glob

queries = []
for file in glob.glob("archivo*.csv"):
    q = pl.scan_csv(file).groupby("notas").agg([pl.count(), pl.sum("Estudiantes")])
    queries.append(q)

dataframes = pl.collect_all(queries)
print(dataframes)

[shape: (7, 3)
┌───────┬───────┬─────────────┐
│ notas ┆ count ┆ Estudiantes │
│ ---   ┆ ---   ┆ ---         │
│ i64   ┆ u32   ┆ str         │
╞═══════╪═══════╪═════════════╡
│ 3     ┆ 1     ┆ null        │
│ 4     ┆ 1     ┆ null        │
│ 0     ┆ 1     ┆ null        │
│ 1     ┆ 1     ┆ null        │
│ 5     ┆ 1     ┆ null        │
│ 6     ┆ 1     ┆ null        │
│ 2     ┆ 1     ┆ null        │
└───────┴───────┴─────────────┘, shape: (7, 3)
┌───────┬───────┬─────────────┐
│ notas ┆ count ┆ Estudiantes │
│ ---   ┆ ---   ┆ ---         │
│ i64   ┆ u32   ┆ str         │
╞═══════╪═══════╪═════════════╡
│ 6     ┆ 1     ┆ null        │
│ 2     ┆ 1     ┆ null        │
│ 0     ┆ 1     ┆ null        │
│ 3     ┆ 1     ┆ null        │
│ 4     ┆ 1     ┆ null        │
│ 1     ┆ 1     ┆ null        │
│ 5     ┆ 1     ┆ null        │
└───────┴───────┴─────────────┘, shape: (7, 3)
┌───────┬───────┬─────────────┐
│ notas ┆ count ┆ Estudiantes │
│ ---   ┆ ---   ┆ ---         │
│ i64   ┆ u32   ┆ str      

# 5. Leer de una base de datos #
Se puede leer de una base de datos con Polars usando pl.read_databasefunción. Para usar esta función, necesita una cadena de consulta SQL y una cadena de conexión llamada connection_uri.

Por ejemplo, en el siguiente código se muestra los patrones generales para leer todas las columnas de una tabla en una base de datos de Postgres:

```python
connection_uri = "postgres://username:password@server:port/database"
query = "SELECT * FROM foo"

pl.read_database(query=query, connection_uri=connection_uri)
```

## 5.1 Motores ##
Polars no gestiona las conexiones y la transferencia de datos desde las bases de datos por sí mismo. En cambio, las bibliotecas externas (conocidas como motores ) manejan esto. En la actualidad Polars puede utilizar dos motores para leer bases de datos:    1. ConectorX y
2. ADBC

### 5.1.1 Conector - x ###
ConnectorX es una biblioteca para Python que le permite cargar datos de bases de datos de forma muy eficiente. Se puede usar junto con otras bibliotecas como Polars para procesar y analizar los datos cargados de manera más eficiente.
Para leer desde una de las bases de datos compatibles, *ConnectorX* debe activar la dependencia adicional *ConnectorX* al instalar Polars o instalarla manualmente en CMD con el siguiente comando:
$  pip install connectorx

### 5.1.2 ADBC ###
ADBC (Arrow Database Connectivity) es un motor compatible con el proyecto Apache Arrow. ADBC pretende ser un estándar API para conectarse a bases de datos y bibliotecas que implementen este estándar en una variedad de idiomas.

Todavía es pronto para ADBC, por lo que el soporte para diferentes bases de datos aún es limitado. Actualmente, los controladores para ADBC ​​solo están disponibles para Postgres y SQLite . 

# 6. Google Big Query #
Google BigQuery es un servicio de análisis de datos en la nube de Google que permite almacenar, consultar y analizar grandes conjuntos de datos utilizando el poder del procesamiento distribuido. Para leer o escribir desde Google Big Query en polars se necesitan dependencias adicionales:
$ pip install google-cloud-bigquery
Es posible cargar una consulta en una *DataFrame* como se muestra en el siguiente código:

```python
import polars as pl
from google.cloud import bigquery

client = bigquery.Client()

# Perform a query.
QUERY = (
    'SELECT name FROM `bigquery-public-data.usa_names.usa_1910_2013` '
    'WHERE state = "TX" '
    'LIMIT 100')
query_job = client.query(QUERY)  # API request
rows = query_job.result()  # Waits for query to finish

df = pl.from_arrow(rows.to_arrow())
```