# Introducción

Polars es una biblioteca de análisis de datos de alto rendimiento y fácil de usar en Python. A diferencia de Pandas, Polars cuenta con un diseño y arquitectura optimizada para el procesamiento de grandes conjuntos de datos.

Polars se basa en Rust, un lenguaje de programación que se enfoca en la seguridad, la eficiencia y la concurrencia.Polars utiliza la librería Apache Arrow para trabajar con datos en memoria, lo que permite una transferencia de datos más rápida entre diferentes procesos y un mejor acceso a los datos. Arrow también utiliza un formato de datos columnar, que es más eficiente para muchas operaciones de manipulación de datos que el formato de fila utilizado por Pandas.   

<img src= "https://raw.githubusercontent.com/pola-rs/polars-static/master/logos/polars_github_logo_rect_dark_name.svg" alt="nombre de la imagen" width="680" height="300">   


### Características:
- Utiliza todos los núcleos disponibles .
- Maneja de conjuntos de datos extensos.
- Tiene una API que es consistente y predecible.
- Tiene un esquema estricto .

### Objetivos:
- Reduce las copias redundantes. 
- Atraviese la caché de memoria de manera eficiente. 
- Minimiza la contención en el paralelismo.
- Cumple con un procesamiento de datos de código abierto.
- Reutiliza las asignaciones de memoria. 
- Ofrece herramientas para el análisis y la visualización de datos.


# Instalación  

## Pasos para una instalación correcta de Polars.  

1. Abrir en una terminal o línea de comandos y ejecutar el siguiente comando para instalar Polars y sus dependencias:   
--------------------------------- 

pip install polars

---------------------------------
2. Luego, inicia Jupyter Notebook ejecutando el siguiente comando en la misma terminal:  
--------------------------------------- 

jupyter notebook

--------------------------------------- 
3. Crea un nuevo notebook y comienza a importar las librerías necesarias para trabajar con Polars:  
--------------------------------------- 

import polars as pl

--------------------------------------- 
4. Ahora puede comenzar a utilizar Polars en su notebook.   

## Indicadores de características.    
Siguiendo los pasos mostrados se instala el núcleo de Polars en el sistema. Sin embargo, es posible que también se necesite instalar las dependencias opcionales.Con esto se busca reducir líneas de código, dependiendo del lenguaje de programación que se desee emplear.

### Python  

<img src= "https://logos-world.net/wp-content/uploads/2021/10/Python-Symbol.png"  width="350" height="300">

**Código en Python**
~~~
pip install polars[numpy, fsspec] 
~~~  



| Etiqueta     |  Descripción                                                                    |
|:------------:|:-------------------------------------------------------------------------------:|
| all          | Método para evaluar determinadas condiciones                                    |
| pandas       | Convierte datos desde Pandas Dataframes/Series                                  |
| numpy        | Convierte datos hacia y desde matrices numpy                                    |
| pyarrow      | Lee formatos de datos usando PyArrow                                            |
| fsspec       | Compatibilidad con la lectura de sistemas de archivos remotos                   |
| connectorx   | Soporte para leer desde bases de datos SQL                                      |
| xlsx2csv     | Soporte para leer desde archivos de Excel                                       |
| deltalake    | Soporte para lectura de Delta Lake Tables                                       |
| timezone     | Soporte de zona horaria                                                         |

  
### Rust  

<img src= "https://upload.wikimedia.org/wikipedia/commons/thumb/d/d5/Rust_programming_language_black_logo.svg/144px-Rust_programming_language_black_logo.svg.png" alt="nombre de la imagen" width="180" height="300">

**Código en Rust**
~~~  
[dependencies]
polars = { version = "0.26.1", features = ["lazy","temporal","describe","json","parquet","dtype-datetime"]}
~~~
Características de suscripción:
  - **Tipos de datos adicionales**
  
    - dtype-date
    - dtype-datetime
    - dtype-time
    - dtype-duration
    - dtype-i8
    - dtype-i16
    - dtype-u8
    - dtype-u16
    - dtype-categorical
    - dtype-struct 
   
  
  - ***performant:***Eficiente procesamiento de grandes datos.
  - ***lazy:***Evaluación de expresiones postergadas.
  - ***sql:***Soporte de consultas SQL en Polars.
  - ***streaming:***Procesamiento de datos en tiempo real en Polars.
  - ***random:***Generación de datos aleatorios eficiente.
  - **Relacionado con el rendimiento:**
     - nightly
     - performant
  - **Relacionado con OI:**
      - serde
      - decompress
  - **DataFrame operaciones:**  
      - dynamic_groupby
      - cross_join
      - partition_by
  - **Series/ Expressionoperaciones:** 
      - repeat_by
      - mode
      - rank
    

# Conceptos   

# <font color="#CD0000">Tipos de Datos </font> 
Debido a que Polars se basa en **Arrows** hace que sea eficiente en caché y esté sea respaldado para la comunicación entre procesos. La mayoría de los tipos de datos siguen la implementación exacta de Arrow, con la excepción de Utf8, Categoricaly Object.  

**Algunos ejemplos de tipos de datos:**

| Grupo    | Tipo         | Detalles                                                                             |
|----------|--------------|:------------------------------------------------------------------------------------:|
| **Numérico** | Int8         | Entero con signo de 8 bits.                                                          |
|          | Int16        | Entero con signo de 16 bits.                                                         |
|          | Int32        | Entero con signo de 32 bits.                                                         |
|          | Int64        | Entero con signo de 64 bits.                                                         |
|          | UInt8        | Entero sin signo de 8 bits.                                                          |
|          | UInt16       | Entero sin signo de 16 bits.                                                         |
|          | UInt32       | Entero sin signo de 32 bits.                                                         |
|          | UInt64       | Entero sin signo de 64 bits.                                                         |
|          | Float32      | Punto flotante de 32 bits.                                                           |
|          | Float64      | Punto flotante de 64 bits.                                                           |
| **Anidado** | Struct       | Estructura de matriz que junta valores múltiples en una sola columna.    |
| **Temporal** | Date         | Representación de fecha.      |
| **Otro**     | Boolean      | Tipo booleano efectivamente empaquetado en bits.                                     |
|          | Utf8         | Cadena de datos .                   |
|          | Binary       | Almacenar datos como bytes.                                                          |
|          | Categorical | Una codificación categórica de un conjunto de cadenas.                                |   


# <font color="#CD0000">Estructura de Datos </font>   
Las estructuras de datos de la base central proporcionadas por Polars son *Series* y *DataFrames*.

## Series  
Las *Series* tienen tipos de datos específicos y unidimensionales, como enteros, flotantes, cadenas, fechas y horas, pueden contener valores faltantes. 

In [2]:
import polars as pl
s = pl.Series("longitud_sepalo",[5.1, 4.9, 4.7, 4.6, 5.0])#los 5 primeros datos de iris.csv(longitud_sepalo)
print(s)

shape: (5,)
Series: 'longitud_sepalo' [f64]
[
	5.1
	4.9
	4.7
	4.6
	5.0
]


## DataFrame  
Es una estructura de datos bidimensional respaldada por Series, está compuesto por filas y columnas, donde cada columna es una serie y las filas contienen datos que pertenecen a cada serie.

**pl.read_csv()**  
Esta función de polars en Python se usa para leer un archivo CSV(valores separados por coma) y convertirlo en un dataframe de polars.

In [3]:
df = pl.read_csv("iris.csv")
print(df)

shape: (150, 5)
┌─────────────┬────────────┬─────────────┬────────────┬────────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            │
╞═════════════╪════════════╪═════════════╪════════════╪════════════════╡
│ 5.1         ┆ 3.5        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    │
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa    │
│ 4.6         ┆ 3.1        ┆ 1.5         ┆ 0.2        ┆ Iris-setosa    │
│ …           ┆ …          ┆ …           ┆ …          ┆ …              │
│ 6.3         ┆ 2.5        ┆ 5.0         ┆ 1.9        ┆ Iris-virginica │
│ 6.5         ┆ 3.0        ┆ 5.2         ┆ 2.0        ┆ Iris-virginica │
│ 6.2         ┆ 3.4        ┆ 5.4         ┆ 2.3        ┆ Iris-virginica │
│ 5.9         ┆ 3.0        ┆ 5.1   

- <font size = 4.8> **Head** </font>  
Es una función que se utiliza para obtener las primeras filas de un *DataFrame*. Por defecto, devuelve las primeras 5 filas, pero se puede especificar el número de filas que se desea obtener. 

In [4]:
print(df.head(3))

shape: (3, 5)
┌─────────────┬────────────┬─────────────┬────────────┬─────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class       │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---         │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str         │
╞═════════════╪════════════╪═════════════╪════════════╪═════════════╡
│ 5.1         ┆ 3.5        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa │
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa │
└─────────────┴────────────┴─────────────┴────────────┴─────────────┘


- <font size = 4.8> **Tail** </font>  
Es una función que se utiliza para obtener las últimas filas de un *DataFrame*. Por defecto, muestra las últimas 5 filas, pero se puede especificar el número de filas que se desea ver.

In [5]:
print(df.tail(3))

shape: (3, 5)
┌─────────────┬────────────┬─────────────┬────────────┬────────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            │
╞═════════════╪════════════╪═════════════╪════════════╪════════════════╡
│ 6.5         ┆ 3.0        ┆ 5.2         ┆ 2.0        ┆ Iris-virginica │
│ 6.2         ┆ 3.4        ┆ 5.4         ┆ 2.3        ┆ Iris-virginica │
│ 5.9         ┆ 3.0        ┆ 5.1         ┆ 1.8        ┆ Iris-virginica │
└─────────────┴────────────┴─────────────┴────────────┴────────────────┘


- <font size = 4.8> **Sample** </font>    
Permite tomar una muestra aleatoria de filas de un *DataFrame*.  

In [6]:
print(df.sample(2))

shape: (2, 5)
┌─────────────┬────────────┬─────────────┬────────────┬────────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            │
╞═════════════╪════════════╪═════════════╪════════════╪════════════════╡
│ 4.6         ┆ 3.4        ┆ 1.4         ┆ 0.3        ┆ Iris-setosa    │
│ 6.8         ┆ 3.2        ┆ 5.9         ┆ 2.3        ┆ Iris-virginica │
└─────────────┴────────────┴─────────────┴────────────┴────────────────┘


- <font size = 4.8> **Describe** </font>  
Proporciona estadísticas descriptivas para todas las columnas numéricas de un *DataFrame*, como la media, la desviación estándar, el mínimo y el máximo. También proporciona el número de valores no nulos en cada columna.

In [7]:
print(df.describe())

shape: (9, 6)
┌────────────┬─────────────┬────────────┬─────────────┬────────────┬────────────────┐
│ describe   ┆ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          │
│ ---        ┆ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            │
│ str        ┆ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            │
╞════════════╪═════════════╪════════════╪═════════════╪════════════╪════════════════╡
│ count      ┆ 150.0       ┆ 150.0      ┆ 150.0       ┆ 150.0      ┆ 150            │
│ null_count ┆ 0.0         ┆ 0.0        ┆ 0.0         ┆ 0.0        ┆ 0              │
│ mean       ┆ 5.843333    ┆ 3.054      ┆ 3.758667    ┆ 1.198667   ┆ null           │
│ std        ┆ 0.828066    ┆ 0.433594   ┆ 1.76442     ┆ 0.763161   ┆ null           │
│ min        ┆ 4.3         ┆ 2.0        ┆ 1.0         ┆ 0.1        ┆ Iris-setosa    │
│ max        ┆ 7.9         ┆ 4.4        ┆ 6.9         ┆ 2.5        ┆ Iris-virginica │
│ median     ┆ 5.8         ┆ 3.0        

# <font color="#CD0000">Contextos </font> 
Se refiere a la configuración y ajuste de los parámetros que afectan el rendimiento y el comportamiento de la biblioteca.En general, el contexto de Polars es una herramienta útil para optimizar el rendimiento y la eficiencia de las operaciones de procesamiento de datos.  


- <font size = 4.8> **Select** </font>   
Se usa para seleccionar las variables de un *DataFrame*, en la cual se puede implemntar combinandola con otras funciones como **head()**, **sum()**,**mean()** y muchas otras funciones para obtener un mejor análisis de nuestros datos.  
Se tiene en cuenta que una selección puede producir nuevas columnas que son agregaciones, combinaciones de expresiones o literales.

In [8]:
print(df.select([pl.col(["petallength","petalwidth"])]).sum())
##
longitud_petalo =  df.select([
    pl.mean("petallength").alias("media"),
    pl.median("petallength").alias("mediana"),
    pl.sum("petallength").alias("sum"),
    pl.min("petallength").alias("min"),
    pl.max("petallength").alias("max"),
    pl.col("petallength").max().alias("other_max"),
    pl.std("petallength").alias("std_dev"),
    pl.var("petallength").alias("varianza"),
    
])
print(longitud_petalo)

shape: (1, 2)
┌─────────────┬────────────┐
│ petallength ┆ petalwidth │
│ ---         ┆ ---        │
│ f64         ┆ f64        │
╞═════════════╪════════════╡
│ 563.8       ┆ 179.8      │
└─────────────┴────────────┘
shape: (1, 8)
┌──────────┬─────────┬───────┬─────┬─────┬───────────┬─────────┬──────────┐
│ media    ┆ mediana ┆ sum   ┆ min ┆ max ┆ other_max ┆ std_dev ┆ varianza │
│ ---      ┆ ---     ┆ ---   ┆ --- ┆ --- ┆ ---       ┆ ---     ┆ ---      │
│ f64      ┆ f64     ┆ f64   ┆ f64 ┆ f64 ┆ f64       ┆ f64     ┆ f64      │
╞══════════╪═════════╪═══════╪═════╪═════╪═══════════╪═════════╪══════════╡
│ 3.758667 ┆ 4.35    ┆ 563.8 ┆ 1.0 ┆ 6.9 ┆ 6.9       ┆ 1.76442 ┆ 3.113179 │
└──────────┴─────────┴───────┴─────┴─────┴───────────┴─────────┴──────────┘


De manera similar a *select* también existe **with_columns** que también es una entrada al contexto de selección. La principal diferencia es que **with_columns** conserva las columnas originales y agrega otras nuevas mientras selectelimina las columnas originales.


In [9]:
wc =df.with_columns([
    pl.sum("petalwidth").alias("suma_ancho_petalo"),
    pl.col("class").count().alias("contar"),
])
print(wc)

shape: (150, 7)
┌─────────────┬────────────┬─────────────┬────────────┬────────────────┬───────────────────┬────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          ┆ suma_ancho_petalo ┆ contar │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            ┆ ---               ┆ ---    │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            ┆ f64               ┆ u32    │
╞═════════════╪════════════╪═════════════╪════════════╪════════════════╪═══════════════════╪════════╡
│ 5.1         ┆ 3.5        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    ┆ 179.8             ┆ 150    │
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    ┆ 179.8             ┆ 150    │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa    ┆ 179.8             ┆ 150    │
│ 4.6         ┆ 3.1        ┆ 1.5         ┆ 0.2        ┆ Iris-setosa    ┆ 179.8             ┆ 150    │
│ …           ┆ …          ┆ …           ┆ …          ┆ …         

- <font size = 4.8> **Filter** </font>  
Se utiliza para filtrar las filas de un *DataFrame* según una condición determinada. Toma una función de filtro como argumento y devuelve un nuevo DataFrame que contiene solo las filas que cumplen la condición.  


In [10]:
fil = df.filter(
    (pl.col("sepallength")<5)&(pl.col("class")=="Iris-setosa")
)
print(fil)

shape: (20, 5)
┌─────────────┬────────────┬─────────────┬────────────┬─────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class       │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---         │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str         │
╞═════════════╪════════════╪═════════════╪════════════╪═════════════╡
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa │
│ 4.6         ┆ 3.1        ┆ 1.5         ┆ 0.2        ┆ Iris-setosa │
│ 4.6         ┆ 3.4        ┆ 1.4         ┆ 0.3        ┆ Iris-setosa │
│ …           ┆ …          ┆ …           ┆ …          ┆ …           │
│ 4.5         ┆ 2.3        ┆ 1.3         ┆ 0.3        ┆ Iris-setosa │
│ 4.4         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa │
│ 4.8         ┆ 3.0        ┆ 1.4         ┆ 0.3        ┆ Iris-setosa │
│ 4.6         ┆ 3.2        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa │
└────

- <font size = 4.8> **Groupby / Aggregation** </font>  
Se utiliza para agrupar fila de un *DataFrame* en función de una o varias columnas y realizar cálculos agregados en esas agrupaciones, pueden producir resultados de cualquier longitud.  

In [11]:
group1 = df.groupby('class')
print(group1.mean())

group2 = df.groupby('class')
print(group2.sum())

group3 = df.groupby('class')
print(group3.max())

shape: (3, 5)
┌─────────────────┬─────────────┬────────────┬─────────────┬────────────┐
│ class           ┆ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth │
│ ---             ┆ ---         ┆ ---        ┆ ---         ┆ ---        │
│ str             ┆ f64         ┆ f64        ┆ f64         ┆ f64        │
╞═════════════════╪═════════════╪════════════╪═════════════╪════════════╡
│ Iris-versicolor ┆ 5.936       ┆ 2.77       ┆ 4.26        ┆ 1.326      │
│ Iris-virginica  ┆ 6.588       ┆ 2.974      ┆ 5.552       ┆ 2.026      │
│ Iris-setosa     ┆ 5.006       ┆ 3.418      ┆ 1.464       ┆ 0.244      │
└─────────────────┴─────────────┴────────────┴─────────────┴────────────┘
shape: (3, 5)
┌─────────────────┬─────────────┬────────────┬─────────────┬────────────┐
│ class           ┆ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth │
│ ---             ┆ ---         ┆ ---        ┆ ---         ┆ ---        │
│ str             ┆ f64         ┆ f64        ┆ f64         ┆ f64        │
╞═════════

# <font color="#CD0000">API </font>   

## Lazy / Eager API   
Se utiliza para operaciones de transformación de datos que se realizan en memoria y se ejecutan de forma sincrónica. Con esta API, las operaciones se realizan de manera perezosa (lazy) o ansiosa (eager). Las operaciones perezosas son aquellas que no se ejecutan inmediatamente y se retrasan hasta que sea necesario, mientras que las operaciones ansiosas se ejecutan inmediatamente y devuelven los resultados en el momento de la llamada.A pesar de eso,esperar a la ejecución hasta el último minuto puede tener importantes ventajas de rendimiento, por lo que se prefiere la **lazy API** en la mayoría de los casos.

### Eager
En este ejemplo, usaremos **eager API** para:
- Leer el conjunto de datos iris .
- Filtrar el conjunto de datos según la longitud del sépalo.
- Calcular la media del ancho del sépalo por especie .

Cada paso se ejecuta inmediatamente devolviendo los resultados intermedios. Esto puede ser muy derrochador, ya que podríamos trabajar o cargar datos adicionales que no se están utilizando. Si, en cambio, usamos la **lazy API**y esperamos la ejecución hasta que se definan todos los pasos, entonces el planificador de consultas podría realizar varias optimizaciones.

In [12]:
df_small = df.filter(pl.col("sepallength") > 5)
df_agg = df_small.groupby("class").agg(pl.col("sepalwidth").mean())
print(df_agg)

shape: (3, 2)
┌─────────────────┬────────────┐
│ class           ┆ sepalwidth │
│ ---             ┆ ---        │
│ str             ┆ f64        │
╞═════════════════╪════════════╡
│ Iris-setosa     ┆ 3.713636   │
│ Iris-virginica  ┆ 2.983673   │
│ Iris-versicolor ┆ 2.804255   │
└─────────────────┴────────────┘


### Lazy  
En este caso:

- Empuje de predicado: aplica filtros lo antes posible mientras lee el conjunto de datos, por lo tanto, solo lee filas con una longitud de sépalo superior a 5.
- Desplazamiento de proyección: selecciona solo las columnas que se necesitan mientras lee el conjunto de datos, eliminando así la necesidad de cargar columnas adicionales (por ejemplo, longitud de pétalo y ancho de pétalo).   

Estos reducira significativamente la carga en la memoria , lo que le permitirá colocar conjuntos de datos más grandes en la memoria y procesarlos más rápido.

In [14]:
q1 = (
    pl.scan_csv("iris.csv")
    .filter(pl.col("sepallength") > 5)
    .groupby("class")
    .agg(pl.col("sepalwidth").mean())
)

df_lazy = q1.collect()#collect() informa a Polars que quiere ejecutarla
print(df_lazy)

shape: (3, 2)
┌─────────────────┬────────────┐
│ class           ┆ sepalwidth │
│ ---             ┆ ---        │
│ str             ┆ f64        │
╞═════════════════╪════════════╡
│ Iris-virginica  ┆ 2.983673   │
│ Iris-setosa     ┆ 3.713636   │
│ Iris-versicolor ┆ 2.804255   │
└─────────────────┴────────────┘


**¿Cómo saber cuál usar?**  
En general, si los datos caben en la memoria, es posible que se pueda utilizar la **Eager API**. Si trabajas con grandes conjuntos de datos o se realiza operaciones complejas, es posible que se necesite utilizar la  **Lazy API**.

## Streaming API   
Se utiliza para operaciones que se realizan en un flujo continuo de datos. Esta API se basa en un modelo push, en el que los datos se transmiten de forma asincrónica a través de un flujo de datos. En lugar de procesar todos los datos de una vez, se procesan los datos en pequeños fragmentos a medida que se van recibiendo. Esto hace que la **streaming API** sea adecuada para el procesamiento de datos en tiempo real y para el manejo de grandes volúmenes de datos que no caben en memoria.  
Para decirle a Polars que queremos ejecutar una consulta en modo streaming le pasamos el **streaming=True** argumento a collect.

In [15]:
q2 = (
    pl.scan_csv("iris.csv")
    .filter(pl.col("sepallength") > 5)
    .groupby("class")
    .agg(pl.col("sepalwidth").mean())
)

df_streaming = q2.collect(streaming=True)
print(df_streaming)

shape: (3, 2)
┌─────────────────┬────────────┐
│ class           ┆ sepalwidth │
│ ---             ┆ ---        │
│ str             ┆ f64        │
╞═════════════════╪════════════╡
│ Iris-virginica  ┆ 2.983673   │
│ Iris-versicolor ┆ 2.804255   │
│ Iris-setosa     ┆ 3.713636   │
└─────────────────┴────────────┘


# Expresiones  
# <font color="#CD0000">Operadores básicos   </font>  

## Numerical  

In [59]:
df_numerical = df.select([
    
        (pl.col("sepallength") + 5).alias("sepallength + 5"), #longitud de sepalo +5
        (pl.col("sepallength") - 5).alias("sepallength - 5"),#longitud de sepalo -5
        (pl.col("sepallength") * pl.col("sepalwidth")).alias("sepallength * sepalwidth"),#longitud por ancho del sepalo
        (pl.col("sepallength") / pl.col("sepalwidth")).alias("sepallength / sepalwidth"),#longitud entre el ancho del sepalo
    ])

print(df_numerical)

shape: (150, 4)
┌─────────────────┬─────────────────┬──────────────────────────┬──────────────────────────┐
│ sepallength + 5 ┆ sepallength - 5 ┆ sepallength * sepalwidth ┆ sepallength / sepalwidth │
│ ---             ┆ ---             ┆ ---                      ┆ ---                      │
│ f64             ┆ f64             ┆ f64                      ┆ f64                      │
╞═════════════════╪═════════════════╪══════════════════════════╪══════════════════════════╡
│ 10.1            ┆ 0.1             ┆ 17.85                    ┆ 1.457143                 │
│ 9.9             ┆ -0.1            ┆ 14.7                     ┆ 1.633333                 │
│ 9.7             ┆ -0.3            ┆ 15.04                    ┆ 1.46875                  │
│ 9.6             ┆ -0.4            ┆ 14.26                    ┆ 1.483871                 │
│ …               ┆ …               ┆ …                        ┆ …                        │
│ 11.3            ┆ 1.3             ┆ 15.75                    ┆

## Logical   
Devuelve **true** o **false**.

In [18]:
df_logical = df.select([
    
        (pl.col("sepalwidth") <= 0.5).alias("sepalwidth < 0.5"),
        (pl.col("sepalwidth") != 1).alias("sepallength != 1"),
        (pl.col("sepallength") == 1).alias("sepallength == 1"),
        ((pl.col("sepalwidth") <= 0.5) & (pl.col("sepallength") > 1)).alias("and_expr"),  # and
        ((pl.col("sepalwidth") <= 0.5) | (pl.col("sepallength") > 1)).alias("or_expr"),  # or
    ])

print(df_logical)

shape: (150, 5)
┌──────────────────┬──────────────────┬──────────────────┬──────────┬─────────┐
│ sepalwidth < 0.5 ┆ sepallength != 1 ┆ sepallength == 1 ┆ and_expr ┆ or_expr │
│ ---              ┆ ---              ┆ ---              ┆ ---      ┆ ---     │
│ bool             ┆ bool             ┆ bool             ┆ bool     ┆ bool    │
╞══════════════════╪══════════════════╪══════════════════╪══════════╪═════════╡
│ false            ┆ true             ┆ false            ┆ false    ┆ true    │
│ false            ┆ true             ┆ false            ┆ false    ┆ true    │
│ false            ┆ true             ┆ false            ┆ false    ┆ true    │
│ false            ┆ true             ┆ false            ┆ false    ┆ true    │
│ …                ┆ …                ┆ …                ┆ …        ┆ …       │
│ false            ┆ true             ┆ false            ┆ false    ┆ true    │
│ false            ┆ true             ┆ false            ┆ false    ┆ true    │
│ false            ┆ tru

# <font color="#CD0000">Funciones </font> 
Las expresiones tienen una gran cantidad de funciones integradas, estos le permiten crear consultas complejas sin necesidad de funciones definidas por el usuario. 

## Selección columna 
<font color="#474747">**SELECCIONA TODAS LAS COLUMNAS**</font> 


In [19]:
##all
df_all = df.select([pl.col("*")])

##Es equivalente a
df_all = df.select([pl.all()])
print(df_all)

shape: (150, 5)
┌─────────────┬────────────┬─────────────┬────────────┬────────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            │
╞═════════════╪════════════╪═════════════╪════════════╪════════════════╡
│ 5.1         ┆ 3.5        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    │
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa    │
│ 4.6         ┆ 3.1        ┆ 1.5         ┆ 0.2        ┆ Iris-setosa    │
│ …           ┆ …          ┆ …           ┆ …          ┆ …              │
│ 6.3         ┆ 2.5        ┆ 5.0         ┆ 1.9        ┆ Iris-virginica │
│ 6.5         ┆ 3.0        ┆ 5.2         ┆ 2.0        ┆ Iris-virginica │
│ 6.2         ┆ 3.4        ┆ 5.4         ┆ 2.3        ┆ Iris-virginica │
│ 5.9         ┆ 3.0        ┆ 5.1   

<font color="#474747">**SELECCIONA TODAS LAS COLUMNAS EXCEPTO**</font> 

In [60]:
##exclude  
df_exclu = df.select([pl.exclude("class")])#excluye la columna "class"
print(df_exclu)

shape: (150, 4)
┌─────────────┬────────────┬─────────────┬────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth │
│ ---         ┆ ---        ┆ ---         ┆ ---        │
│ f64         ┆ f64        ┆ f64         ┆ f64        │
╞═════════════╪════════════╪═════════════╪════════════╡
│ 5.1         ┆ 3.5        ┆ 1.4         ┆ 0.2        │
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        │
│ 4.6         ┆ 3.1        ┆ 1.5         ┆ 0.2        │
│ …           ┆ …          ┆ …           ┆ …          │
│ 6.3         ┆ 2.5        ┆ 5.0         ┆ 1.9        │
│ 6.5         ┆ 3.0        ┆ 5.2         ┆ 2.0        │
│ 6.2         ┆ 3.4        ┆ 5.4         ┆ 2.3        │
│ 5.9         ┆ 3.0        ┆ 5.1         ┆ 1.8        │
└─────────────┴────────────┴─────────────┴────────────┘


## Nomenclatura de columnas   
Renombra a las columnas en un *DataFrame* con **alias( )**. En Polars, los nombres de columna deben ser únicos y no pueden contener espacios ni caracteres especiales, excepto guiones bajos y puntos.

In [21]:
## alias modifica el nombre de la columna
df_alias = df.select(
    [
        (pl.col("sepalwidth") + 5).alias("sepalwidth + 5"),
        (pl.col("sepalwidth") - 5).alias("sepalwidth - 5"),
    ]
)
print(df_alias)

shape: (150, 2)
┌────────────────┬────────────────┐
│ sepalwidth + 5 ┆ sepalwidth - 5 │
│ ---            ┆ ---            │
│ f64            ┆ f64            │
╞════════════════╪════════════════╡
│ 8.5            ┆ -1.5           │
│ 8.0            ┆ -2.0           │
│ 8.2            ┆ -1.8           │
│ 8.1            ┆ -1.9           │
│ …              ┆ …              │
│ 7.5            ┆ -2.5           │
│ 8.0            ┆ -2.0           │
│ 8.4            ┆ -1.6           │
│ 8.0            ┆ -2.0           │
└────────────────┴────────────────┘


En caso de que se desee agregar un sufijo **(suffix( ))** o un prefijo **(prefix( ))**.

In [22]:
#sufijo
df_su =df.select([
       pl.col("sepalwidth"),
        pl.col("sepalwidth").sum().suffix("_sum")]).head()

#prefijo
df_pref = df.select([
          pl.col("sepallength"),
          pl.col("sepallength").mean().prefix("mean_")]).head()

print(df_su,df_pref)

shape: (5, 2)
┌────────────┬────────────────┐
│ sepalwidth ┆ sepalwidth_sum │
│ ---        ┆ ---            │
│ f64        ┆ f64            │
╞════════════╪════════════════╡
│ 3.5        ┆ 458.1          │
│ 3.0        ┆ 458.1          │
│ 3.2        ┆ 458.1          │
│ 3.1        ┆ 458.1          │
│ 3.6        ┆ 458.1          │
└────────────┴────────────────┘ shape: (5, 2)
┌─────────────┬──────────────────┐
│ sepallength ┆ mean_sepallength │
│ ---         ┆ ---              │
│ f64         ┆ f64              │
╞═════════════╪══════════════════╡
│ 5.1         ┆ 5.843333         │
│ 4.9         ┆ 5.843333         │
│ 4.7         ┆ 5.843333         │
│ 4.6         ┆ 5.843333         │
│ 5.0         ┆ 5.843333         │
└─────────────┴──────────────────┘


## Contar valores únicos   
Dos formas de contar valores únicos por aproximación **(aprox_unique( ))** o metodología exacta **(n_unique( ))** .

In [23]:
#cuantos tipos de 'class' y 'petallength' existen
##approx_unique( ) 
df_aprox = df.select([
    
        pl.approx_unique("petallength").alias("unique_petallength"),
        pl.approx_unique("class").alias("unique_approx_clase"),  ])
  


##n_unique( ) 
df_uni = df.select([
    pl.col("petallength").n_unique().alias("longitud_petalo"),
    pl.col("class").n_unique().alias("clase"),])
    
print(df_aprox,df_uni)

shape: (1, 2)
┌────────────────────┬─────────────────────┐
│ unique_petallength ┆ unique_approx_clase │
│ ---                ┆ ---                 │
│ u32                ┆ u32                 │
╞════════════════════╪═════════════════════╡
│ 43                 ┆ 3                   │
└────────────────────┴─────────────────────┘ shape: (1, 2)
┌─────────────────┬───────┐
│ longitud_petalo ┆ clase │
│ ---             ┆ ---   │
│ u32             ┆ u32   │
╞═════════════════╪═══════╡
│ 43              ┆ 3     │
└─────────────────┴───────┘


## Condicionales  
Polars admite condiciones similares a if en expresión con la sintaxis **when**, **then**, **otherwise**.    

El predicado se coloca en **when** y cuando se evalúa como **true** se usa la expresión **then** y en **false** se usa **otherwise**.

In [61]:
df_condicional = df.select([
        pl.col("sepalwidth"),
        pl.when(pl.col("sepalwidth") > 3.1)#condición
        .then(pl.lit(True))
        .otherwise(pl.lit(False))
        .alias("conditional"),
    ])
print(df_condicional)

shape: (150, 2)
┌────────────┬─────────────┐
│ sepalwidth ┆ conditional │
│ ---        ┆ ---         │
│ f64        ┆ bool        │
╞════════════╪═════════════╡
│ 3.5        ┆ true        │
│ 3.0        ┆ false       │
│ 3.2        ┆ true        │
│ 3.1        ┆ false       │
│ …          ┆ …           │
│ 2.5        ┆ false       │
│ 3.0        ┆ false       │
│ 3.4        ┆ true        │
│ 3.0        ┆ false       │
└────────────┴─────────────┘


# <font color="#CD0000">Fundición </font>
La fundición en Polars se refiere a la conversión de datos de una columna a otro tipo de datos.  

Si se encuentra un valor que no se puede convertir, el comportamiento predeterminado es **"strict=True"**, lo que significa que se generará un error. Pero si se establece en **"strict=False"**, los valores que no se puedan convertir se convertirán silenciosamente a "null".   

## Numerics  
Se invoca a la función **cast( )**.  


In [62]:
#EJEMPLO 1
ct1 = pl.DataFrame({
    
        "integers": [1, 2, 3, 4, 5],
        "character": ["rojo", "azul", "amarillo", "verde", "blanco"],
        "floats": [4.3, 5.4, 6.7, 7.2, 8.0],   })


print(ct1)
#conversión de datos con 'cast( )'
#Los valores decimales se redoondean hacia abajo
out1 = ct1.select(
    [
        pl.col("integers").cast(pl.Float32).alias("integers_as_floats"),
        pl.col("floats").cast(pl.Int32).alias("floats_as_integers"),
        pl.col("character").cast(pl.Int16, strict=False).alias("character_as_integers")
    ])
print(out1)

shape: (5, 3)
┌──────────┬───────────┬────────┐
│ integers ┆ character ┆ floats │
│ ---      ┆ ---       ┆ ---    │
│ i64      ┆ str       ┆ f64    │
╞══════════╪═══════════╪════════╡
│ 1        ┆ rojo      ┆ 4.3    │
│ 2        ┆ azul      ┆ 5.4    │
│ 3        ┆ amarillo  ┆ 6.7    │
│ 4        ┆ verde     ┆ 7.2    │
│ 5        ┆ blanco    ┆ 8.0    │
└──────────┴───────────┴────────┘
shape: (5, 3)
┌────────────────────┬────────────────────┬───────────────────────┐
│ integers_as_floats ┆ floats_as_integers ┆ character_as_integers │
│ ---                ┆ ---                ┆ ---                   │
│ f32                ┆ i32                ┆ i16                   │
╞════════════════════╪════════════════════╪═══════════════════════╡
│ 1.0                ┆ 4                  ┆ null                  │
│ 2.0                ┆ 5                  ┆ null                  │
│ 3.0                ┆ 6                  ┆ null                  │
│ 4.0                ┆ 7                  ┆ null      

## Booleanos   
Los booleanos se pueden expresar como **1 ( True)** o **0 ( False)**. Es posible realizar operaciones de conversión entre un numérico *DataType* y un booleano, y viceversa. Sin embargo, tenga en cuenta que no se permite la conversión de una cadena **(Utf8)** a un booleano.

In [63]:
#EJEMPLO 2
##cast(pl.Boolean)
ct2 = pl.DataFrame({
    
        "integers": [-1, 0, 2, 3, 4],
        "floats": [0.0, 1.0, 2.0, 3.0, 4.0],})
        


out2 = ct2.select([
    
        pl.col("integers").cast(pl.Boolean),
        pl.col("floats").cast(pl.Boolean),])
 
print(out2)

shape: (5, 2)
┌──────────┬────────┐
│ integers ┆ floats │
│ ---      ┆ ---    │
│ bool     ┆ bool   │
╞══════════╪════════╡
│ true     ┆ false  │
│ false    ┆ true   │
│ true     ┆ true   │
│ true     ┆ true   │
│ true     ┆ true   │
└──────────┴────────┘


## Date  
Los tipos de datos temporales como **Date** o **Datetime** se representan como el número de días (**Date**) y microsegundos (**Datetime**) desde la época. 

In [64]:
#EJEMPLO 3
from datetime import date, datetime

ct3 = pl.DataFrame({
    
        "date": pl.date_range(date(2001,1, 7), date(2005, 1, 10), eager=True),
        "datetime": pl.date_range(datetime(2001,1, 7), datetime(2005, 1, 10), eager=True),
         })

out3 = ct3.select([pl.col("date").cast(pl.Int64), pl.col("datetime").cast(pl.Int64)])
print(out3)

shape: (1_465, 2)
┌───────┬──────────────────┐
│ date  ┆ datetime         │
│ ---   ┆ ---              │
│ i64   ┆ i64              │
╞═══════╪══════════════════╡
│ 11329 ┆ 978825600000000  │
│ 11330 ┆ 978912000000000  │
│ 11331 ┆ 978998400000000  │
│ 11332 ┆ 979084800000000  │
│ …     ┆ …                │
│ 12790 ┆ 1105056000000000 │
│ 12791 ┆ 1105142400000000 │
│ 12792 ┆ 1105228800000000 │
│ 12793 ┆ 1105315200000000 │
└───────┴──────────────────┘


Para realizar operaciones de conversión entre *cadenas* y *Dates*/ *Datetimes*, *strftime* y *strptime* se utilizan. Polars adopta la sintaxis de formato crono al formatear. Vale la pena señalar que *strptime* presenta opciones adicionales que admiten la funcionalidad de la zona horaria. Consulte la documentación de la API para obtener más información.

In [65]:
##strftime y strptime
ct4 = pl.DataFrame({
    
        "date": pl.date_range(date(2022, 1, 1), date(2022, 1, 5), eager=True),
        "string": [
            "2022-01-01",
            "2022-01-02",
            "2022-01-03",
            "2022-01-04",
            "2022-01-05",
        ],})
    


out4 = ct4.select([
    
        pl.col("date").dt.strftime("%Y-%m-%d"),
        pl.col("string").str.strptime(pl.Datetime, "%Y-%m-%d"),
    ])

print(out4)

shape: (5, 2)
┌────────────┬─────────────────────┐
│ date       ┆ string              │
│ ---        ┆ ---                 │
│ str        ┆ datetime[μs]        │
╞════════════╪═════════════════════╡
│ 2022-01-01 ┆ 2022-01-01 00:00:00 │
│ 2022-01-02 ┆ 2022-01-02 00:00:00 │
│ 2022-01-03 ┆ 2022-01-03 00:00:00 │
│ 2022-01-04 ┆ 2022-01-04 00:00:00 │
│ 2022-01-05 ┆ 2022-01-05 00:00:00 │
└────────────┴─────────────────────┘


# <font color="#CD0000">Strings </font>
Las operaciones realizadas en cadenas *Utf8* .

<font color="#474747">**ACCESO AL ESPACIO DE NOMBRES DE CADENA**</font>  
**str** se puede acceder al espacio de nombres a través del **.str** atributo de una columna con *Utf8* tipo de datos.


In [29]:
#lengths y n_chars
df_len = df.select(
    [
        pl.col("class").str.lengths().alias("byte_count"),#recuento de bytes
        pl.col("class").str.n_chars().alias("letter_count"),#recuento de letras
    ]
)
print(df_len)

shape: (150, 2)
┌────────────┬──────────────┐
│ byte_count ┆ letter_count │
│ ---        ┆ ---          │
│ u32        ┆ u32          │
╞════════════╪══════════════╡
│ 11         ┆ 11           │
│ 11         ┆ 11           │
│ 11         ┆ 11           │
│ 11         ┆ 11           │
│ …          ┆ …            │
│ 14         ┆ 14           │
│ 14         ┆ 14           │
│ 14         ┆ 14           │
│ 14         ┆ 14           │
└────────────┴──────────────┘


<font color="#474747">**COMPROBAR LA EXISTENCIA DE UN PATRÓN**</font>   
El **contains** es un método que acepta un patron de expresión regular.
Si la subcadena buscada se encuentra al inicio se usa **starts_with** y para el final **ends_with**.


In [30]:
df_patron = df.select([
        pl.col("class"),
        pl.col("class").str.contains("nica").alias("subcadea_is"),
        pl.col("class").str.starts_with("Iris").alias("subcadea_Iris"),#inicio
        pl.col("class").str.ends_with("osa").alias("subcadea_osa"),#fin
    ])
print(df_patron)

shape: (150, 4)
┌────────────────┬─────────────┬───────────────┬──────────────┐
│ class          ┆ subcadea_is ┆ subcadea_Iris ┆ subcadea_osa │
│ ---            ┆ ---         ┆ ---           ┆ ---          │
│ str            ┆ bool        ┆ bool          ┆ bool         │
╞════════════════╪═════════════╪═══════════════╪══════════════╡
│ Iris-setosa    ┆ false       ┆ true          ┆ true         │
│ Iris-setosa    ┆ false       ┆ true          ┆ true         │
│ Iris-setosa    ┆ false       ┆ true          ┆ true         │
│ Iris-setosa    ┆ false       ┆ true          ┆ true         │
│ …              ┆ …           ┆ …             ┆ …            │
│ Iris-virginica ┆ true        ┆ true          ┆ false        │
│ Iris-virginica ┆ true        ┆ true          ┆ false        │
│ Iris-virginica ┆ true        ┆ true          ┆ false        │
│ Iris-virginica ┆ true        ┆ true          ┆ false        │
└────────────────┴─────────────┴───────────────┴──────────────┘


<font color="#474747">**EXTRAER UN PATRÓN**</font>   
El **extract** método nos permite extraer un patrón de una cadena específica.


In [31]:
#group_index=1 se utiliza para especificar que se extraiga el primer grupo de coincidencias del patrón (el patrón completo en este caso).
df_extract = df.select(pl.col("class").str.extract(r"setosa", group_index=0))

print(df_extract)

shape: (150, 1)
┌────────┐
│ class  │
│ ---    │
│ str    │
╞════════╡
│ setosa │
│ setosa │
│ setosa │
│ setosa │
│ …      │
│ null   │
│ null   │
│ null   │
│ null   │
└────────┘


El método **extract_all** extrae todas las ocurrencia. 

In [32]:
df_extract_all = df.select(pl.col("class").str.extract_all(r"(setosa|versicolor|virginica)"))

print(df_extract_all)

shape: (150, 1)
┌───────────────┐
│ class         │
│ ---           │
│ list[str]     │
╞═══════════════╡
│ ["setosa"]    │
│ ["setosa"]    │
│ ["setosa"]    │
│ ["setosa"]    │
│ …             │
│ ["virginica"] │
│ ["virginica"] │
│ ["virginica"] │
│ ["virginica"] │
└───────────────┘


<font color="#474747">**REEMPLAZAR UN PATRÓN**</font>   
Polars proporciona los métodos **replace** y **replace_all**, ambas reemplazan patrones.

In [33]:
df_replace = df.select(pl.col("class").str.replace(r"setosa", "foo"),
                      pl.col("class").str.replace_all("Iris", "flor", literal=True).alias("remplazo_de_Iris"),)

print(df_replace)

shape: (150, 2)
┌────────────────┬──────────────────┐
│ class          ┆ remplazo_de_Iris │
│ ---            ┆ ---              │
│ str            ┆ str              │
╞════════════════╪══════════════════╡
│ Iris-foo       ┆ flor-setosa      │
│ Iris-foo       ┆ flor-setosa      │
│ Iris-foo       ┆ flor-setosa      │
│ Iris-foo       ┆ flor-setosa      │
│ …              ┆ …                │
│ Iris-virginica ┆ flor-virginica   │
│ Iris-virginica ┆ flor-virginica   │
│ Iris-virginica ┆ flor-virginica   │
│ Iris-virginica ┆ flor-virginica   │
└────────────────┴──────────────────┘


# <font color="#CD0000">Agregación </font> 
Usando **groupby**.
## Agregaciones básicas  
Se puede hacer cualquier tipo de combinación con las diferentes expresiones.  


In [34]:
a = (df.lazy().groupby("class").agg
     ([pl.count(),
          pl.col("petallength"),
          pl.first("petalwidth"),  ]).sort("count", descending=True).limit(5))


df_aggre = a.collect()
print(df_aggre)

shape: (3, 4)
┌─────────────────┬───────┬───────────────────┬────────────┐
│ class           ┆ count ┆ petallength       ┆ petalwidth │
│ ---             ┆ ---   ┆ ---               ┆ ---        │
│ str             ┆ u32   ┆ list[f64]         ┆ f64        │
╞═════════════════╪═══════╪═══════════════════╪════════════╡
│ Iris-virginica  ┆ 50    ┆ [6.0, 5.1, … 5.1] ┆ 2.5        │
│ Iris-versicolor ┆ 50    ┆ [4.7, 4.5, … 4.1] ┆ 1.4        │
│ Iris-setosa     ┆ 50    ┆ [1.4, 1.4, … 1.4] ┆ 0.2        │
└─────────────────┴───────┴───────────────────┴────────────┘


## Condicionales 

In [35]:
#agg es una función que agrega una columna
#la función lazy ayuda a agrupar
df_1 = (df.lazy().groupby("class").agg([pl.col("sepallength").sum()])).collect()
print(df_1)

shape: (3, 2)
┌─────────────────┬─────────────┐
│ class           ┆ sepallength │
│ ---             ┆ ---         │
│ str             ┆ f64         │
╞═════════════════╪═════════════╡
│ Iris-virginica  ┆ 329.4       │
│ Iris-versicolor ┆ 296.8       │
│ Iris-setosa     ┆ 250.3       │
└─────────────────┴─────────────┘


## Filtración  
Se puede filtrar en grupos con **filter()**.

In [36]:
df_filtrar =df.filter((pl.col("petallength")<4)&(pl.col("class")=="Iris-versicolor")) 
print(df_filtrar)

shape: (11, 5)
┌─────────────┬────────────┬─────────────┬────────────┬─────────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class           │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---             │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str             │
╞═════════════╪════════════╪═════════════╪════════════╪═════════════════╡
│ 4.9         ┆ 2.4        ┆ 3.3         ┆ 1.0        ┆ Iris-versicolor │
│ 5.2         ┆ 2.7        ┆ 3.9         ┆ 1.4        ┆ Iris-versicolor │
│ 5.0         ┆ 2.0        ┆ 3.5         ┆ 1.0        ┆ Iris-versicolor │
│ 5.6         ┆ 2.9        ┆ 3.6         ┆ 1.3        ┆ Iris-versicolor │
│ …           ┆ …          ┆ …           ┆ …          ┆ …               │
│ 5.5         ┆ 2.4        ┆ 3.7         ┆ 1.0        ┆ Iris-versicolor │
│ 5.8         ┆ 2.7        ┆ 3.9         ┆ 1.2        ┆ Iris-versicolor │
│ 5.0         ┆ 2.3        ┆ 3.3         ┆ 1.0        ┆ Iris-versicolor │
│ 5.1         ┆ 2.5    

## Clasificación   
Ordenar **sort()** y agrupar **groupby()**.

In [37]:
grupo = df.groupby("class").mean() 
print(grupo)

orden = df.sort("sepalwidth")#por defecto de menor a mayor
print(orden)

shape: (3, 5)
┌─────────────────┬─────────────┬────────────┬─────────────┬────────────┐
│ class           ┆ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth │
│ ---             ┆ ---         ┆ ---        ┆ ---         ┆ ---        │
│ str             ┆ f64         ┆ f64        ┆ f64         ┆ f64        │
╞═════════════════╪═════════════╪════════════╪═════════════╪════════════╡
│ Iris-versicolor ┆ 5.936       ┆ 2.77       ┆ 4.26        ┆ 1.326      │
│ Iris-virginica  ┆ 6.588       ┆ 2.974      ┆ 5.552       ┆ 2.026      │
│ Iris-setosa     ┆ 5.006       ┆ 3.418      ┆ 1.464       ┆ 0.244      │
└─────────────────┴─────────────┴────────────┴─────────────┴────────────┘
shape: (150, 5)
┌─────────────┬────────────┬─────────────┬────────────┬─────────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class           │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---             │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str             │
╞═══════

# <font color="#CD0000">Datos perdidos </font> 
## null  
Los datos que faltan se representan en Arrows y Polars con un null,este **null** valor faltante se aplica a todos los tipos de datos, incluidos los valores numéricos.  


In [38]:
#EJEMPLO 4
EJ4 = pl.DataFrame({
        "col1": [1, 2, 3],
        "col2": [16, None, 48],
        "col3":["manzana","fresa ","uva"]
    },)
print(EJ4)

shape: (3, 3)
┌──────┬──────┬─────────┐
│ col1 ┆ col2 ┆ col3    │
│ ---  ┆ ---  ┆ ---     │
│ i64  ┆ i64  ┆ str     │
╞══════╪══════╪═════════╡
│ 1    ┆ 16   ┆ manzana │
│ 2    ┆ null ┆ fresa   │
│ 3    ┆ 48   ┆ uva     │
└──────┴──────┴─────────┘


### <font color="#474747">Filtrar con is_null y is_not_null</font> 

In [39]:
##is_null
EJ4_isnull = EJ4.filter(pl.col("col2").is_null())
print(EJ4_isnull)#filtra la filas con datos nulos

##is_not_null
EJ4_isnot = EJ4.filter(pl.col("col2").is_not_null())
print(EJ4_isnot)#filtra todas las filas sin datos nulos 

shape: (1, 3)
┌──────┬──────┬────────┐
│ col1 ┆ col2 ┆ col3   │
│ ---  ┆ ---  ┆ ---    │
│ i64  ┆ i64  ┆ str    │
╞══════╪══════╪════════╡
│ 2    ┆ null ┆ fresa  │
└──────┴──────┴────────┘
shape: (2, 3)
┌──────┬──────┬─────────┐
│ col1 ┆ col2 ┆ col3    │
│ ---  ┆ ---  ┆ ---     │
│ i64  ┆ i64  ┆ str     │
╞══════╪══════╪═════════╡
│ 1    ┆ 16   ┆ manzana │
│ 3    ┆ 48   ┆ uva     │
└──────┴──────┴─────────┘


### <font color="#474747">Rellenar datos faltantes </font> 
Usando **fill_null( )**.

- **Rellenar con un valor específico**
Usando **pl.lit( )** .

In [40]:
valor = EJ4.with_columns(pl.col("col2").fill_null(pl.lit(32)))
print(valor)

shape: (3, 3)
┌──────┬──────┬─────────┐
│ col1 ┆ col2 ┆ col3    │
│ ---  ┆ ---  ┆ ---     │
│ i64  ┆ i64  ┆ str     │
╞══════╪══════╪═════════╡
│ 1    ┆ 16   ┆ manzana │
│ 2    ┆ 32   ┆ fresa   │
│ 3    ┆ 48   ┆ uva     │
└──────┴──────┴─────────┘


- **Rellenar con una expresión**   

In [41]:
exp = EJ4.with_columns(pl.col("col2").fill_null(pl.sum("col2")))
print(exp)

shape: (3, 3)
┌──────┬──────┬─────────┐
│ col1 ┆ col2 ┆ col3    │
│ ---  ┆ ---  ┆ ---     │
│ i64  ┆ i64  ┆ str     │
╞══════╪══════╪═════════╡
│ 1    ┆ 16   ┆ manzana │
│ 2    ┆ 64   ┆ fresa   │
│ 3    ┆ 48   ┆ uva     │
└──────┴──────┴─────────┘


- **Rellenar con interpolación**   
Usando **interpolate( )**.

In [42]:
polacion = EJ4.with_columns("col2").interpolate()
print(polacion)

shape: (3, 3)
┌──────┬──────┬─────────┐
│ col1 ┆ col2 ┆ col3    │
│ ---  ┆ ---  ┆ ---     │
│ i64  ┆ i64  ┆ str     │
╞══════╪══════╪═════════╡
│ 1    ┆ 16   ┆ manzana │
│ 2    ┆ 32   ┆ fresa   │
│ 3    ┆ 48   ┆ uva     │
└──────┴──────┴─────────┘


## NotaNumbero NaN valores
Polars también permite **NotaNumber** o **NaN** valores para columnas flotantes,en Polars no se consideran datos faltantes. 
 


In [43]:
import numpy as np

#EJEMPLO 5
EJ5 = pl.DataFrame({"valor":[1.0,np.NaN,float("nan"),21]})
print(EJ5)

shape: (4, 1)
┌───────┐
│ valor │
│ ---   │
│ f64   │
╞═══════╡
│ 1.0   │
│ NaN   │
│ NaN   │
│ 21.0  │
└───────┘


Tienen las funciones de **is_nan( )** y **fill_nan( )**.

In [44]:
#fill_nan
fill_nan = EJ5.with_columns(pl.col("valor").fill_nan(None)).mean()
print(fill_nan)#saca la media de los valores que no sean "NaN"

#is_nan
is_nan = EJ5.with_columns(pl.col("valor").is_nan())
print(is_nan)#todos los datos NaN 

shape: (1, 1)
┌───────┐
│ valor │
│ ---   │
│ f64   │
╞═══════╡
│ 11.0  │
└───────┘
shape: (4, 1)
┌───────┐
│ valor │
│ ---   │
│ bool  │
╞═══════╡
│ false │
│ true  │
│ true  │
│ false │
└───────┘


# <font color="#CD0000">Folds </font> 
Polars permite dividir un *DataFrame* en un número específico de pliegues(folds).Luego se puede aplicar una función específica a cada pliegue en paralelo para acelerar el procesamiento.  



In [46]:
#EJEMPLO 6
EJ6 = pl.DataFrame({"col1":[1,2,3],
                   "col2":[10,20,30],
                   "col3":[5,15,25]})
print(EJ6)

shape: (3, 3)
┌──────┬──────┬──────┐
│ col1 ┆ col2 ┆ col3 │
│ ---  ┆ ---  ┆ ---  │
│ i64  ┆ i64  ┆ i64  │
╞══════╪══════╪══════╡
│ 1    ┆ 10   ┆ 5    │
│ 2    ┆ 20   ┆ 15   │
│ 3    ┆ 30   ┆ 25   │
└──────┴──────┴──────┘


## Suma manual  
Usando **sum( )** y **fold( )**.

In [47]:
#se hace una suma por filas
sum_manu = EJ6.select(
    pl.fold(acc=pl.lit(0), function=lambda acc, x: acc + x, exprs=pl.all())
    .alias("sum"),)

print(sum_manu)

shape: (3, 1)
┌─────┐
│ sum │
│ --- │
│ i64 │
╞═════╡
│ 16  │
│ 37  │
│ 58  │
└─────┘


## Condicional

In [48]:
#filtra la(s) donde todos sus elementos cumplan con la condición
condicional = EJ6.filter(
    pl.fold(acc=pl.lit(True),function=lambda acc, x: acc & x,
            exprs=pl.col("*") > 2,))#condición

print(condicional)

shape: (1, 3)
┌──────┬──────┬──────┐
│ col1 ┆ col2 ┆ col3 │
│ ---  ┆ ---  ┆ ---  │
│ i64  ┆ i64  ┆ i64  │
╞══════╪══════╪══════╡
│ 3    ┆ 30   ┆ 25   │
└──────┴──────┴──────┘


## Datos de pliegues y cuerdas  
Usando **concat_str( ).** 

In [49]:
#Concatenación por filas
fs = EJ6.select([pl.concat_str(["col1","col2","col3"]).alias("concatenación"), ])

print(fs)

shape: (3, 1)
┌───────────────┐
│ concatenación │
│ ---           │
│ str           │
╞═══════════════╡
│ 1105          │
│ 22015         │
│ 33025         │
└───────────────┘


# <font color="#CD0000">Listas </font> 


In [50]:
#EJEMPLO 7
EJ7 = pl.DataFrame({
        "alumnos":["Ivan","Ariana","Frank","Angie"],
        "aritmetica":[14,12,17,15],
        "quimica":[15,13,18,14],
        "literatura":[14,18,16,17],
})
print(EJ7)

shape: (4, 4)
┌─────────┬────────────┬─────────┬────────────┐
│ alumnos ┆ aritmetica ┆ quimica ┆ literatura │
│ ---     ┆ ---        ┆ ---     ┆ ---        │
│ str     ┆ i64        ┆ i64     ┆ i64        │
╞═════════╪════════════╪═════════╪════════════╡
│ Ivan    ┆ 14         ┆ 15      ┆ 14         │
│ Ariana  ┆ 12         ┆ 13      ┆ 18         │
│ Frank   ┆ 17         ┆ 18      ┆ 16         │
│ Angie   ┆ 15         ┆ 14      ┆ 17         │
└─────────┴────────────┴─────────┴────────────┘


## Calculos en filas  
Las operaciones de lista se pueden realizar utilizando el espacio de nombres **pl.list**, que proporciona varias funciones útiles para trabajar con 'listas', como 'flatten', 'unique', 'slice', 'length', entre otras.
También existe **concat_list** .

In [51]:
#se excluye la columna alumnos y se forma una columna llamada "calificaciones" 
#con las notas de los alumnos en listas

listas =EJ7.select([pl.concat_list(pl.all().exclude("alumnos"))
                    .alias("calificaciones")])
print(listas)

shape: (4, 1)
┌────────────────┐
│ calificaciones │
│ ---            │
│ list[i64]      │
╞════════════════╡
│ [14, 15, 14]   │
│ [12, 13, 18]   │
│ [17, 18, 16]   │
│ [15, 14, 17]   │
└────────────────┘


# <font color="#CD0000">Funciones definidas por el usuario </font> 


In [52]:
#Ejemplo 8
EJ8 = pl.DataFrame({
    "keys":["a","c","c"],
    "values":[14,25,36],
})

print(EJ8)

shape: (3, 2)
┌──────┬────────┐
│ keys ┆ values │
│ ---  ┆ ---    │
│ str  ┆ i64    │
╞══════╪════════╡
│ a    ┆ 14     │
│ c    ┆ 25     │
│ c    ┆ 36     │
└──────┴────────┘


In [66]:
#ejericio 1
out5 = EJ8.groupby("keys", maintain_order=True).agg(
    [
        pl.col("values").map(lambda s: s.shift()).alias("shift_map"),
        pl.col("values").shift().alias("shift_expression"),
    ]
)
print(out5)

shape: (2, 3)
┌──────┬───────────┬──────────────────┐
│ keys ┆ shift_map ┆ shift_expression │
│ ---  ┆ ---       ┆ ---              │
│ str  ┆ list[i64] ┆ list[i64]        │
╞══════╪═══════════╪══════════════════╡
│ a    ┆ [null]    ┆ [null]           │
│ c    ┆ [14, 25]  ┆ [null, 25]       │
└──────┴───────────┴──────────────────┘


Se puede comprobar que los resultados en el ejercicio 1 no son los correctos ya que c tiene valores de a.
Ahora se arreglara el ejercicio 1.

In [67]:
out6 = EJ8.groupby("keys", maintain_order=True).agg(
    [
        pl.col("values").apply(lambda s: s.shift()).alias("shift_map"),
        pl.col("values").shift().alias("shift_expression"),
    ]
)
print(out6)

shape: (2, 3)
┌──────┬────────────┬──────────────────┐
│ keys ┆ shift_map  ┆ shift_expression │
│ ---  ┆ ---        ┆ ---              │
│ str  ┆ list[i64]  ┆ list[i64]        │
╞══════╪════════════╪══════════════════╡
│ a    ┆ [null]     ┆ [null]           │
│ c    ┆ [null, 25] ┆ [null, 25]       │
└──────┴────────────┴──────────────────┘


# <font color="#CD0000">Numpy </font>  
Polars admite alguna funciones *Numpy* .

In [56]:
import numpy as np  
#Excluimos la columna 'class' por no tener datos numericos
df_sinclass = df.select([
    pl.exclude("class")])#usando numpy
  
#Ahora todas las otras columnas son reemplazadas por sus logaritmos
df_su = df_sinclass.select( [
        np.log(pl.all()).suffix("_log"),])#usando polars

print(df_su)

shape: (150, 4)
┌─────────────────┬────────────────┬─────────────────┬────────────────┐
│ sepallength_log ┆ sepalwidth_log ┆ petallength_log ┆ petalwidth_log │
│ ---             ┆ ---            ┆ ---             ┆ ---            │
│ f64             ┆ f64            ┆ f64             ┆ f64            │
╞═════════════════╪════════════════╪═════════════════╪════════════════╡
│ 1.629241        ┆ 1.252763       ┆ 0.336472        ┆ -1.609438      │
│ 1.589235        ┆ 1.098612       ┆ 0.336472        ┆ -1.609438      │
│ 1.547563        ┆ 1.163151       ┆ 0.262364        ┆ -1.609438      │
│ 1.526056        ┆ 1.131402       ┆ 0.405465        ┆ -1.609438      │
│ …               ┆ …              ┆ …               ┆ …              │
│ 1.84055         ┆ 0.916291       ┆ 1.609438        ┆ 0.641854       │
│ 1.871802        ┆ 1.098612       ┆ 1.648659        ┆ 0.693147       │
│ 1.824549        ┆ 1.223775       ┆ 1.686399        ┆ 0.832909       │
│ 1.774952        ┆ 1.098612       ┆ 1.629241   

### OTRAS FUNCIONES NUMPY EN POLARS 
**np.exp()**: Esta función devuelve el exponencial de un número. Es decir, eleva el número a la constante matemática e, que es aproximadamente 2.718.


In [68]:
# Aplicar función np.exp() a la columna "sepallength"
out7 = df.select(pl.col("sepallength").apply(lambda x: np.exp(x)).alias("exp"))

print(out7)

shape: (150, 1)
┌────────────┐
│ exp        │
│ ---        │
│ f64        │
╞════════════╡
│ 164.021907 │
│ 134.28978  │
│ 109.947172 │
│ 99.484316  │
│ …          │
│ 544.57191  │
│ 665.141633 │
│ 492.749041 │
│ 365.037468 │
└────────────┘


**np.cos()**: Esta función devuelve el coseno de un número. El coseno es una función trigonométrica que devuelve el cociente de la longitud del cateto adyacente y la hipotenusa de un triángulo rectángulo.

In [69]:
# Aplicar función np.cos() a la columna "sepal_length"
out8 = df.select(pl.col("sepallength").apply(lambda x: np.cos(x)).alias("cos"))

print(out8)

shape: (150, 1)
┌───────────┐
│ cos       │
│ ---       │
│ f64       │
╞═══════════╡
│ 0.377978  │
│ 0.186512  │
│ -0.012389 │
│ -0.112153 │
│ …         │
│ 0.999859  │
│ 0.976588  │
│ 0.996542  │
│ 0.927478  │
└───────────┘
