# <font color="#CD0000">Tipos de Datos </font> 
Debido a que Polars se basa en **Arrows** hace que sea eficiente en caché y esté sea respaldado para la comunicación entre procesos. La mayoría de los tipos de datos siguen la implementación exacta de Arrow, con la excepción de Utf8, Categoricaly Object.  

**Algunos ejemplos de tipos de datos:**

| Grupo    | Tipo         | Detalles                                                                             |
|----------|--------------|:------------------------------------------------------------------------------------:|
| **Numérico** | Int8         | Entero con signo de 8 bits.                                                          |
|          | Int16        | Entero con signo de 16 bits.                                                         |
|          | Int32        | Entero con signo de 32 bits.                                                         |
|          | Int64        | Entero con signo de 64 bits.                                                         |
|          | UInt8        | Entero sin signo de 8 bits.                                                          |
|          | UInt16       | Entero sin signo de 16 bits.                                                         |
|          | UInt32       | Entero sin signo de 32 bits.                                                         |
|          | UInt64       | Entero sin signo de 64 bits.                                                         |
|          | Float32      | Punto flotante de 32 bits.                                                           |
|          | Float64      | Punto flotante de 64 bits.                                                           |
| **Anidado** | Struct       | Estructura de matriz que junta valores múltiples en una sola columna.    |
| **Temporal** | Date         | Representación de fecha.      |
| **Otro**     | Boolean      | Tipo booleano efectivamente empaquetado en bits.                                     |
|          | Utf8         | Cadena de datos .                   |
|          | Binary       | Almacenar datos como bytes.                                                          |
|          | Categorical | Una codificación categórica de un conjunto de cadenas.                                |


# <font color="#CD0000">Estructura de Datos </font>   
Las estructuras de datos de la base central proporcionadas por Polars son *Series* y *DataFrames*.

## Series  
Las *Series* tienen tipos de datos específicos y unidimensionales, como enteros, flotantes, cadenas, fechas y horas, pueden contener valores faltantes. 


In [2]:
import polars as pl
s = pl.Series("longitud_sepalo",[5.1, 4.9, 4.7, 4.6, 5.0])#los 5 primeros datos de iris.csv(longitud_sepalo)
print(s)

shape: (5,)
Series: 'longitud_sepalo' [f64]
[
	5.1
	4.9
	4.7
	4.6
	5.0
]


## DataFrame  
Es una estructura de datos bidimensional respaldada por Series, está compuesto por filas y columnas, donde cada columna es una serie y las filas contienen datos que pertenecen a cada serie.

**pl.read_csv()**  
Esta función de polars en Python se usa para leer un archivo CSV(valores separados por coma) y convertirlo en un dataframe de polars.

In [52]:
df = pl.read_csv("iris.csv")
print(df)

shape: (150, 5)
┌─────────────┬────────────┬─────────────┬────────────┬────────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            │
╞═════════════╪════════════╪═════════════╪════════════╪════════════════╡
│ 5.1         ┆ 3.5        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    │
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa    │
│ 4.6         ┆ 3.1        ┆ 1.5         ┆ 0.2        ┆ Iris-setosa    │
│ …           ┆ …          ┆ …           ┆ …          ┆ …              │
│ 6.3         ┆ 2.5        ┆ 5.0         ┆ 1.9        ┆ Iris-virginica │
│ 6.5         ┆ 3.0        ┆ 5.2         ┆ 2.0        ┆ Iris-virginica │
│ 6.2         ┆ 3.4        ┆ 5.4         ┆ 2.3        ┆ Iris-virginica │
│ 5.9         ┆ 3.0        ┆ 5.1   

- <font size = 4.8> **Head** </font>  
Es una función que se utiliza para obtener las primeras filas de un *DataFrame*. Por defecto, devuelve las primeras 5 filas, pero se puede especificar el número de filas que se desea obtener. 

In [53]:
print(df.head(3))

shape: (3, 5)
┌─────────────┬────────────┬─────────────┬────────────┬─────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class       │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---         │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str         │
╞═════════════╪════════════╪═════════════╪════════════╪═════════════╡
│ 5.1         ┆ 3.5        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa │
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa │
└─────────────┴────────────┴─────────────┴────────────┴─────────────┘


- <font size = 4.8> **Tail** </font>  
Es una función que se utiliza para obtener las últimas filas de un *DataFrame*. Por defecto, muestra las últimas 5 filas, pero se puede especificar el número de filas que se desea ver.

In [54]:
print(df.tail(3))

shape: (3, 5)
┌─────────────┬────────────┬─────────────┬────────────┬────────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            │
╞═════════════╪════════════╪═════════════╪════════════╪════════════════╡
│ 6.5         ┆ 3.0        ┆ 5.2         ┆ 2.0        ┆ Iris-virginica │
│ 6.2         ┆ 3.4        ┆ 5.4         ┆ 2.3        ┆ Iris-virginica │
│ 5.9         ┆ 3.0        ┆ 5.1         ┆ 1.8        ┆ Iris-virginica │
└─────────────┴────────────┴─────────────┴────────────┴────────────────┘


- <font size = 4.8> **Sample** </font>    
Permite tomar una muestra aleatoria de filas de un *DataFrame*.  


In [55]:
print(df.sample(2))

shape: (2, 5)
┌─────────────┬────────────┬─────────────┬────────────┬────────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            │
╞═════════════╪════════════╪═════════════╪════════════╪════════════════╡
│ 6.7         ┆ 3.0        ┆ 5.2         ┆ 2.3        ┆ Iris-virginica │
│ 5.1         ┆ 3.8        ┆ 1.9         ┆ 0.4        ┆ Iris-setosa    │
└─────────────┴────────────┴─────────────┴────────────┴────────────────┘


- <font size = 4.8> **Describe** </font>  
Proporciona estadísticas descriptivas para todas las columnas numéricas de un *DataFrame*, como la media, la desviación estándar, el mínimo y el máximo. También proporciona el número de valores no nulos en cada columna.

In [56]:
print(df.describe())

shape: (9, 6)
┌────────────┬─────────────┬────────────┬─────────────┬────────────┬────────────────┐
│ describe   ┆ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          │
│ ---        ┆ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            │
│ str        ┆ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            │
╞════════════╪═════════════╪════════════╪═════════════╪════════════╪════════════════╡
│ count      ┆ 150.0       ┆ 150.0      ┆ 150.0       ┆ 150.0      ┆ 150            │
│ null_count ┆ 0.0         ┆ 0.0        ┆ 0.0         ┆ 0.0        ┆ 0              │
│ mean       ┆ 5.843333    ┆ 3.054      ┆ 3.758667    ┆ 1.198667   ┆ null           │
│ std        ┆ 0.828066    ┆ 0.433594   ┆ 1.76442     ┆ 0.763161   ┆ null           │
│ min        ┆ 4.3         ┆ 2.0        ┆ 1.0         ┆ 0.1        ┆ Iris-setosa    │
│ max        ┆ 7.9         ┆ 4.4        ┆ 6.9         ┆ 2.5        ┆ Iris-virginica │
│ median     ┆ 5.8         ┆ 3.0        

# <font color="#CD0000">Contextos </font> 
Se refiere a la configuración y ajuste de los parámetros que afectan el rendimiento y el comportamiento de la biblioteca.En general, el contexto de Polars es una herramienta útil para optimizar el rendimiento y la eficiencia de las operaciones de procesamiento de datos.  



- <font size = 4.8> **Select** </font>   
Se usa para seleccionar las variables de un *DataFrame*, en la cual se puede implemntar combinandola con otras funciones como **head()**, **sum()**,**mean()** y muchas otras funciones para obtener un mejor análisis de nuestros datos.  
Se tiene en cuenta que una selección puede producir nuevas columnas que son agregaciones, combinaciones de expresiones o literales.

In [57]:
print(df.select([pl.col(["petallength","petalwidth"])]).sum())
##
longitud_petalo =  df.select([
    pl.mean("petallength").alias("media"),
    pl.median("petallength").alias("mediana"),
    pl.sum("petallength").alias("sum"),
    pl.min("petallength").alias("min"),
    pl.max("petallength").alias("max"),
    pl.col("petallength").max().alias("other_max"),
    pl.std("petallength").alias("std_dev"),
    pl.var("petallength").alias("varianza"),
    
])
print(longitud_petalo)

shape: (1, 2)
┌─────────────┬────────────┐
│ petallength ┆ petalwidth │
│ ---         ┆ ---        │
│ f64         ┆ f64        │
╞═════════════╪════════════╡
│ 563.8       ┆ 179.8      │
└─────────────┴────────────┘
shape: (1, 8)
┌──────────┬─────────┬───────┬─────┬─────┬───────────┬─────────┬──────────┐
│ media    ┆ mediana ┆ sum   ┆ min ┆ max ┆ other_max ┆ std_dev ┆ varianza │
│ ---      ┆ ---     ┆ ---   ┆ --- ┆ --- ┆ ---       ┆ ---     ┆ ---      │
│ f64      ┆ f64     ┆ f64   ┆ f64 ┆ f64 ┆ f64       ┆ f64     ┆ f64      │
╞══════════╪═════════╪═══════╪═════╪═════╪═══════════╪═════════╪══════════╡
│ 3.758667 ┆ 4.35    ┆ 563.8 ┆ 1.0 ┆ 6.9 ┆ 6.9       ┆ 1.76442 ┆ 3.113179 │
└──────────┴─────────┴───────┴─────┴─────┴───────────┴─────────┴──────────┘


De manera similar a *select* también existe **with_columns** que también es una entrada al contexto de selección. La principal diferencia es que **with_columns** conserva las columnas originales y agrega otras nuevas mientras selectelimina las columnas originales.


In [58]:
wc =df.with_columns([
    pl.sum("petalwidth").alias("suma_ancho_petalo"),
    pl.col("class").count().alias("contar"),
])
print(wc)

shape: (150, 7)
┌─────────────┬────────────┬─────────────┬────────────┬────────────────┬───────────────────┬────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class          ┆ suma_ancho_petalo ┆ contar │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---            ┆ ---               ┆ ---    │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str            ┆ f64               ┆ u32    │
╞═════════════╪════════════╪═════════════╪════════════╪════════════════╪═══════════════════╪════════╡
│ 5.1         ┆ 3.5        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    ┆ 179.8             ┆ 150    │
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa    ┆ 179.8             ┆ 150    │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa    ┆ 179.8             ┆ 150    │
│ 4.6         ┆ 3.1        ┆ 1.5         ┆ 0.2        ┆ Iris-setosa    ┆ 179.8             ┆ 150    │
│ …           ┆ …          ┆ …           ┆ …          ┆ …         

- <font size = 4.8> **Filter** </font>  
Se utiliza para filtrar las filas de un *DataFrame* según una condición determinada. Toma una función de filtro como argumento y devuelve un nuevo DataFrame que contiene solo las filas que cumplen la condición.  


In [59]:
fil = df.filter(
    (pl.col("sepallength")<5)&(pl.col("class")=="Iris-setosa")
)
print(fil)

shape: (20, 5)
┌─────────────┬────────────┬─────────────┬────────────┬─────────────┐
│ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth ┆ class       │
│ ---         ┆ ---        ┆ ---         ┆ ---        ┆ ---         │
│ f64         ┆ f64        ┆ f64         ┆ f64        ┆ str         │
╞═════════════╪════════════╪═════════════╪════════════╪═════════════╡
│ 4.9         ┆ 3.0        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa │
│ 4.7         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa │
│ 4.6         ┆ 3.1        ┆ 1.5         ┆ 0.2        ┆ Iris-setosa │
│ 4.6         ┆ 3.4        ┆ 1.4         ┆ 0.3        ┆ Iris-setosa │
│ …           ┆ …          ┆ …           ┆ …          ┆ …           │
│ 4.5         ┆ 2.3        ┆ 1.3         ┆ 0.3        ┆ Iris-setosa │
│ 4.4         ┆ 3.2        ┆ 1.3         ┆ 0.2        ┆ Iris-setosa │
│ 4.8         ┆ 3.0        ┆ 1.4         ┆ 0.3        ┆ Iris-setosa │
│ 4.6         ┆ 3.2        ┆ 1.4         ┆ 0.2        ┆ Iris-setosa │
└────

- <font size = 4.8> **Groupby / Aggregation** </font>  
Se utiliza para agrupar fila de un *DataFrame* en función de una o varias columnas y realizar cálculos agregados en esas agrupaciones, pueden producir resultados de cualquier longitud.  

In [60]:
group1 = df.groupby('class')
print(group1.mean())

group2 = df.groupby('class')
print(group2.sum())

group3 = df.groupby('class')
print(group3.max())

shape: (3, 5)
┌─────────────────┬─────────────┬────────────┬─────────────┬────────────┐
│ class           ┆ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth │
│ ---             ┆ ---         ┆ ---        ┆ ---         ┆ ---        │
│ str             ┆ f64         ┆ f64        ┆ f64         ┆ f64        │
╞═════════════════╪═════════════╪════════════╪═════════════╪════════════╡
│ Iris-setosa     ┆ 5.006       ┆ 3.418      ┆ 1.464       ┆ 0.244      │
│ Iris-virginica  ┆ 6.588       ┆ 2.974      ┆ 5.552       ┆ 2.026      │
│ Iris-versicolor ┆ 5.936       ┆ 2.77       ┆ 4.26        ┆ 1.326      │
└─────────────────┴─────────────┴────────────┴─────────────┴────────────┘
shape: (3, 5)
┌─────────────────┬─────────────┬────────────┬─────────────┬────────────┐
│ class           ┆ sepallength ┆ sepalwidth ┆ petallength ┆ petalwidth │
│ ---             ┆ ---         ┆ ---        ┆ ---         ┆ ---        │
│ str             ┆ f64         ┆ f64        ┆ f64         ┆ f64        │
╞═════════

# <font color="#CD0000">API </font>   

## Lazy / Eager API   
Se utiliza para operaciones de transformación de datos que se realizan en memoria y se ejecutan de forma sincrónica. Con esta API, las operaciones se realizan de manera perezosa (lazy) o ansiosa (eager). Las operaciones perezosas son aquellas que no se ejecutan inmediatamente y se retrasan hasta que sea necesario, mientras que las operaciones ansiosas se ejecutan inmediatamente y devuelven los resultados en el momento de la llamada.A pesar de eso,esperar a la ejecución hasta el último minuto puede tener importantes ventajas de rendimiento, por lo que se prefiere la **lazy API** en la mayoría de los casos.

### Eager
En este ejemplo, usaremos **eager API** para:
- Leer el conjunto de datos iris .
- Filtrar el conjunto de datos según la longitud del sépalo.
- Calcular la media del ancho del sépalo por especie .

Cada paso se ejecuta inmediatamente devolviendo los resultados intermedios. Esto puede ser muy derrochador, ya que podríamos trabajar o cargar datos adicionales que no se están utilizando. Si, en cambio, usamos la **lazy API**y esperamos la ejecución hasta que se definan todos los pasos, entonces el planificador de consultas podría realizar varias optimizaciones.

In [61]:
df_small = df.filter(pl.col("sepallength") > 5)
df_agg = df_small.groupby("class").agg(pl.col("sepalwidth").mean())
print(df_agg)

shape: (3, 2)
┌─────────────────┬────────────┐
│ class           ┆ sepalwidth │
│ ---             ┆ ---        │
│ str             ┆ f64        │
╞═════════════════╪════════════╡
│ Iris-setosa     ┆ 3.713636   │
│ Iris-versicolor ┆ 2.804255   │
│ Iris-virginica  ┆ 2.983673   │
└─────────────────┴────────────┘


### Lazy  
En este caso:

- Empuje de predicado: aplica filtros lo antes posible mientras lee el conjunto de datos, por lo tanto, solo lee filas con una longitud de sépalo superior a 5.
- Desplazamiento de proyección: selecciona solo las columnas que se necesitan mientras lee el conjunto de datos, eliminando así la necesidad de cargar columnas adicionales (por ejemplo, longitud de pétalo y ancho de pétalo).   

Estos reducira significativamente la carga en la memoria , lo que le permitirá colocar conjuntos de datos más grandes en la memoria y procesarlos más rápido.

In [3]:
q1 = (
    pl.scan_csv("iris.csv")
    .filter(pl.col("sepallength") > 5)
    .groupby("class")
    .agg(pl.col("sepalwidth").mean())
)

df_lazy = q1.collect()#collect() informa a Polars que quiere ejecutarla
print(df_lazy)

shape: (3, 2)
┌─────────────────┬────────────┐
│ class           ┆ sepalwidth │
│ ---             ┆ ---        │
│ str             ┆ f64        │
╞═════════════════╪════════════╡
│ Iris-versicolor ┆ 2.804255   │
│ Iris-setosa     ┆ 3.713636   │
│ Iris-virginica  ┆ 2.983673   │
└─────────────────┴────────────┘


**¿Cómo saber cuál usar?**  
En general, si los datos caben en la memoria, es posible que se pueda utilizar la **Eager API**. Si trabajas con grandes conjuntos de datos o se realiza operaciones complejas, es posible que se necesite utilizar la  **Lazy API**.

## Streaming API   
Se utiliza para operaciones que se realizan en un flujo continuo de datos. Esta API se basa en un modelo push, en el que los datos se transmiten de forma asincrónica a través de un flujo de datos. En lugar de procesar todos los datos de una vez, se procesan los datos en pequeños fragmentos a medida que se van recibiendo. Esto hace que la **streaming API** sea adecuada para el procesamiento de datos en tiempo real y para el manejo de grandes volúmenes de datos que no caben en memoria.  
Para decirle a Polars que queremos ejecutar una consulta en modo streaming le pasamos el **streaming=True** argumento a collect.

In [4]:
q2 = (
    pl.scan_csv("iris.csv")
    .filter(pl.col("sepallength") > 5)
    .groupby("class")
    .agg(pl.col("sepalwidth").mean())
)

df_streaming = q2.collect(streaming=True)
print(df_streaming)

shape: (3, 2)
┌─────────────────┬────────────┐
│ class           ┆ sepalwidth │
│ ---             ┆ ---        │
│ str             ┆ f64        │
╞═════════════════╪════════════╡
│ Iris-setosa     ┆ 3.713636   │
│ Iris-versicolor ┆ 2.804255   │
│ Iris-virginica  ┆ 2.983673   │
└─────────────────┴────────────┘
