# Lectura 34: LazyFrame - Agregaciones

## Crear un LazyFrame

In [1]:
import polars as pl

lf = pl.LazyFrame(
    {
        'id': [1,2,3],
        'nombre': ['Jose', 'Ana', 'Rosa']
    }
)

lf

Si tratamos de mostar el LazyFrame como se muestra en la celda previa lo que obtendremos es una representación visual del plan de ejecución. Esto sucede porque como ya se comentó en lecciones previas un LazyFrame no es más que una promesa de cálculo, es decir, planes de consulta.

Por tanto si deseamos mostrar el LazyFrame debemos convertirlo a un DataFrame con la función `collect` y luego mostrarlo.

In [2]:
lf.collect()

id,nombre
i64,str
1,"""Jose"""
2,"""Ana"""
3,"""Rosa"""


## `null_count`

Esta función retorna el conteo de valores nulos de cada columna.

In [3]:
from polars import col

query = (
    pl.scan_parquet('./data/vuelos/vuelos.parquet')
    .select(
        col('AIRLINE_DELAY'),
        col('SECURITY_DELAY'),
        col('WEATHER_DELAY')
    )
    .null_count()
)

query.collect()

AIRLINE_DELAY,SECURITY_DELAY,WEATHER_DELAY
u32,u32,u32
4755640,4755640,4755640


## `sum`

Esta función devuelve la suma de los valores de cada columna del DataFrame.

In [4]:
vuelos_lf = (
    pl.scan_parquet('./data/vuelos/vuelos.parquet')
    .select(
        col('AIR_TIME'),
        col('DISTANCE')
    ) 
)

vuelos_lf.sum().collect()

AIR_TIME,DISTANCE
i32,i32
648606351,490390113


## `min, max` y `mean`

Esta funciones se comportan igual en un DataFrame o un LazyFrame.

In [5]:
vuelos_lf.min().collect()

AIR_TIME,DISTANCE
i32,i32
7,21


In [6]:
vuelos_lf.max().collect()

AIR_TIME,DISTANCE
i32,i32
690,4983


In [7]:
vuelos_lf.mean().collect()

AIR_TIME,DISTANCE
f64,f64
113.511628,822.356495
