# Lectura 32: Lazy API

Vamos a crear una consulta lazy a partir del dataset de vuelos y aplicaremos algunas transformaciones. 

Al iniciar la consulta con `pl.scan_parquet`, estamos utilizando la API lazy.

## Uso de la API lazy a partir de la lectura de un archivo

In [1]:
import polars as pl
from polars import col

query = (
    pl.scan_parquet('./data/vuelos/vuelos.parquet').with_columns(
        col('AIR_TIME') / 60
    )
    .filter(col('MONTH') > 10)
)

type(query)

polars.lazyframe.frame.LazyFrame

En esta consulta le decimos a Polars que queremos:

- cargar datos desde el archivo `vuelos.parquet`
- convertir la columna `AIR_TIME` a horas suponiendo que lo que contiene son minutos
- aplicar un filtro a la columna `MONTH`

La consulta lazy no se ejecutará en este momento a menos que le apliquemos un `.collect()` .

In [2]:
query.collect()

YEAR,MONTH,DAY,DAY_OF_WEEK,AIRLINE,FLIGHT_NUMBER,TAIL_NUMBER,ORIGIN_AIRPORT,DESTINATION_AIRPORT,SCHEDULED_DEPARTURE,DEPARTURE_TIME,DEPARTURE_DELAY,TAXI_OUT,WHEELS_OFF,SCHEDULED_TIME,ELAPSED_TIME,AIR_TIME,DISTANCE,WHEELS_ON,TAXI_IN,SCHEDULED_ARRIVAL,ARRIVAL_TIME,ARRIVAL_DELAY,DIVERTED,CANCELLED,CANCELLATION_REASON,AIR_SYSTEM_DELAY,SECURITY_DELAY,AIRLINE_DELAY,LATE_AIRCRAFT_DELAY,WEATHER_DELAY
i32,i32,i32,i32,str,i32,str,str,str,i32,i32,i32,i32,i32,i32,i32,f64,i32,i32,i32,i32,i32,i32,i32,i32,str,i32,i32,i32,i32,i32
2015,11,1,7,"""NK""",612,"""N602NK""","""LAS""","""MSP""",5,7,2,17,24,177,177,2.566667,1299,358,6,402,404,2,0,0,,,,,,
2015,11,1,7,"""UA""",680,"""N76516""","""SFO""","""ORD""",14,19,5,15,34,258,231,3.516667,1846,505,5,532,510,-22,0,0,,,,,,
2015,11,1,7,"""AA""",260,"""N3KTAA""","""LAX""","""MIA""",15,6,-9,30,36,296,313,4.5,2342,706,13,711,719,8,0,0,,,,,,
2015,11,1,7,"""UA""",910,"""N76503""","""LAX""","""ORD""",31,27,-4,14,41,248,231,3.516667,1744,512,6,539,518,-21,0,0,,,,,,
2015,11,1,7,"""UA""",1888,,"""LAS""","""IAH""",41,,,,,172,,,1222,,,433,,,0,1,"""A""",,,,,
…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…,…
2015,12,31,4,"""B6""",688,"""N657JB""","""LAX""","""BOS""",2359,2355,-4,22,17,320,298,4.533333,2611,749,4,819,753,-26,0,0,,,,,,
2015,12,31,4,"""B6""",745,"""N828JB""","""JFK""","""PSE""",2359,2355,-4,17,12,227,215,3.25,1617,427,3,446,430,-16,0,0,,,,,,
2015,12,31,4,"""B6""",1503,"""N913JB""","""JFK""","""SJU""",2359,2350,-9,17,7,221,222,3.283333,1598,424,8,440,432,-8,0,0,,,,,,
2015,12,31,4,"""B6""",333,"""N527JB""","""MCO""","""SJU""",2359,2353,-6,10,3,161,157,2.4,1189,327,3,340,330,-10,0,0,,,,,,


## Uso de la API lazy desde un DataFrame

Una forma alternativa de acceder a la API lazy es llamar a `.lazy` en un DataFrame que ya se ha creado en la memoria.

Al llamar a `.lazy` convertimos el DataFrame en un LazyFrame.

In [3]:
df = pl.DataFrame(
    {
        'id': [1, 2, 3],
        'nombre': ['Rosa', 'Ana', 'Pedro']
    }
)

df_lazy = df.lazy()

In [4]:
type(df_lazy)

polars.lazyframe.frame.LazyFrame

## Schema

El esquema de un DataFrame o un LazyFrame establece los nombres de las columnas y sus tipos de datos. Si recordamos podemos ver el esquema de un DataFrame o un LazyFrame con el método `.schema`.

In [5]:
df.schema

OrderedDict([('id', Int64), ('nombre', String)])

In [6]:
df_lazy.schema

OrderedDict([('id', Int64), ('nombre', String)])

## Comprobación de tipos de datos en la API lazy

El esquema juega un papel importante en la API lazy. 

Una ventaja de la API lazy es que Polars comprobará el esquema antes de procesar cualquier dato. Esta verificación ocurre cuando ejecutamos nuestra consulta lazy.

Vemos cómo funciona esto en el siguiente ejemplo donde llamamos a la expresión `.round` en la columna `id` del DataFrame que previamente hemos creado.

In [7]:
df_lazy.with_columns(col('id').round(0)).collect()

InvalidOperationError: `round` operation not supported for dtype `i64`

Los que ha sucedido es que la expresión `.round` solo es válida para columnas de tipo float. Llamar a `.round` en una columna de números enteros significa que la operación generará un  error de tipo `InvalidOperationError` cuando evaluemos la consulta con `collect`. Esta verificación de esquema ocurre antes de que se procesen los datos cuando llamamos a `collect`.

## Manejo de operaciones no disponibles en la API lazy

In [8]:
lazy_eager_query = (
    pl.scan_parquet('./data/vuelos/vuelos.parquet').with_columns(
        air_time_hrs=(col('AIR_TIME') / 60)
    )
    .collect()
    .pivot(
        index='AIRLINE', columns='MONTH', values='AIR_TIME', aggregate_function='mean'
    )
    .lazy()
    .filter(col('AIRLINE') == 'AA')
    .collect()
)

print(lazy_eager_query)

shape: (1, 13)
┌─────────┬────────────┬───────────┬───────────┬───┬───────────┬───────────┬───────────┬───────────┐
│ AIRLINE ┆ 1          ┆ 2         ┆ 3         ┆ … ┆ 9         ┆ 10        ┆ 11        ┆ 12        │
│ ---     ┆ ---        ┆ ---       ┆ ---       ┆   ┆ ---       ┆ ---       ┆ ---       ┆ ---       │
│ str     ┆ f64        ┆ f64       ┆ f64       ┆   ┆ f64       ┆ f64       ┆ f64       ┆ f64       │
╞═════════╪════════════╪═══════════╪═══════════╪═══╪═══════════╪═══════════╪═══════════╪═══════════╡
│ AA      ┆ 144.820147 ┆ 145.54276 ┆ 146.06545 ┆ … ┆ 134.30460 ┆ 133.53565 ┆ 134.35981 ┆ 138.49798 │
│         ┆            ┆ 5         ┆ 9         ┆   ┆ 4         ┆ 7         ┆ 5         ┆ 9         │
└─────────┴────────────┴───────────┴───────────┴───┴───────────┴───────────┴───────────┴───────────┘
