# Lectura 50: Funciones de conversión

In [1]:
import pyarrow.parquet as pq

tabla_vuelos = pq.read_table('./data/vuelos/')

tabla_vuelos

pyarrow.Table
YEAR: int32
MONTH: int32
DAY: int32
DAY_OF_WEEK: int32
AIRLINE: string
FLIGHT_NUMBER: int32
TAIL_NUMBER: string
ORIGIN_AIRPORT: string
DESTINATION_AIRPORT: string
SCHEDULED_DEPARTURE: int32
DEPARTURE_TIME: int32
DEPARTURE_DELAY: int32
TAXI_OUT: int32
WHEELS_OFF: int32
SCHEDULED_TIME: int32
ELAPSED_TIME: int32
AIR_TIME: int32
DISTANCE: int32
WHEELS_ON: int32
TAXI_IN: int32
SCHEDULED_ARRIVAL: int32
ARRIVAL_TIME: int32
ARRIVAL_DELAY: int32
DIVERTED: int32
CANCELLED: int32
CANCELLATION_REASON: string
AIR_SYSTEM_DELAY: int32
SECURITY_DELAY: int32
AIRLINE_DELAY: int32
LATE_AIRCRAFT_DELAY: int32
WEATHER_DELAY: int32
----
YEAR: [[2015,2015,2015,2015,2015,...,2015,2015,2015,2015,2015],[2015,2015,2015,2015,2015,...,2015,2015,2015,2015,2015],...,[2015,2015,2015,2015,2015,...,2015,2015,2015,2015,2015],[2015,2015,2015,2015,2015,...,2015,2015,2015,2015,2015]]
MONTH: [[1,1,1,1,1,...,1,1,1,1,1],[1,1,1,1,1,...,1,1,1,1,1],...,[12,12,12,12,12,...,12,12,12,12,12],[12,12,12,12,12,...,12,12,12

## Crear un DataFrame de Polars desde una tabla de Arrow

La función `from_arrow` permite crear un DataFrame de Polars a partir de una tabla Arrow. Esta operación no creará copias en su mayor parte. Los tipos que no son compatibles con Polars se pueden convertir al tipo compatible más cercano.

In [2]:
import polars as pl

vuelos_df = pl.from_arrow(tabla_vuelos)

print(vuelos_df)

shape: (5_819_079, 31)
┌──────┬───────┬─────┬─────────────┬───┬──────────────┬──────────────┬──────────────┬──────────────┐
│ YEAR ┆ MONTH ┆ DAY ┆ DAY_OF_WEEK ┆ … ┆ SECURITY_DEL ┆ AIRLINE_DELA ┆ LATE_AIRCRAF ┆ WEATHER_DELA │
│ ---  ┆ ---   ┆ --- ┆ ---         ┆   ┆ AY           ┆ Y            ┆ T_DELAY      ┆ Y            │
│ i32  ┆ i32   ┆ i32 ┆ i32         ┆   ┆ ---          ┆ ---          ┆ ---          ┆ ---          │
│      ┆       ┆     ┆             ┆   ┆ i32          ┆ i32          ┆ i32          ┆ i32          │
╞══════╪═══════╪═════╪═════════════╪═══╪══════════════╪══════════════╪══════════════╪══════════════╡
│ 2015 ┆ 1     ┆ 1   ┆ 4           ┆ … ┆ null         ┆ null         ┆ null         ┆ null         │
│ 2015 ┆ 1     ┆ 1   ┆ 4           ┆ … ┆ null         ┆ null         ┆ null         ┆ null         │
│ 2015 ┆ 1     ┆ 1   ┆ 4           ┆ … ┆ null         ┆ null         ┆ null         ┆ null         │
│ 2015 ┆ 1     ┆ 1   ┆ 4           ┆ … ┆ null         ┆ null        

## Crear un DataFrame de Polars desde un Pandas DataFrame

La función `from_pandas` permite crear un DataFrame de Polars a partir de un Pandas DataFrame. Esta operación clona los datos. Además, requiere que `pandas` y `pyarrow` estén instalados.

In [3]:
vuelos_pd = tabla_vuelos.to_pandas()

vuelos_pd

Unnamed: 0,YEAR,MONTH,DAY,DAY_OF_WEEK,AIRLINE,FLIGHT_NUMBER,TAIL_NUMBER,ORIGIN_AIRPORT,DESTINATION_AIRPORT,SCHEDULED_DEPARTURE,...,ARRIVAL_TIME,ARRIVAL_DELAY,DIVERTED,CANCELLED,CANCELLATION_REASON,AIR_SYSTEM_DELAY,SECURITY_DELAY,AIRLINE_DELAY,LATE_AIRCRAFT_DELAY,WEATHER_DELAY
0,2015,1,1,4,AS,98,N407AS,ANC,SEA,5,...,408.0,-22.0,0,0,,,,,,
1,2015,1,1,4,AA,2336,N3KUAA,LAX,PBI,10,...,741.0,-9.0,0,0,,,,,,
2,2015,1,1,4,US,840,N171US,SFO,CLT,20,...,811.0,5.0,0,0,,,,,,
3,2015,1,1,4,AA,258,N3HYAA,LAX,MIA,20,...,756.0,-9.0,0,0,,,,,,
4,2015,1,1,4,AS,135,N527AS,SEA,ANC,25,...,259.0,-21.0,0,0,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5819074,2015,12,31,4,B6,688,N657JB,LAX,BOS,2359,...,753.0,-26.0,0,0,,,,,,
5819075,2015,12,31,4,B6,745,N828JB,JFK,PSE,2359,...,430.0,-16.0,0,0,,,,,,
5819076,2015,12,31,4,B6,1503,N913JB,JFK,SJU,2359,...,432.0,-8.0,0,0,,,,,,
5819077,2015,12,31,4,B6,333,N527JB,MCO,SJU,2359,...,330.0,-10.0,0,0,,,,,,


In [4]:
vuelos_df = pl.from_pandas(vuelos_pd)

print(vuelos_df)

shape: (5_819_079, 31)
┌──────┬───────┬─────┬─────────────┬───┬──────────────┬──────────────┬──────────────┬──────────────┐
│ YEAR ┆ MONTH ┆ DAY ┆ DAY_OF_WEEK ┆ … ┆ SECURITY_DEL ┆ AIRLINE_DELA ┆ LATE_AIRCRAF ┆ WEATHER_DELA │
│ ---  ┆ ---   ┆ --- ┆ ---         ┆   ┆ AY           ┆ Y            ┆ T_DELAY      ┆ Y            │
│ i32  ┆ i32   ┆ i32 ┆ i32         ┆   ┆ ---          ┆ ---          ┆ ---          ┆ ---          │
│      ┆       ┆     ┆             ┆   ┆ f64          ┆ f64          ┆ f64          ┆ f64          │
╞══════╪═══════╪═════╪═════════════╪═══╪══════════════╪══════════════╪══════════════╪══════════════╡
│ 2015 ┆ 1     ┆ 1   ┆ 4           ┆ … ┆ null         ┆ null         ┆ null         ┆ null         │
│ 2015 ┆ 1     ┆ 1   ┆ 4           ┆ … ┆ null         ┆ null         ┆ null         ┆ null         │
│ 2015 ┆ 1     ┆ 1   ┆ 4           ┆ … ┆ null         ┆ null         ┆ null         ┆ null         │
│ 2015 ┆ 1     ┆ 1   ┆ 4           ┆ … ┆ null         ┆ null        

## Crear un DataFrame de Polars desde un NumPy ndarray

La función `from_numpy` permite crear un DataFrame de Polars a partir de un NumPy ndarray. Esta operación clona los datos. Tenga en cuenta que esta operación pude ser un poco lenta en algunos casos.

In [5]:
vuelos_np = vuelos_pd.to_numpy()

type(vuelos_np)

numpy.ndarray

In [6]:
vuelos_np

array([[2015, 1, 1, ..., nan, nan, nan],
       [2015, 1, 1, ..., nan, nan, nan],
       [2015, 1, 1, ..., nan, nan, nan],
       ...,
       [2015, 12, 31, ..., nan, nan, nan],
       [2015, 12, 31, ..., nan, nan, nan],
       [2015, 12, 31, ..., nan, nan, nan]], dtype=object)

In [7]:
vuelos_df = pl.from_numpy(vuelos_np)

print(vuelos_df)

shape: (5_819_079, 31)
┌──────────┬──────────┬──────────┬──────────┬───┬───────────┬───────────┬───────────┬───────────┐
│ column_0 ┆ column_1 ┆ column_2 ┆ column_3 ┆ … ┆ column_27 ┆ column_28 ┆ column_29 ┆ column_30 │
│ ---      ┆ ---      ┆ ---      ┆ ---      ┆   ┆ ---       ┆ ---       ┆ ---       ┆ ---       │
│ object   ┆ object   ┆ object   ┆ object   ┆   ┆ object    ┆ object    ┆ object    ┆ object    │
╞══════════╪══════════╪══════════╪══════════╪═══╪═══════════╪═══════════╪═══════════╪═══════════╡
│ 2015     ┆ 1        ┆ 1        ┆ 4        ┆ … ┆ nan       ┆ nan       ┆ nan       ┆ nan       │
│ 2015     ┆ 1        ┆ 1        ┆ 4        ┆ … ┆ nan       ┆ nan       ┆ nan       ┆ nan       │
│ 2015     ┆ 1        ┆ 1        ┆ 4        ┆ … ┆ nan       ┆ nan       ┆ nan       ┆ nan       │
│ 2015     ┆ 1        ┆ 1        ┆ 4        ┆ … ┆ nan       ┆ nan       ┆ nan       ┆ nan       │
│ 2015     ┆ 1        ┆ 1        ┆ 4        ┆ … ┆ nan       ┆ nan       ┆ nan       ┆ nan      

## Crear un DataFrame de Polars desde una lista y un diccionario

Las funciones `from_records` y `from_dict` nos permiten crear un DataFrame de Polars desde un lista o un diccionario respectivamente.

In [8]:
valores = [['a', 'b', 'c'], [1,2,3]]

df_valores = pl.from_records(valores, schema=['letra', 'id'])

print(df_valores)

shape: (3, 2)
┌───────┬─────┐
│ letra ┆ id  │
│ ---   ┆ --- │
│ str   ┆ i64 │
╞═══════╪═════╡
│ a     ┆ 1   │
│ b     ┆ 2   │
│ c     ┆ 3   │
└───────┴─────┘


In [9]:
diccionario = {'id': [1,2,3], 'letra': ['x', 'y', 'z']}

df_diccionario = pl.from_dict(diccionario)

print(df_diccionario)

shape: (3, 2)
┌─────┬───────┐
│ id  ┆ letra │
│ --- ┆ ---   │
│ i64 ┆ str   │
╞═════╪═══════╡
│ 1   ┆ x     │
│ 2   ┆ y     │
│ 3   ┆ z     │
└─────┴───────┘


## Crear un DataFrame de Polars desde su representación String

La función `from_repr` permite crear un DataFrame de Polars a partir de su representación string.

Para este ejemplo tomaremos el DataFrame que hemos imprimido en la celda anterior y se lo proporcionaremos como parámetro a la función `from_repr`.

In [10]:
df_str = pl.from_repr(
    """
    shape: (3, 2)
┌─────┬───────┐
│ id  ┆ letra │
│ --- ┆ ---   │
│ i64 ┆ str   │
╞═════╪═══════╡
│ 1   ┆ x     │
│ 2   ┆ y     │
│ 3   ┆ z     │
└─────┴───────┘
    """
)

In [11]:
print(df_str)

shape: (3, 2)
┌─────┬───────┐
│ id  ┆ letra │
│ --- ┆ ---   │
│ i64 ┆ str   │
╞═════╪═══════╡
│ 1   ┆ x     │
│ 2   ┆ y     │
│ 3   ┆ z     │
└─────┴───────┘
