# Actividades:
Mediante Python y utilizando Kaggle, crea un notebook a partir de los datos 
del dataset de retrasos en los vuelos y a partir de uno de los ficheros (el que más te 
guste), y teniendo en cuenta que los campos están separados por comas (,), 
transforma los datos y persiste los siguientes archivos:
- `air<anyo>.parquet`: el archivo CSV en formato Parquet.
- `air<anyo>.orc`: el archivo CSV en formato ORC.
- `air<anyo>_snappy.orc`: el archivo CSV comprimido en formato Snappy en 
formato ORC.
- `air<anyo>_small.avro`: la fecha (FL_DATE), el identificador de la aerolínea 
(OP_CARRIER) y el retraso de cada vuelo (DEP_DELAY) en formato Avro.

### Paso 1: Cargar el Dataset (CSV 2018)
Vamos a cargar los datos del archivo CSV en un DataFrame de Pandas.

In [5]:
import pandas as pd

# Cargar el archivo CSV de retrasos en los vuelos de 2018
df = pd.read_csv('/kaggle/input/airline-delay-and-cancellation-data-2009-2018/2018.csv')

# Ver las primeras filas para asegurarnos de que el archivo se cargó correctamente
df.head()

Unnamed: 0,FL_DATE,OP_CARRIER,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,TAXI_OUT,WHEELS_OFF,...,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY,Unnamed: 27
0,2018-01-01,UA,2429,EWR,DEN,1517,1512.0,-5.0,15.0,1527.0,...,268.0,250.0,225.0,1605.0,,,,,,
1,2018-01-01,UA,2427,LAS,SFO,1115,1107.0,-8.0,11.0,1118.0,...,99.0,83.0,65.0,414.0,,,,,,
2,2018-01-01,UA,2426,SNA,DEN,1335,1330.0,-5.0,15.0,1345.0,...,134.0,126.0,106.0,846.0,,,,,,
3,2018-01-01,UA,2425,RSW,ORD,1546,1552.0,6.0,19.0,1611.0,...,190.0,182.0,157.0,1120.0,,,,,,
4,2018-01-01,UA,2424,ORD,ALB,630,650.0,20.0,13.0,703.0,...,112.0,106.0,83.0,723.0,,,,,,


### Convertir el DataFrame a formato Parquet
Primero, asegúrate de haber filtrado las columnas y limpiado los datos correctamente (como hicimos anteriormente). Luego, podemos usar la librería pyarrow para convertir el DataFrame a formato Parquet.

Aquí está el código para hacerlo:

In [11]:
import pandas as pd

# Guardar el DataFrame completo en formato Parquet en el directorio de salida de Kaggle
df.to_parquet('/kaggle/working/air2018.parquet')

print("Archivo Parquet guardado exitosamente.")

Archivo Parquet guardado exitosamente.


In [10]:
# Leer el archivo Parquet guardado
df_parquet = pd.read_parquet('/kaggle/working/air2018.parquet')

# Verificar las primeras filas del archivo Parquet
df_parquet.head()

Unnamed: 0,FL_DATE,OP_CARRIER,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,TAXI_OUT,WHEELS_OFF,...,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY,Unnamed: 27
0,2018-01-01,UA,2429,EWR,DEN,1517,1512.0,-5.0,15.0,1527.0,...,268.0,250.0,225.0,1605.0,,,,,,
1,2018-01-01,UA,2427,LAS,SFO,1115,1107.0,-8.0,11.0,1118.0,...,99.0,83.0,65.0,414.0,,,,,,
2,2018-01-01,UA,2426,SNA,DEN,1335,1330.0,-5.0,15.0,1345.0,...,134.0,126.0,106.0,846.0,,,,,,
3,2018-01-01,UA,2425,RSW,ORD,1546,1552.0,6.0,19.0,1611.0,...,190.0,182.0,157.0,1120.0,,,,,,
4,2018-01-01,UA,2424,ORD,ALB,630,650.0,20.0,13.0,703.0,...,112.0,106.0,83.0,723.0,,,,,,


### DataFrame a formato ORC
Luego, con PyArrow, podemos convertir el DataFrame de Pandas a una tabla de PyArrow y guardarla en formato ORC.

In [12]:
import pyarrow as pa
import pyarrow.orc as orc

# Convertir el DataFrame de Pandas a una tabla de PyArrow
table = pa.Table.from_pandas(df)

# Guardar la tabla en formato ORC en el directorio de salida de Kaggle
table.to_pandas().to_orc('/kaggle/working/air2018.orc')

print("Archivo ORC guardado exitosamente.")

Archivo ORC guardado exitosamente.


In [13]:
import pyarrow.orc as orc

# Leer el archivo ORC guardado
table_orc = orc.read_table('/kaggle/working/air2018.orc')

# Convertir a pandas para inspeccionar las primeras filas
df_orc = table_orc.to_pandas()
df_orc.head()

Unnamed: 0,FL_DATE,OP_CARRIER,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,TAXI_OUT,WHEELS_OFF,...,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY,Unnamed: 27
0,2018-01-01,UA,2429,EWR,DEN,1517,1512.0,-5.0,15.0,1527.0,...,268.0,250.0,225.0,1605.0,,,,,,
1,2018-01-01,UA,2427,LAS,SFO,1115,1107.0,-8.0,11.0,1118.0,...,99.0,83.0,65.0,414.0,,,,,,
2,2018-01-01,UA,2426,SNA,DEN,1335,1330.0,-5.0,15.0,1345.0,...,134.0,126.0,106.0,846.0,,,,,,
3,2018-01-01,UA,2425,RSW,ORD,1546,1552.0,6.0,19.0,1611.0,...,190.0,182.0,157.0,1120.0,,,,,,
4,2018-01-01,UA,2424,ORD,ALB,630,650.0,20.0,13.0,703.0,...,112.0,106.0,83.0,723.0,,,,,,


### Guardar en formato ORC con compresión Snappy
Para esto, vamos a usar PyArrow para aplicar compresión Snappy al archivo ORC.

In [61]:
import time
import pyarrow as pa
import pyarrow.orc as orc

# Convertir el DataFrame de Pandas a una tabla de PyArrow
table = pa.Table.from_pandas(df)

# Guardar la tabla en formato ORC con compresión Snappy en el directorio de salida de Kaggle
orc.write_table(table, '/kaggle/working/air2018_snappy.orc', compression='SNAPPY')

print("Archivo ORC con compresión Snappy guardado exitosamente.")

Archivo ORC con compresión Snappy guardado exitosamente.


In [15]:
# Leer el archivo ORC comprimido con Snappy
table_orc_snappy = orc.read_table('/kaggle/working/air2018_snappy.orc')

# Convertir a pandas para inspeccionar las primeras filas
df_orc_snappy = table_orc_snappy.to_pandas()
df_orc_snappy.head()

Unnamed: 0,FL_DATE,OP_CARRIER,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,TAXI_OUT,WHEELS_OFF,...,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY,Unnamed: 27
0,2018-01-01,UA,2429,EWR,DEN,1517,1512.0,-5.0,15.0,1527.0,...,268.0,250.0,225.0,1605.0,,,,,,
1,2018-01-01,UA,2427,LAS,SFO,1115,1107.0,-8.0,11.0,1118.0,...,99.0,83.0,65.0,414.0,,,,,,
2,2018-01-01,UA,2426,SNA,DEN,1335,1330.0,-5.0,15.0,1345.0,...,134.0,126.0,106.0,846.0,,,,,,
3,2018-01-01,UA,2425,RSW,ORD,1546,1552.0,6.0,19.0,1611.0,...,190.0,182.0,157.0,1120.0,,,,,,
4,2018-01-01,UA,2424,ORD,ALB,630,650.0,20.0,13.0,703.0,...,112.0,106.0,83.0,723.0,,,,,,


### Convertir Dataset filtrado a Avro




In [24]:
import pandas as pd
import fastavro

# Seleccionar las columnas necesarias
df_small = df[['FL_DATE', 'OP_CARRIER', 'DEP_DELAY']]

# Definir el esquema de Avro
schema = {
    "type": "record",
    "name": "FlightRecord",
    "fields": [
        {"name": "FL_DATE", "type": "string"},
        {"name": "OP_CARRIER", "type": "string"},
        {"name": "DEP_DELAY", "type": ["null", "float"], "default": None},
    ]
}

# Convertir el DataFrame a una lista de diccionarios
records = df_small.to_dict(orient='records')

# Guardar los datos como archivo Avro
with open('/kaggle/working/air2018_small.avro', 'wb') as out:
    fastavro.writer(out, schema, records)

print("Archivo Avro guardado exitosamente.")


Archivo Avro guardado exitosamente.


In [25]:
# Leer el archivo Avro guardado
import fastavro

with open('/kaggle/working/air2018_small.avro', 'rb') as f:
    reader = fastavro.reader(f)
    # Convertimos a pandas para poder visualizarlo
    df_avro = pd.DataFrame(reader)

# Verificar las primeras filas
df_avro.head()

Unnamed: 0,FL_DATE,OP_CARRIER,DEP_DELAY
0,2018-01-01,UA,-5.0
1,2018-01-01,UA,-8.0
2,2018-01-01,UA,-5.0
3,2018-01-01,UA,6.0
4,2018-01-01,UA,20.0


### Convertir Dataset filtrado a formato Parquet

In [26]:
import pandas as pd

# Seleccionar las columnas necesarias
df_small = df[['FL_DATE', 'OP_CARRIER', 'DEP_DELAY']]

# Guardar el DataFrame en formato Parquet
df_small.to_parquet('/kaggle/working/air2018_small.parquet', engine='pyarrow')

print("Archivo Parquet guardado exitosamente.")


Archivo Parquet guardado exitosamente.


In [27]:
# Leer el archivo Parquet guardado
df_parquet = pd.read_parquet('/kaggle/working/air2018_small.parquet', engine='pyarrow')

# Verificar las primeras filas
df_parquet.head()

Unnamed: 0,FL_DATE,OP_CARRIER,DEP_DELAY
0,2018-01-01,UA,-5.0
1,2018-01-01,UA,-8.0
2,2018-01-01,UA,-5.0
3,2018-01-01,UA,6.0
4,2018-01-01,UA,20.0


In [60]:
import os
import time
import pandas as pd
import pyarrow.parquet as pq
import pyarrow.orc as orc
import pyarrow as pa
import fastavro

# Crear una función para medir el tiempo de creación de cada archivo
def measure_time(func, *args):
    start_time = time.time() # Iniciar el cronómetro con mayor precisión
    func(*args)  # Ejecutar la función para crear el archivo
    end_time = time.time()  # Finalizar el cronómetro
    return round((end_time - start_time)* 1000, 2)  # Retornar el tiempo transcurrido

# Lista de archivos a generar (ahora con el archivo 'air2018_small.parquet' incluido)
output_files = [
    "/kaggle/working/air2018.parquet",
    "/kaggle/working/air2018.orc",
    "/kaggle/working/air2018_snappy.orc",
    "/kaggle/working/air2018_small.avro",
    "/kaggle/working/air2018_small.parquet"
]
# Lista para almacenar los resultados
results = []

# 1. Crear archivo Parquet
def create_parquet(df, filename):
    df.to_parquet(filename)

parquet_time = measure_time(create_parquet, df, output_files[0])

# 2. Crear archivo ORC
def create_orc(df, filename):
    table = pa.Table.from_pandas(df)
    with open(filename, 'wb') as f:
        orc.write_table(table, f)

orc_time = measure_time(create_orc, df, output_files[1])

# 3. Crear archivo ORC con compresión Snappy
def create_orc_snappy(df, filename):
    table = pa.Table.from_pandas(df)
    with open(filename, 'wb') as f:
        orc.write_table(table, f, compression='SNAPPY')

orc_snappy_time = measure_time(create_orc_snappy, df, output_files[2])

# 4. Crear archivo Avro
def create_avro(df, filename):
    records = df.to_dict(orient='records')
    schema = {
        'type': 'record',
        'name': 'flight',
        'fields': [
            {'name': 'FL_DATE', 'type': 'string'},
            {'name': 'OP_CARRIER', 'type': 'string'},
            {'name': 'DEP_DELAY', 'type': 'int'}
        ]
    }
    with open(filename, 'wb') as out:
        writer = fastavro.writer(out, schema, records)

avro_time = measure_time(create_avro, df, output_files[3])

# 5. Crear archivo Parquet pequeño (solo con las columnas necesarias)
def create_small_parquet(df, filename):
    df_small = df[['FL_DATE', 'OP_CARRIER', 'DEP_DELAY']]  # Selección de columnas
    df_small.to_parquet(filename)

small_parquet_time = measure_time(create_small_parquet, df, output_files[4])

# Almacenar los resultados (archivo, tamaño y tiempo de creación)
for i, file in enumerate(output_files):
    file_size = os.path.getsize(file)
    # Usar el tiempo correspondiente basado en el índice de la lista
    times = [parquet_time, orc_time, orc_snappy_time, avro_time, small_parquet_time]
    results.append({
        "Archivo": file.split('/')[-1],  # Para mostrar solo el nombre del archivo sin la ruta
        "Tamaño": round(file_size, 2),
        "Tiempo de creación (milisegundos)": times[i]
    })

# Crear un DataFrame con los resultados
df_results = pd.DataFrame(results)

# Mostrar la tabla de resultados
df_results


Unnamed: 0,Archivo,Tamaño,Tiempo de creación (milisegundos)
0,air2018.parquet,3072,6.5
1,air2018.orc,39573,3.24
2,air2018_snappy.orc,2407,2.99
3,air2018_small.avro,45282,15.25
4,air2018_small.parquet,3072,4.9
