# Ejemplo ETL con Polars: Dataset de Taxis de Nueva York

En esta sección, implementaremos un ejemplo completo de ETL (Extracción, Transformación y Carga) utilizando Polars para procesar el dataset de taxis de Nueva York. Este ejemplo demostrará las ventajas de Polars sobre Pandas en términos de rendimiento y funcionalidades.

Nuestro ETL incluirá:
1. Extracción de datos desde archivos Parquet
2. Transformación y limpieza de datos con Polars
3. Validación de datos con Pydantic
4. Carga de datos en una base de datos SQLite utilizando SQLAlchemy
5. Implementación de DAGs (Directed Acyclic Graphs)
6. Configuración de logging para seguimiento del proceso

Comencemos explorando la estructura del proyecto y los componentes principales.

## Estructura del Proyecto

Nuestro proyecto ETL está organizado de la siguiente manera:

```
notebook_polars_pyspark/
├── data/
│   └── yellow_tripdata.parquet  # Dataset de taxis de Nueva York
├── etl_example/
│   ├── __init__.py
│   ├── etl_config.py      # Configuración del ETL
│   ├── models.py          # Modelos Pydantic para validación
│   ├── database.py        # Configuración de SQLAlchemy
│   ├── logger.py          # Configuración de logging
│   ├── etl_dag.py         # Implementación de DAGs
│   ├── output/            # Directorio para la base de datos
│   └── logs/              # Directorio para logs
└── notebooks/
```

Vamos a examinar cada componente del ETL en detalle.

## 1. Configuración del ETL (etl_config.py)

El archivo `etl_config.py` contiene la configuración básica para nuestro ETL, incluyendo rutas de archivos, configuración de la base de datos y parámetros de logging.

In [None]:
# Mostrar el contenido del archivo etl_config.py
from pathlib import Path

contenido = Path("etl_example/etl_config.py").read_text(encoding="utf-8")
print(contenido)

## 2. Modelos de Datos con Pydantic (models.py)

Utilizamos Pydantic para definir modelos de datos con validación estricta de tipos. Esto nos permite asegurar que los datos cumplen con nuestras expectativas antes de cargarlos en la base de datos.

In [None]:
# Mostrar el contenido del archivo models.py
contenido = Path("etl_example/models.py").read_text(encoding="utf-8")
print(contenido)

### Ventajas de Pydantic para Validación de Datos

Pydantic ofrece varias ventajas para la validación de datos en flujos ETL:

1. **Validación de tipos en tiempo de ejecución**: Pydantic valida automáticamente los tipos de datos y convierte valores cuando es posible.
2. **Validadores personalizados**: Podemos definir funciones de validación personalizadas para reglas de negocio específicas.
3. **Documentación integrada**: Los modelos Pydantic son autodocumentados con descripciones de campos.
4. **Integración con FastAPI y otras bibliotecas**: Pydantic se integra bien con el ecosistema de Python.
5. **Manejo de errores detallado**: Proporciona mensajes de error claros cuando la validación falla.

## 3. Configuración de la Base de Datos con SQLAlchemy (database.py)

Utilizamos SQLAlchemy para definir el esquema de la base de datos y gestionar las conexiones. SQLAlchemy nos permite trabajar con bases de datos de manera orientada a objetos.

In [None]:
# Mostrar el contenido del archivo database.py
contenido = Path("etl_example/database.py").read_text(encoding="utf-8")
print(contenido)

### Ventajas de SQLAlchemy para ETL

SQLAlchemy ofrece varias ventajas para los procesos ETL:

1. **Abstracción de la base de datos**: Podemos cambiar el motor de base de datos sin modificar el código.
2. **Mapeo objeto-relacional (ORM)**: Trabajamos con objetos Python en lugar de SQL directo.
3. **Gestión de sesiones**: Manejo eficiente de transacciones y conexiones.
4. **Migraciones de esquema**: Facilita la evolución del esquema de la base de datos.
5. **Validación a nivel de base de datos**: Complementa la validación de Pydantic con restricciones a nivel de base de datos.

## 4. Configuración de Logging (logger.py)

El sistema de logging nos permite seguir el progreso del ETL y diagnosticar problemas.

In [None]:
# Mostrar el contenido del archivo logger.py
contenido = Path("etl_example/logger.py").read_text(encoding="utf-8")
print(contenido)

## 5. Implementación de DAGs (etl_dag.py)

Para implementar DAGs (Directed Acyclic Graphs) que definen el flujo de trabajo del ETL.

In [None]:
# Mostrar el contenido del archivo etl_dag.py
contenido = Path("etl_example/etl_dag.py").read_text(encoding="utf-8")
print(contenido)

## Ejecutando el ETL

Ahora vamos a ejecutar nuestro ETL y analizar su rendimiento. Primero, importamos los módulos necesarios y configuramos el entorno.

In [1]:
import sys
import time
from pathlib import Path

# Añadir el directorio raíz al path para poder importar los módulos
sys.path.append(str(Path.cwd().parent))

# Importar los módulos del ETL
from etl_example.etl_dag import nyc_taxi_etl_flow
from etl_example.etl_config import DB_PATH, OUTPUT_DIR

# Asegurar que el directorio de salida existe
OUTPUT_DIR.mkdir(exist_ok=True, parents=True)

# Eliminar la base de datos si existe para empezar desde cero
if DB_PATH.exists():
    DB_PATH.unlink()

print(f"Configuración completada. La base de datos se creará en: {DB_PATH}")

Configuración completada. La base de datos se creará en: c:\Users\jamr1\Desktop\DS102024\4-DataEngineer\PolarsPySpark\etl_example\output\nyc_taxi.db


Ahora ejecutamos el flujo ETL y medimos el tiempo que tarda en completarse.

In [2]:
# Ejecutar el flujo ETL y medir el tiempo
start_time = time.time()

# Ejecutar el flujo
nyc_taxi_etl_flow()

end_time = time.time()
execution_time = end_time - start_time

print(f"\nETL completado en {execution_time:.2f} segundos")

2025-04-09 14:40:52,375 - nyc_taxi_etl - INFO - Iniciando flujo ETL para datos de taxis de Nueva York


2025-04-09 14:40:52,375 [INFO] Iniciando flujo ETL para datos de taxis de Nueva York


2025-04-09 14:40:52,380 - nyc_taxi_etl - INFO - Extrayendo datos del archivo: c:\Users\jamr1\Desktop\DS102024\4-DataEngineer\PolarsPySpark\data\processed\yellow_tripdata_small.parquet


2025-04-09 14:40:52,380 [INFO] Extrayendo datos del archivo: c:\Users\jamr1\Desktop\DS102024\4-DataEngineer\PolarsPySpark\data\processed\yellow_tripdata_small.parquet


2025-04-09 14:40:52,818 - nyc_taxi_etl - INFO - Datos extraídos exitosamente. Filas: 2964624, Columnas: 19


2025-04-09 14:40:52,818 [INFO] Datos extraídos exitosamente. Filas: 2964624, Columnas: 19


2025-04-09 14:40:52,818 - nyc_taxi_etl - INFO - Iniciando transformación de datos


2025-04-09 14:40:52,818 [INFO] Iniciando transformación de datos


2025-04-09 14:40:53,231 - nyc_taxi_etl - INFO - Transformación completada. Filas restantes: 2870076


2025-04-09 14:40:53,231 [INFO] Transformación completada. Filas restantes: 2870076


2025-04-09 14:40:53,238 - nyc_taxi_etl - INFO - Iniciando validación de datos con Pydantic


2025-04-09 14:40:53,238 [INFO] Iniciando validación de datos con Pydantic


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-4.0, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-4.0, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-4.0, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-4.0, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-5.75, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-5.75, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-3.25, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-3.25, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-4.0, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-4.0, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-4.0, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-4.0, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-1.0, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-1.0, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-4.0, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-4.0, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-5.75, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-5.75, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-4.0, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


total_amount
  Value error, Los montos deben ser positivos o cero [type=value_error, input_value=-4.0, input_type=float]
    For further information visit https://errors.pydantic.dev/2.11/v/value_error


2025-04-09 14:41:36,931 - nyc_taxi_etl - INFO - Validación completada. Registros válidos: 2869996, Errores: 80


2025-04-09 14:41:36,931 [INFO] Validación completada. Registros válidos: 2869996, Errores: 80


2025-04-09 14:41:36,958 - nyc_taxi_etl - INFO - Iniciando carga de datos en la base de datos


2025-04-09 14:41:36,958 [INFO] Iniciando carga de datos en la base de datos


2025-04-09 14:41:46,820 - nyc_taxi_etl - INFO - Lote procesado: 1 a 100000 de 2869996


2025-04-09 14:41:46,820 [INFO] Lote procesado: 1 a 100000 de 2869996


2025-04-09 14:41:56,758 - nyc_taxi_etl - INFO - Lote procesado: 100001 a 200000 de 2869996


2025-04-09 14:41:56,758 [INFO] Lote procesado: 100001 a 200000 de 2869996


2025-04-09 14:42:06,357 - nyc_taxi_etl - INFO - Lote procesado: 200001 a 300000 de 2869996


2025-04-09 14:42:06,357 [INFO] Lote procesado: 200001 a 300000 de 2869996


2025-04-09 14:42:17,546 - nyc_taxi_etl - INFO - Lote procesado: 300001 a 400000 de 2869996


2025-04-09 14:42:17,546 [INFO] Lote procesado: 300001 a 400000 de 2869996


2025-04-09 14:42:27,033 - nyc_taxi_etl - INFO - Lote procesado: 400001 a 500000 de 2869996


2025-04-09 14:42:27,033 [INFO] Lote procesado: 400001 a 500000 de 2869996


2025-04-09 14:42:37,163 - nyc_taxi_etl - INFO - Lote procesado: 500001 a 600000 de 2869996


2025-04-09 14:42:37,163 [INFO] Lote procesado: 500001 a 600000 de 2869996


2025-04-09 14:42:47,266 - nyc_taxi_etl - INFO - Lote procesado: 600001 a 700000 de 2869996


2025-04-09 14:42:47,266 [INFO] Lote procesado: 600001 a 700000 de 2869996


2025-04-09 14:42:56,895 - nyc_taxi_etl - INFO - Lote procesado: 700001 a 800000 de 2869996


2025-04-09 14:42:56,895 [INFO] Lote procesado: 700001 a 800000 de 2869996


2025-04-09 14:43:06,732 - nyc_taxi_etl - INFO - Lote procesado: 800001 a 900000 de 2869996


2025-04-09 14:43:06,732 [INFO] Lote procesado: 800001 a 900000 de 2869996


2025-04-09 14:43:16,513 - nyc_taxi_etl - INFO - Lote procesado: 900001 a 1000000 de 2869996


2025-04-09 14:43:16,513 [INFO] Lote procesado: 900001 a 1000000 de 2869996


2025-04-09 14:43:26,515 - nyc_taxi_etl - INFO - Lote procesado: 1000001 a 1100000 de 2869996


2025-04-09 14:43:26,515 [INFO] Lote procesado: 1000001 a 1100000 de 2869996


2025-04-09 14:43:36,697 - nyc_taxi_etl - INFO - Lote procesado: 1100001 a 1200000 de 2869996


2025-04-09 14:43:36,697 [INFO] Lote procesado: 1100001 a 1200000 de 2869996


2025-04-09 14:43:46,233 - nyc_taxi_etl - INFO - Lote procesado: 1200001 a 1300000 de 2869996


2025-04-09 14:43:46,233 [INFO] Lote procesado: 1200001 a 1300000 de 2869996


2025-04-09 14:43:56,219 - nyc_taxi_etl - INFO - Lote procesado: 1300001 a 1400000 de 2869996


2025-04-09 14:43:56,219 [INFO] Lote procesado: 1300001 a 1400000 de 2869996


2025-04-09 14:44:06,413 - nyc_taxi_etl - INFO - Lote procesado: 1400001 a 1500000 de 2869996


2025-04-09 14:44:06,413 [INFO] Lote procesado: 1400001 a 1500000 de 2869996


2025-04-09 14:44:16,671 - nyc_taxi_etl - INFO - Lote procesado: 1500001 a 1600000 de 2869996


2025-04-09 14:44:16,671 [INFO] Lote procesado: 1500001 a 1600000 de 2869996


2025-04-09 14:44:26,661 - nyc_taxi_etl - INFO - Lote procesado: 1600001 a 1700000 de 2869996


2025-04-09 14:44:26,661 [INFO] Lote procesado: 1600001 a 1700000 de 2869996


2025-04-09 14:44:36,615 - nyc_taxi_etl - INFO - Lote procesado: 1700001 a 1800000 de 2869996


2025-04-09 14:44:36,615 [INFO] Lote procesado: 1700001 a 1800000 de 2869996


2025-04-09 14:44:46,752 - nyc_taxi_etl - INFO - Lote procesado: 1800001 a 1900000 de 2869996


2025-04-09 14:44:46,752 [INFO] Lote procesado: 1800001 a 1900000 de 2869996


2025-04-09 14:44:56,384 - nyc_taxi_etl - INFO - Lote procesado: 1900001 a 2000000 de 2869996


2025-04-09 14:44:56,384 [INFO] Lote procesado: 1900001 a 2000000 de 2869996


2025-04-09 14:45:06,761 - nyc_taxi_etl - INFO - Lote procesado: 2000001 a 2100000 de 2869996


2025-04-09 14:45:06,761 [INFO] Lote procesado: 2000001 a 2100000 de 2869996


2025-04-09 14:45:16,987 - nyc_taxi_etl - INFO - Lote procesado: 2100001 a 2200000 de 2869996


2025-04-09 14:45:16,987 [INFO] Lote procesado: 2100001 a 2200000 de 2869996


2025-04-09 14:45:27,269 - nyc_taxi_etl - INFO - Lote procesado: 2200001 a 2300000 de 2869996


2025-04-09 14:45:27,269 [INFO] Lote procesado: 2200001 a 2300000 de 2869996


2025-04-09 14:45:37,307 - nyc_taxi_etl - INFO - Lote procesado: 2300001 a 2400000 de 2869996


2025-04-09 14:45:37,307 [INFO] Lote procesado: 2300001 a 2400000 de 2869996


2025-04-09 14:45:47,832 - nyc_taxi_etl - INFO - Lote procesado: 2400001 a 2500000 de 2869996


2025-04-09 14:45:47,832 [INFO] Lote procesado: 2400001 a 2500000 de 2869996


2025-04-09 14:45:57,584 - nyc_taxi_etl - INFO - Lote procesado: 2500001 a 2600000 de 2869996


2025-04-09 14:45:57,584 [INFO] Lote procesado: 2500001 a 2600000 de 2869996


2025-04-09 14:46:07,701 - nyc_taxi_etl - INFO - Lote procesado: 2600001 a 2700000 de 2869996


2025-04-09 14:46:07,701 [INFO] Lote procesado: 2600001 a 2700000 de 2869996


2025-04-09 14:46:18,370 - nyc_taxi_etl - INFO - Lote procesado: 2700001 a 2800000 de 2869996


2025-04-09 14:46:18,370 [INFO] Lote procesado: 2700001 a 2800000 de 2869996


2025-04-09 14:46:25,288 - nyc_taxi_etl - INFO - Lote procesado: 2800001 a 2869996 de 2869996


2025-04-09 14:46:25,288 [INFO] Lote procesado: 2800001 a 2869996 de 2869996


2025-04-09 14:46:25,295 - nyc_taxi_etl - INFO - Carga de datos completada exitosamente


2025-04-09 14:46:25,295 [INFO] Carga de datos completada exitosamente


2025-04-09 14:46:25,295 - nyc_taxi_etl - INFO - Flujo ETL completado exitosamente


2025-04-09 14:46:25,295 [INFO] Flujo ETL completado exitosamente



ETL completado en 334.32 segundos


## Verificando los Resultados

Vamos a verificar que los datos se hayan cargado correctamente en la base de datos SQLite.

In [4]:
import sqlite3
import polars as pl

# Conectar a la base de datos
conn = sqlite3.connect(str(DB_PATH))

# Consultar usando read_database
trip_count = pl.read_database(query="SELECT COUNT(*) FROM taxi_trips", connection=conn).item(0, 0)
location_count = pl.read_database(query="SELECT COUNT(*) FROM locations", connection=conn).item(0, 0)

print(f"Número de viajes en la base de datos: {trip_count}")
print(f"Número de ubicaciones en la base de datos: {location_count}")

# Consultar algunos viajes para verificar
sample_trips = pl.read_database(query="SELECT * FROM taxi_trips LIMIT 5", connection=conn)

print("\nMuestra de viajes:")
print(sample_trips)

conn.close()

Número de viajes en la base de datos: 2869996
Número de ubicaciones en la base de datos: 262

Muestra de viajes:
shape: (5, 18)
┌─────┬───────────┬────────────┬────────────┬───┬────────────┬────────────┬────────────┬───────────┐
│ id  ┆ vendor_id ┆ pickup_dat ┆ dropoff_da ┆ … ┆ total_amou ┆ congestion ┆ airport_fe ┆ payment_t │
│ --- ┆ ---       ┆ etime      ┆ tetime     ┆   ┆ nt         ┆ _surcharge ┆ e          ┆ ype       │
│ i64 ┆ i64       ┆ ---        ┆ ---        ┆   ┆ ---        ┆ ---        ┆ ---        ┆ ---       │
│     ┆           ┆ str        ┆ str        ┆   ┆ f64        ┆ f64        ┆ f64        ┆ i64       │
╞═════╪═══════════╪════════════╪════════════╪═══╪════════════╪════════════╪════════════╪═══════════╡
│ 1   ┆ 2         ┆ 2024-01-01 ┆ 2024-01-01 ┆ … ┆ 22.7       ┆ 2.5        ┆ 0.0        ┆ 2         │
│     ┆           ┆ 00:57:55.0 ┆ 01:17:43.0 ┆   ┆            ┆            ┆            ┆           │
│     ┆           ┆ 00000      ┆ 00000      ┆   ┆            ┆  

## Comparación de Rendimiento: Polars vs Pandas

Para demostrar las ventajas de rendimiento de Polars sobre Pandas, vamos a implementar una versión simplificada del mismo proceso ETL utilizando Pandas y comparar los tiempos de ejecución.

In [5]:
import pandas as pd
import time
from etl_example.etl_config import TAXI_DATA_FILE

def etl_with_pandas():
    # Extracción
    start_time = time.time()
    print("Extrayendo datos con Pandas...")
    df_pandas = pd.read_parquet(TAXI_DATA_FILE)
    extraction_time = time.time() - start_time
    print(f"Extracción completada en {extraction_time:.2f} segundos")
    
    # Transformación
    start_time = time.time()
    print("Transformando datos con Pandas...")
    
    # Renombrar columnas para consistencia
    column_mapping = {
        "VendorID": "vendor_id",
        "tpep_pickup_datetime": "pickup_datetime",
        "tpep_dropoff_datetime": "dropoff_datetime",
        "PULocationID": "pickup_location_id",
        "DOLocationID": "dropoff_location_id"
    }
    df_pandas = df_pandas.rename(columns=column_mapping)
    
    # Filtrar viajes con distancia válida
    df_pandas = df_pandas[df_pandas['trip_distance'] > 0]
    
    # Filtrar viajes con tarifa válida
    df_pandas = df_pandas[df_pandas['fare_amount'] >= 0]
    
    # Calcular la duración del viaje en minutos
    df_pandas['trip_duration_minutes'] = (df_pandas['dropoff_datetime'] - df_pandas['pickup_datetime']).dt.total_seconds() / 60
    
    # Filtrar viajes con duración válida
    df_pandas = df_pandas[df_pandas['trip_duration_minutes'] > 0]
    
    # Calcular la velocidad promedio
    df_pandas['avg_speed_mph'] = df_pandas['trip_distance'] / (df_pandas['trip_duration_minutes'] / 60)
    
    # Filtrar velocidades razonables
    df_pandas = df_pandas[df_pandas['avg_speed_mph'] < 100]
    
    # Manejar valores nulos
    df_pandas['passenger_count'] = df_pandas['passenger_count'].fillna(1)
    df_pandas['congestion_surcharge'] = df_pandas['congestion_surcharge'].fillna(0)
    df_pandas['Airport_fee'] = df_pandas['Airport_fee'].fillna(0)
    
    transformation_time = time.time() - start_time
    print(f"Transformación completada en {transformation_time:.2f} segundos")
    
    return {
        "extraction_time": extraction_time,
        "transformation_time": transformation_time,
        "total_time": extraction_time + transformation_time,
        "row_count": len(df_pandas)
    }

def etl_with_polars():
    import polars as pl
    
    # Extracción
    start_time = time.time()
    print("Extrayendo datos con Polars...")
    df_polars = pl.read_parquet(TAXI_DATA_FILE)
    extraction_time = time.time() - start_time
    print(f"Extracción completada en {extraction_time:.2f} segundos")
    
    # Transformación
    start_time = time.time()
    print("Transformando datos con Polars...")
    
    # Renombrar columnas para consistencia
    column_mapping = {
        "VendorID": "vendor_id",
        "tpep_pickup_datetime": "pickup_datetime",
        "tpep_dropoff_datetime": "dropoff_datetime",
        "PULocationID": "pickup_location_id",
        "DOLocationID": "dropoff_location_id"
    }
    for old_name, new_name in column_mapping.items():
        if old_name in df_polars.columns:
            df_polars = df_polars.rename({old_name: new_name})
    
    # Filtrar viajes con distancia válida
    df_polars = df_polars.filter(pl.col("trip_distance") > 0)
    
    # Filtrar viajes con tarifa válida
    df_polars = df_polars.filter(pl.col("fare_amount") >= 0)
    
    # Calcular la duración del viaje en minutos
    df_polars = df_polars.with_columns([
        ((pl.col("dropoff_datetime").dt.epoch() - pl.col("pickup_datetime").dt.epoch()) / 60).alias("trip_duration_minutes")
    ])
    
    # Filtrar viajes con duración válida
    df_polars = df_polars.filter(pl.col("trip_duration_minutes") > 0)
    
    # Calcular la velocidad promedio
    df_polars = df_polars.with_columns([
        (pl.col("trip_distance") / (pl.col("trip_duration_minutes") / 60)).alias("avg_speed_mph")
    ])
    
    # Filtrar velocidades razonables
    df_polars = df_polars.filter(pl.col("avg_speed_mph") < 100)
    
    # Manejar valores nulos
    df_polars = df_polars.with_columns([
        pl.col("passenger_count").fill_null(1),
        pl.col("congestion_surcharge").fill_null(0),
        pl.col("Airport_fee").fill_null(0)
    ])
    
    transformation_time = time.time() - start_time
    print(f"Transformación completada en {transformation_time:.2f} segundos")
    
    return {
        "extraction_time": extraction_time,
        "transformation_time": transformation_time,
        "total_time": extraction_time + transformation_time,
        "row_count": df_polars.shape[0]
    }

# Ejecutar ambas versiones y comparar
print("=== Benchmark: Pandas vs Polars ===")
print("\n1. Ejecutando ETL con Pandas...")
pandas_results = etl_with_pandas()

print("\n2. Ejecutando ETL con Polars...")
polars_results = etl_with_polars()

# Calcular la mejora de rendimiento
speedup_extraction = pandas_results["extraction_time"] / polars_results["extraction_time"]
speedup_transformation = pandas_results["transformation_time"] / polars_results["transformation_time"]
speedup_total = pandas_results["total_time"] / polars_results["total_time"]

print("\n=== Resultados del Benchmark ===")
print(f"Filas procesadas: {pandas_results['row_count']}")
print("\nTiempos de Pandas:")
print(f"  - Extracción: {pandas_results['extraction_time']:.2f} segundos")
print(f"  - Transformación: {pandas_results['transformation_time']:.2f} segundos")
print(f"  - Total: {pandas_results['total_time']:.2f} segundos")

print("\nTiempos de Polars:")
print(f"  - Extracción: {polars_results['extraction_time']:.2f} segundos")
print(f"  - Transformación: {polars_results['transformation_time']:.2f} segundos")
print(f"  - Total: {polars_results['total_time']:.2f} segundos")

print("\nMejora de rendimiento (Polars vs Pandas):")
print(f"  - Extracción: {speedup_extraction:.2f}x más rápido")
print(f"  - Transformación: {speedup_transformation:.2f}x más rápido")
print(f"  - Total: {speedup_total:.2f}x más rápido")

=== Benchmark: Pandas vs Polars ===

1. Ejecutando ETL con Pandas...
Extrayendo datos con Pandas...
Extracción completada en 4.52 segundos
Transformando datos con Pandas...
Transformación completada en 17.54 segundos

2. Ejecutando ETL con Polars...
Extrayendo datos con Polars...
Extracción completada en 1.59 segundos
Transformando datos con Polars...
Transformación completada en 2.74 segundos

=== Resultados del Benchmark ===
Filas procesadas: 39703334

Tiempos de Pandas:
  - Extracción: 4.52 segundos
  - Transformación: 17.54 segundos
  - Total: 22.07 segundos

Tiempos de Polars:
  - Extracción: 1.59 segundos
  - Transformación: 2.74 segundos
  - Total: 4.33 segundos

Mejora de rendimiento (Polars vs Pandas):
  - Extracción: 2.85x más rápido
  - Transformación: 6.40x más rápido
  - Total: 5.10x más rápido


## Ventajas de Polars para ETL

Basándonos en la implementación y los resultados del benchmark, podemos destacar las siguientes ventajas de Polars para procesos ETL:

1. **Rendimiento superior**: Como hemos visto en el benchmark, Polars es significativamente más rápido que Pandas en operaciones de extracción y transformación.

2. **Ejecución perezosa (lazy)**: Polars permite definir un plan de ejecución completo antes de ejecutarlo, lo que permite optimizaciones globales.

3. **Paralelismo automático**: Polars aprovecha automáticamente todos los núcleos disponibles sin configuración adicional.

4. **Eficiencia de memoria**: Polars consume menos memoria que Pandas para las mismas operaciones.

5. **API expresiva**: La API de Polars permite expresar transformaciones complejas de manera concisa y legible.

6. **Integración con ecosistema de datos**: Polars se integra bien con formatos como Parquet, CSV, JSON, etc.

7. **Consistencia de API**: La API de Polars es más consistente y predecible que la de Pandas.

Estas ventajas hacen de Polars una excelente opción para procesos ETL que manejan conjuntos de datos medianos a grandes en una sola máquina.

## Ventajas de la Arquitectura ETL Implementada

Nuestra arquitectura ETL combina varias tecnologías modernas para crear un flujo de trabajo robusto y eficiente:

1. **Polars para procesamiento de datos**: Aprovechamos el rendimiento y la expresividad de Polars para las operaciones de extracción y transformación.

2. **Pydantic para validación de datos**: Utilizamos Pydantic para asegurar que los datos cumplen con nuestras expectativas antes de cargarlos en la base de datos.

3. **SQLAlchemy para acceso a base de datos**: Utilizamos SQLAlchemy para definir el esquema de la base de datos y gestionar las conexiones de manera orientada a objetos.

4. **Logging para seguimiento**: Configuramos un sistema de logging para seguir el progreso del ETL y diagnosticar problemas.

Esta arquitectura proporciona:

- **Modularidad**: Cada componente tiene una responsabilidad clara y puede ser modificado o reemplazado independientemente.
- **Escalabilidad**: El diseño permite escalar a conjuntos de datos más grandes y flujos de trabajo más complejos.
- **Mantenibilidad**: El código está organizado de manera lógica y sigue buenas prácticas de ingeniería de software.
- **Robustez**: La validación de datos y el manejo de errores aseguran que el ETL sea resistente a problemas.
- **Observabilidad**: El logging y la monitorización permiten seguir el progreso y diagnosticar problemas.

## Conclusiones

En este ejemplo, hemos implementado un ETL completo utilizando Polars para procesar el dataset de taxis de Nueva York. Hemos demostrado las ventajas de Polars sobre Pandas en términos de rendimiento y funcionalidades, y hemos construido una arquitectura ETL robusta y eficiente.

Las principales conclusiones son:

1. **Polars ofrece un rendimiento significativamente mejor que Pandas** para operaciones ETL, especialmente en conjuntos de datos medianos a grandes.

2. **La combinación de Polars, Pydantic, SQLAlchemy y un Orquestador** proporciona una arquitectura ETL robusta, eficiente y mantenible.

3. **La validación estricta de tipos con Pydantic** asegura la integridad de los datos antes de cargarlos en la base de datos.

4. **La implementación de DAGs con Orquestador** permite definir flujos de trabajo complejos de manera clara y gestionar errores de manera efectiva.

5. **El logging y la monitorización** son esenciales para seguir el progreso del ETL y diagnosticar problemas.

En la siguiente sección, presentaremos un ejercicio práctico para que los estudiantes implementen su propio ETL utilizando estas tecnologías.