# Ejercicio Práctico: Implementación de ETL con Polars y PySpark

En este ejercicio, implementarás tu propio proceso ETL (Extracción, Transformación y Carga) utilizando Polars o PySpark para procesar el dataset de taxis de Nueva York. Este ejercicio te permitirá aplicar los conceptos aprendidos sobre procesamiento de datos a gran escala y experimentar con las ventajas de estas tecnologías sobre Pandas.

## Objetivos del Ejercicio

1. Implementar un proceso ETL completo utilizando Polars o PySpark (puedes elegir la tecnología que prefieras).
2. Utilizar DAGs (Directed Acyclic Graphs) para definir el flujo de trabajo.
3. Implementar validación estricta de tipos con Pydantic.
4. Crear una base de datos SQLite con tablas relacionadas utilizando SQLAlchemy.
5. Configurar un sistema de logging para seguimiento del proceso.

## Estructura del Ejercicio

Se te proporciona una estructura de proyecto con archivos de plantilla que contienen TODOs para que completes. La estructura es la siguiente:

```
notebook_polars_pyspark/
├── data/
│   └── yellow_tripdata_2022-01.parquet  # Dataset de taxis de Nueva York
├── etl_exercise/
│   ├── __init__.py
│   ├── etl_config.py      # Configuración del ETL (completo)
│   ├── models.py          # Modelos Pydantic para validación (con TODOs)
│   ├── database.py        # Configuración de SQLAlchemy (con TODOs)
│   ├── logger.py          # Configuración de logging (con TODOs)
│   ├── etl_dag.py         # Implementación de DAGs con Prefect (con TODOs)
│   ├── output/            # Directorio para la base de datos
│   └── logs/              # Directorio para logs
└── notebooks/
    └── 04_ejercicio_etl.ipynb  # Este notebook
```

Vamos a examinar cada archivo de plantilla y los TODOs que debes completar.

## 1. Configuración del ETL (etl_config.py)

El archivo `etl_config.py` ya está completo y contiene la configuración básica para el ETL. Revisa su contenido para entender la configuración.

In [None]:
# Mostrar el contenido del archivo etl_config.py
!cat ../etl_exercise/etl_config.py

## 2. Modelos de Datos con Pydantic (models.py)

El archivo `models.py` contiene plantillas para los modelos Pydantic que utilizarás para validar los datos. Debes completar los TODOs para definir los modelos completos.

In [None]:
# Mostrar el contenido del archivo models.py
!cat ../etl_exercise/models.py

### Tarea 1: Completar los Modelos Pydantic

Completa el archivo `models.py` implementando los modelos Pydantic para validar los datos de viajes de taxi y ubicaciones. Asegúrate de incluir todos los campos necesarios y validadores apropiados.

Aquí tienes una guía de los campos que debes incluir en el modelo `TaxiTrip`:

- **Campos de tiempo**: `pickup_datetime`, `dropoff_datetime` (tipo `datetime`)
- **Campos de ubicación**: `pickup_location_id`, `dropoff_location_id` (tipo `int`)
- **Campos de pasajeros**: `passenger_count` (tipo `Optional[float]`)
- **Campos de distancia**: `trip_distance` (tipo `float`)
- **Campos de tarifa**: `fare_amount`, `extra`, `mta_tax`, `tip_amount`, `tolls_amount`, `improvement_surcharge`, `total_amount` (tipo `float`), `congestion_surcharge`, `airport_fee` (tipo `Optional[float]`)
- **Campos de pago**: `payment_type` (tipo `int`)

Y para el modelo `Location`:

- `location_id` (tipo `int`)
- `borough` (tipo `str`)
- `zone` (tipo `str`)
- `service_zone` (tipo `str`)

Implementa validadores para asegurar la integridad de los datos, como:
- La distancia del viaje debe ser positiva
- Los montos deben ser positivos o cero
- La fecha de entrega debe ser posterior a la fecha de recogida
- El número de pasajeros debe estar en un rango válido

Puedes utilizar el ejemplo ETL como referencia, pero asegúrate de entender cada parte del código que implementes.

## 3. Configuración de la Base de Datos con SQLAlchemy (database.py)

El archivo `database.py` contiene plantillas para los modelos SQLAlchemy que definirán el esquema de la base de datos. Debes completar los TODOs para definir las tablas y relaciones.

In [None]:
# Mostrar el contenido del archivo database.py
!cat ../etl_exercise/database.py

### Tarea 2: Completar los Modelos SQLAlchemy

Completa el archivo `database.py` implementando los modelos SQLAlchemy para las tablas de ubicaciones y viajes de taxi. Asegúrate de definir todas las columnas necesarias y las relaciones entre las tablas.

Para la clase `TaxiLocation`, define las siguientes columnas:
- `location_id` (Integer, primary_key=True)
- `borough` (String, nullable=False)
- `zone` (String, nullable=False)
- `service_zone` (String, nullable=False)

Y las relaciones con los viajes:
- `pickup_trips` (relationship con TaxiTripRecord, foreign_keys="TaxiTripRecord.pickup_location_id")
- `dropoff_trips` (relationship con TaxiTripRecord, foreign_keys="TaxiTripRecord.dropoff_location_id")

Para la clase `TaxiTripRecord`, define las columnas correspondientes a los campos del modelo Pydantic, incluyendo las claves foráneas para las ubicaciones de recogida y entrega.

También implementa las funciones `init_db()` y `get_session()` para inicializar la base de datos y obtener una sesión de SQLAlchemy.

Puedes utilizar el ejemplo ETL como referencia, pero asegúrate de entender cada parte del código que implementes.

## 4. Configuración de Logging (logger.py)

El archivo `logger.py` contiene una plantilla para configurar el sistema de logging. Debes completar los TODOs para implementar la función `setup_logger`.

In [None]:
# Mostrar el contenido del archivo logger.py
!cat ../etl_exercise/logger.py

### Tarea 3: Implementar la Configuración de Logging

Completa el archivo `logger.py` implementando la función `setup_logger` para configurar y devolver un logger. La función debe:

1. Crear el directorio de logs si no existe
2. Configurar el logger con el nombre especificado
3. Establecer el nivel de logging
4. Crear un manejador para archivo
5. Crear un manejador para consola
6. Crear el formato para los mensajes de log
7. Agregar los manejadores al logger
8. Devolver el logger configurado

Puedes utilizar el ejemplo ETL como referencia, pero asegúrate de entender cada parte del código que implementes.

## 5. Implementación de DAGs con Prefect (etl_dag.py)

El archivo `etl_dag.py` contiene plantillas para las tareas y el flujo principal del ETL. Debes completar los TODOs para implementar cada tarea y el flujo completo.

In [None]:
# Mostrar el contenido del archivo etl_dag.py
!cat ../etl_exercise/etl_dag.py

### Tarea 4: Implementar las Tareas y el Flujo ETL

Completa el archivo `etl_dag.py` implementando las siguientes tareas y el flujo principal:

1. **Configurar el logger**: Descomenta y utiliza la función `setup_logger` para configurar el logger.

2. **Implementar la tarea `extract_taxi_data`**: Esta tarea debe:
   - Leer el archivo parquet con Polars
   - Renombrar las columnas para que coincidan con nuestro modelo
   - Registrar información sobre los datos extraídos
   - Devolver el DataFrame

3. **Implementar la tarea `transform_taxi_data`**: Esta tarea debe:
   - Filtrar viajes con distancia válida (mayor a 0)
   - Filtrar viajes con tarifa válida (mayor o igual a 0)
   - Calcular la duración del viaje en minutos
   - Filtrar viajes con duración válida (mayor a 0)
   - Calcular la velocidad promedio (millas por hora)
   - Filtrar velocidades razonables (menos de 100 mph)
   - Manejar valores nulos
   - Registrar información sobre la transformación
   - Devolver el DataFrame transformado

4. **Implementar la tarea `validate_taxi_data`**: Esta tarea debe:
   - Convertir el DataFrame a diccionarios
   - Validar cada registro con el modelo Pydantic
   - Registrar información sobre la validación
   - Devolver la lista de registros validados

5. **Implementar la tarea `load_taxi_data`**: Esta tarea debe:
   - Inicializar la base de datos
   - Obtener una sesión
   - Procesar los datos en lotes
   - Registrar información sobre la carga

6. **Implementar la función auxiliar `_load_batch`**: Esta función debe:
   - Asegurar que las ubicaciones existan
   - Crear los registros de viajes
   - Manejar errores y hacer rollback si es necesario

7. **Implementar el flujo principal `nyc_taxi_etl_flow`**: Este flujo debe:
   - Extraer datos
   - Transformar datos
   - Validar datos
   - Cargar datos
   - Registrar información sobre el flujo

Puedes utilizar el ejemplo ETL como referencia, pero asegúrate de entender cada parte del código que implementes.

## Probando tu Implementación

Una vez que hayas completado todas las tareas, puedes probar tu implementación ejecutando el flujo ETL. Primero, asegúrate de que todos los archivos estén correctamente implementados y guardados.

In [None]:
import sys
import os
import time
from pathlib import Path

# Añadir el directorio raíz al path para poder importar los módulos
sys.path.append(str(Path.cwd().parent))

# Importar el flujo ETL
from etl_exercise.etl_dag import nyc_taxi_etl_flow
from etl_exercise.etl_config import DB_PATH, OUTPUT_DIR

# Asegurar que el directorio de salida existe
OUTPUT_DIR.mkdir(exist_ok=True, parents=True)

# Eliminar la base de datos si existe para empezar desde cero
if DB_PATH.exists():
    DB_PATH.unlink()

print(f"Configuración completada. La base de datos se creará en: {DB_PATH}")

In [None]:
# Ejecutar el flujo ETL y medir el tiempo
start_time = time.time()

# Ejecutar el flujo
nyc_taxi_etl_flow()

end_time = time.time()
execution_time = end_time - start_time

print(f"\nETL completado en {execution_time:.2f} segundos")

## Verificando los Resultados

Verifica que los datos se hayan cargado correctamente en la base de datos SQLite.

In [None]:
import sqlite3
import pandas as pd

# Conectar a la base de datos
conn = sqlite3.connect(str(DB_PATH))

# Consultar el número de registros en la tabla de viajes
query_count = "SELECT COUNT(*) FROM taxi_trips"
trip_count = pd.read_sql_query(query_count, conn).iloc[0, 0]

# Consultar el número de ubicaciones
location_count = pd.read_sql_query("SELECT COUNT(*) FROM locations", conn).iloc[0, 0]

print(f"Número de viajes en la base de datos: {trip_count}")
print(f"Número de ubicaciones en la base de datos: {location_count}")

# Consultar algunos viajes para verificar
query_sample = "SELECT * FROM taxi_trips LIMIT 5"
sample_trips = pd.read_sql_query(query_sample, conn)

print("\nMuestra de viajes:")
sample_trips

## Extensiones del Ejercicio (Opcional)

Si has completado todas las tareas y tu ETL funciona correctamente, puedes intentar estas extensiones para profundizar en el tema:

1. **Implementar la versión con PySpark**: Si has utilizado Polars, intenta implementar el mismo ETL utilizando PySpark y compara el rendimiento.

2. **Añadir más transformaciones**: Implementa transformaciones adicionales, como calcular la propina promedio por zona o identificar patrones de viaje.

3. **Mejorar la validación de datos**: Añade más validadores a los modelos Pydantic para asegurar la integridad de los datos.

4. **Implementar tests unitarios**: Crea tests unitarios para verificar que cada componente del ETL funciona correctamente.

5. **Visualizar los resultados**: Utiliza matplotlib o seaborn para visualizar los datos procesados y extraer insights.

6. **Optimizar el rendimiento**: Experimenta con diferentes configuraciones y técnicas para mejorar el rendimiento del ETL.

## Conclusión

En este ejercicio, has implementado un ETL completo utilizando tecnologías modernas como Polars o PySpark, Pydantic, SQLAlchemy y Prefect. Has aprendido a:

1. Extraer datos de archivos Parquet
2. Transformar y limpiar datos utilizando Polars o PySpark
3. Validar datos con Pydantic
4. Cargar datos en una base de datos SQLite utilizando SQLAlchemy
5. Implementar DAGs con Prefect
6. Configurar un sistema de logging

Estas habilidades son fundamentales para un Data Engineer y te permitirán construir pipelines de datos robustos y eficientes en tu carrera profesional.