# Sesion 3 - Diseño de pipelines escalables y sostenibles en Databricks

## Objetivo

Construir un pipeline completo en Databricks (bronce → plata → oro), orquestado con Workflows, parametrizado con configuración externa, con controles de calidad, ejemplo de optimización de rendimiento y un pipeline CI/CD básico.

## Parte 1 – Preparación del entorno
1. Descargar el proyecto
    - Descarga el archivo ZIP proporcionado: `airline-pipeline-practica.zip`.
    - Descomprímelo en tu ordenador.
2. Subirlo a Databricks
    - Entra en tu workspace → pestaña Repos.
    - Crea un nuevo repo o conecta tu GitHub.
    - Sube la carpeta descomprimida completa.
3. Verificar estructura
    - Debes ver carpetas como: `conf/`, `data/`, `src/`, `workflows/`.

## Parte 2 – Configuración inicial
👉 Ejercicio 1 – Crear catálogo y esquemas
  - Abre el notebook `00_setup.py`.
  - Ejecútalo.
  - Verifica que ahora tienes:
    - Catálogo: `airline_demo`
    - Esquemas: `bronze`, `silver`, `gold`

## Parte 3 – Ingesta (Bronze)
👉 Ejercicio 2 – Ingestar vuelos
  - Abre `10_bronze_ingest_flights.py`.
  - Ejecútalo y confirma que se creó la tabla `bronze.flights`.
👉 Ejercicio 3 – Ingestar aeropuertos
  - Abre `11_bronze_ingest_airports.py`.
  - Ejecútalo y confirma que existe `bronze.airports`.

❓ Pregunta:
¿Qué ventajas tiene mantener las ingestas sin limpiar en Bronze?

## Parte 4 – Transformaciones (Silver)
👉 Ejercicio 4 – Limpiar y enriquecer
  - Abre `20_silver_transform.py`.
  - Revisa el código: convierte `delay` en entero y agrega ciudad de origen.
  - Ejecuta el notebook → confirma tabla `silver.flights_enriched`.

❓ Pregunta:
¿Qué problemas puede haber si los tipos de datos no se normalizan aquí?

## Parte 5 – Analítica (Gold)
👉 Ejercicio 5 – Reporte de demoras
  - Abre `30_gold_analytics.py`.
  - Ejecuta el notebook → confirma tabla `gold.delay_summary`.

❓ Pregunta:
¿Qué tipo de dashboards/consumidores podrían usar estas tablas oro?

## Parte 6 – Calidad de Datos

👉 Ejercicio 6 – Chequeo de calidad
  - Abre `40_quality_and_metrics.py`.
  - Ejecuta: validará que la columna `delay` no tenga nulos.
  - Prueba inyectar un nulo en la tabla y vuelve a correr el check para ver el error.

❓ Pregunta:
¿Por qué es importante “fallar rápido” cuando detectamos un dato inválido?

## Parte 7 – Optimización de rendimiento
👉 Ejercicio 7 – Diagnóstico y tuning
  - Abre `50_performance_optimization.py`.
  - Ejecuta la versión “lenta” del join → observa el `explain`.
  - Activa AQE + broadcast join → observa el tiempo de ejecución.

❓ Pregunta:
¿Qué diferencia hay entre `cache` y `checkpoint` en Spark?

## Parte 8 – Orquestación con Workflows
👉 Ejercicio 8 – Crear un Job
  - Ve a Workflows → Jobs → Create Job.
  - Importa el YAML `workflows/job_airline_pipeline.yaml`.
  - Revisa las tareas encadenadas.
  - Corre el Job completo y observa cómo se ejecuta cada fase.

❓ Pregunta:
¿Qué ventajas tiene usar Workflows en lugar de lanzar notebooks manualmente?

## Parte 9 – CI/CD
👉 Ejercicio 9 – Deploy automático
  - Revisa el archivo `ci/github-actions-deploy.yml`.
  - Observa que:
    - Se instala el CLI de Databricks.
    - Usa secrets (`DATABRICKS_HOST`, `DATABRICKS_TOKEN`).
    - Despliega el workflow con cada push a main.
  - Para hacerlo funcionar hay que hacer lo siguiente_
    - Crear un entorno y `github actions` y crear los `secrets`
    - Modificar el id del job

❓ Pregunta:
¿Qué riesgo evitamos al desplegar vía CI/CD en lugar de hacerlo manualmente?