# 🧪 Laboratorio 6: Orquestación de un Flujo de Datos Completo

## 🎯 Objetivo

Diseñar y ejecutar un workflow multi-etapa en Azure Databricks usando Databricks Workflows y DBT, incluyendo alertas y recuperación automática.

## ℹ️ Introducción

Orquestar tareas complejas en pipelines de datos requiere control sobre dependencias, manejo de errores y monitoreo.
Databricks Workflows permite definir flujos de tareas tipo DAG para manejar pipelines de ETL, entrenamiento de modelos, validaciones y más.
También se puede integrar con DBT para la transformación de datos en Lakehouse.

## 🧠 Conceptos Clave

**Databricks Workflows**
Motor nativo de orquestación de tareas que permite configurar y ejecutar pipelines definidos como flujos de notebooks, scripts o tareas de ML.
[📘 Ver documentación](https://learn.microsoft.com/en-us/azure/databricks/workflows/)

**DBT (Data Build Tool)**
Framework de transformación de datos que permite definir modelos SQL versionados y testeados.
[📘 Ver documentación](https://docs.getdbt.com/)

**Alertas y recuperación**
Workflows permite configurar alertas por email y definir comportamiento ante fallos para cada tarea del flujo.

## 🛠️ Pasos del laboratorio

### 1. Crear notebooks separados para cada tarea del flujo:
- `ingestion_notebook`: lee y guarda datos crudos (bronze).
- `cleaning_notebook`: transforma datos y guarda en silver.
- `aggregation_notebook`: agrega y guarda datos en gold.
- `validation_notebook`: ejecuta validaciones de calidad de datos.
- `alerting_notebook`: envía alerta o resumen final.

Puedes usar código similar al del Lab 3 para las tareas de ingesta, limpieza y agregación.

### 2. Crear un workflow en Databricks
- Accede a la sección **Workflows** > **Create Job**.
- Agrega cada notebook como una tarea.
- Define dependencias entre tareas:
  - `cleaning_notebook` depende de `ingestion_notebook`
  - `aggregation_notebook` depende de `cleaning_notebook`
  - `validation_notebook` depende de `aggregation_notebook`
  - `alerting_notebook` depende de todas las anteriores

### 3. Configurar alertas y recuperación automática
- En la configuración de cada tarea, activa **email alerts** para estado de fallo o éxito.
- Define política de reintentos (e.g., 3 intentos con espera de 10 minutos).
- Activa logs de ejecución para cada tarea.

### 4. (Opcional) Integración con DBT
- Si usas DBT en Databricks, crea un proyecto con modelos transformacionales.
- Ejecuta `dbt run` como tarea adicional en el workflow entre silver y gold.
- También puedes agregar `dbt test` como validación antes de alertar.

## ✅ Validación
- Ejecuta el workflow completo desde la interfaz.
- Verifica la correcta secuencia de ejecución.
- Asegura que se hayan generado logs, y que el resumen final incluya resultados.
- Simula fallos para validar el comportamiento de recuperación automática.