# DAG Airflow

Um DAG (Directed Acyclic Graph) no Airflow é uma forma de organizar e automatizar tarefas que precisam ser executadas em uma ordem específica. Ele representa um fluxo de trabalho, onde cada etapa é uma tarefa (task) e as conexões entre elas definem a sequência de execução.

## Instalação das bibliotecas necessárias

In [0]:
pip install apache-airflow-providers-databricks

## Importação das bibliotecas

In [0]:
from airflow import DAG
from airflow.providers.databricks.operators.databricks import DatabricksRunNowOperator
from datetime import datetime

## Exemplo de DAG para orquestrar os notebooks

In [0]:
default_args = {
    'owner': 'pedro',
    'start_date': datetime(2025, 7, 1),
    'depends_on_past': False
}

with DAG(
    dag_id='orquestracao_case_ifood',
    default_args=default_args,
    schedule_interval=@monthly,
    catchup=False,
    description='Executa os notebooks do case técnico do iFood em sequência',
    tags=['databricks', 'ifood', 'engenharia_de_dados']
) as dag:

    notebook_path_base = "/Notebook/"

    task_01 = DatabricksRunNowOperator(
        task_id='01_ingestao_dados_brutos',
        databricks_conn_id='databricks_default',
        notebook_params={},
        existing_cluster_id='CLUSTER_ID_AQUI',
        notebook_path=notebook_path_base + "01_ingestao_dados_brutos"
    )

    task_02 = DatabricksRunNowOperator(
        task_id='02_ingestao_camada_bronze',
        databricks_conn_id='databricks_default',
        notebook_params={},
        existing_cluster_id='CLUSTER_ID_AQUI',
        notebook_path=notebook_path_base + "02_ingestao_camada_bronze"
    )

    task_03 = DatabricksRunNowOperator(
        task_id='03_ingestao_camada_silver',
        databricks_conn_id='databricks_default',
        notebook_params={},
        existing_cluster_id='CLUSTER_ID_AQUI',
        notebook_path=notebook_path_base + "03_ingestao_camada_silver"
    )

    task_04 = DatabricksRunNowOperator(
        task_id='04_ingestao_camada_gold',
        databricks_conn_id='databricks_default',
        notebook_params={},
        existing_cluster_id='CLUSTER_ID_AQUI',
        notebook_path=notebook_path_base + "04_ingestao_camada_gold"
    )
   
    task_01 >> task_02 >> task_03 >> task_04

**Observação:** Esse código deve não fica no Databricks (este notebook é só um exemplo). Ele deve ser colocado dentro da pasta de DAGs do Airflow e ele é conectado ao Databricks por meio de uma conexão configurada na própria ferramenta.