# Apache Airflow Overview

## O que é o Apache Airflow?


O Apache Airflow é uma plataforma de orquestração de workflows open source, criada pelo Airbnb em 2015 e mantida pela Fundação Apache. Desenvolvido em Python, o Airflow permite a criação, agendamento e monitoramento de workflows de dados. Ele é extensível, o que significa que pode ser adaptado e expandido para diferentes casos de uso através de plugins e integrações.

## Como o Apache Airflow Funciona?

O Airflow utiliza DAGs (Directed Acyclic Graphs, ou Grafos Acíclicos Direcionados) para definir seus workflows. Uma DAG é essencialmente um pipeline que descreve um conjunto de tarefas que devem ser executadas, suas dependências e a ordem de execução. Essas tarefas, chamadas de Tasks, são instâncias de Operators.

### Componentes Principais:



1. **DAG (Directed Acyclic Graph)**:
   - É um grafo composto por vértices e arestas, onde as arestas têm direção e não formam ciclos. No contexto do Airflow, representa um pipeline de dados.


In [None]:
"""
Exemplo de DAG para demonstrar o funcionamento básico do Apache Airflow.

Notas sobre o uso:

- Esta DAG executa duas tarefas: uma usando o BashOperator para imprimir "hello" e outra tarefa Python que imprime "airflow".
- A DAG será executada diariamente a partir de 2 de setembro de 2024.
"""

from __future__ import annotations

from datetime import datetime

from airflow import DAG
from airflow.operators.bash import BashOperator
from airflow.decorators import task

# Definição da DAG
with DAG(
    dag_id="demo_dag",
    start_date=datetime(2024, 9, 2),
    schedule_interval="0 0 * * *",  # Executa diariamente à meia-noite
    catchup=False,  # Evita a execução retroativa
    tags=["demo"],
) as dag:

    # Tarefa que imprime "hello" usando o BashOperator
    print_hello = BashOperator(
        task_id="print_hello",
        bash_command="echo hello"
    )

    @task
    def print_airflow():
        print("airflow")

    # Definição da ordem de execução das tarefas
    print_hello >> print_airflow()


2. **Operators e Tasks**:
   - **Operators** são os blocos de construção de um pipeline. Eles definem o que precisa ser executado, como transferências de dados ou execução de scripts.
   - **Tasks** são instâncias de um Operator e representam uma unidade de trabalho que será executada no pipeline.

3. **Arquitetura**:
   - **Metadata**: Armazena o estado do DAG e das tasks.
   - **Scheduler**: Decide quando uma task deve ser executada.
   - **Web UI**: Interface para monitoramento e gerenciamento das DAGs.
   - **Executors**: Gerenciam a execução das tasks, podendo ser distribuídos para suportar alta disponibilidade e distribuição de carga.


4. **Tipos de Operators**:
   - **Sensor**: Monitoram eventos, como a presença de um arquivo em um diretório.
   - **Transfer**: Transferem dados entre sistemas.
   - **Action**: Executam ações, como scripts Bash ou Python.

5. **Providers**:
   - São integrações com outras ferramentas e serviços, como AWS, Databricks, MySQL e MongoDB, que permitem que o Airflow interaja diretamente com esses serviços.