[![cloudevel](img/cloudevel.png)](https://www.cloudevel.com)

# Apache Airflow y Composer.

Apache Airflow es una plataforma de código abierto diseñada para crear, programar, ejecutar y monitorear flujos de trabajo (workflows). Es una herramienta muy popular en el ámbito de la ingeniería de datos, utilizada para la orquestación de pipelines de datos complejos.

**Características**

* **Flujos de trabajo como código:** En Airflow, los flujos de trabajo se definen como código Python. Esto ofrece flexibilidad, permite reutilización, y facilita prácticas como la integración con sistemas de control de versiones (ej.: Git).
* **Orientado a DAGs:** Airflow utiliza el concepto de Grafos Acíclicos Dirigidos (DAGs en inglés). Un DAG es una estructura que representa una colección de tareas a ejecutar y sus dependencias; garantizando un orden de ejecución específico.
* **Extensible:**  Airflow se integra con una amplia variedad de tecnologías y servicios externos como bases de datos, servicios en la nube (AWS, Google Cloud, Azure), herramientas de aprendizaje automático (Machine Learning) y más.
* **Interfaz de usuario amigable:** Cuenta con una interfaz web que permite visualizar el estado de tus workflows, dependencias entre tareas, registros de ejecución, y gestionar tus procesos.
* **Escalable:** Airflow puede escalarse para manejar grandes volúmenes de datos y tareas complejas.

**¿Por qué usar Apache Airflow?**

* **Orquestación de pipelines de datos:**  Si trabajas con pipelines que involucran múltiples pasos, dependencias de tareas, y fuentes de datos heterogéneas, Airflow te brinda un control centralizado.
* **Automatización de procesos:** Puedes programar tareas repetitivas (por ejemplo: extracciones diarias de datos, reportes semanales, entrenamiento de modelos) para que se ejecuten de forma automática.
* **Monitoreo y visibilidad:** Airflow ofrece herramientas para monitorear el estado de tus flujos de trabajo, facilitando la identificación de errores o cuellos de botella.
* **Colaboración:** Al utilizar definiciones de flujos de trabajos escritas en Python, los equipos pueden colaborar más fácilmente en la construcción y mantenimiento de estos pipelines.


* **Sitio web oficial:** [https://airflow.apache.org/](https://airflow.apache.org/) 
* **Documentación:** [https://airflow.apache.org/docs/apache-airflow/stable/index.html](https://airflow.apache.org/docs/apache-airflow/stable/index.html)

## Construcción de DAGs.

La construcción de DAGs (Directed Acyclic Graphs) en Apache Airflow implica definir un conjunto de tareas y sus dependencias, utilizando código Python. El proceso básico involucra los siguientes pasos:

**1. Importar librerías:**

Comienza importando las librerías necesarias de Airflow, incluyendo `DAG`, `from_dags`, `Operators` y otras relevantes para las tareas que se realizarán.

```python
from airflow import DAG
from airflow.operators.python_operator import PythonOperator
from airflow.providers.google.cloud.operators.bigquery_operator import BigQueryOperator
# Librerías adicionales según las tareas
```

**2. Definir el DAG:**

Crea una instancia de la clase `DAG` especificando un identificador único, una descripción, un intervalo de ejecución (por ejemplo, diario, semanal) y otras configuraciones.

```python
default_args = {
    'owner': 'airflow',
    'start_date': airflow.utils.dates.days_ago(2),
    'depends_on_past': False,
    'email': ['airflow@example.com'],
    'email_on_failure': False,
    'email_on_retry': False,
}

dag = DAG('mi_dag',
          default_args=default_args,
          description='Mi primer DAG en Airflow',
          schedule_interval='@daily')
```

**3. Crear tareas:**

Define las tareas que conforman el DAG. Cada tarea se representa como una instancia de una clase de operador de Airflow, como `PythonOperator`, `BigQueryOperator`, `BashOperator`, etc.

```python
def extraer_datos():
    # Extraer datos de la fuente (por ejemplo, API, base de datos)
    # Procesar y transformar los datos
    # Guardar los datos en un formato temporal

t_extraer_datos = PythonOperator(
    task_id='extraer_datos',
    python_callable=extraer_datos,
    dag=dag)

def cargar_datos_bigquery():
    # Cargar los datos procesados en BigQuery
    pass

t_cargar_datos_bigquery = BigQueryOperator(
    task_id='cargar_datos_bigquery',
    sql='INSERT INTO my_dataset.my_table (column1, column2) VALUES (?, ?)',
    # Opciones adicionales de BigQueryOperator
    dag=dag)
```

**4. Definir dependencias entre tareas:**

Establece las dependencias entre las tareas usando la función `>>` o argumentos como `depends_on_past`. Esto indica el orden en que se deben ejecutar las tareas.

```python
t_extraer_datos >> t_cargar_datos_bigquery
```

**5. Completar el DAG:**

Agrega cualquier tarea adicional y configuraciones necesarias para completar el flujo de trabajo.

**6. Guardar el archivo DAG:**

Guarda el código Python en un archivo con extensión `.py` dentro de la carpeta `dags` de tu instalación de Airflow.

**Ejemplo completo:**

```python
from airflow import DAG
from airflow.operators.python_operator import PythonOperator
from airflow.providers.google.cloud.operators.bigquery_operator import BigQueryOperator

default_args = {
    'owner': 'airflow',
    'start_date': airflow.utils.dates.days_ago(2),
    'depends_on_past': False,
    'email': ['airflow@example.com'],
    'email_on_failure': False,
    'email_on_retry': False,
}

dag = DAG('mi_dag',
          default_args=default_args,
          description='Mi primer DAG en Airflow',
          schedule_interval='@daily')

def extraer_datos():
    # Extraer datos de la fuente (por ejemplo, API, base de datos)
    # Procesar y transformar los datos
    # Guardar los datos en un formato temporal

t_extraer_datos = PythonOperator(
    task_id='extraer_datos',
    python_callable=extraer_datos,
    dag=dag)

def cargar_datos_bigquery():
    # Cargar los datos procesados en BigQuery
    pass

t_cargar_datos_bigquery = BigQueryOperator(
    task_id='cargar_datos_bigquery',
    sql='INSERT INTO my_dataset.my_table (column1, column2) VALUES (?, ?)',
    # Opciones adicionales de BigQueryOperator
    dag=dag)

t_extraer_datos >> t_cargar_datos_bigquery


## Composer.

* **Servicio gestionado de Apache Airflow:** Cloud Composer es un servicio totalmente gestionado dentro de Google Cloud Platform (GCP) que se basa en la popular plataforma de código abierto Apache Airflow. 
* **Simplifica la creación y administración de flujos de trabajo:**  Cloud Composer se encarga de la infraestructura, configuración y actualizaciones de Airflow, permitiéndote enfocarte en la definición de tus procesos y flujos de trabajo.
* **Orientado a procesos ETL, analítica y aprendizaje automático:** Está optimizado para flujos de trabajo relacionados con extracción, transformación y carga de datos (ETL), analítica de datos y procesos de machine learning. 

**Características principales**

* **Integración nativa con Google Cloud:** Composer se conecta fácilmente con otros servicios de Google Cloud como BigQuery, Cloud Storage, Pub/Sub, etc. simplificando tareas comunes en la nube.
* **Escalabilidad:** Al estar basado en GCP, Composer puede escalar tus flujos de trabajo automáticamente para adaptarse a cambios en la carga de trabajo.
* **Seguridad:** Composer cumple con estándares de seguridad y privacidad, proporcionando tranquilidad para cargas de trabajo sensibles.
* **Monitoring sencillo:** La interfaz integrada de Airflow y las herramientas de monitoreo de GCP ayudan a visualizar los flujos de trabajo y a solucionar problemas.
* **Entornos de Airflow actualizados:** Composer te mantiene actualizado con las últimas versiones de Airflow, proporcionando acceso a mejoras y nuevas características.

Guías y tutoriales de Cloud Composer en la documentación oficial: [https://cloud.google.com/composer/docs/](https://cloud.google.com/composer/docs/)

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2024.</p>