# Pipelines y Frameworks

Aqui veremos algunas de las herramientas que nos permiten organizar nuestro codigo para el ciclo completo de Machine Learning. Esta unidad es opcional. Muchas veces se le llama MLOps solo a esta parte del proceso pero la verdad es que esto es opcional y puede ser implementado con las herramientas vistas anteriormente por ello en esta seccion solo definiremos el concepto de Pipeline y que herramientas nos podrian ayudar a implementar un Pipeline de ML en produccion pero no entraremos en detalle con ninguna de estas herramientas.

## Pipelines

Un pipeline es una secuencia de pasos que queremos automatizar.

En el caso de la integracion continua por ejemplo queremos que cuando algun desarrollador del equipo haga modificaciones al codigo sucedan los siguientes pasos:
1. Desarrollador hace modificaciones al codigo
2. Se ejecutan todos los tests para ver que el nuevo codigo no rompa el anterior
3. Se mueve el nuevo codigo a produccion para que sea utilizado por los usuarios

Estos pasos serian un pipeline y queremos automatizarlos.

En el caso de Machine Learning generalmente queremos automatizar todo el proceso de limpieza y transformacion de los datos para luego reentrenar nuestro modelo cada vez que ingresan nuevos datos. Entonces nuestros pipelines podrian verse algo asi:
1. Ingresan nuevos datos
2. Se ejecutan los procesos de limpieza y transformacion
3. Se ejecuta el reentrenamiento del modelo
4. Se mueve el nuevo modelo a produccion para que sea utilizado por los usuarios

Estos pasos serian un pipeline y queremos automatizarlos.

Para lograr esto vienen muchas herramientas que nos simplifican el proceso de no tener que escribir esta automatizacion a mano pero tambien hay que tener en cuenta que cada proyecto es un mundo muy particular y no hay una herramienta que resuelva todo, muchas veces estas herramientas pueden ser demasiado para lo que necesitamos y algunas veces nuestro caso particular requerira desarrollar nuestro propio automatizador.

## ETL Pipelines y Frameworks

Codigo:

- https://www.jenkins.io/doc/book/pipeline/

Data: 

- https://airflow.apache.org/docs/apache-airflow/2.2.3/tutorial.html
- https://github.com/ploomber/ploomber
- https://amphi.ai/
- https://dlthub.com/
- https://hub.meltano.com/
- https://www.definite.app/

In [None]:
%% file

from airflow.models import DAG
from airflow.operators.dummy_operator import DummyOperator
from airflow.operators.bash_operator import BashOperator
from airflow.operators.python_operator import PythonOperator

default_args = {
    'owner': 'MyNameHere'
}

def hello_world_loop():
    for palabra in ['hello', 'world']:
        print(palabra)

with DAG(
    dag_id='hello_world',
    default_args = default_args,
    description='Un ejemplo simple de DAG',
    schedule_interval=timedelta(days=1),
    start_date=datetime(2025, 1, 1),
) as dag:

    ejecutar_inicio = DummyOperator(task_id='ejecutar_inicio')

    ejecutar_python = PythonOperator(task_id='ejecutar_python', 
                                     python_callable=hello_world_loop)

    ejecutar_bash =  BashOperator(task_id='ejecutar_bash', 
                                  bash_command='echo Hello World!')

ejecutar_inicio >> ejecutar_python >> ejecutar_bash