<h1 align="center"><font color="yellow">MLflow: Uma guia para Iniciantes</font></h1>

<font color="yellow">Data Scientist.: Dr.Eddy Giusepe Chirinos Isidro</font>

Links de estudo:

* [MLflow para Iniciantes](https://levelup.gitconnected.com/mlflow-made-easy-your-beginners-guide-bf63f8fed915)

* [MLflow Documentation](https://mlflow.org/docs/latest/index.html)


* [Elevate Your Machine Learning Workflow: How to Use MLflow for Experiment Tracking and Model Management](https://dipankarmedh1.medium.com/elevate-your-machine-learning-workflow-how-to-use-mlflow-for-experiment-tracking-and-model-419c2a700ec5)    

No seguinte Notebook estudaremos [MLOps](https://levelup.gitconnected.com/mlops-mastering-machine-learning-deployment-an-intro-to-docker-kubernetes-helm-and-modern-web-b14dd140a9bf)



# <font color="red">Setup e Dataset</font>

Aqui vamos aprender a rastrear (track) nossos experimentos. Para isso come√ßamos instalando a seguinte Biblioteca:
```
pip install mlflow
```
e logo baixaremos o Dataset [Iris](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris) para construir um modelo de `Classifica√ß√£o simples`.

In [1]:
import mlflow
import pandas as pd

from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score

# Verificando a vers√£o do MLflow:
print(mlflow.__version__)


2.18.0


In [2]:
# Carregar o Dataset Iris:
dataset = load_iris()

# Passando o Dataset para um DataFrame:
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
df['target'] = dataset.target
df.head()


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [3]:
df.shape

(150, 5)

In [4]:
# Split do Dataset em train e test:
X_train, X_test, y_train, y_test = train_test_split(dataset.data,
                                                    dataset.target,
                                                    test_size=0.25,
                                                    stratify=dataset.target # Usado para manter a mesma propor√ß√£o de amostras para cada classe no conjunto de treinamento e teste.
                                                   )

# Verificamos nossos dados de train e test:
print(f"Shape do Train: {X_train.shape[0]} linhas, {X_train.shape[1]} colunas", )
print(f"Shape do Test: {X_test.shape[0]} linhas, {X_test.shape[1]} colunas")
print(f"Nome das Colunas: {dataset.feature_names}")

Shape do Train: 112 linhas, 4 colunas
Shape do Test: 38 linhas, 4 colunas
Nome das Colunas: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


<font color="orange">Ent√£o, lembra que estamos construindo um `Modelo de Regress√£o Log√≠stica` com a ajuda de `mlflow` para rastrear nossos experimentos.</font>

Voc√™ pode executar o seguinte comando no terminal `mlflow ui` para ver a interface de usu√°rio do MLflow e ver que ainda n√£o temos nada registrado. 

In [5]:
# Definimos o experimento para o MLflow:
mlflow.set_experiment('Eddy_Baseline_Model') # As execu√ß√µes da experi√™ncia e os metadados associados ser√£o organizados sob o nome desta experi√™ncia no MLflow

# Iniciamos um contexto de execu√ß√£o do MLflow:
with mlflow.start_run(): # Este contexto encapsula o rastreamento de todas as informa√ß√µes relacionadas a esta execu√ß√£o espec√≠fica no experimento.
    # Inicializamos nosso modelo LogisticRegression:
    model = LogisticRegression()
    
    # Treinamos nosso Modelo com os dados de Treinamento:
    model.fit(X_train, y_train)

    # Fazemos previs√µes sobre os dados de teste:
    y_pred = model.predict(X_test)

    # Calculamos algumas M√©tricas de avalia√ß√£o:
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='macro')
    recall = recall_score(y_test, y_pred, average='macro')

    # Registramos (LOGs) as m√©tricas de avalia√ß√£o no MLflow run:
    mlflow.log_metric('accuracy', accuracy)
    mlflow.log_metric('precision', precision)
    mlflow.log_metric('recall', recall)

    # Registramos o modelo Treinado no MLflow run:
    mlflow.sklearn.log_model(model, 'Eddy_Model_Logistic_Regression')

    # Metadados adicionais s√£o associados √† execu√ß√£o definindo tags ü§ó.
    # Definimos as informa√ß√µes do Desenvolvedor como uma tag:
    mlflow.set_tag('Senior Data Scientist', 'Dr. Eddy Giusepe Chirinos Isidro')

    # Definimos os detalhes do pr√©-processamento como uma tag:
    mlflow.set_tag('preprocessing', 'None')

    # Definimos o tipo de Modelo como uma tag:
    mlflow.set_tag('Tipo de Modelo', 'Logistic Regression')


2024/12/06 16:23:49 INFO mlflow.tracking.fluent: Experiment with name 'Eddy_Baseline_Model' does not exist. Creating a new experiment.


<font color="pink">Seguidamente, abra seu prompt de comando (ou `Terminal`) e digite isto: 
```
$ mlflow ui 
```

Voc√™ ver√° a `IU` de rastreamento ganhar vida em `http://localhost:5000`</font>

![Alt text](image-1.png)

<font color="orange">Clique em `Run Name` para ver os detalhes da execu√ß√£o do experimento. Voc√™ ver√° uma p√°gina como esta:</font>

![Alt text](image-2.png)

<font color="orange">Ent√£o, voc√™ acabou de acompanhar sua primeira excu√ß√£o experimental. Voc√™ pdoe seguir familiarizando-se com MLflow ü§ó.</font>

# <font color="red">Experimentar</font>

<font color="orange">Estamos experimentado, e come√ßamos com o experimento chamado: `Eddy Baseline Model` e esse √© a nossa primeira grande ideia. Depois vem outro experimento, o `Eddy modelo melhorado`, onde voc√™ mexe em coisas como `Random Forest` e `SVM`. E ei, voc√™ pode ir ainda mais fundo, tentando coisas como `ajustar hiperpar√¢metros`. Cada um deles √© um novo `'experiment'` - uma nova aventura.</font>

# <font color="red">Analisando mais de perto o MLflow</font>

<font color="orange">`MLflow` √© uma plataforma de `c√≥digo aberto` para gerenciar o ciclo de vida de aprendizado de m√°quina de `end-to-end`. As fun√ß√µes do MLflow que exploraremos neste artigo s√£o:

* <font color="yellow">Rastreamento de MLflow</font> (`MLflow Tracking`): uma API para registrar par√¢metros, c√≥digo e resultados de um experimento e compar√°-los com uma interface de usu√°rio interativa. (Vimos isso em nosso exemplo acima)

Voc√™ deve ter notado um diret√≥rio `mlruns` criado no mesmo diret√≥rio onde seu c√≥digo foi executado. O `MLflow` usou esse diret√≥rio para armazenar artefatos e entidades do MLflow.


![Alt text](image-3.png)


* <font color="yellow">Modelos MLflow</font> (`MLflow Models`): um formato para modelos de empacotamento e ferramentas que simplificam o Deploy do mesmo modelo (`de qualquer biblioteca de ML`) para pontua√ß√£o em lote e em tempo real em plataformas como `Docker`, `Apache Spark`, `Azure ML` e `AWS SageMaker`. (verifique o formato do modelo registrado)

* <font color="yellow">Registro de modelo MLflow</font> (`MLflow Model Registry`): controle de vers√£o de modelo, transi√ß√µes de est√°gio e anota√ß√µes podem ser gerenciados de forma colaborativa com a ajuda do Registro de modelo MLflow, que serve como um armazenamento central de modelo.</font>


# <font color="red">Modelos MLflow</font>

<font color="orange">Um modelo `MLflow` √© um formato padr√£o para empacotar seus modelos de aprendizado de m√°quina. Isso nos permite usar o modelo em uma variedade de ferramentas `downstream`. Pense nisso como colocar seu modelo em uma caixa com etiquetas diferentes para que diferentes ferramentas saibam como abri-lo e us√°-lo. `Eles chamam esses diferentes formatos de ‚Äúflavors‚Äù`.

`Por exemplo`, se voc√™ tiver um modelo de aprendizado de m√°quina, talvez queira us√°-lo em diferentes situa√ß√µes:

* `Envio em tempo real` (Real-time Serving): voc√™ pode querer servir seu modelo em tempo real por meio de uma `API REST` para que ele possa fazer previs√µes assim que novos dados chegarem.

* `Infer√™ncia em lote` (Batch Inference): alternativamente, voc√™ pode querer usar o mesmo modelo em um sistema de processamento em lote como o `Apache Spark`, onde ele processa uma grande quantidade de dados em lotes.

Esses dois cen√°rios exigem prepara√ß√µes ou `‚Äúflavors‚Äù` ligeiramente diferentes do mesmo modelo. Portanto, `‚Äúflavors‚Äù` aqui significam diferentes configura√ß√µes ou formatos do modelo para atender os diferentes casos de uso ou ferramentas.</font>

# <font color="red">Formato de Armazenamento</font>

Em nosso exemplo, registramos nosso modelo como um flavor: `mlflow.sklearn`. 

Para mais detalhes ver a documenta√ß√£o: [MLflow](https://mlflow.org/docs/latest/index.html).

Registrar (LOG) o modelo treinado na execu√ß√£o do MLflow (do trecho de c√≥digo acima)

```
mlflow.sklearn.log_model(model, 'Eddy_Model_Logistic_Regression')
```

![Alt text](image-4.png)

# <font color="red">Registro de modelo MLflow</font>

<font color="orange">Talvez voc√™ esteja se perguntando: `'J√° salvei ou registrei meu modelo como um artifact (artefato), ent√£o por que preciso saber sobre o registro do modelo?'` 

Vamos considerar um cen√°rio: voc√™ executou cinco experimentos e, em cada execu√ß√£o, registrou um modelo. Ap√≥s uma avalia√ß√£o completa, voc√™ descobriu que o quarto modelo tem o melhor desempenho e deseja implant√°-lo em seu aplicativo.

Agora, surgem algumas quest√µes essenciais:

1. `Em que est√°gio meu modelo est√°? Est√° em prepara√ß√£o, produ√ß√£o ou arquivado?`

2. `Se algu√©m perguntar qual experimento e execu√ß√£o produziram esse modelo, voc√™ pode fornecer uma resposta?`

3. `No futuro, quando voc√™ construir um modelo melhor e quiser substituir o atual, como ir√° acompanhar os modelos antigos?`


√â aqui que o `Registro de Modelo` interv√©m para salvar o dia. Ele fornece uma s√©rie de recursos valiosos, incluindo transi√ß√µes de est√°gio, linhagem de modelo (para rastrear o experimento e a execu√ß√£o que produziu o modelo), controle de vers√£o do modelo e muito mais.

Vamos ver o registro do modelo em a√ß√£o!</font>


<font color="pink">Antes de poder adicionar um modelo ao `registro de modelo`, voc√™ deve registrar o modelo usando o m√©todo `log_model` do flavor do modelo correspondente.

Existem quatro maneiras de registrar seu modelo:

1. `UI do MLflow`

2. `Flavor do modelo MLflow`

3. `Modelo de registro MLflow`

4. `API de Tracking (rastreamento) do cliente MLflow`

## <font color="green">UI do MLflow</font>

![Alt text](image-5.png)

<font color="orange">

* Voc√™ encontrar√° um grande bot√£o azul chamado `Register Model` na se√ß√£o `Artifacts` na p√°gina de detalhes do `MLflow` Runs. Clique nisso!

* Se voc√™ estiver adicionando um novo modelo, especifique um `Model Name` para identificar exclusivamente o modelo. Se estiver registrando uma nova vers√£o para um modelo existente, voc√™ poder√° escolher o nome do modelo existente no menu suspenso.

* Clique em Cadastre-se!</font>


Parab√©ns, voc√™ registrou seu novo modelo! Seria semelhante a:


![Alt text](image-6.png)

<font color="orange">Se voc√™ clicar em `Version 1`, poder√° navegar at√© a p√°gina de detalhes da vers√£o. Na p√°gina de detalhes voc√™ pode alterar o est√°gio do modelo, ver a linhagem do modelo (`source run`) e outros metadados.</font>

![Alt text](image-7.png)

## <font color="green">Flavor do modelo MLflow</font>

<font color="orange">Voc√™ pode `LOG` e `register` seu modelo durante a execu√ß√£o do experimento. Voc√™ pode usar o m√©todo `mlflow.<model_flavor>.log_model()`.</font>

In [None]:
# Importar as Bibliotecas
# Preparar dados e realizar pr√©-processamento ...

with mlflow.start_run():
  model = LogisticRegression()

  # Train the model
  # Predict on test set
  # Log metrics and set tags

  # Log the sklearn model and register as version 1:
  mlflow.sklearn.log_model(
    sk_model=model,
    artifact_path='Eddy_model',
    registered_model_name='Eddy Logistic Regression'
  )


<font color="orange">No trecho de c√≥digo acima, usamos o flavor de modelo `sklearn` para log e registrar o modelo. Se n√£o existir um modelo registrado com o nome, o m√©todo registra um novo modelo e cria a `Vers√£o 1`. Se existir um modelo registrado com o nome, o m√©todo cria uma nova vers√£o do modelo.</font>

## <font color="green">Modelo de registro MLflow</font>

<font color="orange">Usamos o m√©todo `mlflow.regiter_model()` para registrar o modelo.

Existem dois argumentos obrigat√≥rios para o m√©todo acima: `model_uri` e `name`.

`model_uri`: URI referente ao diret√≥rio `MLmodel`. Use um `runs:/` URI se quiser registrar o ID de run com o modelo no registro de modelo.

`name`: O nome do modelo registrado.</font>

In [None]:
# model_uri format: runs:/<RUN_ID>/<DIRECTORY_NAME>

result = mlflow.register_model(
    "runs:/f3f14056a49f48168af1b187f36e5aea/model", "Eddy Giusepe Logistic Regression"
)


<font color="orange">Se n√£o existir um modelo registrado com o nome, o m√©todo registra um novo modelo e cria a `Vers√£o 1`. Se existir um modelo registrado com o nome, o m√©todo cria uma nova vers√£o do modelo.</font>

## <font color="green">API de Tracking (rastreamento) do cliente MLflow</font>

<font color="orange">Neste m√©todo, primeiro precisamos criar o arquivo `Model Name` caso contr√°rio, ele lan√ßar√° um arquivo `MLflowException`.</font>

In [None]:
from mlflow import MlflowClient

client = MlflowClient()

# Crie o nome do modelo se n√£o existir
client.create_registered_model('Eddy G Logistic Regression')

# Register the model:
client.create_model_version(
  name='Logistic Regression',
  source='file:///<hidden-privacy>/mlruns/758224673514181683/817ae04665574b2abe5384144a9be015/artifacts/model',
  run_id="817ae04665574b2abe5384144a9be015"
)

<font color="orange">
`source`: path de source onde o modelo `MLflow` est√° armazenado. Voc√™ pode copiar o caminho completo do `artifact` do modelo.
</font>

# <font color="red">B√¥nus: uso do registro de modelo durante o Deploy (implanta√ß√£o)</font>

<font color="orange">Num pipeline de implanta√ß√£o (Deployment) automatizado, √© essencial selecionar automaticamente o modelo registado mais recente para **infer√™ncia**. 

<font color="pink">Mas e se voc√™ precisar do modelo mais recente de um est√°gio espec√≠fico? Como podemos alcan√ßar essa funcionalidade?</font>

A resposta est√° na `API de Tracking de cliente MLflow`.</font>

In [7]:
from mlflow import MlflowClient

client = MlflowClient()

# Par√¢metros de filtro:
MODEL_NAME = 'Modelo Eddy Logistic Regression'
STAGE = 'Staging'

# Procure o modelo com NOME DO MODELO e n√∫mero da vers√£o em ordem decrescente:
mlflow_model = client.search_model_versions(
  filter_string=f"name = '{MODEL_NAME}'", 
  order_by=["version_number DESC"]
)

# De todos os modelos, encontre aquele com o est√°gio atual como Staging. Log (Registrar) esse modelo:
for model in mlflow_model:
  if model.current_stage == STAGE:
    clf = mlflow.sklearn.load_model(model_uri=f"models:/{model.name}/{model.version}")
    break