## Tutorial MLflow

MLflow é uma plataforma open-source para gerenciar um ciclo de vida do Machine learning, incluindo experimentação, reprodutibilidade, implantação e um registro central de modelo.

### Instalação
- Para melhor administração, instale um ambiente virtual (virtualenv ou miniconda são recomendados);
- Instale o MLflow com ```pip install mlflow```

---------------------------

### Modelo exemplo
Este material usa um modelo relativo à qualidade de vinhos. Seu dataset pode ser acessado em http://archive.ics.uci.edu/ml/datasets/Wine+Quality

------------------------

In [1]:
import os
import warnings
import sys

import pandas as pd
import numpy as np

from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import ElasticNet

# Import mlflow libraries
import mlflow
import mlflow.sklearn



In [5]:
# Read the dataset
data_path = "data/wine-quality.csv"
data = pd.read_csv(data_path)

data.sample(5)

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
327,6.4,0.34,0.23,6.3,0.039,37.0,143.0,0.9944,3.19,0.65,10.0,6
89,7.1,0.44,0.62,11.8,0.044,52.0,152.0,0.9975,3.12,0.46,8.7,6
735,6.4,0.25,0.3,5.5,0.038,15.0,129.0,0.9948,3.14,0.49,9.6,6
2978,6.6,0.23,0.2,11.4,0.044,45.0,131.0,0.99604,2.96,0.51,9.7,6
4173,7.1,0.34,0.86,1.4,0.174,36.0,99.0,0.99288,2.92,0.5,9.3,5


### Tracking

O Tracking é um módulo do MLflow que tem como objetivo armazenar todos os registros de métricas, parâmetros, tags e artefatos de cada execução de um modelo.

É possível salvar os artefatos localmente ou em um banco de dados. De acordo com a documentação, o MLflow suporta, para o banco de dados, dialetos mysql, mssql, sqlite, e postgresql [[1]](https://www.mlflow.org/docs/latest/tracking.html#where-runs-are-recorded).

Para definir o servidor de rastreamento, é necessário definir o diretório de armazenamento dos experimentos, que por default é ```mlruns/```, o URI e a porta para receber a interface disponibilizada pelo MLflow, como indica o comando a seguir:
```
mlflow server \
    --backend-store-uri mlruns/ --default-artifact-root mlruns/ --host 0.0.0.0 --port 5002
```

Após a execução, são gerados arquivos no diretório definido. Cada "run" gera um arquivo MLmodel, conda.yaml e o código do modelo. 

Caso queira visualizar a interface novamente ao encerrar a execução no terminal, no diretório, use ```mlflow ui```

---------------------------------------------------

In [3]:
# Set mlflow set_tracking_url to log runs remotely, if that's your case 
remote_server_uri = "http://0.0.0.0:5002"
mlflow.set_tracking_uri(remote_server_uri)

In [4]:
mlflow.tracking.get_tracking_uri()

'http://0.0.0.0:5002'

In [10]:
# Create an experiment to better organization. If not specified, the experiment receives the 'default' name
exp_name = "experimento vinhos"
mlflow.set_experiment(exp_name)

INFO: 'experimento 1 vinhos' does not exist. Creating a new experiment


-----------------------------------------------------
#### Principais funções
O MLflow possui diversas funções. As que são usadas neste exemplo são:
- ```mlflow.start_run()```: inicia o processo de execução do modelo na ferramenta.
- ```mlflow.log_param()```: registra e apresenta os parâmetros definidos no atual "run".
- ```mlflow.log_metric()``` ou ```mlflow.log_metric()```: registra e apresenta as métricas definidas no atual "run".
- ```mlflow.log_artifact()``` ou ```mlflow.log_artifacts()```: registra e apresenta arquivo(s). 
- ```mlflow.sklearn.log_model()```: registra e apresenta o modelo do "run" atual [[2]](https://www.mlflow.org/docs/latest/python_api/mlflow.sklearn.html). 

--------------------------------------

#### Desenvolvimento do código: treinamento, predição e uso do MLflow

In [11]:
def eval_metrics(actual, pred):
    # compute relevant metrics
    rmse = np.sqrt(mean_squared_error(actual, pred))
    mae = mean_absolute_error(actual, pred)
    r2 = r2_score(actual, pred)
    return rmse, mae, r2


def load_data(data_path):
    data = pd.read_csv(data_path)

    # Split the data into training and test sets. (0.75, 0.25) split.
    train, test = train_test_split(data)

    # The predicted column is "quality" which is a scalar from [3, 9]
    train_x = train.drop(["quality"], axis=1)
    test_x = test.drop(["quality"], axis=1)
    train_y = train[["quality"]]
    test_y = test[["quality"]]
    return train_x, train_y, test_x, test_y


def train(alpha=0.5, l1_ratio=0.5):
    # train a model with given parameters
    warnings.filterwarnings("ignore")
    np.random.seed(40)

    # Read the wine-quality csv file
    data_path = "data/wine-quality.csv"
    train_x, train_y, test_x, test_y = load_data(data_path)

    # MLflow execution: where you want to start the tracking.
    with mlflow.start_run():
        # Execute ElasticNet
        lr = ElasticNet(alpha=alpha, l1_ratio=l1_ratio, random_state=42)
        lr.fit(train_x, train_y)

        # Evaluate Metrics
        predicted_qualities = lr.predict(test_x)
        (rmse, mae, r2) = eval_metrics(test_y, predicted_qualities)

        # Print out metrics
        print("Elasticnet model (alpha=%f, l1_ratio=%f):" % (alpha, l1_ratio))
        print("  RMSE: %s" % rmse)
        print("  MAE: %s" % mae)
        print("  R2: %s" % r2)

        # Log parameter, metrics, and model to MLflow
        mlflow.log_param(key="alpha", value=alpha)
        mlflow.log_param(key="l1_ratio", value=l1_ratio)
        
        mlflow.log_metric(key="rmse", value=rmse)
        mlflow.log_metrics({"mae": mae, "r2": r2})
        
        mlflow.log_artifact(data_path)
        print("Save to: {}".format(mlflow.get_artifact_uri()))
        
        mlflow.sklearn.log_model(lr, "model")

In [12]:
# Train with the given parameters (alpha and l1_ratio)
train(0.5, 0.5)

Elasticnet model (alpha=0.500000, l1_ratio=0.500000):
  RMSE: 0.8222428497595401
  MAE: 0.6278761410160693
  R2: 0.12678721972772666
Save to: mlruns/1/f9140d38603b459d8a7ffd44f9585d50/artifacts


In [13]:
train(0.2, 0.2)

Elasticnet model (alpha=0.200000, l1_ratio=0.200000):
  RMSE: 0.7859129997062342
  MAE: 0.6155290394093895
  R2: 0.2022463182289208
Save to: mlruns/1/6b430977accb4a8e90663f6a32579fe4/artifacts


In [14]:
train(0.1, 0.1)

Elasticnet model (alpha=0.100000, l1_ratio=0.100000):
  RMSE: 0.7792546522251949
  MAE: 0.6112547988118587
  R2: 0.2157063843066196
Save to: mlruns/1/78741e5dfeff469cb284ceaf5ad49645/artifacts


-------------------------------------------------------
Esses runs podem ser visualizados na interface do MLflow e são salvos no diretório mlruns/ com todos os artefatos devidos. A figura a seguir ilustra a dinâmica do tracking, com os experimentos, runs, métricas, parâmetros, diretórios, entre outros. 
![image.png](attachment:image.png)

Ao clicar em um "run" específica, a seguinte tela é apresentada com mais detalhes. Além disso, é possível visualizar gráficos clicando nas métricas desejadas.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

### MLflow project

Este módulo permite que os "runs", com os arquivos gerados previamente, possam ser empacotados, reproduzidos e replicados em outros ambientes, para pessoas da mesma equipe, por exemplo.

Para isso acontecer, é necessário: 
- Selecionar o "run" desejado para empacotamento no diretório que se encontram os registros do tracking;
- Copiar os artefatos **conda.yaml** e **MLproject** gerados do mesmo "run". Eles se encontram em ```mlruns/número_do_experimento/id_run/artifacts/model```;
- Executar no mesmo terminal e env `mlflow run . -P alpha=0.42`, em que no caso exemplo, há a necessidade subjetiva de executá-lo com outro valor de algum parâmetro;
- Com isso, será criado um ambiente virtual conda usando os arquivos conda.yaml, MLproject e o arquivo com as funções de treinamento;
- Visualizar no mesmo endereço host os resultados com o novo parâmetro, que será apresentado como um experimento, como ilustra a imagem a seguir.

![image.png](attachment:image.png)


### Deploy

Outro módulo do MLflow é a Model. Com esta etapa é possível salvar e servir um modelo.

Ao gerar o modelo e aplicar o comando `serve` descrito a seguir, uma API é criada para servir o modelo.

Para realizar o deploy do modelo localmente o seguinte comando pode ser utilizado:

`mlflow models serve -m mlruns/numero_do_experimento/id_run/artifacts/model/ -h host -p port`

A imagem a seguir ilustra o id do "run"

![image.png](attachment:image.png)

como exemplo:

`mlflow models serve -m mlruns/1/6b430977accb4a8e90663f6a32579fe4/artifacts/model/ -h 0.0.0.0 -p 5003`

Ao tentar acessar o localhost correspondente, haverá uma resposta de `url not found`.

Logo, em alternativa para testar o endpoint, é possível trabalhar com o curl, como exemplifica as seguintes linhas de código, seguindo as diretrizes do método POST descrito na documentação [[3]](https://www.mlflow.org/docs/latest/models.html#deploy-mlflow-models): 

`curl -X POST -H "Content-Type:application/json; format=pandas-split" --data '{"columns":["alcohol", "chlorides", "citric acid", "density", "fixed acidity", "free sulfur dioxide", "pH", "residual sugar", "sulphates", "total sulfur dioxide", "volatile acidity"],"data":[[12.8, 0.029, 0.48, 0.98, 6.2, 29, 3.33, 1.2, 0.39, 75, 0.66]]}' http://0.0.0.0:5003/invocations`

--------------------

Pode-se visualizar que o resultado da predição é retornado no terminal e ao acessar `http://0.0.0.0:5003/invocation` percebe-se que o feedback ao usuário é alterado.

#### Docker
- Para buildar uma imagem com docker do modelo escolhido:

`mlflow models build-docker -m mlruns/1/d671f37a9c7f478989e67eb4ff4d1dac/artifacts/model/ -n elastic_net_wine`

- Para executar o conteiner:

`docker run -p 8080:8080 elastic_net_wine`.

Na documentação oficial há várias opções suportadas para o deploy com AWS sagemaker [[3]](https://docs.databricks.com/applications/mlflow/scikit-learn-model-deployment-on-sagemaker.html), Microsoft Azure ML, Apache Spark UDF [[4]](https://www.mlflow.org/docs/latest/models.html#id30).

#### Banco de dados

Se a necessidade for usar um banco de dados para armazenar os registros é necessária a configuração específica.

No exemplo do postgres:
- `sudo -u postgres psql`
- `CREATE DATABASE mlflow;`
- `CREATE USER mlflow WITH ENCRYPTED PASSWORD mlflow;`
- `GRANT ALL PRIVILEGES ON DATABASE mlflow TO mlflow;`

Para conectar ao tracking do MLflow:

`mlflow server --backend-store-uri postgresql://mlflow:mlflow@localhost/mlflow --default-artifact-root file:/home/shay/mlflow_tutorial/mlruns/ -h 0.0.0.0 -p 8000`

Para visualizar mais detalhes dos experimentos e "runs":

- `psql mlflow`
- `SELECT * FROM experiments;`
- `SELECT * FROM runs;`
- `SELECT * FROM metrics;`

### Pontos positivos e de melhoria

Positivos: 
- Open-source;
- Logs simplificados e fácil implementação;
- Permite comparação gráfica entre parâmetros e resultados;
- Serviço de empacotamento para tornar um modelo reutilizável e reproduzível para melhorar o compartilhamento entre equipes;
- Administra e realiza deploy de modelos com uma variedade de bibliotecas de ML.

A melhorar: 

- De acordo com a documentação e comparação com outras ferramentas, há poucas opções de integração e linguagens;
- A lista de "runs" apresenta um excesso de dados, o que pode prejudicar e dificultar a visualização quando houver muitos runs, parâmetros, métricas;
- Uso com Kubernetes em fase experimental [[5]](https://www.mlflow.org/docs/latest/projects.html#kubernetes-execution) e [[6]](https://github.com/mlflow/mlflow/pull/1181/files).

