# Tenere traccia del training del modello nei notebook con MLflow

È possibile usare MLflow in un notebook per tenere traccia di tutti i modelli di cui si esegue il training. Man mano che si eseguirà questo notebook con un'istanza di calcolo di Azure Machine Learning, non è necessario configurare MLflow: è già installato e integrato. 

Si prepareranno alcuni dati e si eseguirà il training di un modello per stimare il diabete. Si userà l'assegnazione automatica e la registrazione personalizzata per esplorare come usare MLflow nei notebook.

## Prima di iniziare

È necessaria la versione più recente del pacchetto **azureml-ai-ml** per eseguire il codice in questo notebook. Eseguire la cella seguente per verificare che sia installata.

> **Nota**:
> Se il pacchetto **azure-ai-ml** non è installato, eseguirlo `pip install azure-ai-ml` per installarlo.

In [None]:
## Connettersi all'area di lavoro

Con i pacchetti SDK necessari installati, è ora possibile connettersi all'area di lavoro.

Per connettersi a un'area di lavoro, sono necessari parametri di identificatore: ID sottoscrizione, nome del gruppo di risorse e nome dell'area di lavoro. Il nome del gruppo di risorse e il nome dell'area di lavoro sono già compilati. È necessario solo l'ID sottoscrizione per completare il comando.

Per trovare i parametri necessari, fare clic sulla sottoscrizione e sul nome dell'area di lavoro nella parte superiore destra di Studio. Un riquadro verrà aperto a destra.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Copiare l'ID sottoscrizione e sostituire **YOUR-SUBSCRIPTION-ID** con il valore copiato. </p>

## Configurare MLflow

Quando si esegue questo notebook in un'istanza di calcolo nel studio di Azure Machine Learning, non è necessario configurare MLflow. 

È comunque consigliabile verificare che le librerie necessarie siano effettivamente installate:

In [None]:
## Preparare i dati

Si eseguirà il training di un modello di classificazione del diabete. I dati di training vengono archiviati nella cartella **dati** come **diabetes.csv**. 

Prima di tutto, leggiamo i dati:

In [None]:
Successivamente, si suddivideranno i dati in funzionalità e l'etichetta (Diabete):

Sono ora disponibili quattro dataframe:

- `X_train`: set di dati di training contenente le funzionalità.
- `X_test`: set di dati di test contenente le funzionalità.
- `y_train`: etichetta per il set di dati di training.
- `y_test`: etichetta per il set di dati di test.

Questi verranno usati per eseguire il training e valutare i modelli a cui si eseguirà il training.

## Creare un esperimento MLflow

Dopo aver eseguito il training dei modelli di Machine Learning, si creerà prima un esperimento MLflow. Creando l'esperimento, è possibile raggruppare tutte le esecuzioni all'interno di un esperimento e semplificare la ricerca delle esecuzioni in studio.

In [None]:
## Eseguire il training e tenere traccia dei modelli

Per tenere traccia di un modello sottoposto a training, è possibile usare MLflow e abilitare l'assegnazione automatica dei tag. La cella seguente eseguirà il training di un modello di classificazione usando la regressione logistica. Si noterà che non è necessario calcolare le metriche di valutazione perché vengono create e registrate automaticamente da MLflow.

In [None]:
È anche possibile usare la registrazione personalizzata con MLflow. È possibile aggiungere la registrazione personalizzata all'assegnazione automatica o usare solo la registrazione personalizzata.

Eseguiamo il training di due altri modelli con scikit-learn. Poiché è stato eseguito il `mlflow.sklearn.autolog()` comando precedente, MLflow ora registra automaticamente qualsiasi modello sottoposto a training con scikit-learn. Per disabilitare l'assegnazione automatica, eseguire la cella seguente:

È ora possibile eseguire il training e tenere traccia dei modelli usando solo la registrazione personalizzata. 

Quando si esegue la cella seguente, si registra solo un parametro e una metrica.

In [None]:
Il motivo per cui si vuole tenere traccia dei modelli potrebbe essere quello di confrontare i risultati dei modelli sottoposti a training con valori iperparametri diversi. 

Ad esempio, è stato eseguito il training di un modello di regressione logistica con una frequenza di regolarizzazione pari a 0,1. Ora, eseguire il training di un altro modello, ma questa volta con una frequenza di regolarizzazione pari a 0,01. Poiché si tiene traccia anche dell'accuratezza, è possibile confrontare e decidere quali risultati in un modello con prestazioni migliori.

Un altro motivo per tenere traccia dei risultati del modello è quando si sta testando un altro stimatore. Tutti i modelli sottoposti a training finora hanno usato lo strumento di stima della regressione logistica. 

Eseguire la cella seguente per eseguire il training di un modello con lo strumento di stima dell'albero delle decisioni e verificare se l'accuratezza è superiore rispetto alle altre esecuzioni.

In [None]:
Infine, provare a registrare un artefatto. Un artefatto può essere qualsiasi file. Ad esempio, è possibile tracciare la curva ROC e archiviare il tracciato come immagine. L'immagine può essere registrata come artefatto. 

Eseguire la cella seguente per registrare un parametro, una metrica e un artefatto.

In [None]:
Esaminare i risultati del modello nella pagina Processi della studio di Azure Machine Learning. 

- I parametri sono disponibili in **Params** nella scheda **Panoramica** .
- Le **metriche** sono disponibili nella scheda **Panoramica** e nella scheda **Metriche** .
- Gli artefatti sono disponibili nella scheda **Output e log** .

![Screenshot delle schede output e log nella pagina Processi.](./images/output-logs.png)

You now have four dataframes:

- `X_train`: The training dataset containing the features.
- `X_test`: The test dataset containing the features.
- `y_train`: The label for the training dataset.
- `y_test`: The label for the test dataset.

You'll use these to train and evaluate the models you'll train.

## Create an MLflow experiment

Now that you're ready to train machine learning models, you'll first create an MLflow experiment. By creating the experiment, you can group all runs within one experiment and make it easier to find the runs in the studio.

In [None]:
import mlflow
experiment_name = "mlflow-experiment-diabetes"
mlflow.set_experiment(experiment_name)

## Train and track models

To track a model you train, you can use MLflow and enable autologging. The following cell will train a classification model using logistic regression. You'll notice that you don't need to calculate any evaluation metrics because they're automatically created and logged by MLflow.

In [None]:
from sklearn.linear_model import LogisticRegression

with mlflow.start_run():
    mlflow.sklearn.autolog()

    model = LogisticRegression(C=1/0.1, solver="liblinear").fit(X_train, y_train)


You can also use custom logging with MLflow. You can add custom logging to autologging, or you can use only custom logging.

Let's train two more models with scikit-learn. Since you ran the `mlflow.sklearn.autolog()` command before, MLflow will now automatically log any model trained with scikit-learn. To disable the autologging, run the following cell:

In [None]:
mlflow.sklearn.autolog(disable=True)

Now, you can train and track models using only custom logging. 

When you run the following cell, you'll only log one parameter and one metric.

In [None]:
from sklearn.linear_model import LogisticRegression
import numpy as np

with mlflow.start_run():
    model = LogisticRegression(C=1/0.1, solver="liblinear").fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("regularization_rate", 0.1)
    mlflow.log_metric("Accuracy", acc)

The reason why you'd want to track models, could be to compare the results of models you train with different hyperparameter values. 

For example, you just trained a logistic regression model with a regularization rate of 0.1. Now, train another model, but this time with a regularization rate of 0.01. Since you're also tracking the accuracy, you can compare and decide which rate results in a better performing model.

In [None]:
from sklearn.linear_model import LogisticRegression
import numpy as np

with mlflow.start_run():
    model = LogisticRegression(C=1/0.01, solver="liblinear").fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("regularization_rate", 0.01)
    mlflow.log_metric("Accuracy", acc)

Another reason to track your model's results is when you're testing another estimator. All models you've trained so far used the logistic regression estimator. 

Run the following cell to train a model with the decision tree classifier estimator and review whether the accuracy is higher compared to the other runs.

In [None]:
from sklearn.tree import DecisionTreeClassifier
import numpy as np

with mlflow.start_run():
    model = DecisionTreeClassifier().fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    mlflow.log_param("estimator", "DecisionTreeClassifier")
    mlflow.log_metric("Accuracy", acc)

Finally, let's try to log an artifact. An artifact can be any file. For example, you can plot the ROC curve and store the plot as an image. The image can be logged as an artifact. 

Run the following cell to log a parameter, metric, and an artifact.

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import numpy as np

with mlflow.start_run():
    model = DecisionTreeClassifier().fit(X_train, y_train)

    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)

    # plot ROC curve
    y_scores = model.predict_proba(X_test)

    fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
    fig = plt.figure(figsize=(6, 4))
    # Plot the diagonal 50% line
    plt.plot([0, 1], [0, 1], 'k--')
    # Plot the FPR and TPR achieved by our model
    plt.plot(fpr, tpr)
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('ROC Curve')
    plt.savefig("ROC-Curve.png")

    mlflow.log_param("estimator", "DecisionTreeClassifier")
    mlflow.log_metric("Accuracy", acc)
    mlflow.log_artifact("ROC-Curve.png")

Review the model's results on the Jobs page of the Azure Machine Learning studio. 

- You'll find the parameters under **Params** in the **Overview** tab.
- You'll find the metrics under **Metrics** in the **Overview** tab, and in the **Metrics** tab.
- You'll find the artifacts in the **Outputs + logs** tab.

![Screenshot of outputs and logs tab on the Jobs page.](./images/output-logs.png)