# Modelli di log con MLflow

È possibile usare MLflow in Azure Machine Learning per registrare i modelli. Quando si registra un modello come modello anziché un artefatto, viene creato un modello MLmodel nella directory di output. Il file MLmodel contiene tutti i metadati del modello. È possibile personalizzare la firma del modello durante la registrazione del modello.

## Prima di iniziare

È necessaria la versione più recente del pacchetto **azureml-ai-ml** per eseguire il codice in questo notebook. Eseguire la cella seguente per verificare che sia installata.

> **Nota**:
> Se il pacchetto **azure-ai-ml** non è installato, eseguirlo `pip install azure-ai-ml` per installarlo.

In [None]:
## Connettersi all'area di lavoro

Con i pacchetti SDK necessari installati, è ora possibile connettersi all'area di lavoro.

Per connettersi a un'area di lavoro, sono necessari parametri di identificatore: ID sottoscrizione, nome del gruppo di risorse e nome dell'area di lavoro. Il nome del gruppo di risorse e il nome dell'area di lavoro sono già compilati. È necessario solo l'ID sottoscrizione per completare il comando.

Per trovare i parametri necessari, fare clic sulla sottoscrizione e sul nome dell'area di lavoro nella parte superiore destra di Studio. Un riquadro verrà aperto a destra.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Copiare l'ID sottoscrizione e sostituire **YOUR-SUBSCRIPTION-ID** con il valore copiato. </p>

## Assegnazione automatica dell'assegnazione automatica con MLflow

Quando si usa l'assegnazione automatica, il modello viene registrato automaticamente. Viene dedotto il sapore del modello e lo schema. 

Eseguire la cella seguente per creare lo script **train-model-autolog.py** nella cartella **src** . Lo script esegue il training di un modello di classificazione usando il file **diabetes.csv** nella stessa cartella, che viene passato come argomento. 

In [None]:
È ora possibile inviare lo script come processo di comando.

Eseguire la cella seguente per eseguire il training del modello. 

In [None]:
In Studio passare al processo **diabete-training-autolog** per esplorare la panoramica del processo di comando eseguito. Trovare gli artefatti registrati nella scheda **Output e log** . Selezionare la `model` cartella per trovare il file ed esplorare il `MLmodel` relativo contenuto.

## Specificare il sapore con l'assegnazione automatica

È possibile usare l'assegnazione automatica, ma specificare comunque il sapore del modello. Nell'esempio il sapore del modello è scikit-learn.

Eseguire la cella seguente per creare lo script **train-model-sklearn.py** nella cartella **src** . Lo script esegue il training di un modello di classificazione usando il file **diabetes.csv** nella stessa cartella, che viene passato come argomento. 

In [None]:
È ora possibile inviare lo script come processo di comando.

Eseguire la cella seguente per eseguire il training del modello. 

In [None]:
In Studio passare al processo **diabete-train-sklearn** per esplorare la panoramica del processo di comando eseguito. Trovare gli artefatti registrati nella scheda **Output e log** . Selezionare la `model` cartella per trovare il file ed esplorare il `MLmodel` relativo contenuto.

Confrontare i `MLmodel` file delle due esecuzioni precedenti. Si noterà che sono uguali, indicando che la funzionalità di log automatico di MLflow ha dedotto correttamente il sapore del modello.

## Personalizzare il modello con una firma posticipata

È possibile registrare manualmente il modello quando si usa l'assegnazione automatica dei tag. Usando 'log_models=False', l'assegnazione automatica non registra il modello. Si creerà una firma inferendo il set di dati di training e i risultati stimati. Infine, si logrà il modello scikit-learn.

Eseguire la cella seguente per creare lo script **di train-model-infer.py** nella cartella **src** . Lo script esegue il training di un modello di classificazione usando il file **diabetes.csv** nella stessa cartella, che viene passato come argomento. 

In [None]:
È ora possibile inviare lo script come processo di comando.

Eseguire la cella seguente per eseguire il training del modello. 

In Studio passare al processo **diabete-train-infer** per esplorare la panoramica del processo di comando eseguito. Trovare gli artefatti registrati nella scheda **Output e log** . Selezionare la `model` cartella per trovare il file ed esplorare il `MLmodel` relativo contenuto.

Confrontare i file con le `MLmodel` due esecuzioni precedenti. Si noterà che sono tutti uguali, indicando che anche la funzionalità di registrazione automatica di MLflow ha dedotto correttamente la firma del modello.

## Personalizzare il modello con una firma definita

È possibile registrare manualmente il modello quando si usa l'assegnazione automatica dei tag. Usando 'log_models=False', l'assegnazione automatica non registra il modello. Si creerà una firma inferendo il set di dati di training e i risultati stimati. Infine, si logrà il modello scikit-learn.

Eseguire la cella seguente per creare lo script **di train-model-infer.py** nella cartella **src** . Lo script esegue il training di un modello di classificazione usando il file **diabetes.csv** nella stessa cartella, che viene passato come argomento. 

In [None]:
È ora possibile inviare lo script come processo di comando.

Eseguire la cella seguente per eseguire il training del modello. 

In Studio passare al processo **diabete-training-signature** per esplorare la panoramica del processo di comando eseguito. Trovare gli artefatti registrati nella scheda **Output e log** . Selezionare la `model` cartella per trovare il file ed esplorare il `MLmodel` relativo contenuto.

Confrontare i `MLmodel` file con le esecuzioni precedenti. Si noterà che la firma è diversa dalle esecuzioni precedenti. Le esecuzioni precedenti hanno usato firme basate su tensor, mentre l'esecuzione più recente ha usato una firma basata su colonne.

In [None]:
## Registrare il modello

Quando si sceglie un modello da distribuire, è prima possibile registrare il modello. 

Per registrare il modello più recente, si farà riferimento al nome dell'esecuzione del processo. Registrando il modello come modello MLflow, è possibile distribuirlo facilmente in un secondo momento.

In Studio passare alla pagina **Modelli** . Nell'elenco dei modelli trovare il `mlflow-diabetes` modello e selezionarlo per esplorarlo ulteriormente.

- Nella scheda **Dettagli** del `mlflow-diabetes` modello è possibile verificare che sia un `MLFLOW` modello di tipo e il processo che ha eseguito il training del modello.
- Nella scheda **Artefatti** è possibile trovare la directory con il `MLmodel` file.

Se si vuole esplorare ulteriormente il comportamento del modello, è **possibile scegliere facoltativamente** di distribuire il modello in un endpoint in tempo reale.

## Customize the model with an inferred signature

You can manually log the model when using autologging. By using 'log_models=False', autologging will not log the model. You'll create a signature by inferring it from the training dataset and predicted results. And finally, you'll log the scikit-learn model.

Run the following cell to create the **train-model-infer.py** script in the **src** folder. The script trains a classification model by using the **diabetes.csv** file in the same folder, which is passed as an argument. 

In [None]:
%%writefile $script_folder/train-model-infer.py
# import libraries
import mlflow
import argparse
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import mlflow.sklearn
from mlflow.models.signature import infer_signature

def main(args):
    # enable autologging
    mlflow.autolog(log_models=False)

    # read data
    df = get_data(args.training_data)

    # split data
    X_train, X_test, y_train, y_test = split_data(df)

    # train model
    model = train_model(args.reg_rate, X_train, X_test, y_train, y_test)

    # evaluate model
    y_hat = eval_model(model, X_test, y_test)

    # create the signature by inferring it from the datasets
    signature = infer_signature(X_train, y_hat)

    # manually log the model
    mlflow.sklearn.log_model(model, "model", signature=signature)

# function that reads the data
def get_data(path):
    print("Reading data...")
    df = pd.read_csv(path)
    
    return df

# function that splits the data
def split_data(df):
    print("Splitting data...")
    X, y = df[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness',
    'SerumInsulin','BMI','DiabetesPedigree','Age']].values, df['Diabetic'].values

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

    return X_train, X_test, y_train, y_test

# function that trains the model
def train_model(reg_rate, X_train, X_test, y_train, y_test):
    mlflow.log_param("Regularization rate", reg_rate)
    print("Training model...")
    model = LogisticRegression(C=1/reg_rate, solver="liblinear").fit(X_train, y_train)

    return model

# function that evaluates the model
def eval_model(model, X_test, y_test):
    # calculate accuracy
    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)
    print('Accuracy:', acc)
 
    return y_hat

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--training_data", dest='training_data',
                        type=str)
    parser.add_argument("--reg_rate", dest='reg_rate',
                        type=float, default=0.01)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-infer.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-infer",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-infer** job to explore the overview of the command job you ran. Find the logged artifacts in the **Outputs + logs** tab. Select the `model` folder to find the `MLmodel` file and explore its contents.

Compare the `MLmodel` files with the previous two runs. You'll notice that they're all the same, indicating that MLflow's autolog feature correctly inferred the model's signature too.

## Customize the model with a defined signature

You can manually log the model when using autologging. By using 'log_models=False', autologging will not log the model. You'll create a signature by inferring it from the training dataset and predicted results. And finally, you'll log the scikit-learn model.

Run the following cell to create the **train-model-infer.py** script in the **src** folder. The script trains a classification model by using the **diabetes.csv** file in the same folder, which is passed as an argument. 

In [None]:
%%writefile $script_folder/train-model-signature.py
# import libraries
import mlflow
import argparse
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import mlflow.sklearn
from mlflow.models.signature import ModelSignature
from mlflow.types.schema import Schema, ColSpec

def main(args):
    # enable autologging
    mlflow.autolog(log_models=False)

    # read data
    df = get_data(args.training_data)

    # split data
    X_train, X_test, y_train, y_test = split_data(df)

    # train model
    model = train_model(args.reg_rate, X_train, X_test, y_train, y_test)

    # evaluate model
    y_hat = eval_model(model, X_test, y_test)

    # create the signature manually
    input_schema = Schema([
    ColSpec("integer", "Pregnancies"),
    ColSpec("integer", "PlasmaGlucose"),
    ColSpec("integer", "DiastolicBloodPressure"),
    ColSpec("integer", "TricepsThickness"),
    ColSpec("integer", "DiastolicBloodPressure"),
    ColSpec("integer", "SerumInsulin"),
    ColSpec("double", "BMI"),
    ColSpec("double", "DiabetesPedigree"),
    ColSpec("integer", "Age"),
    ])

    output_schema = Schema([ColSpec("boolean")])

    # Create the signature object
    signature = ModelSignature(inputs=input_schema, outputs=output_schema)

    # manually log the model
    mlflow.sklearn.log_model(model, "model", signature=signature)

# function that reads the data
def get_data(path):
    print("Reading data...")
    df = pd.read_csv(path)
    
    return df

# function that splits the data
def split_data(df):
    print("Splitting data...")
    X, y = df[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness',
    'SerumInsulin','BMI','DiabetesPedigree','Age']].values, df['Diabetic'].values

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

    return X_train, X_test, y_train, y_test

# function that trains the model
def train_model(reg_rate, X_train, X_test, y_train, y_test):
    mlflow.log_param("Regularization rate", reg_rate)
    print("Training model...")
    model = LogisticRegression(C=1/reg_rate, solver="liblinear").fit(X_train, y_train)

    return model

# function that evaluates the model
def eval_model(model, X_test, y_test):
    # calculate accuracy
    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)
    print('Accuracy:', acc)
 
    return y_hat

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--training_data", dest='training_data',
                        type=str)
    parser.add_argument("--reg_rate", dest='reg_rate',
                        type=float, default=0.01)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-signature.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-signature",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-signature** job to explore the overview of the command job you ran. Find the logged artifacts in the **Outputs + logs** tab. Select the `model` folder to find the `MLmodel` file and explore its contents.

Compare the `MLmodel` files with the previous runs. You'll notice that the signature is different from the previous runs. Previous runs used tensor-based signatures, whereas the latest run used a column-based signature.

## Register the model

When you choose a model you want to deploy, you can first register the model. 

To register the latest model, you'll refer to the name of the job run. By registering the model as an MLflow model, you can easily deploy it later.

In [None]:
from azure.ai.ml.entities import Model
from azure.ai.ml.constants import AssetTypes

job_name = returned_job.name

run_model = Model(
    path=f"azureml://jobs/{job_name}/outputs/artifacts/paths/model/",
    name="mlflow-diabetes",
    description="Model created from run.",
    type=AssetTypes.MLFLOW_MODEL,
)
# Uncomment after adding required details above
ml_client.models.create_or_update(run_model)

In the Studio, navigate to the **Models** page. In the model list, find the `mlflow-diabetes` model and select it to explore it further.

- In the **Details** tab of the `mlflow-diabetes` model, you can review that it's a `MLFLOW` type model and the job that trained the model.
- In the **Artifacts** tab you can find the directory with the `MLmodel` file.

If you want to explore the model's behavior further, you can **optionally** choose to deploy the model to a real-time endpoint.