# Registro de modelos con MLflow

Puede usar MLflow en Azure Machine Learning para registrar modelos. Al registrar un modelo como modelo en lugar de un artefacto, se crea un modelo ML en el directorio de salida. El archivo MLmodel contiene todos los metadatos del modelo. Puede personalizar la firma del modelo al registrar el modelo.

## Antes de comenzar

Necesitará la versión más reciente del paquete **azureml-ai-ml** para ejecutar el código en este cuaderno. Ejecute la celda siguiente para comprobar que está instalada.

> **Nota**:
> Si el paquete **azure-ai-ml** no está instalado, ejecute `pip install azure-ai-ml` para instalarlo.

In [None]:
## Conexión con su área de trabajo

Con los paquetes de SDK necesarios instalados, ya está listo para conectarse al área de trabajo.

Para conectarse a un espacio de trabajo, se necesitan parámetros de identificación: un id. de suscripción, un nombre de grupo de recursos y un nombre de espacio de trabajo. El nombre del grupo de recursos y el nombre del área de trabajo ya se rellenan automáticamente. Solo necesita el identificador de suscripción para completar el comando.

Para buscar los parámetros necesarios, haga clic en la suscripción y el nombre del área de trabajo en la parte superior derecha de Studio. Se abrirá un panel a la derecha.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Copie el identificador de suscripción y reemplace **YOUR-SUBSCRIPTION-ID** por el valor que copió. </p>

## Registro automático con MLflow

Cuando se usa el registro automático, el modelo se registra automáticamente. El tipo de modelo y el esquema se deducen. 

Ejecute la celda siguiente para crear el script **train-model-autolog.py** en la carpeta **src**. El script entrena un modelo de clasificación mediante el archivo **diabetes.csv** de la misma carpeta, que se pasa como argumento. 

In [None]:
Ahora, puede enviar el script como un trabajo de comando.

Ejecute la celda siguiente para entrenar el modelo. 

In [None]:
En Studio, vaya al trabajo **diabetes-train-autolog** para explorar la información general del trabajo de comando que ejecutó. Busque los artefactos registrados en la pestaña **Salidas y registros**. Seleccione la carpeta `model` para buscar el archivo `MLmodel` y explorar su contenido.

## Especificar el tipo con el registro automático

Puede usar el registro automático, pero seguir especificando el tipo del modelo. En el ejemplo, el tipo del modelo es scikit-learn.

Ejecute la celda siguiente para crear el script **train-model-sklearn.py** en la carpeta **src**. El script entrena un modelo de clasificación mediante el archivo **diabetes.csv** de la misma carpeta, que se pasa como argumento. 

In [None]:
Ahora, puede enviar el script como un trabajo de comando.

Ejecute la celda siguiente para entrenar el modelo. 

In [None]:
En Studio, vaya al trabajo **diabetes-train-sklearn** para explorar la información general del trabajo de comando que ejecutó. Busque los artefactos registrados en la pestaña **Salidas y registros**. Seleccione la carpeta `model` para buscar el archivo `MLmodel` y explorar su contenido.

Compare los archivos `MLmodel` de las dos ejecuciones anteriores. Observará que son iguales, lo que indica que la característica de registro automático de MLflow infiere correctamente el tipo del modelo.

## Personalización del modelo con una firma inferida

Puede registrar manualmente el modelo al usar el registro automático. Con "log_models=False", el registro automático no registrará el modelo. Para crear una firma, se deducirá del conjunto de datos de entrenamiento y los resultados previstos. Y, por último, registrará el modelo scikit-learn.

Ejecute la celda siguiente para crear el script **train-model-infer.py** en la carpeta **src**. El script entrena un modelo de clasificación mediante el archivo **diabetes.csv** de la misma carpeta, que se pasa como argumento. 

In [None]:
Ahora, puede enviar el script como un trabajo de comando.

Ejecute la celda siguiente para entrenar el modelo. 

En Studio, vaya al trabajo **diabetes-train-infer** para explorar la información general del trabajo de comando que ejecutó. Busque los artefactos registrados en la pestaña **Salidas y registros**. Seleccione la carpeta `model` para buscar el archivo `MLmodel` y explorar su contenido.

Compare los archivos `MLmodel` con las dos ejecuciones anteriores. Observará que todas son iguales, lo que indica que la función autolog de MLflow también ha inferido correctamente la firma del modelo.

## Personalización del modelo con una firma definida

Puede registrar manualmente el modelo al usar el registro automático. Con "log_models=False", el registro automático no registrará el modelo. Para crear una firma, se deducirá del conjunto de datos de entrenamiento y los resultados previstos. Y, por último, registrará el modelo scikit-learn.

Ejecute la celda siguiente para crear el script **train-model-infer.py** en la carpeta **src**. El script entrena un modelo de clasificación mediante el archivo **diabetes.csv** de la misma carpeta, que se pasa como argumento. 

In [None]:
Ahora, puede enviar el script como un trabajo de comando.

Ejecute la celda siguiente para entrenar el modelo. 

En Studio, vaya al trabajo **diabetes-train-signature** para explorar la información general del trabajo de comando que ejecutó. Busque los artefactos registrados en la pestaña **Salidas y registros**. Seleccione la carpeta `model` para buscar el archivo `MLmodel` y explorar su contenido.

Compare los archivos `MLmodel` con las ejecuciones anteriores. Observará que la firma es diferente de las ejecuciones anteriores. Las ejecuciones anteriores usaban firmas basadas en tensor, mientras que la última ejecución usaba una firma basada en columnas.

In [None]:
## Registro del modelo

Al elegir un modelo que desea implementar, primero puede registrar el modelo. 

Para registrar el modelo más reciente, consulte el nombre de la ejecución del trabajo. Al registrar el modelo como un modelo de MLflow, puede implementarlo fácilmente más adelante.

En Studio, vaya a la página **Modelos**. En la lista de modelos, busque el modelo `mlflow-diabetes` y selecciónelo para explorarlo aún más.

- En la pestaña **Detalles** del modelo `mlflow-diabetes`, puede revisar que es un modelo de tipo `MLFLOW` y el trabajo que entrenó el modelo.
- En la pestaña **Artefactos** puede encontrar el directorio con el archivo `MLmodel`.

Si desea explorar más a fondo el comportamiento del modelo, puede **opcionalmente** elegir implementar el modelo en un punto de conexión en tiempo real.

## Customize the model with an inferred signature

You can manually log the model when using autologging. By using 'log_models=False', autologging will not log the model. You'll create a signature by inferring it from the training dataset and predicted results. And finally, you'll log the scikit-learn model.

Run the following cell to create the **train-model-infer.py** script in the **src** folder. The script trains a classification model by using the **diabetes.csv** file in the same folder, which is passed as an argument. 

In [None]:
%%writefile $script_folder/train-model-infer.py
# import libraries
import mlflow
import argparse
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import mlflow.sklearn
from mlflow.models.signature import infer_signature

def main(args):
    # enable autologging
    mlflow.autolog(log_models=False)

    # read data
    df = get_data(args.training_data)

    # split data
    X_train, X_test, y_train, y_test = split_data(df)

    # train model
    model = train_model(args.reg_rate, X_train, X_test, y_train, y_test)

    # evaluate model
    y_hat = eval_model(model, X_test, y_test)

    # create the signature by inferring it from the datasets
    signature = infer_signature(X_train, y_hat)

    # manually log the model
    mlflow.sklearn.log_model(model, "model", signature=signature)

# function that reads the data
def get_data(path):
    print("Reading data...")
    df = pd.read_csv(path)
    
    return df

# function that splits the data
def split_data(df):
    print("Splitting data...")
    X, y = df[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness',
    'SerumInsulin','BMI','DiabetesPedigree','Age']].values, df['Diabetic'].values

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

    return X_train, X_test, y_train, y_test

# function that trains the model
def train_model(reg_rate, X_train, X_test, y_train, y_test):
    mlflow.log_param("Regularization rate", reg_rate)
    print("Training model...")
    model = LogisticRegression(C=1/reg_rate, solver="liblinear").fit(X_train, y_train)

    return model

# function that evaluates the model
def eval_model(model, X_test, y_test):
    # calculate accuracy
    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)
    print('Accuracy:', acc)
 
    return y_hat

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--training_data", dest='training_data',
                        type=str)
    parser.add_argument("--reg_rate", dest='reg_rate',
                        type=float, default=0.01)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-infer.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-infer",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-infer** job to explore the overview of the command job you ran. Find the logged artifacts in the **Outputs + logs** tab. Select the `model` folder to find the `MLmodel` file and explore its contents.

Compare the `MLmodel` files with the previous two runs. You'll notice that they're all the same, indicating that MLflow's autolog feature correctly inferred the model's signature too.

## Customize the model with a defined signature

You can manually log the model when using autologging. By using 'log_models=False', autologging will not log the model. You'll create a signature by inferring it from the training dataset and predicted results. And finally, you'll log the scikit-learn model.

Run the following cell to create the **train-model-infer.py** script in the **src** folder. The script trains a classification model by using the **diabetes.csv** file in the same folder, which is passed as an argument. 

In [None]:
%%writefile $script_folder/train-model-signature.py
# import libraries
import mlflow
import argparse
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import mlflow.sklearn
from mlflow.models.signature import ModelSignature
from mlflow.types.schema import Schema, ColSpec

def main(args):
    # enable autologging
    mlflow.autolog(log_models=False)

    # read data
    df = get_data(args.training_data)

    # split data
    X_train, X_test, y_train, y_test = split_data(df)

    # train model
    model = train_model(args.reg_rate, X_train, X_test, y_train, y_test)

    # evaluate model
    y_hat = eval_model(model, X_test, y_test)

    # create the signature manually
    input_schema = Schema([
    ColSpec("integer", "Pregnancies"),
    ColSpec("integer", "PlasmaGlucose"),
    ColSpec("integer", "DiastolicBloodPressure"),
    ColSpec("integer", "TricepsThickness"),
    ColSpec("integer", "DiastolicBloodPressure"),
    ColSpec("integer", "SerumInsulin"),
    ColSpec("double", "BMI"),
    ColSpec("double", "DiabetesPedigree"),
    ColSpec("integer", "Age"),
    ])

    output_schema = Schema([ColSpec("boolean")])

    # Create the signature object
    signature = ModelSignature(inputs=input_schema, outputs=output_schema)

    # manually log the model
    mlflow.sklearn.log_model(model, "model", signature=signature)

# function that reads the data
def get_data(path):
    print("Reading data...")
    df = pd.read_csv(path)
    
    return df

# function that splits the data
def split_data(df):
    print("Splitting data...")
    X, y = df[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness',
    'SerumInsulin','BMI','DiabetesPedigree','Age']].values, df['Diabetic'].values

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

    return X_train, X_test, y_train, y_test

# function that trains the model
def train_model(reg_rate, X_train, X_test, y_train, y_test):
    mlflow.log_param("Regularization rate", reg_rate)
    print("Training model...")
    model = LogisticRegression(C=1/reg_rate, solver="liblinear").fit(X_train, y_train)

    return model

# function that evaluates the model
def eval_model(model, X_test, y_test):
    # calculate accuracy
    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)
    print('Accuracy:', acc)
 
    return y_hat

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--training_data", dest='training_data',
                        type=str)
    parser.add_argument("--reg_rate", dest='reg_rate',
                        type=float, default=0.01)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-signature.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-signature",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-signature** job to explore the overview of the command job you ran. Find the logged artifacts in the **Outputs + logs** tab. Select the `model` folder to find the `MLmodel` file and explore its contents.

Compare the `MLmodel` files with the previous runs. You'll notice that the signature is different from the previous runs. Previous runs used tensor-based signatures, whereas the latest run used a column-based signature.

## Register the model

When you choose a model you want to deploy, you can first register the model. 

To register the latest model, you'll refer to the name of the job run. By registering the model as an MLflow model, you can easily deploy it later.

In [None]:
from azure.ai.ml.entities import Model
from azure.ai.ml.constants import AssetTypes

job_name = returned_job.name

run_model = Model(
    path=f"azureml://jobs/{job_name}/outputs/artifacts/paths/model/",
    name="mlflow-diabetes",
    description="Model created from run.",
    type=AssetTypes.MLFLOW_MODEL,
)
# Uncomment after adding required details above
ml_client.models.create_or_update(run_model)

In the Studio, navigate to the **Models** page. In the model list, find the `mlflow-diabetes` model and select it to explore it further.

- In the **Details** tab of the `mlflow-diabetes` model, you can review that it's a `MLFLOW` type model and the job that trained the model.
- In the **Artifacts** tab you can find the directory with the `MLmodel` file.

If you want to explore the model's behavior further, you can **optionally** choose to deploy the model to a real-time endpoint.