# Model log dengan MLflow

Anda dapat menggunakan MLflow di Azure Machine Learning untuk mencatat model. Saat Anda mencatat model sebagai model alih-alih artefak, MLmodel dibuat di direktori output. File MLmodel berisi semua metadata model. Anda dapat menyesuaikan tanda tangan model saat mencatat model.

## Sebelum Anda memulai

Anda akan memerlukan versi terbaru paket **azureml-ai-ml** untuk menjalankan kode di notebook ini. Jalankan sel di bawah ini untuk memverifikasi bahwa sel diinstal.

> **Catatan:**
> Jika paket **azure-ai-ml** tidak diinstal, jalankan `pip install azure-ai-ml` untuk menginstalnya.

In [None]:
## Menyambungkan ke ruang kerja Anda

Dengan paket SDK yang diperlukan terinstal, sekarang Anda siap untuk terhubung ke ruang kerja Anda.

Untuk menyambungkan ke ruang kerja, kita memerlukan parameter pengidentifikasi - ID langganan, nama grup sumber daya, dan nama ruang kerja. Nama grup sumber daya dan nama ruang kerja sudah diisi untuk Anda. Anda hanya memerlukan ID langganan untuk menyelesaikan perintah.

Untuk menemukan parameter yang diperlukan, klik nama langganan dan ruang kerja di kanan atas Studio. Panel akan terbuka di sebelah kanan.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Salin ID langganan dan ganti **YOUR-SUBSCRIPTION-ID** dengan nilai yang Anda salin. </p>

## Autologging dengan MLflow

Saat Anda menggunakan autologging, model Anda akan dicatat secara otomatis. Rasa dan skema model disimpulkan. 

Jalankan sel berikut untuk membuat skrip **train-model-autolog.py** di folder **src** . Skrip melatih model klasifikasi dengan menggunakan file **diabetes.csv** di folder yang sama, yang diteruskan sebagai argumen. 

In [None]:
Sekarang, Anda dapat mengirimkan skrip sebagai pekerjaan perintah.

Jalankan sel di bawah ini untuk melatih model. 

In [None]:
Di Studio, navigasikan ke pekerjaan **diabetes-train-autolog** untuk menjelajahi gambaran umum pekerjaan perintah yang Anda jalankan. Temukan artefak yang dicatat di tab **Output + log** . `model` Pilih folder untuk menemukan `MLmodel` file dan menjelajahi isinya.

## Tentukan ragam dengan autologging

Anda dapat menggunakan autologging, tetapi masih menentukan rasa model. Dalam contoh, rasa model adalah scikit-learn.

Jalankan sel berikut untuk membuat skrip **train-model-sklearn.py** di folder **src** . Skrip melatih model klasifikasi dengan menggunakan file **diabetes.csv** di folder yang sama, yang diteruskan sebagai argumen. 

In [None]:
Sekarang, Anda dapat mengirimkan skrip sebagai pekerjaan perintah.

Jalankan sel di bawah ini untuk melatih model. 

In [None]:
Di Studio, navigasikan ke pekerjaan **diabetes-train-sklearn** untuk menjelajahi gambaran umum pekerjaan perintah yang Anda jalankan. Temukan artefak yang dicatat di tab **Output + log** . `model` Pilih folder untuk menemukan `MLmodel` file dan menjelajahi isinya.

Bandingkan `MLmodel` file dari dua eksekusi sebelumnya. Anda akan melihat bahwa fitur tersebut sama, menunjukkan bahwa fitur autolog MLflow menyimpulkan rasa model dengan benar.

## Menyesuaikan model dengan tanda tangan yang disimpulkan

Anda dapat mencatat model secara manual saat menggunakan autologging. Dengan menggunakan 'log_models=False', autologging tidak akan mencatat model. Anda akan membuat tanda tangan dengan menyimpulkannya dari himpunan data pelatihan dan hasil yang diprediksi. Dan akhirnya, Anda akan mencatat model scikit-learn.

Jalankan sel berikut untuk membuat skrip **train-model-infer.py** di folder **src** . Skrip melatih model klasifikasi dengan menggunakan file **diabetes.csv** di folder yang sama, yang diteruskan sebagai argumen. 

In [None]:
Sekarang, Anda dapat mengirimkan skrip sebagai pekerjaan perintah.

Jalankan sel di bawah ini untuk melatih model. 

Di Studio, navigasikan ke pekerjaan **diabetes-train-infer** untuk menjelajahi gambaran umum pekerjaan perintah yang Anda jalankan. Temukan artefak yang dicatat di tab **Output + log** . `model` Pilih folder untuk menemukan `MLmodel` file dan menjelajahi isinya.

Bandingkan `MLmodel` file dengan dua eksekusi sebelumnya. Anda akan melihat bahwa semuanya sama, menunjukkan bahwa fitur autolog MLflow menyimpulkan tanda tangan model dengan benar juga.

## Menyesuaikan model dengan tanda tangan yang ditentukan

Anda dapat mencatat model secara manual saat menggunakan autologging. Dengan menggunakan 'log_models=False', autologging tidak akan mencatat model. Anda akan membuat tanda tangan dengan menyimpulkannya dari himpunan data pelatihan dan hasil yang diprediksi. Dan akhirnya, Anda akan mencatat model scikit-learn.

Jalankan sel berikut untuk membuat skrip **train-model-infer.py** di folder **src** . Skrip melatih model klasifikasi dengan menggunakan file **diabetes.csv** di folder yang sama, yang diteruskan sebagai argumen. 

In [None]:
Sekarang, Anda dapat mengirimkan skrip sebagai pekerjaan perintah.

Jalankan sel di bawah ini untuk melatih model. 

Di Studio, navigasikan ke pekerjaan **diabetes-train-signature** untuk menjelajahi gambaran umum pekerjaan perintah yang Anda jalankan. Temukan artefak yang dicatat di tab **Output + log** . `model` Pilih folder untuk menemukan `MLmodel` file dan menjelajahi isinya.

Bandingkan `MLmodel` file dengan eksekusi sebelumnya. Anda akan melihat bahwa tanda tangan berbeda dari eksekusi sebelumnya. Eksekusi sebelumnya menggunakan tanda tangan berbasis tensor, sedangkan eksekusi terbaru menggunakan tanda tangan berbasis kolom.

In [None]:
## Daftarkan model

Saat Anda memilih model yang ingin Anda sebarkan, Anda dapat terlebih dahulu mendaftarkan model. 

Untuk mendaftarkan model terbaru, Anda akan merujuk ke nama pekerjaan yang dijalankan. Dengan mendaftarkan model sebagai model MLflow, Anda dapat dengan mudah menyebarkannya nanti.

Di Studio, navigasikan ke halaman **Model** . Dalam daftar model, temukan `mlflow-diabetes` model dan pilih untuk menjelajahinya lebih lanjut.

- Di tab `mlflow-diabetes` **Detail** model, Anda dapat meninjau bahwa model tersebut adalah `MLFLOW` model jenis dan pekerjaan yang melatih model.
- Di tab **Artefak** , Anda dapat menemukan direktori dengan `MLmodel` file .

Jika Anda ingin menjelajahi perilaku model lebih lanjut, Anda dapat **secara opsional** memilih untuk menyebarkan model ke titik akhir real time.

## Customize the model with an inferred signature

You can manually log the model when using autologging. By using 'log_models=False', autologging will not log the model. You'll create a signature by inferring it from the training dataset and predicted results. And finally, you'll log the scikit-learn model.

Run the following cell to create the **train-model-infer.py** script in the **src** folder. The script trains a classification model by using the **diabetes.csv** file in the same folder, which is passed as an argument. 

In [None]:
%%writefile $script_folder/train-model-infer.py
# import libraries
import mlflow
import argparse
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import mlflow.sklearn
from mlflow.models.signature import infer_signature

def main(args):
    # enable autologging
    mlflow.autolog(log_models=False)

    # read data
    df = get_data(args.training_data)

    # split data
    X_train, X_test, y_train, y_test = split_data(df)

    # train model
    model = train_model(args.reg_rate, X_train, X_test, y_train, y_test)

    # evaluate model
    y_hat = eval_model(model, X_test, y_test)

    # create the signature by inferring it from the datasets
    signature = infer_signature(X_train, y_hat)

    # manually log the model
    mlflow.sklearn.log_model(model, "model", signature=signature)

# function that reads the data
def get_data(path):
    print("Reading data...")
    df = pd.read_csv(path)
    
    return df

# function that splits the data
def split_data(df):
    print("Splitting data...")
    X, y = df[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness',
    'SerumInsulin','BMI','DiabetesPedigree','Age']].values, df['Diabetic'].values

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

    return X_train, X_test, y_train, y_test

# function that trains the model
def train_model(reg_rate, X_train, X_test, y_train, y_test):
    mlflow.log_param("Regularization rate", reg_rate)
    print("Training model...")
    model = LogisticRegression(C=1/reg_rate, solver="liblinear").fit(X_train, y_train)

    return model

# function that evaluates the model
def eval_model(model, X_test, y_test):
    # calculate accuracy
    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)
    print('Accuracy:', acc)
 
    return y_hat

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--training_data", dest='training_data',
                        type=str)
    parser.add_argument("--reg_rate", dest='reg_rate',
                        type=float, default=0.01)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-infer.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-infer",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-infer** job to explore the overview of the command job you ran. Find the logged artifacts in the **Outputs + logs** tab. Select the `model` folder to find the `MLmodel` file and explore its contents.

Compare the `MLmodel` files with the previous two runs. You'll notice that they're all the same, indicating that MLflow's autolog feature correctly inferred the model's signature too.

## Customize the model with a defined signature

You can manually log the model when using autologging. By using 'log_models=False', autologging will not log the model. You'll create a signature by inferring it from the training dataset and predicted results. And finally, you'll log the scikit-learn model.

Run the following cell to create the **train-model-infer.py** script in the **src** folder. The script trains a classification model by using the **diabetes.csv** file in the same folder, which is passed as an argument. 

In [None]:
%%writefile $script_folder/train-model-signature.py
# import libraries
import mlflow
import argparse
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
import mlflow.sklearn
from mlflow.models.signature import ModelSignature
from mlflow.types.schema import Schema, ColSpec

def main(args):
    # enable autologging
    mlflow.autolog(log_models=False)

    # read data
    df = get_data(args.training_data)

    # split data
    X_train, X_test, y_train, y_test = split_data(df)

    # train model
    model = train_model(args.reg_rate, X_train, X_test, y_train, y_test)

    # evaluate model
    y_hat = eval_model(model, X_test, y_test)

    # create the signature manually
    input_schema = Schema([
    ColSpec("integer", "Pregnancies"),
    ColSpec("integer", "PlasmaGlucose"),
    ColSpec("integer", "DiastolicBloodPressure"),
    ColSpec("integer", "TricepsThickness"),
    ColSpec("integer", "DiastolicBloodPressure"),
    ColSpec("integer", "SerumInsulin"),
    ColSpec("double", "BMI"),
    ColSpec("double", "DiabetesPedigree"),
    ColSpec("integer", "Age"),
    ])

    output_schema = Schema([ColSpec("boolean")])

    # Create the signature object
    signature = ModelSignature(inputs=input_schema, outputs=output_schema)

    # manually log the model
    mlflow.sklearn.log_model(model, "model", signature=signature)

# function that reads the data
def get_data(path):
    print("Reading data...")
    df = pd.read_csv(path)
    
    return df

# function that splits the data
def split_data(df):
    print("Splitting data...")
    X, y = df[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness',
    'SerumInsulin','BMI','DiabetesPedigree','Age']].values, df['Diabetic'].values

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

    return X_train, X_test, y_train, y_test

# function that trains the model
def train_model(reg_rate, X_train, X_test, y_train, y_test):
    mlflow.log_param("Regularization rate", reg_rate)
    print("Training model...")
    model = LogisticRegression(C=1/reg_rate, solver="liblinear").fit(X_train, y_train)

    return model

# function that evaluates the model
def eval_model(model, X_test, y_test):
    # calculate accuracy
    y_hat = model.predict(X_test)
    acc = np.average(y_hat == y_test)
    print('Accuracy:', acc)
 
    return y_hat

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--training_data", dest='training_data',
                        type=str)
    parser.add_argument("--reg_rate", dest='reg_rate',
                        type=float, default=0.01)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")

Now, you can submit the script as a command job.

Run the cell below to train the model. 

In [None]:
from azure.ai.ml import command

# configure job

job = command(
    code="./src",
    command="python train-model-signature.py --training_data diabetes.csv",
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="diabetes-train-signature",
    experiment_name="diabetes-training"
    )

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

In the Studio, navigate to the **diabetes-train-signature** job to explore the overview of the command job you ran. Find the logged artifacts in the **Outputs + logs** tab. Select the `model` folder to find the `MLmodel` file and explore its contents.

Compare the `MLmodel` files with the previous runs. You'll notice that the signature is different from the previous runs. Previous runs used tensor-based signatures, whereas the latest run used a column-based signature.

## Register the model

When you choose a model you want to deploy, you can first register the model. 

To register the latest model, you'll refer to the name of the job run. By registering the model as an MLflow model, you can easily deploy it later.

In [None]:
from azure.ai.ml.entities import Model
from azure.ai.ml.constants import AssetTypes

job_name = returned_job.name

run_model = Model(
    path=f"azureml://jobs/{job_name}/outputs/artifacts/paths/model/",
    name="mlflow-diabetes",
    description="Model created from run.",
    type=AssetTypes.MLFLOW_MODEL,
)
# Uncomment after adding required details above
ml_client.models.create_or_update(run_model)

In the Studio, navigate to the **Models** page. In the model list, find the `mlflow-diabetes` model and select it to explore it further.

- In the **Details** tab of the `mlflow-diabetes` model, you can review that it's a `MLFLOW` type model and the job that trained the model.
- In the **Artifacts** tab you can find the directory with the `MLmodel` file.

If you want to explore the model's behavior further, you can **optionally** choose to deploy the model to a real-time endpoint.