**MLflow** est une plateforme open source qui permet de g√©rer le cycle de vie des mod√®les de Machine Learning. En particulier, gr√¢ce √† MLflow, les mod√®les qui ont √©t√© entra√Æn√©s √† une date sp√©cifique ainsi que les hyper-param√®tres associ√©s pourront √™tre stock√©s, monitor√©s et r√©-utilis√©s de mani√®re efficace.

<img src="https://dv495y1g0kef5.cloudfront.net/training/data_engineer_uber/img/mlflow.png" width="300" />

<blockquote><p>üôã <b>Ce que nous allons faire</b></p>
<ul>
    <li>D√©couvrir les concepts importants de MLflow</li>
    <li>Tracker et monitorer des mod√®les en local</li>
    <li>Installer MLflow sur un serveur et envoyer les mod√®les sur le serveur</li>
</ul>
</blockquote>

## Concepts de MLflow

Rappelons-nous du workflow en Machine Learning : la premi√®re √©tape de collecte des donn√©es et suivie d'une √©tape de transformation des donn√©es, puis de la mod√©lisation pour maximiser une m√©trique de performance qui jugera de la qualit√© de l'algorithme employ√©. √ätre productif avec du Machine Learning n'est pas de tout repos pour les raisons suivantes.

- **Il est difficile de garder un trace des pr√©c√©dentes exp√©riences**. Une chose √† laquelle beaucoup de Data Scientists font face, c'est de faire une s√©rie d'exp√©riences en modifiant algorithmes et param√®tres, mais qui peut s'av√©rer contre-productif si l'on ne dispose pas de l'historique des mod√®les et de leurs performances. Bien que Kedro puisse tendre vers cette pratique, il ne permet pas de le faire enti√®rement √† lui tout seul.
- **Il est difficile de reproduire le code**. Dans les projets Data Science, une multitude de fonctions permettent d'arriver √† un r√©sultat bien pr√©cis : le changement de quelques lignes de code peut grandement affecter le mod√®le et ses performances.
- **Il n'y a aucun standard sur le packaging et le d√©ploiement de mod√®les**. Chaque √©quipe poss√®de son approche pour d√©ployer les mod√®les, et ce sont souvent les grandes √©quipes avec de l'exp√©rience qui peuvent se le permettre.
- **Il n'y a aucun point central pour g√©rer les mod√®les**. En pratique, la solution na√Øve consiste √† sauvegarder les param√®tres dans des fichiers sur le m√™me serveur h√©bergeant l'algorithme, en stockage local avec Kedro.

MLflow cherche √† am√©liorer la productivit√© en offrant la possibilit√© de r√©-entra√Æner, r√©-utiliser et d√©ployer des mod√®les en agissant sur un point central (plateforme MLflow) o√π tout l'historique du mod√®le sera conserv√©.

Tout d'abord, MLflow est *language-agnostic*, c'est-√†-dire que les mod√®les peuvent √™tre cod√©s en Python, R, Java ou encore C++ et envoy√©s sur MLflow. Ensuite, il n'y a aucun pr√©-requis concernant la librairie de Machine Learning : que vous soyez adeptes de `scikit-learn` ou de `tensorflow`, tout sera compatible.

Quatre composants r√©sident sous MLflow.

- **MLflow Tracking** est l'API et l'interface utilisateur pour logger les hyper-param√®tres, le versioning de code et les *artifacts* (param√®tres du mod√®le, fichier de poids, ...).
- **MLflow Projects** est un format standard pour package un code source et le r√©-utiliser dans plusieurs projets.
- **MLflow Models** est un format de packaging pour les mod√®les de Machine Learning.
- **MLflow Registry** est le registre de mod√®le (comme un git de mod√®les) qui permet de s'assurer que les mod√®les respectent certaines contraintes.

Hormis le composant *Projects*, qui est remplac√© par l'utilisation de Kedro, nous utiliserons tous les composants de MLflow pour g√©rer efficacement le cycle de vie des mod√®les.

Pour installer MLflow en local, il suffit juste d'ex√©cuter `pip install mlflow` dans le terminal (d√©j√† install√© dans l'environnement Blent).

In [None]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.ticker as mtick
import seaborn as sns

import mlflow
import mlflow.sklearn # Wrapper pour scikit-learn

from lightgbm.sklearn import LGBMClassifier
from sklearn.metrics import f1_score, PrecisionRecallDisplay, precision_recall_curve, plot_precision_recall_curve

X_train = pd.read_csv(os.path.expanduser("~/data/X_train.csv"))
X_test = pd.read_csv(os.path.expanduser("~/data/X_test.csv"))
y_train = pd.read_csv(os.path.expanduser("~/data/y_train.csv")).values.flatten()
y_test = pd.read_csv(os.path.expanduser("~/data/y_test.csv")).values.flatten()

In [None]:
# Hyper-param√®tres des mod√®les
hyp_params = {
    "num_leaves": 60,
    "min_child_samples": 10,
    "max_depth": 12,
    "n_estimators": 100,
    "learning_rate": 0.1
}

Nous allons ensuite lancer un *experiment* sous MLflow. Pour cela, cr√©ons une nouvelle exp√©rience que l'on nommera `purchase_predict`.

In [None]:
# Identification de l'interface MLflow
mlflow.set_tracking_uri("file://" + os.path.expanduser('~/mlruns'))

mlflow.set_experiment("purchase_predict")

with mlflow.start_run() as run:
    model = LGBMClassifier(**hyp_params, objective="binary", verbose=-1)
    model.fit(X_train, y_train)

    # On calcule le score du mod√®le sur le test
    score = f1_score(y_test, model.predict(X_test))
    
    mlflow.log_params(hyp_params)
    mlflow.log_metric("f1", score)
    
    print(mlflow.get_artifact_uri())
    mlflow.sklearn.log_model(model, "model")

En ex√©cutant ce code, nous avons d√©clenc√© un **run** avec `mlflow.start_run()`. L'int√©r√™t d'utiliser `with` est qu'en sortant de l'indentation, le run MLflow sera automatiquement termin√©. Nous allons envoyer plusieurs informations vers MLflow.

- Les hyper-param√®tres du mod√®le avec `log_params`.
- La ou les m√©triques obtenues sur un √©chantillon avec `log_metric`.
- Le mod√®le au format de `scikit-learn` avec `log_model`.

En <a href="https://jupyterhub-multiplex.blent.ai/user-redirect/MLflow/" target="_blank">visualisant l'interface web MLflow</a>, nous voyons le mod√®le appara√Ætre avec les informations associ√©es.

<img src="https://blent-learning-user-ressources.s3.eu-west-3.amazonaws.com/training/ml_engineer_facebook/img/mlflow1.png" />

En cliquant sur la date d'ex√©cution, nous avons acc√®s √† plus de d√©tails ainsi qu'aux fichiers stock√©s (ici le mod√®le), que l'on appelle des **artifacts**.

<img src="https://blent-learning-user-ressources.s3.eu-west-3.amazonaws.com/training/ml_engineer_facebook/img/mlflow2.png" />

√Ä noter qu'il est √©galement possible de r√©cup√©rer l'historique des mod√®les entra√Æn√©s.

In [None]:
from mlflow.tracking import MlflowClient

client = MlflowClient(
    tracking_uri="file://" + os.path.expanduser('~/mlruns')
)

client.get_metric_history(run.info.run_id, key='f1')

Pour utiliser efficacement MLflow, il faut architecturer le code source afin qu'il soit r√©-utilisable et facilement manipulable par les Data Scientists.

In [None]:
def save_pr_curve(X, y, model):
    plt.figure(figsize=(16,11))
    prec, recall, _ = precision_recall_curve(y, model.predict_proba(X)[:,1], pos_label=1)
    pr_display = PrecisionRecallDisplay(precision=prec, recall=recall).plot(ax=plt.gca())
    plt.title("PR Curve", fontsize=16)
    plt.gca().xaxis.set_major_formatter(mtick.PercentFormatter(1, 0))
    plt.gca().yaxis.set_major_formatter(mtick.PercentFormatter(1, 0))
    plt.savefig(os.path.expanduser("~/data/pr_curve.png"))
    plt.close()

def train_model(params):
    
    with mlflow.start_run() as run:
        model = LGBMClassifier(**params, objective="binary", verbose=-1)
        model.fit(X_train, y_train)

        score = f1_score(y_test, model.predict(X_test))
        save_pr_curve(X_test, y_test, model)

        mlflow.log_params(hyp_params)
        mlflow.log_metric("f1", score)
        mlflow.log_artifact(os.path.expanduser("~/data/pr_curve.png"), artifact_path="plots")
        mlflow.sklearn.log_model(model, "model")

√Ä chaque appel de la fonction `train_model`, une instance du mod√®le est entra√Æn√©e sur la base d'entra√Ænement avec des hyper-param√®tres sp√©cifiques. La fonction `save_pr_curve` d√©velopp√©e permet d'enregistrer le graphique de la courbe PR dans un fichier. Cela permet notamment d'envoyer les graphiques √† MLflow sous forme d'artifacts.

Chaque appel de la fonction `train_model` va donc entra√Æner un mod√®le LightGBM, en calculer des m√©triques, des graphiques et envoyer le r√©sultats sous forme de run sur MLflow.

In [None]:
train_model({**hyp_params, **{'n_estimators': 200, 'learning_rate': 0.05}})
train_model({**hyp_params, **{'n_estimators': 500, 'learning_rate': 0.025}})
train_model({**hyp_params, **{'n_estimators': 1000, 'learning_rate': 0.01}})

Apr√®s ex√©cution, les trois runs sont bien pr√©sents.

<img src="https://blent-learning-user-ressources.s3.eu-west-3.amazonaws.com/training/ml_engineer_facebook/img/mlflow3.png" />

L√†-aussi, en explorant un run en particulier, nous pouvons voir appara√Ætre le graphique dans l'explorateur de fichiers.

<img src="https://blent-learning-user-ressources.s3.eu-west-3.amazonaws.com/training/ml_engineer_facebook/img/mlflow4.png" />

## Installation sur un serveur

Pour √™tre pleinement exploit√©, MLflow **doit √™tre install√© sur un serveur** : en plus de pouvoir collaborer √† plusieurs, cela permettra de l'int√©grer dans un √©cosyst√®me avec un syst√®me de stockage de fichiers et de processus automatis√©s.

Lan√ßons une VM avec Debian 10 avec une instance de type `g1-small`.

Par d√©faut, les artifacts sont stock√©s dans le syst√®me local o√π est ex√©cut√© le code Python : MLflow ne peut donc pas recevoir et afficher ces artifacts. Il est donc n√©cessaire de configurer un bucket dans lequel MLflow pourra stocker et retrouver les artifacts que l'on enverra.

Par d√©faut, MLflow √©tant install√© sur une VM dans notre projet Google Cloud, les autorisations sont d√©j√† pr√©sentes sur la machine, permettant √† MLflow de lire des fichiers depuis le bucket. En revanche, il est n√©cessaire de d√©finir les autorisations pour les applications qui vont envoyer ou r√©cup√©rer des mod√®les vers MLflow. Pour des raisons de s√©curit√©, nous allons ajouter un compte de service qui aura un r√¥le de lecture et √©criture sur ce bucket uniquement.

Rajoutons un compte de service qui aura les deux r√¥les suivants : **Cr√©ateur des objets de l'espace de stockage** et **Lecteur des objets de l'espace de stockage**. Pour terminer, nous allons cr√©er une cl√© et conserver en lieu s√ªr le fichier JSON.

<img src="https://blent-learning-user-ressources.s3.eu-west-3.amazonaws.com/training/ml_engineer_facebook/img/mlflow5.png" />

Pour s'assurer de la bonne ex√©cution de MLflow, il est pr√©f√©rable de cr√©er un `systemd` plut√¥t que de lancer MLflow en arri√®re plan depuis le terminal.

<div class="alert alert-block alert-warning">
    Il faut penser √† modifier le nom du bucket <code>gs://blent-formation-ml-engineer-data/mlflow</code>.
</div> 

La derni√®re √©tape consiste √† activer le service et √† l'ex√©cuter. Avec `daemon-reload`, nous activons le service MLflow.

Toujours dans la gestion des services Cloud, il faut appr√©hender le cas d'un red√©marrage de la VM et relancer automatiquement le service MLflow au d√©marrage.

Puis on lance le service.

Maintenant, en visitant la page web √† l'adresse IP externe de la VM, l'interface MLflow appara√Æt.

Rajoutons la cl√© JSON que nous avons t√©l√©charg√©.

In [None]:
%%writefile ~/data/mlflow-key.json
# TODO : Coller ici le contenu de la cl√© JSON

Pour sp√©cifier vers quel serveur nous allons envoyer les artifacts et le mod√®le, il faut sp√©cifier le nom de domaine ou l'adresse IP avec `set_tracking_uri`.

In [None]:
import os
from google.cloud import storage

# Authentification √† Google Cloud avec la cl√© correspondant au compte de service MLflow
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = os.path.expanduser("~/data/mlflow-key.json")

# Nouvel URI de l'interface MLflow
mlflow.set_tracking_uri("http://34.107.0.37")
client = storage.Client()

Cr√©ons une nouvelle exp√©rience sur le serveur MLflow et ex√©cutons un *run*.

In [None]:
mlflow.set_experiment("purchase_predict")

def train_model(params):
    
    with mlflow.start_run() as run:
        model = LGBMClassifier(**params, objective="binary", verbose=-1)
        model.fit(X_train, y_train)

        score = f1_score(y_test, model.predict(X_test))
        save_pr_curve(X_test, y_test, model)

        mlflow.log_params(hyp_params)
        mlflow.log_metric("f1", score)
        mlflow.log_artifact(os.path.expanduser("~/data/pr_curve.png"), artifact_path="plots")
        mlflow.sklearn.log_model(model, "model")

Dor√©navant, toutes les ex√©cutions seront envoy√©s sur le serveur contenant MLflow et les artifacts stock√©s dans le bucket associ√©.

In [None]:
train_model({**hyp_params, **{'n_estimators': 200, 'learning_rate': 0.05}})

Et voil√† ! L'interface MLflow devrait √† pr√©sent afficher le mod√®le stock√© sur Google Storage.

## ‚úîÔ∏è Conclusion

Nous pouvons d√©sormais tracker les mod√®les de Machine Learning avec MLflow.

- Nous avons utilis√© MLflow en local pour tracker les mod√®les.
- Nous avons install√© MLflow sur un serveur en stockant les artifacts sur un Cloud Storage.

> ‚û°Ô∏è Maintenant que nous avons notre mod√®le de Machine Learning et un versioning de mod√®le, nous pouvons mettre en place une API pour exposer le mod√®le.