# Introduction


![](ml-serving.png)

# Qu'est-ce que BentoML ?

![](bentoml.png)

* Accélérez et standardisez le processus de mise en production des modèles ML

* Créez des services de prédiction évolutifs et performants

* Déployez, surveillez et exploitez en continu des services de prédiction en production

BentoML totalise 784000 téléchargements. C'est en moyenne 32000/mois et 8000 téléchargements par semaine : https://pepy.tech/project/bentoml

# Déploiement d'un modèle de ML avec BentoML

## 1) Sauvegarde du modèle construit

In [8]:
# pip install bentoml

import bentoml
from sklearn import svm
from sklearn.datasets import load_iris

In [9]:
# Données d'entraînement
iris = load_iris()
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [10]:
# Séparation des features et de la variable cible
X, y = iris.data, iris.target
print(X)
y

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [11]:
# Entraînement du modèle
clf = svm.SVC(gamma='scale')
clf.fit(X, y)

SVC()

In [12]:
# Enregistrer le modèle dans le magasin local de modèles BentoML
saved_model = bentoml.sklearn.save_model("iris_clf", clf)
print(f"Model saved: {saved_model}")

Model saved: Model(tag="iris_clf:a6cytne2tk3kd6fc")


In [13]:
model = bentoml.sklearn.load_model("iris_clf:53p4zpu2tg4dz6fc")

import numpy as np
model.predict(np.array([[5.1, 3.5, 1.4, 0.2]]))

array([0])

In [14]:
# On peut utiliser `latest` pour charger la dernière version d'un modèle
model_latest = bentoml.sklearn.load_model("iris_clf:latest")
model_latest.predict(np.array([[5.1, 3.5, 1.4, 0.2]]))

array([0])

## 2) Création du service d'inférence

A cette étape, il s'agit de créer un module de service qui n'est qu'une fonction qui sera exécutée lorsqu'un utilisateur fera une demande de prédiction.

In [15]:
# Ce code dans le fichier service.py
"""
import numpy as np
import bentoml
from bentoml.io import NumpyNdarray
iris_clf_runner = bentoml.sklearn.get( "iris_clf:latest").to_runner()
svc = bentoml.Service("iris_classifier", runners=[ iris_clf_runner])
@svc.api(input=NumpyNdarray(), output=NumpyNdarray())
def classify(input_series: np.ndarray) -> np.ndarray:
    result = iris_clf_runner.predict.run(input_series)
    return result
"""

'\nimport numpy as np\nimport bentoml\nfrom bentoml.io import NumpyNdarray\niris_clf_runner = bentoml.sklearn.get( "iris_clf:latest").to_runner()\nsvc = bentoml.Service("iris_classifier", runners=[ iris_clf_runner])\n@svc.api(input=NumpyNdarray(), output=NumpyNdarray())\ndef classify(input_series: np.ndarray) -> np.ndarray:\n    result = iris_clf_runner.predict.run(input_series)\n    return result\n'

## 3) Déploiement du modèle enregistré dans le service d'inférence

In [16]:
# Exécution du service en mode développement avec la commande : bentoml serve service:svc --reload

## 4) Envoyez la demande de prédiction au service

In [17]:
import requests

requests.post(
    "http://127.0.0.1:3000/classify",
    headers={"content-type": "application/json"},
    data="[[5.9, 3, 5.1, 1.8]]",
).text

ConnectionError: HTTPConnectionPool(host='127.0.0.1', port=3000): Max retries exceeded with url: /classify (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x000001BC3C829580>: Failed to establish a new connection: [WinError 10061] Aucune connexion n’a pu être établie car l’ordinateur cible l’a expressément refusée'))

In [None]:
# Vérification
model_latest.predict(np.array([[5.9, 3, 5.1, 1.8]]))

array([2])

In [None]:
# Mettre ce code dans dans le script utilisation.py

"""
var1 = float(input('Mesure 1 : '))
var2 = float(input('Mesure 2 : '))
var3 = float(input('Mesure 3 : '))
var4 = float(input('Mesure 4 : '))

import bentoml

Model = bentoml.sklearn.get("iris_clf:latest").to_runner()
Model.init_local()
pred = Model.predict.run([[var1, var2, var3, var4]])
print(pred)

# Exemple de valeurs : 5.7, 2.6, 4.1, 1.3
"""

# Conclusion

* Site web de BentoML : https://docs.bentoml.org/en/latest/index.html