# **MLOps avec MLFlow**

<img src='https://www.databricks.com/sites/default/files/mlflow.png'>

Dans ce notebook, nous allons utiliser la bibliothèque Mlflow pour suivre les expériences de machine learning.

Nous allons :
- créer un projet Mlflow
- créer une expérience
- créer des runs
- suivre les métriques, les paramètres et les artefacts
- visualiser les résultats dans l'interface Mlflow
- enregistrer un modèle puis le charger dans un autre notebook

**1. Préparation des données**

In [None]:
# Installation des dépendances
!pip install boto3 mlflow==2.16.1

Collecting boto3
  Downloading boto3-1.36.11-py3-none-any.whl.metadata (6.7 kB)
Collecting mlflow==2.16.1
  Downloading mlflow-2.16.1-py3-none-any.whl.metadata (29 kB)
Collecting mlflow-skinny==2.16.1 (from mlflow==2.16.1)
  Downloading mlflow_skinny-2.16.1-py3-none-any.whl.metadata (30 kB)
Collecting alembic!=1.10.0,<2 (from mlflow==2.16.1)
  Downloading alembic-1.14.1-py3-none-any.whl.metadata (7.4 kB)
Collecting docker<8,>=4.0.0 (from mlflow==2.16.1)
  Downloading docker-7.1.0-py3-none-any.whl.metadata (3.8 kB)
Collecting graphene<4 (from mlflow==2.16.1)
  Downloading graphene-3.4.3-py2.py3-none-any.whl.metadata (6.9 kB)
Collecting gunicorn<24 (from mlflow==2.16.1)
  Downloading gunicorn-23.0.0-py3-none-any.whl.metadata (4.4 kB)
Collecting databricks-sdk<1,>=0.20.0 (from mlflow-skinny==2.16.1->mlflow==2.16.1)
  Downloading databricks_sdk-0.42.0-py3-none-any.whl.metadata (38 kB)
Collecting botocore<1.37.0,>=1.36.11 (from boto3)
  Downloading botocore-1.36.11-py3-none-any.whl.metadata

In [None]:
# Import des bibliothèques
import pandas as pd
from sklearn.model_selection import train_test_split

# Import dataset
df = pd.read_csv("sample_data/california_housing_train.csv")

y = df['median_house_value']
X = df.drop('median_house_value', axis=1)

# Séparation du jeu de données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size =0.2)

**2. Gestion des credentials AWS**

Lorsque l'on utilise MLflow avec des services AWS (comme S3 pour stocker des modèles), il est nécessaire d'inclure ses identifiants AWS dans le code.

Ces identifiants (clé d'accès et clé secrète) permettent d'authentifier l'application auprès d'AWS, afin qu'elle puisse accéder et gérer les ressources cloud. Sans ces credentials, MLflow ne peut pas interagir avec les services AWS.


In [None]:
# Crédentials d'accès à AWS
import os

os.environ['AWS_ACCESS_KEY_ID'] = "AKIA3R62MVALLDMAF37Q"
os.environ['AWS_SECRET_ACCESS_KEY'] = "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"

**3. Connexion au server [MLFlow](https://quera-server-mlflow-cda209265623.herokuapp.com/)**

In [None]:
import mlflow


mlflow.set_tracking_uri("https://quera-server-mlflow-cda209265623.herokuapp.com/")
experiment = mlflow.set_experiment('Kevin Duranty | Ynov  - 2025 ')

2025/02/03 08:30:19 INFO mlflow.tracking.fluent: Experiment with name 'Kevin Duranty | Ynov  - 2025 ' does not exist. Creating a new experiment.


In [None]:
experiment.experiment_id

'201'

In [None]:
import mlflow

# Connexion à MLflow : https://quera-server-mlflow-cda209265623.herokuapp.com/
mlflow.set_tracking_uri("https://quera-server-mlflow-cda209265623.herokuapp.com/")

# Configuration d'une expérience (création si elle n'existe pas) : mlflow.set_experiment('DAWAN - Your Name')
experiment = mlflow.set_experiment('DAWAN - Kevin')

In [None]:
experiment.experiment_id

'67'

In [None]:
from datetime import datetime
date_now = datetime.now().strftime("%d-%m-%Y %H:%M:%S")
date_now

'03-02-2025 08:32:13'

In [None]:
with mlflow.start_run(experiment_id=experiment.experiment_id,
                      run_name='California Houssing '+date_now):
    mlflow.log_metric('MAPE', 85)

2025/02/03 08:35:41 INFO mlflow.tracking._tracking_service.client: 🏃 View run California Houssing 03-02-2025 08:32:13 at: https://quera-server-mlflow-cda209265623.herokuapp.com/#/experiments/201/runs/7ec3577f289742f1a6094b34eb1d0f6a.
2025/02/03 08:35:41 INFO mlflow.tracking._tracking_service.client: 🧪 View experiment at: https://quera-server-mlflow-cda209265623.herokuapp.com/#/experiments/201.


In [None]:
with mlflow.start_run(experiment_id = experiment.experiment_id, run_name='California Houssing '+date_now):
    mlflow.log_metric('MAPE', 85)

2025/01/10 08:19:15 INFO mlflow.tracking._tracking_service.client: 🏃 View run California Houssing 10-01-2025 08:16:24 at: https://quera-server-mlflow-cda209265623.herokuapp.com/#/experiments/133/runs/5cbbf638360b4747a6dd7f2e0a16a80d.
2025/01/10 08:19:15 INFO mlflow.tracking._tracking_service.client: 🧪 View experiment at: https://quera-server-mlflow-cda209265623.herokuapp.com/#/experiments/133.


**4. Intéraction avec le server MLFlow**

In [None]:
from mlflow.models import infer_signature
from sklearn.preprocessing import  StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.neighbors import KNeighborsRegressor


date_now = datetime.now().strftime("%d-%m-%Y %H:%M:%S")


# Configuration de l'autolog (permet d'enregistrer automatiquement toutes les métriques)
mlflow.sklearn.autolog()


# Infer signature : obtention des informations sur les colonnes en entrée
signature = infer_signature(X_train, y_train)


# Début du run (entrainement)
with mlflow.start_run(experiment_id = experiment.experiment_id,
                      run_name='California Houssing ' + date_now
                      ):

    # Pipeline d'entraînement
    model = Pipeline([
        ("standard_scaler", StandardScaler()),
        ("Regressor",KNeighborsRegressor())
    ])

    # Entrainment du model
    model.fit(X_train, y_train)

    # Valuation du modèle + Enregistrement sur MLFLOW
    mlflow.log_metric("train_score", model.score(X_test, y_test))


    mlflow.log_artifact("./sample_data/california_housing_train.csv")

    mlflow.sklearn.log_model(
        model,
        "California Houssing",
        signature=signature,
        registered_model_name="Houssing Model"

    )

Registered model 'Houssing Model' already exists. Creating a new version of this model...
2025/02/03 08:53:21 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: Houssing Model, version 2
Created version '2' of model 'Houssing Model'.
2025/02/03 08:53:22 INFO mlflow.tracking._tracking_service.client: 🏃 View run California Houssing 03-02-2025 08:53:07 at: https://quera-server-mlflow-cda209265623.herokuapp.com/#/experiments/201/runs/e2afc39685334f4ba3877eeb6ba82803.
2025/02/03 08:53:22 INFO mlflow.tracking._tracking_service.client: 🧪 View experiment at: https://quera-server-mlflow-cda209265623.herokuapp.com/#/experiments/201.


In [None]:
logged_model = 'runs:/05e2f888bf9a4e0fbc830a9baae7637f/California Houssing'

# Load model as a PyFuncModel.
loaded_model = mlflow.pyfunc.load_model(logged_model)

Downloading artifacts:   0%|          | 0/5 [00:00<?, ?it/s]

In [None]:
from mlflow import MlflowClient

client = MlflowClient('https://quera-server-mlflow-cda209265623.herokuapp.com/')
paht_model = client.get_registered_model("Houssing Model")._latest_version[0].source
model = mlflow.pyfunc.load_model(paht_model)

Downloading artifacts:   0%|          | 0/5 [00:00<?, ?it/s]

In [None]:
from mlflow.models import infer_signature
from sklearn.preprocessing import  StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.neighbors import KNeighborsRegressor

date_now = datetime.now().strftime("%d-%m-%Y %H:%M:%S")


# Configuration de l'autolog (permet d'enregistrer automatiquement toutes les métriques)
mlflow.sklearn.autolog()


# Infer signature : obtention des informations sur les colonnes en entrée
signature = infer_signature(X_train, y_train)

# Début du run (entrainement)
with mlflow.start_run(experiment_id = experiment.experiment_id,
                      run_name='California Houssing ' + date_now
                      ):

    # Pipeline d'entraînement
    model = Pipeline([
        ("standard_scaler", StandardScaler()),
        ("Regressor",KNeighborsRegressor())
    ])

    # Entrainment du model
    model.fit(X_train, y_train)

    # Valuation du modèle + Enregistrement sur MLFLOW
    mlflow.log_metric("train_score", model.score(X_test, y_test))

    # Enregistrement des données d'entraiment
    mlflow.log_artifact("./sample_data/california_housing_train.csv")

    mlflow.sklearn.log_model(
        model,
        "California Houssing Model",
        signature=signature,
        input_example=X_train.head(1),
        registered_model_name='housing_model',
    )

Registered model 'housing_model' already exists. Creating a new version of this model...
2025/02/03 09:31:17 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: housing_model, version 16
Created version '16' of model 'housing_model'.


Downloading artifacts:   0%|          | 0/7 [00:00<?, ?it/s]

2025/02/03 09:31:20 INFO mlflow.tracking._tracking_service.client: 🏃 View run California Houssing 03-02-2025 09:31:02 at: https://quera-server-mlflow-cda209265623.herokuapp.com/#/experiments/201/runs/7e3b944604fd41f09dee8b1e6aa1952f.
2025/02/03 09:31:20 INFO mlflow.tracking._tracking_service.client: 🧪 View experiment at: https://quera-server-mlflow-cda209265623.herokuapp.com/#/experiments/201.


In [None]:
# Obtenir un modèle à partir de son nom
from mlflow import MlflowClient, pyfunc

client = MlflowClient('https://quera-server-mlflow-cda209265623.herokuapp.com/')

model_path = client.get_registered_model('housing_model')._latest_version[0].source
model = pyfunc.load_model(model_path)

Downloading artifacts:   0%|          | 0/7 [00:00<?, ?it/s]

In [None]:
mlflow.MlflowClient().transition_model_version_stage(
    name="housing_model", version=16, stage="Production"
)

  mlflow.MlflowClient().transition_model_version_stage(


<ModelVersion: aliases=[], creation_timestamp=1738575077745, current_stage='Production', description='', last_updated_timestamp=1738576000987, name='housing_model', run_id='7e3b944604fd41f09dee8b1e6aa1952f', run_link='', source=('s3://quera-mlflow/models/201/7e3b944604fd41f09dee8b1e6aa1952f/artifacts/California '
 'Houssing Model'), status='READY', status_message='', tags={}, user_id='', version='16'>

In [None]:
mlflow.MlflowClient('https://quera-server-mlflow-cda209265623.herokuapp.com/').get_registered_model('housing_model')

<RegisteredModel: aliases={}, creation_timestamp=1726511069658, description='', last_updated_timestamp=1738576000987, latest_versions=[<ModelVersion: aliases=[], creation_timestamp=1738572269011, current_stage='None', description='', last_updated_timestamp=1738572269011, name='housing_model', run_id='f6196ab3890948b8a193968246d92d6e', run_link='', source=('s3://quera-mlflow/models/203/f6196ab3890948b8a193968246d92d6e/artifacts/California '
 'Houssing Model'), status='READY', status_message='', tags={}, user_id='', version='15'>,
 <ModelVersion: aliases=[], creation_timestamp=1738575077745, current_stage='Production', description='', last_updated_timestamp=1738576000987, name='housing_model', run_id='7e3b944604fd41f09dee8b1e6aa1952f', run_link='', source=('s3://quera-mlflow/models/201/7e3b944604fd41f09dee8b1e6aa1952f/artifacts/California '
 'Houssing Model'), status='READY', status_message='', tags={}, user_id='', version='16'>], name='housing_model', tags={}>

In [None]:
data = {'longitude': 0.0, 'latitude': 0.0, 'housing_median_age': 0.0, 'total_rooms': 0.0, 'total_bedrooms': 0.0, 'population': 0.0, 'households': 0.0, 'median_income': 0.0}

In [None]:
loaded_model.predict(data)[0]

66120.0

In [None]:
from pydantic import BaseModel

class Data(BaseModel):
    longitude:float
    latitude:float
    housing_median_age:float
    total_rooms:float
    total_bedrooms:float
    population:float
    households:float
    median_income:float


In [None]:
data = Data(
    longitude=0,
    latitude=0,
    housing_median_age=0,
    total_rooms=0,
    total_bedrooms=0,
    population=0,
    households=0,
    median_income=0,
)

In [None]:
dict(data)

{'longitude': 0.0,
 'latitude': 0.0,
 'housing_median_age': 0.0,
 'total_rooms': 0.0,
 'total_bedrooms': 0.0,
 'population': 0.0,
 'households': 0.0,
 'median_income': 0.0}

In [None]:
import mlflow
logged_model = 'runs:/71e4b390bdc74726a392ea65a6e8b0d0/California Houssing Model'

# Load model as a PyFuncModel.
loaded_model = mlflow.pyfunc.load_model(logged_model)

Downloading artifacts:   0%|          | 0/7 [00:00<?, ?it/s]

In [None]:
data

Data(longitude=0.0, latitude=0.0, housing_median_age=0.0, total_rooms=0.0, total_bedrooms=0.0, population=0.0, households=0.0, median_income=0.0)

In [None]:
model.predict(dict(data))

array([50580.])

** **

**5. Interaction pas à pas**

In [None]:
# Création d'un expérience : experiment =
experiment = mlflow.set_experiment('DAWAN - Kevin')

experiment

<Experiment: artifact_location='s3://quera-mlflow/models/67', creation_time=1729235471253, experiment_id='67', last_update_time=1729235471253, lifecycle_stage='active', name='DAWAN - Kevin', tags={}>

In [None]:
# Début de l'expérience (run name = "First Run")
start_run = mlflow.start_run(run_name="First Run - Dawan",
                 experiment_id = experiment.experiment_id,
                 )
start_run.info.run_id

'4453eddc13a94d8790cd4c254269f61e'

In [None]:
# Sauvegarde du modèle :
mlflow.sklearn.log_model(model, "model", registered_model_name='housing_model')

Registered model 'housing_model' already exists. Creating a new version of this model...
2024/10/18 07:30:22 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: housing_model, version 7
Created version '7' of model 'housing_model'.


<mlflow.models.model.ModelInfo at 0x7eb75c6cfbe0>

In [None]:
# Envoi des métriques :
mlflow.log_metrics({"MAPE": 0.9, "loss": 0.2})


In [None]:
# Envoi des paramètres :
mlflow.log_params({"epochs": 10, "batch_size": 32})


In [None]:
# Envoi des artefacts :
mlflow.log_artifact("./sample_data/california_housing_train.csv")


In [None]:
# Fin de l'expérience :
mlflow.end_run()


2024/10/18 07:32:17 INFO mlflow.tracking._tracking_service.client: 🏃 View run First Run - Dawan at: https://quera-server-mlflow-cda209265623.herokuapp.com/#/experiments/67/runs/4453eddc13a94d8790cd4c254269f61e.
2024/10/18 07:32:17 INFO mlflow.tracking._tracking_service.client: 🧪 View experiment at: https://quera-server-mlflow-cda209265623.herokuapp.com/#/experiments/67.


In [None]:
# Obtenir un modèle à partir de l'id Run :
load_model = mlflow.pyfunc.load_model("runs:/"+ start_run.info.run_id + "/model")


Downloading artifacts:   0%|          | 0/5 [00:00<?, ?it/s]

In [None]:
# Obtenir un modèle à partir de son nom
from mlflow import MlflowClient, pyfunc

client = MlflowClient('https://quera-server-mlflow-cda209265623.herokuapp.com/')

model_path = client.get_registered_model('Dawan Model')._latest_version[0].source

loaded_model = pyfunc.load_model(model_path)

Downloading artifacts:   0%|          | 0/7 [00:00<?, ?it/s]

In [None]:
from joblib import dump

# Sauvegarde du modèle en local
print("Saving model...")
dump(model, "./model.joblib")
print(f"Model has been saved here: {os.getcwd()}")

**6. Chargement d'un modèle enregistré sur MLFlow**

In [None]:
import mlflow
import os

os.environ['AWS_ACCESS_KEY_ID'] = "AKIA3R62MVALHESATEYJ"
os.environ['AWS_SECRET_ACCESS_KEY'] = "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"


mlflow.set_tracking_uri("https://quera-server-mlflow-cda209265623.herokuapp.com/")


logged_model = 'runs:/dbc3827cd5ff44979d83a7dffdcaa38a/model Bank'

# Load model as a PyFuncModel.
loaded_model = mlflow.pyfunc.load_model(logged_model)

# Predict on a Pandas DataFrame.
import pandas as pd
loaded_model.predict(X.iloc[0].to_dict())

In [None]:
# Observation des données contenues dans le modèle
loaded_model.metadata.to_dict()

In [None]:
# Prédiction du modèle
loaded_model.predict(X.iloc[0].to_dict())

In [None]:
model.input_schema

['longitude': double (required), 'latitude': double (required), 'housing_median_age': double (required), 'total_rooms': double (required), 'total_bedrooms': double (required), 'population': double (required), 'households': double (required), 'median_income': double (required)]



# Projet 1 - Entraînement d'un modèle avec MLflow

**Objectif :**
L'objectif de cet exercice est d'entraîner un modèle de régression linéaire (**LinearRegression**) sur le jeu de données Californai Houssing en utilisant un pipeline et une recherche par grille (**GridSearchCV**), tout en suivant et enregistrant les résultats avec **MLflow**.

**Consignes :**
1. **Préparation des données :**
   - Utiliser un jeu de données de votre choix ou un jeu de données fourni.
   - Assurer un bon prétraitement des données (gestion des valeurs manquantes, encodage, normalisation, etc.).

2. **Création du pipeline :**
   - Mettre en place un pipeline qui inclut toutes les étapes nécessaires pour préparer les données et entraîner le modèle.
   - Utiliser le modèle **LinearRegression** comme étape finale du pipeline.

3. **Recherche d'hyperparamètres :**
   - Utiliser **GridSearchCV** pour optimiser les hyperparamètres du modèle de régression linéaire.
   - Définir une grille de paramètres à tester.

4. **Suivi avec MLflow :**
   - Intégrer **MLflow** pour suivre l'entraînement du modèle.
   - Enregistrer les métriques, les hyperparamètres, et le modèle final dans MLflow.
   - Assurez-vous que les résultats (métriques, visualisations) sont facilement accessibles via l'interface MLflow.

5. **Bonus (facultatif) :**
   - Si possible, utiliser un service cloud (comme AWS S3) pour stocker les résultats et le modèle via MLflow.
   - Comparer les résultats de plusieurs essais en ajustant les hyperparamètres ou en changeant le modèle.



In [None]:
# Import des bibliothèques
import pandas as pd
from sklearn.model_selection import train_test_split

# Import dataset
df = pd.read_csv("sample_data/california_housing_train.csv")

y = df['median_house_value']
X = df.drop('median_house_value', axis=1)

# Séparation du jeu de données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size =0.2)

In [None]:
# Crédential AWS
import os

os.environ['AWS_ACCESS_KEY_ID'] = "AKIA3R62MVALLDMAF37Q"
os.environ['AWS_SECRET_ACCESS_KEY'] = "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"

In [None]:
# Connexion au server MLFLow
import mlflow

mlflow.set_tracking_uri("https://quera-server-mlflow-cda209265623.herokuapp.com/")
experiment = mlflow.set_experiment('Hugo Roumagne - 2025')

2025/01/10 11:09:05 INFO mlflow.tracking.fluent: Experiment with name 'Kevin Dawan 2025' does not exist. Creating a new experiment.


In [None]:
experiment.experiment_id

'166'

In [None]:
# Entrainement et sauvegarde du modèle

from mlflow.models import infer_signature
from sklearn.preprocessing import  StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import GridSearchCV

with mlflow.start_run(experiment_id= experiment.experiment_id,
                      run_name='Test'):

    # Pipeline d'entraînement
    pipe = Pipeline([
        ("standard_scaler", StandardScaler()),
        ("Linear",LinearRegression())
    ])

    # GridSearchCV
    params = {'Linear__fit_intercept': (True, False),
                'Linear__positive': [True,False]}

    model = GridSearchCV(pipe, params)

    model.fit(X_train, y_train)

    mlflow.sklearn.log_model(
        model,
        'Linear Houssing',
        input_example=X_train.head(1),
        registered_model_name='Linear Houssing'
    )



Registered model 'Bank - Housing - ML' already exists. Creating a new version of this model...
2025/01/10 11:18:46 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: Bank - Housing - ML, version 3
Created version '3' of model 'Bank - Housing - ML'.
2025/01/10 11:18:46 INFO mlflow.tracking._tracking_service.client: 🏃 View run California Hossing - LinearRegression at: https://quera-server-mlflow-cda209265623.herokuapp.com/#/experiments/166/runs/c51b928e37ef454fb25573aa40eb88df.
2025/01/10 11:18:46 INFO mlflow.tracking._tracking_service.client: 🧪 View experiment at: https://quera-server-mlflow-cda209265623.herokuapp.com/#/experiments/166.


In [None]:
# Load model as a PyFuncModel.
client = mlflow.MlflowClient('https://quera-server-mlflow-cda209265623.herokuapp.com/')

model_path = client.get_registered_model('Linear Houssing')._latest_version[0].source
model = pyfunc.load_model(model_path)

Downloading artifacts:   0%|          | 0/5 [00:00<?, ?it/s]

In [None]:
data = {'longitude': 0.0, 'latitude': 0.0, 'housing_median_age': 0.0, 'total_rooms': 0.0, 'total_bedrooms': 0.0, 'population': 0.0, 'households': 0.0, 'median_income': 0.0}

In [None]:
data

{'longitude': 0.0,
 'latitude': 0.0,
 'housing_median_age': 0.0,
 'total_rooms': 0.0,
 'total_bedrooms': 0.0,
 'population': 0.0,
 'households': 0.0,
 'median_income': 0.0}

In [None]:
# Prédiction
model.predict(data)

# Projet 2 - Intégration de MLflow dans un Projet FastAPI

**Objectif :**
L'objectif de cet exercice est d'intégrer **MLflow** dans une API développée avec **FastAPI**. L'API doit être capable de recevoir une structure de données en entrée pour effectuer une inférence sur un modèle préalablement enregistré avec MLflow, puis retourner le résultat sous forme de dictionnaire.

**Consignes :**

1. **Préparation du modèle :**
   - Utiliser un modèle préalablement enregistré avec MLflow (vous pouvez réutiliser le modèle du Projet 1 ou en enregistrer un nouveau).
   - Assurez-vous que le modèle est accessible via MLflow pour être chargé lors de l'inférence dans l'API.

2. **Création de l'API FastAPI :**
   - Développer une API avec FastAPI qui expose un point de terminaison `/predict`.
   - Ce point de terminaison doit accepter une structure de données en format JSON (ex: un dictionnaire contenant les caractéristiques du modèle).
   
3. **Chargement du modèle avec MLflow :**
   - Dans le point de terminaison `/predict`, charger le modèle enregistré sur MLflow.
   - Utiliser ce modèle pour effectuer une prédiction basée sur les données reçues en entrée.
   
4. **Retour de la réponse :**
   - Le résultat de l'inférence (prédiction) doit être retourné sous forme de dictionnaire au format JSON, avec les prédictions et éventuellement d'autres informations (ex: probabilité, classe prédite, etc.).

5. **Bonus (facultatif) :**
   - Ajouter une gestion d'erreurs pour vérifier que les données envoyées sont valides.
   - Intégrer des tests unitaires pour le point de terminaison `/predict`.

In [None]:
!pip install pyngrok uvicorn nest_asyncio fastapi python-multipart

In [None]:
import mlflow, os

mlflow.set_tracking_uri("https://quera-server-mlflow-cda209265623.herokuapp.com/")

os.environ['AWS_ACCESS_KEY_ID'] = "AKIA3R62MVALLDMAF37Q"
os.environ['AWS_SECRET_ACCESS_KEY'] = "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"

In [None]:
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

df = pd.read_csv('https://raw.githubusercontent.com/Quera-fr/Python-Programming/refs/heads/main/data.csv')
df = df.drop(['ID', 'Var_1'], axis=1).dropna()

y = df.Ever_Married.replace('Yes',1).replace('No',0)
X = df.drop(['Ever_Married'], axis=1)

experiment = mlflow.set_experiment('Kevin Duranty | Ynov  - 2025 ')

with mlflow.start_run(experiment_id=experiment.experiment_id, run_name='Ever Married'):
    preprocessor = ColumnTransformer(
        transformers=[
            ('oneHot_encoding', OneHotEncoder(), X.select_dtypes('object').columns),
            ('standard', StandardScaler(), X.select_dtypes(include='number').columns),
            ])

    pipeline = Pipeline([
            ('preprocessor', preprocessor),
            ('Model', RandomForestClassifier())]
    )
    pipeline.fit(X, y)

    mlflow.sklearn.log_model(pipeline,
                            'Ever_Married',
                             input_example=X_train.head(1),
                             registered_model_name='Ever_Married'
    )

  y = df.Ever_Married.replace('Yes',1).replace('No',0)
Registered model 'Ever_Married' already exists. Creating a new version of this model...
2025/02/03 10:37:59 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: Ever_Married, version 2
Created version '2' of model 'Ever_Married'.


Downloading artifacts:   0%|          | 0/7 [00:00<?, ?it/s]

  "dataframe_split": {
    "columns": [
      "longitude",
      "latitude",
      "housing_median_age",
      "total_rooms",
      "total_bedrooms",
      "population",
      "households",
      "median_income"
    ],
    "data": [
      [
        -118.97,
        35.37,
        41.0,
        2396.0,
        602.0,
        1781.0,
        543.0,
        1.8819
      ]
    ]
  }
}. Alternatively, you can avoid passing input example and pass model signature instead when logging the model. To ensure the input example is valid prior to serving, please try calling `mlflow.models.validate_serving_input` on the model uri and serving input example. A serving input example can be generated from model input example using `mlflow.models.convert_input_example_to_serving_input` function.
Got error: columns are missing: {'Spending_Score', 'Age', 'Family_Size', 'Gender', 'Graduated', 'Segmentation', 'Work_Experience', 'Profession'}
2025/02/03 10:38:01 INFO mlflow.tracking._tracking_service.client: 🏃

In [None]:
path = mlflow.MlflowClient().get_registered_model('Ever_Married')._latest_version[0].source
model = mlflow.pyfunc.load_model(path)

Downloading artifacts:   0%|          | 0/7 [00:00<?, ?it/s]

In [None]:
model.predict(X)



array([0, 1, 1, ..., 0, 0, 1])

# Projet 3 - MNIST Dataset

**Objectif :**
L'objectif de cet exercice est d'entraîner un modèle de classification sur le jeu de données MNIST, de journaliser les paramètres et le modèle avec **MLflow**, puis d'intégrer l'import du modèle depuis un serveur MLflow pour effectuer l'inférence dans une API développée avec **FastAPI**.

**Consignes :**

1. **Entraînement du modèle :**
   - Utiliser le jeu de données MNIST pour entraîner un modèle de classification (par exemple, un modèle de régression logistique, un réseau de neurones, ou un autre classificateur approprié).
   - Assurer que le modèle est correctement évalué et que les performances sont satisfaisantes (précision, rappel, etc.).

2. **Journalisation avec MLflow :**
   - Enregistrer le modèle entraîné ainsi que les hyperparamètres utilisés avec **MLflow**.
   - Assurer que les informations pertinentes, telles que les métriques de performance et les hyperparamètres, sont correctement journalisées.

3. **Intégration de l'import du modèle dans FastAPI :**
   - Développer une API avec FastAPI qui expose un point de terminaison `/predict_digit`.
   - À partir de ce point de terminaison, charger le modèle depuis le serveur MLflow.
   - Le point de terminaison `/predict_digit` doit accepter une image de chiffre manuscrit en format JSON (ou un autre format approprié), réaliser une prédiction avec le modèle importé, et retourner le résultat (classe prédite et éventuellement la probabilité associée) sous forme de dictionnaire.

4. **Retour de la réponse :**
   - La réponse du point de terminaison `/predict_digit` doit être formatée en JSON et inclure la classe prédite ainsi que tout autre détail pertinent (par exemple, la probabilité de la prédiction).

5. **Bonus (facultatif) :**
   - Ajouter une gestion d'erreurs pour s'assurer que les données d'entrée sont valides et que le modèle est correctement chargé.
   - Inclure des tests unitaires pour vérifier le bon fonctionnement du point de terminaison `/predict_digit`.



In [None]:
from io import BytesIO
from PIL import Image
import numpy as np


@app.post('/predict_digit')
def predict_digit(file:UploadFile=File(...)):

    # Décodage de l'image
    img = Image.open(BytesIO(file.file.read()))

    # Resize et normalisation de l'image
    img = (255 - np.array(img.resize((28,28)).convert('L')))/255

    return {'Prediction': True}

In [None]:
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,775,776,777,778,779,780,781,782,783,784
0,6,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,5,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,7,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,9,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,5,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19995,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
19996,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
19997,2,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
19998,9,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv('sample_data/mnist_train_small.csv', header=None)
X = df.drop([0], axis=1)
y = df[0]

In [None]:
X = np.array([X.iloc[i].values.reshape(28,28) for i in range(len(X))])
X.shape

(20000, 28, 28)

In [None]:
from tensorflow.keras.utils import to_categorical
y = to_categorical(y)

In [None]:
from tensorflow.keras.utils import array_to_img
array_to_img(X[0].reshape( 28, 28, 1)).save('img.jpg')

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Conv2D, MaxPool2D, Flatten

model = Sequential()
model.add(Conv2D(filters=32, kernel_size=(2,2), input_shape=(28,28,1)))
model.add(MaxPool2D(pool_size=(2,2)))
model.add(Conv2D(filters=16, kernel_size=(2,2)))

model.add(Flatten())
model.add(Dense(64))

model.add(Dense(10, activation='softmax'))
model.summary()

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


In [None]:


os.environ['AWS_ACCESS_KEY_ID'] = "AKIA3R62MVALLDMAF37Q"
os.environ['AWS_SECRET_ACCESS_KEY'] = "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"

mlflow.set_tracking_uri("https://quera-server-mlflow-cda209265623.herokuapp.com/")


experiment = mlflow.set_experiment('MNIST - YNOV')


with mlflow.start_run(experiment_id=experiment.experiment_id, run_name='MNist - 0'):

    model.compile(loss='categorical_crossentropy', metrics=['accuracy'])
    model.fit(X, y)


    mlflow.tensorflow.log_model(
        model,
        'Tensoflow Model Mnist',
        registered_model_name ='Tensoflow Model Mnist'
    )


[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m14s[0m 20ms/step - accuracy: 0.7939 - loss: 8.3192


Successfully registered model 'Tensoflow Model Mnist'.
2025/02/03 13:49:46 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: Tensoflow Model Mnist, version 1
Created version '1' of model 'Tensoflow Model Mnist'.


🏃 View run MNist - 0 at: https://quera-server-mlflow-cda209265623.herokuapp.com/#/experiments/216/runs/323e9c3eb6804072a6b516619ddac833
🧪 View experiment at: https://quera-server-mlflow-cda209265623.herokuapp.com/#/experiments/216


In [None]:
path = mlflow.MlflowClient().get_registered_model('Tensoflow Model Mnist')._latest_version[0].source

model_loaded = mlflow.pyfunc.load_model(path)

Downloading artifacts:   0%|          | 0/7 [00:00<?, ?it/s]

 - mlflow (current: 2.20.1, required: mlflow==2.16.1)
To fix the mismatches, call `mlflow.pyfunc.get_model_dependencies(model_uri)` to fetch the model's environment and install dependencies using the resulting environment file.


In [None]:
model_loaded.predict(X)

[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 13ms/step


array([[2.4606505e-21, 0.0000000e+00, 5.0724908e-24, ..., 0.0000000e+00,
        3.5156235e-16, 2.8876634e-30],
       [0.0000000e+00, 0.0000000e+00, 0.0000000e+00, ..., 0.0000000e+00,
        6.8436749e-37, 4.9297919e-34],
       [9.9999988e-01, 0.0000000e+00, 7.3862670e-22, ..., 8.1236195e-08,
        2.2746341e-15, 5.9933267e-09],
       ...,
       [9.2683652e-25, 1.9395470e-19, 1.0000000e+00, ..., 7.7155858e-32,
        2.5044699e-12, 1.7672411e-23],
       [5.4502206e-37, 0.0000000e+00, 0.0000000e+00, ..., 1.4137293e-27,
        7.4449564e-32, 1.0000000e+00],
       [0.0000000e+00, 0.0000000e+00, 0.0000000e+00, ..., 0.0000000e+00,
        2.9711121e-14, 8.3801128e-24]], dtype=float32)