# MLFlow Test

In [4]:
import os
import mlflow
from dotenv import load_dotenv

# Charger les variables d'environnement depuis le fichier .env
load_dotenv()

# Configuration de MLflow avec les variables d'environnement
mlflow_tracking_uri = os.getenv("MLFLOW_TRACKING_URI")
aws_access_key_id = os.getenv("AWS_ACCESS_KEY_ID")
aws_secret_access_key = os.getenv("AWS_SECRET_ACCESS_KEY")

print(f"MLflow Tracking URI: {mlflow_tracking_uri}")

# Configuration explicite des identifiants AWS pour MLflow
os.environ["AWS_ACCESS_KEY_ID"] = aws_access_key_id
os.environ["AWS_SECRET_ACCESS_KEY"] = aws_secret_access_key
print("Identifiants AWS configurés")

# Configuration de MLflow
try:
    print("Tentative de connexion à MLflow...")
    mlflow.set_tracking_uri(mlflow_tracking_uri)
    
    # Liste des expériences pour vérifier la connexion
    exps = mlflow.search_experiments()
    print(f"Connexion à MLflow réussie! Nombre d'expériences existantes: {len(exps)}")
    for exp in exps:
        print(f"  - {exp.name} (ID: {exp.experiment_id})")
    
    # Définir le nom de l'expérience
    experiment_name = "Demo WSL"
    
    # Obtenir ou créer l'expérience
    experiment = mlflow.get_experiment_by_name(experiment_name)
    if experiment is None:
        experiment_id = mlflow.create_experiment(experiment_name)
        print(f"Nouvelle expérience créée: '{experiment_name}' (ID: {experiment_id})")
    else:
        experiment_id = experiment.experiment_id
        print(f"Expérience existante trouvée: '{experiment_name}' (ID: {experiment_id})")
    
    # Démarrer un simple run et enregistrer une métrique
    with mlflow.start_run(experiment_id=experiment_id, run_name="test_connexion_simple"):
        print("Démarrage d'un run MLflow de test...")
        mlflow.log_param("test_param", "valeur_test")
        mlflow.log_metric("test_metric", 1.0)
        print("Métrique de test enregistrée avec succès!")
    
    print(f"Test terminé avec succès. Vous pouvez vérifier les résultats sur: {mlflow_tracking_uri}")
    
except Exception as e:
    print(f"Erreur lors de la connexion à MLflow: {e}")
    print("\nConseils de débogage:")
    print("1. Vérifiez que l'URI de tracking est correct et accessible")
    print("2. Vérifiez que vos identifiants AWS sont valides si vous utilisez S3")
    print("3. Vérifiez que le serveur MLflow est en cours d'exécution")
    print("4. Vérifiez les paramètres réseau (pare-feu, VPN, etc.)")

MLflow Tracking URI: https://zany-orbit-q59ppqxj6j34j4x-5001.app.github.dev/
Identifiants AWS configurés
Tentative de connexion à MLflow...
Connexion à MLflow réussie! Nombre d'expériences existantes: 7
  - Reconnaissance Iris - ID employé - right (ID: 18)
  - Reconnaissance Iris - ID employé - left (ID: 17)
  - Reconnaissance Iris - LR (ID: 16)
  - Yolov8 - Aerial Views of boats v1 (ID: 9)
  - Demo Colab (ID: 7)
  - Demo Codespace (ID: 6)
  - Default (ID: 0)
Expérience existante trouvée: 'Demo WSL' (ID: 19)
Erreur lors de la connexion à MLflow: INVALID_PARAMETER_VALUE: The experiment 19 must be in the 'active' state. Current state is deleted.

Conseils de débogage:
1. Vérifiez que l'URI de tracking est correct et accessible
2. Vérifiez que vos identifiants AWS sont valides si vous utilisez S3
3. Vérifiez que le serveur MLflow est en cours d'exécution
4. Vérifiez les paramètres réseau (pare-feu, VPN, etc.)


In [5]:
import os
import mlflow
from mlflow.models import infer_signature
from mlflow import MlflowClient
from dotenv import load_dotenv

import pandas as pd
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

# Charger les variables d'environnement depuis le fichier .env
load_dotenv()

# Configuration de MLflow avec les variables d'environnement
mlflow_tracking_uri = os.getenv("MLFLOW_TRACKING_URI")
aws_access_key_id = os.getenv("AWS_ACCESS_KEY_ID")
aws_secret_access_key = os.getenv("AWS_SECRET_ACCESS_KEY")

# Configuration explicite de MLflow
mlflow.set_tracking_uri(mlflow_tracking_uri)
print(f"MLflow Tracking URI: {mlflow_tracking_uri}")

# Configuration explicite des identifiants AWS
os.environ["AWS_ACCESS_KEY_ID"] = aws_access_key_id
os.environ["AWS_SECRET_ACCESS_KEY"] = aws_secret_access_key
print("Identifiants AWS configurés")

# Create a new MLflow Experiment
mlflow.set_experiment("Demo PC")

MLflow Tracking URI: https://zany-orbit-q59ppqxj6j34j4x-5001.app.github.dev/
Identifiants AWS configurés


2025/03/07 23:04:19 INFO mlflow.tracking.fluent: Experiment with name 'Demo PC' does not exist. Creating a new experiment.


<Experiment: artifact_location='s3://mlflow-artefact-store/models/20', creation_time=1741385058976, experiment_id='20', last_update_time=1741385058976, lifecycle_stage='active', name='Demo PC', tags={}>

In [6]:
# Fonction pour afficher les informations du run MLflow
def print_logged_info(r):
    print("")
    print("🏃 MLflow Run Infos :")
    tags = {k: v for k, v in r.data.tags.items() if not k.startswith("mlflow.")}
    artifacts = [f.path for f in MlflowClient().list_artifacts(r.info.run_id, "model")]
    print(f"⚗️ run_id: {r.info.run_id}")
    print(f"⚡ artifacts: {artifacts}")
    print(f"⚙️ params: {r.data.params}")
    print(f"📝 metrics: {r.data.metrics}")
    print(f"🏷️ tags: {tags}")
    print()

# Chargement du dataset Iris
print("Chargement du dataset Iris...")
iris = datasets.load_iris()
X, y = iris.data, iris.target

# Conversion en DataFrame pour une meilleure visualisation
iris_df = pd.DataFrame(data=np.c_[iris['data'], iris['target']],
                      columns=iris['feature_names'] + ['target'])
print(f"Aperçu du dataset:\n{iris_df.head()}")
print(f"Dimensions du dataset: {iris_df.shape}")

# Créer une figure pour visualiser la distribution des classes
plt.figure(figsize=(8, 6))
sns.countplot(x='target', data=iris_df)
plt.title('Distribution des classes du dataset Iris')
plt.savefig('iris_class_distribution.png')
plt.close()

# Division en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(f"Taille de l'ensemble d'entraînement: {X_train.shape}")
print(f"Taille de l'ensemble de test: {X_test.shape}")

# Définition des hyperparamètres du modèle
params = {
    "solver": "lbfgs",
    "max_iter": 1000,
    "random_state": 8888,
}

# Démarrer un run MLflow
with mlflow.start_run(run_name="iris_classification") as run:
    print(f"Démarrage du run MLflow avec l'ID: {run.info.run_id}")
    
    # Enregistrer les hyperparamètres
    mlflow.log_params(params)
    
    # Entraîner le modèle
    print("Entraînement du modèle de régression logistique...")
    lr = LogisticRegression(**params)
    lr.fit(X_train, y_train)
    
    # Prédire sur l'ensemble de test
    y_pred = lr.predict(X_test)
    
    # Calculer les métriques
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='weighted')
    recall = recall_score(y_test, y_pred, average='weighted')
    f1 = f1_score(y_test, y_pred, average='weighted')
    
    # Enregistrer les métriques
    mlflow.log_metric("accuracy", accuracy)
    mlflow.log_metric("precision", precision)
    mlflow.log_metric("recall", recall)
    mlflow.log_metric("f1_score", f1)
    
    print(f"Métriques: Accuracy={accuracy:.4f}, Precision={precision:.4f}, Recall={recall:.4f}, F1={f1:.4f}")
    
    # Générer une matrice de confusion
    cm = confusion_matrix(y_test, y_pred)
    plt.figure(figsize=(8, 6))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
                xticklabels=iris.target_names, 
                yticklabels=iris.target_names)
    plt.title('Matrice de confusion')
    plt.xlabel('Prédiction')
    plt.ylabel('Réalité')
    plt.tight_layout()
    plt.savefig('confusion_matrix.png')
    plt.close()
    
    # Enregistrer la matrice de confusion comme artifact
    mlflow.log_artifact("confusion_matrix.png")
    mlflow.log_artifact("iris_class_distribution.png")
    
    # Définir des tags pour ce run
    mlflow.set_tag("model_type", "LogisticRegression")
    mlflow.set_tag("dataset", "Iris")
    mlflow.set_tag("description", "Classification multiclasse des fleurs Iris")
    
    # Inférer la signature du modèle
    signature = infer_signature(X_train, lr.predict(X_train))
    
    # Enregistrer le modèle avec sa signature
    model_info = mlflow.sklearn.log_model(
        sk_model=lr,
        artifact_path="model",
        signature=signature,
        input_example=X_train[:5]
    )
    
    print(f"Modèle enregistré: {model_info.model_uri}")

# Récupérer et afficher les informations du run terminé
run_info = mlflow.get_run(run_id=run.info.run_id)
print_logged_info(run_info)

Chargement du dataset Iris...
Aperçu du dataset:
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

   target  
0     0.0  
1     0.0  
2     0.0  
3     0.0  
4     0.0  
Dimensions du dataset: (150, 5)
Taille de l'ensemble d'entraînement: (120, 4)
Taille de l'ensemble de test: (30, 4)
Démarrage du run MLflow avec l'ID: 91b63027aa22487b8f1204d69dd3c5fc
Entraînement du modèle de régression logistique...
Métriques: Accuracy=1.0000, Precision=1.0000, Recall=1.0000, F1=1.0000
Modèle enregistré: runs:/91b63027aa22487b8f1204d69dd3c5fc/model
🏃 View run iris_classification at:

In [7]:
# Prompts user with the Run ID from MLflow run
# You can find run ID in the Tracking UI
while True:
    run_id = input('Please enter your 🏃 RUN ID : ')
    if run_id.strip() != '':
        break

artifact_path = "model"

# Download artifact via the tracking server
mlflow_artifact_uri = f"runs:/{run_id}/{artifact_path}"

try:
    local_path = mlflow.artifacts.download_artifacts(mlflow_artifact_uri)
    # Load the model
    model = mlflow.sklearn.load_model(local_path)

    # If the model prints, everything works!
    print(f"🚀 Model : {model}")
except:
  print("❌ Invalid Run ID.")

Downloading artifacts:   0%|          | 0/7 [00:00<?, ?it/s]

🚀 Model : LogisticRegression(max_iter=1000, random_state=8888)
