# Connexion au serveur MLFlow - Test et Configuration

Ce notebook permet de **tester la connexion √† un serveur MLFlow d√©ploy√© dans un Codespace GitHub**. Il est con√ßu pour v√©rifier que toutes les configurations sont correctes et que nous pouvons commencer √† suivre nos exp√©riences de machine learning.

## Pr√©requis

Avant d'ex√©cuter ce notebook, assurez-vous d'avoir :
- Un serveur MLFlow d√©ploy√© dans un Codespace GitHub
- Les informations de connexion n√©cessaires (URI de tracking, identifiants AWS si applicable)
- Le fichier `.env` correctement configur√©

## Configuration du fichier `.env`

Cr√©ez un fichier `.env` √† la racine de votre projet avec les informations suivantes :

```
MLFLOW_TRACKING_URI=https://votre-codespace-url-5001.app.github.dev/
AWS_ACCESS_KEY_ID=votre_access_key_id
AWS_SECRET_ACCESS_KEY=votre_secret_access_key
```

Remplacez les valeurs par vos propres informations de connexion.

## √âtapes du test

Ce notebook effectue les op√©rations suivantes :
1. Chargement des variables d'environnement depuis le fichier `.env`
2. Configuration de MLFlow avec ces variables
3. Tentative de connexion au serveur MLFlow
4. R√©cup√©ration de la liste des exp√©riences existantes
5. Cr√©ation d'une exp√©rience si elle n'existe pas d√©j√†
6. Enregistrement de m√©triques test pour v√©rifier le bon fonctionnement

## R√©solution des probl√®mes courants

Si vous rencontrez des erreurs lors de la connexion, v√©rifiez :
- Que l'URI de tracking est correct et accessible
- Que vos identifiants AWS sont valides (si applicable)
- Que le serveur MLFlow est bien en cours d'ex√©cution
- Vos param√®tres r√©seau (pare-feu, VPN, etc.)

## Ressources utiles

- [Article : D√©ployer un serveur MLflow dans un Codespace Github](https://dev.to/davidscanu/deployer-un-serveur-mlflow-dans-un-codespace-github-1pm5)
- [GitHub : Lancer un serveur MLflow dans un codespace GitHub](https://github.com/DavidScanu/mlflow-server-devcontainer)

In [1]:
import os
import mlflow
from dotenv import load_dotenv

# Charger les variables d'environnement depuis le fichier .env
load_dotenv()

# Configuration de MLflow avec les variables d'environnement
mlflow_tracking_uri = os.getenv("MLFLOW_TRACKING_URI")
aws_access_key_id = os.getenv("AWS_ACCESS_KEY_ID")
aws_secret_access_key = os.getenv("AWS_SECRET_ACCESS_KEY")

print(f"MLflow Tracking URI: {mlflow_tracking_uri}")

# Configuration explicite des identifiants AWS pour MLflow
os.environ["AWS_ACCESS_KEY_ID"] = aws_access_key_id
os.environ["AWS_SECRET_ACCESS_KEY"] = aws_secret_access_key
print("Identifiants AWS configur√©s")

# Configuration de MLflow
try:
    print("Tentative de connexion √† MLflow...")
    mlflow.set_tracking_uri(mlflow_tracking_uri)
    
    # Liste des exp√©riences pour v√©rifier la connexion
    exps = mlflow.search_experiments()
    print(f"Connexion √† MLflow r√©ussie! Nombre d'exp√©riences existantes: {len(exps)}")
    for exp in exps:
        print(f"  - {exp.name} (ID: {exp.experiment_id})")
    
    # D√©finir le nom de l'exp√©rience
    experiment_name = "Demo PC"
    
    # Obtenir ou cr√©er l'exp√©rience
    experiment = mlflow.get_experiment_by_name(experiment_name)
    if experiment is None:
        experiment_id = mlflow.create_experiment(experiment_name)
        print(f"Nouvelle exp√©rience cr√©√©e: '{experiment_name}' (ID: {experiment_id})")
    else:
        experiment_id = experiment.experiment_id
        print(f"Exp√©rience existante trouv√©e: '{experiment_name}' (ID: {experiment_id})")
    
    # D√©marrer un simple run et enregistrer une m√©trique
    with mlflow.start_run(experiment_id=experiment_id, run_name="test_connexion_simple"):
        print("D√©marrage d'un run MLflow de test...")
        mlflow.log_param("test_param", "valeur_test")
        mlflow.log_metric("test_metric", 1.0)
        print("M√©trique de test enregistr√©e avec succ√®s!")
    
    print(f"Test termin√© avec succ√®s. Vous pouvez v√©rifier les r√©sultats sur: {mlflow_tracking_uri}")
    
except Exception as e:
    print(f"Erreur lors de la connexion √† MLflow: {e}")
    print("\nConseils de d√©bogage:")
    print("1. V√©rifiez que l'URI de tracking est correct et accessible")
    print("2. V√©rifiez que vos identifiants AWS sont valides si vous utilisez S3")
    print("3. V√©rifiez que le serveur MLflow est en cours d'ex√©cution")
    print("4. V√©rifiez les param√®tres r√©seau (pare-feu, VPN, etc.)")

MLflow Tracking URI: https://zany-orbit-q59ppqxj6j34j4x-5001.app.github.dev/
Identifiants AWS configur√©s
Tentative de connexion √† MLflow...
Connexion √† MLflow r√©ussie! Nombre d'exp√©riences existantes: 9
  - OC Projet 7 (ID: 52)
  - Demo PC (ID: 20)
  - Reconnaissance Iris - ID employ√© - right (ID: 18)
  - Reconnaissance Iris - ID employ√© - left (ID: 17)
  - Reconnaissance Iris - LR (ID: 16)
  - Yolov8 - Aerial Views of boats v1 (ID: 9)
  - Demo Colab (ID: 7)
  - Demo Codespace (ID: 6)
  - Default (ID: 0)
Exp√©rience existante trouv√©e: 'Demo PC' (ID: 20)
D√©marrage d'un run MLflow de test...
M√©trique de test enregistr√©e avec succ√®s!
üèÉ View run test_connexion_simple at: https://zany-orbit-q59ppqxj6j34j4x-5001.app.github.dev/#/experiments/20/runs/1afc71edad79455eab866684600b7994
üß™ View experiment at: https://zany-orbit-q59ppqxj6j34j4x-5001.app.github.dev/#/experiments/20
Test termin√© avec succ√®s. Vous pouvez v√©rifier les r√©sultats sur: https://zany-orbit-q59ppqxj6j34j

In [2]:
import os
import mlflow
from mlflow.models import infer_signature
from mlflow import MlflowClient
from dotenv import load_dotenv

import pandas as pd
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

# Charger les variables d'environnement depuis le fichier .env
load_dotenv()

# Configuration de MLflow avec les variables d'environnement
mlflow_tracking_uri = os.getenv("MLFLOW_TRACKING_URI")
aws_access_key_id = os.getenv("AWS_ACCESS_KEY_ID")
aws_secret_access_key = os.getenv("AWS_SECRET_ACCESS_KEY")

# Configuration explicite de MLflow
mlflow.set_tracking_uri(mlflow_tracking_uri)
print(f"MLflow Tracking URI: {mlflow_tracking_uri}")

# Configuration explicite des identifiants AWS
os.environ["AWS_ACCESS_KEY_ID"] = aws_access_key_id
os.environ["AWS_SECRET_ACCESS_KEY"] = aws_secret_access_key
print("Identifiants AWS configur√©s")

# Create a new MLflow Experiment
mlflow.set_experiment("Demo PC")

MLflow Tracking URI: https://zany-orbit-q59ppqxj6j34j4x-5001.app.github.dev/
Identifiants AWS configur√©s


<Experiment: artifact_location='s3://mlflow-artefact-store/models/20', creation_time=1741385058976, experiment_id='20', last_update_time=1741385058976, lifecycle_stage='active', name='Demo PC', tags={}>

In [3]:
# Fonction pour afficher les informations du run MLflow
def print_logged_info(r):
    print("")
    print("üèÉ MLflow Run Infos :")
    tags = {k: v for k, v in r.data.tags.items() if not k.startswith("mlflow.")}
    artifacts = [f.path for f in MlflowClient().list_artifacts(r.info.run_id, "model")]
    print(f"‚öóÔ∏è run_id: {r.info.run_id}")
    print(f"‚ö° artifacts: {artifacts}")
    print(f"‚öôÔ∏è params: {r.data.params}")
    print(f"üìù metrics: {r.data.metrics}")
    print(f"üè∑Ô∏è tags: {tags}")
    print()

# Chargement du dataset Iris
print("Chargement du dataset Iris...")
iris = datasets.load_iris()
X, y = iris.data, iris.target

# Conversion en DataFrame pour une meilleure visualisation
iris_df = pd.DataFrame(data=np.c_[iris['data'], iris['target']],
                      columns=iris['feature_names'] + ['target'])
print(f"Aper√ßu du dataset:\n{iris_df.head()}")
print(f"Dimensions du dataset: {iris_df.shape}")

# Cr√©er une figure pour visualiser la distribution des classes
plt.figure(figsize=(8, 6))
sns.countplot(x='target', data=iris_df)
plt.title('Distribution des classes du dataset Iris')
plt.savefig('iris_class_distribution.png')
plt.close()

# Division en ensembles d'entra√Ænement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(f"Taille de l'ensemble d'entra√Ænement: {X_train.shape}")
print(f"Taille de l'ensemble de test: {X_test.shape}")

# D√©finition des hyperparam√®tres du mod√®le
params = {
    "solver": "lbfgs",
    "max_iter": 1000,
    "random_state": 8888,
}

# D√©marrer un run MLflow
with mlflow.start_run(run_name="iris_classification") as run:
    print(f"D√©marrage du run MLflow avec l'ID: {run.info.run_id}")
    
    # Enregistrer les hyperparam√®tres
    mlflow.log_params(params)
    
    # Entra√Æner le mod√®le
    print("Entra√Ænement du mod√®le de r√©gression logistique...")
    lr = LogisticRegression(**params)
    lr.fit(X_train, y_train)
    
    # Pr√©dire sur l'ensemble de test
    y_pred = lr.predict(X_test)
    
    # Calculer les m√©triques
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='weighted')
    recall = recall_score(y_test, y_pred, average='weighted')
    f1 = f1_score(y_test, y_pred, average='weighted')
    
    # Enregistrer les m√©triques
    mlflow.log_metric("accuracy", accuracy)
    mlflow.log_metric("precision", precision)
    mlflow.log_metric("recall", recall)
    mlflow.log_metric("f1_score", f1)
    
    print(f"M√©triques: Accuracy={accuracy:.4f}, Precision={precision:.4f}, Recall={recall:.4f}, F1={f1:.4f}")
    
    # G√©n√©rer une matrice de confusion
    cm = confusion_matrix(y_test, y_pred)
    plt.figure(figsize=(8, 6))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
                xticklabels=iris.target_names, 
                yticklabels=iris.target_names)
    plt.title('Matrice de confusion')
    plt.xlabel('Pr√©diction')
    plt.ylabel('R√©alit√©')
    plt.tight_layout()
    plt.savefig('confusion_matrix.png')
    plt.close()
    
    # Enregistrer la matrice de confusion comme artifact
    mlflow.log_artifact("confusion_matrix.png")
    mlflow.log_artifact("iris_class_distribution.png")
    
    # D√©finir des tags pour ce run
    mlflow.set_tag("model_type", "LogisticRegression")
    mlflow.set_tag("dataset", "Iris")
    mlflow.set_tag("description", "Classification multiclasse des fleurs Iris")
    
    # Inf√©rer la signature du mod√®le
    signature = infer_signature(X_train, lr.predict(X_train))
    
    # Enregistrer le mod√®le avec sa signature
    model_info = mlflow.sklearn.log_model(
        sk_model=lr,
        artifact_path="model",
        signature=signature,
        input_example=X_train[:5]
    )
    
    print(f"Mod√®le enregistr√©: {model_info.model_uri}")

# R√©cup√©rer et afficher les informations du run termin√©
run_info = mlflow.get_run(run_id=run.info.run_id)
print_logged_info(run_info)

Chargement du dataset Iris...
Aper√ßu du dataset:
   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

   target  
0     0.0  
1     0.0  
2     0.0  
3     0.0  
4     0.0  
Dimensions du dataset: (150, 5)
Taille de l'ensemble d'entra√Ænement: (120, 4)
Taille de l'ensemble de test: (30, 4)
D√©marrage du run MLflow avec l'ID: f574e5f7d62f454990197ddc4d68aa16
Entra√Ænement du mod√®le de r√©gression logistique...
M√©triques: Accuracy=1.0000, Precision=1.0000, Recall=1.0000, F1=1.0000
Mod√®le enregistr√©: runs:/f574e5f7d62f454990197ddc4d68aa16/model
üèÉ View run iris_classi

In [4]:
# Prompts user with the Run ID from MLflow run
# You can find run ID in the Tracking UI
while True:
    run_id = input('Please enter your üèÉ RUN ID : ')
    if run_id.strip() != '':
        break

artifact_path = "model"

# Download artifact via the tracking server
mlflow_artifact_uri = f"runs:/{run_id}/{artifact_path}"

try:
    local_path = mlflow.artifacts.download_artifacts(mlflow_artifact_uri)
    # Load the model
    model = mlflow.sklearn.load_model(local_path)

    # If the model prints, everything works!
    print(f"üöÄ Model : {model}")
except:
  print("‚ùå Invalid Run ID.")

Downloading artifacts:   0%|          | 0/7 [00:00<?, ?it/s]

üöÄ Model : LogisticRegression(max_iter=1000, random_state=8888)
