# Mod√®le simple : R√©gression Logistique

## Rappel de la probl√©matique

## Sommaire

- **√âtape 1 : Initialisation des param√®tres**
  - Charger la configuration (Hydra)
  - Charger le dataset
  - Charger MLflow

- **√âtape 2 : Pr√©traitement**
  - Suppression des tweets vides
  - Vectorisation TF-IDF

- **√âtape 3 : Entra√Ænement et Validation**
  - D√©coupage des donn√©es (`dataSplitting`)
  - **Optimisation des hyperparam√®tres** : deux options disponibles :
    - **Optuna** : Recherche bay√©sienne pour une exploration efficace.
    - **GridSearch** : Recherche exhaustive sur une grille pr√©d√©finie.
  - Entra√Ænement final
  - Validation sur un ensemble de validation

- **√âtape 4 : √âvaluation Finale et Comparaison**
  - √âvaluation sur un ensemble de test ind√©pendant
  - Enregistrement du run dans MLflow (m√©triques et artefacts)
  - Comparaison avec d'autres mod√®les enregistr√©s dans le **Model Registry**

- **√âtape 5 : Promotion et Validation en Production**
  - Promotion du mod√®le valid√© en `Staging` dans MLflow
  - Tests suppl√©mentaires pour validation finale :
    - Tests d'inf√©rence sur des cas d'usage r√©els
    - Validation d'int√©gration dans l'environnement cible
  - Promotion vers le stage `Production` dans MLflow apr√®s validation
  - **Configuration de la surveillance en production** :
    - Utilisation d'Azure Application Insights pour le monitoring
    - Ajout de m√©triques cl√©s sp√©cifiques au projet d'analyse de sentiment :
      - **D√©rive des donn√©es** : D√©tection des changements dans la distribution des entr√©es.
      - **Temps d'inf√©rence** : Suivi des performances en temps r√©el.
      - **Pr√©cision par classe** : Surveillance des variations pour des cat√©gories sp√©cifiques.

#### Crit√®res de Promotion vers `Staging` et `Production`

| **√âtape**       | **Crit√®re**                                                                                                  | **Seuil**                 | **Commentaires**                                                 |
|------------------|-------------------------------------------------------------------------------------------------------------|--------------------------------------|------------------------------------------------------------------|
| **Validation**   | Performances sur l'ensemble de validation.                                                                 | Accuracy ‚â• 85%                       | Peut varier selon la nature du projet (par ex., `F1-score` > 0.8). |
| **Test Final**   | Performances sur l'ensemble Test ind√©pendant.                                                              | F1-Score ‚â• 80%                       | Doit garantir une bonne g√©n√©ralisation.                          |
| **Monitoring**   | Aucun drift d√©tect√© sur les donn√©es d'entr√©e dans Azure Insights.                                           | KS Test p-value ‚â• 0.05               | Test de d√©rive des donn√©es.                                      |
| **Staging**      | Validation des cas d'usage r√©els dans l'environnement cible.                                                | ‚â• 90% de succ√®s sur les tests r√©els. | Exemples repr√©sentatifs des donn√©es r√©elles.                     |
| **Production**   | Aucune r√©gression d√©tect√©e dans les m√©triques critiques apr√®s une p√©riode de tests en `Staging`.            | Temps d'inf√©rence < 300ms.           | Important pour l'int√©gration en temps r√©el.                      |

## Strat√©gies globales adapt√©es au pipeline MLOps

| **√âtape/Strat√©gie globale**                 | **trainTest**                                                                                     | **trainValTest**                                                                                     | **crossValidation**                                                                                           |
|---------------------------------------------|--------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------|
| **D√©coupage des Donn√©es**                   | - 2 ensembles : **Train** et **Test**.                                                          | - 3 ensembles : **Train**, **Validation**, et **Test**.                                             | - Pas d‚Äôensembles fixes‚ÄØ: les donn√©es sont divis√©es en `k` folds pour validation crois√©e.                     |
| **Cas d'usage**                             | - Exploration rapide : tester une hypoth√®se ou une nouvelle feature.                            | - Comparaison et optimisation de mod√®les avec une validation explicite.                             | - Lorsque les donn√©es sont limit√©es ou fortement h√©t√©rog√®nes.                                                |
| **Optimisation des Hyperparam√®tres**         | - Pas possible sans `Validation`.                                                               | - Optimisation sur l'ensemble **Validation**.                                                       | - Validation crois√©e‚ÄØ: optimisation int√©gr√©e via les splits.                                                 |
| **Entra√Ænement Final**                       | - Sur l'ensemble **Train** avec des hyperparam√®tres par d√©faut ou optimis√©s (si manuel).         | - Sur l'ensemble **Train** avec les hyperparam√®tres optimaux.                                        | - Souvent sur toutes les donn√©es de `Train`, car validation crois√©e optimise sur tous les splits.             |
| **Validation (sur un ensemble d√©di√©)**       | - Non applicable (ou via un plugin comme `crossValidation` sur `Train`).                        | - Sur l'ensemble **Validation**, m√©triques logu√©es.                                                 | - Validation incluse dans la validation crois√©e (k-folds).                                                   |
| **√âvaluation Finale et Comparaison**         | - Sur l'ensemble **Test**, m√©triques logu√©es dans MLflow.                                        | - Sur l'ensemble **Test**, m√©triques logu√©es dans MLflow.                                           | - Peut n√©cessiter un ensemble **Test** s√©par√© pour l‚Äô√©valuation finale.                                       |
| **Cas d'usage sp√©cifique**                   | - Prototypage rapide ou tests exploratoires.                                                    | - Standard pour des pipelines structur√©s, adapt√©s aux projets de production.                        | - √âvaluation robuste sur plusieurs splits pour r√©duire les risques de biais.                                 |
| **Enregistrement dans MLflow**              | - Run enregistr√© pour l'√©valuation finale uniquement.                                            | - Run enregistr√© apr√®s chaque √©tape (Validation, Test).                                             | - Run enregistr√© apr√®s validation crois√©e et √©valuation finale (si Test s√©par√©).                              |
| **Promotion et Validation en Production**    | - Promotion limit√©e (pas de validation explicite, risques plus √©lev√©s en production).            | - Mod√®le valid√© en `Staging`, test√© et promu vers `Production`.                                      | - Promotion possible apr√®s validation crois√©e robuste et √©ventuelle validation finale sur un ensemble Test.   |

## Etape 1 : Initialisation des param√®tres

#### Charger la configuration (Hydra)

In [21]:
import pandas as pd
from omegaconf import DictConfig
from hydra import initialize, compose
from hydra.core.global_hydra import GlobalHydra

# R√©initialiser Hydra si d√©j√† initialis√©
if GlobalHydra.instance().is_initialized():
    GlobalHydra.instance().clear()

# Initialiser Hydra avec une nouvelle configuration
initialize(config_path="config", version_base=None)
cfg = compose(config_name="config")

# Afficher la configuration globale
print("Configuration globale :")
print(cfg)

# Charger les param√®tres du mod√®le
model_config = cfg.model
print(f"\nMod√®le s√©lectionn√© : {model_config.name}")
print(f"Param√®tres du mod√®le : {model_config.parameters}")

# Charger le dataset
dataset_path = cfg.dataset.path  # Utiliser la cl√© correcte
df = pd.read_csv(dataset_path)
print(f"\nDataset charg√© avec {len(df)} lignes et {len(df.columns)} colonnes.")

Configuration globale :
{'dataset': {'path': './output/data_clean.csv'}, 'strategy': {'_target_': 'trainValTest', 'testSize': 0.2, 'validationSize': 0.25, 'randomSeed': 42}, 'model': {'name': 'logistic_regression_model', 'version': '1.0', 'parameters': {'solver': 'liblinear', 'penalty': 'l2', 'C': 1.0}, 'mlflow': {'trackingUri': 'http://127.0.0.1:5000', 'experiment': {'name': 'p7-sentiment-analysis', 'run': {'name': 'logistic_regression_run', 'description': 'Training with logistic regression', 'tags': {'modelType': 'logistic_regression', 'datasetVersion': 'v1.0'}}}}}, 'vectorizer': {'_target_': 'tfidfVectorizer', 'stopWords': 'english', 'maxFeatures': 1000, 'ngramRange': [1, 2]}, 'hyperparameterOptimization': {'_target_': 'gridSearch', 'enabled': True, 'crossValidationFolds': 5, 'verbosityLevel': 1, 'parallelJobs': -1, 'paramGrid': {'penalty': ['l1', 'l2'], 'C': [0.1, 1, 10], 'solver': ['liblinear', 'saga'], 'max_iter': [1000, 2000]}}, 'validation': {'enabled': False}}

Mod√®le s√©lect

#### Charger MLflow

In [22]:
import requests
import subprocess
import mlflow
from omegaconf import DictConfig
from hydra import initialize, compose
from hydra.core.global_hydra import GlobalHydra


def is_mlflow_running(host="127.0.0.1", port=5000):
    """
    V√©rifie si le serveur MLflow est en cours d'ex√©cution.
    """
    url = f"http://{host}:{port}"
    try:
        response = requests.get(url)
        return response.status_code == 200  # V√©rifie le code de r√©ponse HTTP
    except requests.ConnectionError:
        return False


# V√©rifier si MLflow est en cours d'ex√©cution
mlflow_host = cfg.model.mlflow.trackingUri.split("://")[1].split(":")[0]
mlflow_port = int(cfg.model.mlflow.trackingUri.split(":")[-1])

if not is_mlflow_running(host=mlflow_host, port=mlflow_port):
    subprocess.Popen(["mlflow", "server", "--host", mlflow_host, "--port", str(mlflow_port)])
    print(f"MLflow server started on http://{mlflow_host}:{mlflow_port}.")
else:
    print(f"MLflow server is already running on http://{mlflow_host}:{mlflow_port}.")
    # V√©rifier si un run est d√©j√† actif
    if mlflow.active_run() is not None:
        print(f"Ending the active run with ID: {mlflow.active_run().info.run_id}")
        mlflow.end_run()

# Configurer MLflow
print("D√©marrer un run.")
mlflow.set_tracking_uri(cfg.model.mlflow.trackingUri)
mlflow.set_experiment(cfg.model.mlflow.experiment.name)
mlflow.start_run(run_name=cfg.model.mlflow.experiment.run.name)
print("MLflow run started.")


MLflow server is already running on http://127.0.0.1:5000.
D√©marrer un run.
MLflow run started.


## Etape 2 : Pr√©traitement 

#### Suppression des lignes vides

In [23]:
# Suppression des lignes vides
df[df["tweet"].isna() | (df["tweet"] == "")]
df = df[~(df['tweet'].isna() | (df['tweet'] == ""))]

#### Vectorization TF-IDF

In [24]:
from sklearn.feature_extraction.text import TfidfVectorizer

# V√©rifier le type de vectorizer configur√©
if cfg.vectorizer._target_ == "tfidfVectorizer":
    vectorizer = TfidfVectorizer(
        stop_words=cfg.vectorizer.stopWords,
        max_features=cfg.vectorizer.maxFeatures,
        ngram_range=tuple(cfg.vectorizer.ngramRange)
    )
else:
    raise KeyError("La configuration 'tfidVectorizer' est absente ou mal d√©finie dans 'vectorizer'.")
    
# Appliquer fit_transform sur les tweets
X = vectorizer.fit_transform(df['tweet'])

print(f"TF-IDF vectorisation termin√©e avec {X.shape[1]} caract√©ristiques.")

TF-IDF vectorisation termin√©e avec 1000 caract√©ristiques.


## Etape 3 : Entra√Ænement et Validation

#### D√©coupage des donn√©es (`dataSplitting`)

In [25]:
from sklearn.model_selection import train_test_split, KFold

# Encodage binaire de la cible
y = df['id'].apply(lambda x: 1 if x == 4 else 0)

# V√©rifier la strat√©gie s√©lectionn√©e
if cfg.strategy._target_ == "trainValTest":
    # Charger les param√®tres de la strat√©gie
    params = cfg.strategy
    # D√©coupage Train/Test
    X_train_full, X_test, y_train_full, y_test = train_test_split(
        X, y, test_size=params.testSize, random_state=params.randomSeed
    )
    # D√©coupage Train/Validation
    X_train, X_val, y_train, y_val = train_test_split(
        X_train_full, y_train_full, test_size=params.validationSize, random_state=params.randomSeed
    )
    print(f"Donn√©es d√©coup√©es avec la strat√©gie 'trainValTest':")
    print(f"Train: {X_train.shape}, Validation: {X_val.shape}, Test: {X_test.shape}")

elif cfg.strategy._target_ == "trainTest":
    # Charger les param√®tres de la strat√©gie
    params = cfg.strategy
    # D√©coupage Train/Test
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=params.testSize, random_state=params.randomSeed
    )
    X_val, y_val = None, None  # Pas de validation pour cette strat√©gie
    print(f"Donn√©es d√©coup√©es avec la strat√©gie 'trainTest':")
    print(f"Train: {X_train.shape}, Test: {X_test.shape}")

elif cfg.strategy._target_ == "crossValidation":
    # Charger les param√®tres de la strat√©gie
    params = cfg.strategy
    kfold = KFold(n_splits=params.folds, shuffle=True, random_state=params.randomSeed)
    folds = list(kfold.split(X, y))
    print(f"Donn√©es d√©coup√©es avec la strat√©gie 'crossValidation':")
    print(f"Nombre de folds: {len(folds)}")
    # Exemple d'acc√®s au premier fold
    train_idx, val_idx = folds[0]
    X_train, X_val = X[train_idx], X[val_idx]
    y_train, y_val = y.iloc[train_idx], y.iloc[val_idx]
    X_test, y_test = None, None  # Pas de test explicite pour cette strat√©gie
    print(f"Premier fold - Train: {X_train.shape}, Validation: {X_val.shape}")

else:
    raise ValueError(f"Strat√©gie de d√©coupage des donn√©es '{cfg.strategy._target_}' non reconnue.")

Donn√©es d√©coup√©es avec la strat√©gie 'trainValTest':
Train: (957936, 1000), Validation: (319312, 1000), Test: (319313, 1000)


#### Optimisation des Hyperparam√®tres

- M√©thodes d'optimisation :
    - GridSearchCV :
        - Explore toutes les combinaisons d‚Äôhyperparam√®tres d√©finis dans une grille.
        - Utilise la validation crois√©e pour √©valuer chaque combinaison.
        - Retourne :
            - Les meilleurs hyperparam√®tres (best_params_).
            - Le mod√®le entra√Æn√© avec ces hyperparam√®tres (best_estimator_).

    - Optuna :
        - Optimisation bay√©sienne avec espace de recherche dynamique.
        - Fonction objectif :
            - Entra√Æne un mod√®le avec des hyperparam√®tres sugg√©r√©s.
            - √âvalue la performance via validation crois√©e (cross_val_score).
        - Retourne :
            - Les meilleurs hyperparam√®tres (best_params).
            - Un mod√®le final configur√© avec ces param√®tres.

In [26]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV, cross_val_score
import optuna

# Param√®tres pour l'optimisation
if cfg.hyperparameterOptimization._target_ == "gridSearch":
    param_grid = dict(cfg.hyperparameterOptimization.paramGrid)

    # D√©finir les folds ou l'ensemble de validation
    cv = (
        cfg.validation.crossValidation.folds
        if cfg.strategy._target_ == "crossValidation"
        else [(list(range(X_train.shape[0])), list(range(X_val.shape[0])))]
    )

    # Cr√©ation de GridSearchCV
    grid_search = GridSearchCV(
        estimator=LogisticRegression(),
        param_grid=param_grid,
        cv=cv,
        verbose=cfg.hyperparameterOptimization.verbosityLevel,
        n_jobs=cfg.hyperparameterOptimization.parallelJobs,
    )
    grid_search.fit(X_train, y_train)

    # R√©cup√©ration des meilleurs param√®tres
    best_params = grid_search.best_params_
    model = grid_search.best_estimator_
    print(f"Best Parameters Found by GridSearch: {best_params}")

    # √âvaluation finale sur l'ensemble de test
    if X_test is not None and y_test is not None:
        test_score = model.score(X_test, y_test)
        print(f"Test Accuracy: {test_score}")

elif cfg.hyperparameterOptimization._target_ == "optuna":
    def objective(trial):
        penalty = trial.suggest_categorical("penalty", ["l1", "l2"])
        C = trial.suggest_float("C", 0.1, 10, log=True)
        solver = trial.suggest_categorical("solver", ["liblinear", "saga"])
        max_iter = trial.suggest_int("max_iter", 100, 1000)

        model = LogisticRegression(penalty=penalty, C=C, solver=solver, max_iter=max_iter)

        if cfg.strategy._target_ == "crossValidation":
            scores = cross_val_score(model, X_train, y_train, cv=cfg.validation.crossValidation.folds)
            return scores.mean()
        elif cfg.strategy._target_ == "trainValTest":
            model.fit(X_train, y_train)
            return model.score(X_val, y_val)

    # Lancer l'optimisation avec Optuna
    study = optuna.create_study(direction=cfg.hyperparameterOptimization.optuna.optimizationDirection)
    study.optimize(objective, n_trials=cfg.hyperparameterOptimization.optuna.trialCount, timeout=cfg.hyperparameterOptimization.optuna.timeLimitSeconds)

    # R√©cup√©ration des meilleurs param√®tres
    best_params = study.best_params
    model = LogisticRegression(**best_params)
    print(f"Best Parameters Found by Optuna: {best_params}")

    # √âvaluation finale sur l'ensemble de test
    if X_test is not None and y_test is not None:
        model.fit(X_train, y_train)
        test_score = model.score(X_test, y_test)
        print(f"Test Accuracy: {test_score}")

else:
    raise ValueError("Unsupported hyperparameter optimization method")

Fitting 1 folds for each of 24 candidates, totalling 24 fits


Best Parameters Found by GridSearch: {'C': 0.1, 'max_iter': 2000, 'penalty': 'l1', 'solver': 'saga'}
Test Accuracy: 0.7389677213267233


## √âtape 4 : √âvaluation Finale et Comparaison

#### √âvaluation sur un ensemble de test ind√©pendant

In [27]:
from sklearn.metrics import accuracy_score, classification_report

# √âtape 4 : √âvaluation Finale et Comparaison
if X_test is not None and y_test is not None:
    print("\n### √âtape 4 : √âvaluation Finale ###")
    
    # √âvaluer le mod√®le sur l'ensemble de test
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    
    print(f"Accuracy on Test Set: {accuracy:.4f}")
    print("\nClassification Report:")
    print(classification_report(y_test, y_pred))
else:
    print("\n### √âtape 4 : √âvaluation Finale ###")
    print("Aucun ensemble de test ind√©pendant disponible pour √©valuation.")



### √âtape 4 : √âvaluation Finale ###
Accuracy on Test Set: 0.7390

Classification Report:
              precision    recall  f1-score   support

           0       0.76      0.69      0.73    159233
           1       0.72      0.78      0.75    160080

    accuracy                           0.74    319313
   macro avg       0.74      0.74      0.74    319313
weighted avg       0.74      0.74      0.74    319313



#### Enregistrement du run dans MLflow (m√©triques et artefacts)

In [28]:
import mlflow
import os
from sklearn.metrics import roc_auc_score, roc_curve, classification_report
import matplotlib.pyplot as plt

# Enregistrement du run dans MLflow (m√©triques et artefacts)
def log_run_metrics_and_artifacts(model, cfg, val_accuracy, val_f1, y_val=None, y_val_proba=None):
    # Extraire les labels depuis la configuration Hydra
    hydra_labels = {
        "data_split": cfg.strategy._target_,
        "optimizer": cfg.hyperparameterOptimization._target_,
        "validation": cfg.validation.crossValidation.folds if cfg.strategy._target_ == "crossValidation" else "N/A",
        "experiment_name": cfg.model.mlflow.experiment.name,
        "run_name": cfg.model.mlflow.experiment.run.name,
    }

    # Log tags pour les labels Hydra
    for key, value in hydra_labels.items():
        mlflow.set_tag(key, value)

    # Log des m√©triques dans MLflow
    mlflow.log_metric("validation_accuracy", val_accuracy)
    mlflow.log_metric("validation_f1_score", val_f1)

    # Enregistrer le rapport de classification dans les logs
    if y_val is not None:
        val_classification_report = classification_report(y_val, model.predict(y_val))
        with open("classification_report_val.txt", "w") as f:
            f.write(val_classification_report)
        mlflow.log_artifact("classification_report_val.txt")
        os.remove("classification_report_val.txt")

    # Courbe ROC (si disponible)
    if y_val_proba is not None:
        val_roc_auc = roc_auc_score(y_val, y_val_proba)
        mlflow.log_metric("validation_roc_auc", val_roc_auc)

        # G√©n√©rer la courbe ROC
        fpr, tpr, _ = roc_curve(y_val, y_val_proba)
        plt.figure()
        plt.plot(fpr, tpr, label=f"ROC Curve (AUC = {val_roc_auc:.2f})")
        plt.xlabel("False Positive Rate")
        plt.ylabel("True Positive Rate")
        plt.title("ROC Curve")
        plt.legend(loc="lower right")
        plt.grid()

        # Enregistrer la courbe ROC
        roc_curve_path = "roc_curve_validation.png"
        plt.savefig(roc_curve_path)
        plt.close()
        mlflow.log_artifact(roc_curve_path)
        os.remove(roc_curve_path)

    # Enregistrement du mod√®le dans MLflow
    mlflow.log_param("model_name", cfg.model.mlflow.model.name)
    mlflow.sklearn.log_model(model, cfg.model.mlflow.model.name)

    # Afficher les r√©sultats
    print(f"Validation Accuracy: {val_accuracy:.4f}")
    print(f"Validation F1 Score: {val_f1:.4f}")
    if y_val_proba is not None:
        print(f"Validation ROC AUC: {val_roc_auc:.4f}")

In [29]:
mlflow.end_run()

üèÉ View run logistic_regression_run at: http://127.0.0.1:5000/#/experiments/277281536415448661/runs/5926d1d65e314b4db3e1f6deec1bbdf9
üß™ View experiment at: http://127.0.0.1:5000/#/experiments/277281536415448661


#### Comparaison avec d'autres mod√®les enregistr√©s dans le **Model Registry**

In [30]:
import mlflow
from mlflow.tracking import MlflowClient

# Comparaison avec d'autres mod√®les enregistr√©s dans le Model Registry
def compare_with_registered_models(cfg, val_accuracy):
    client = MlflowClient(tracking_uri=cfg.model.mlflow.trackingUri)

    # R√©cup√©rer tous les mod√®les enregistr√©s dans l'exp√©rience
    registered_models = client.search_registered_models()
    
    best_model = None
    best_accuracy = 0

    print("\nComparaison avec les mod√®les enregistr√©s dans le Model Registry:")
    for model in registered_models:
        model_name = model.name

        # R√©cup√©rer les versions du mod√®le
        for version in client.get_latest_versions(model_name):
            if "validation_accuracy" in version.tags:
                model_accuracy = float(version.tags["validation_accuracy"])

                print(f"Mod√®le: {model_name}, Version: {version.version}, Validation Accuracy: {model_accuracy}")

                # Comparer les scores
                if model_accuracy > best_accuracy:
                    best_accuracy = model_accuracy
                    best_model = (model_name, version.version)

    print("\nR√©sultats de la comparaison:")
    if val_accuracy > best_accuracy:
        print(f"Le mod√®le actuel est le meilleur avec une validation accuracy de {val_accuracy:.4f}.")
    else:
        print(f"Le meilleur mod√®le enregistr√© est '{best_model[0]}' (version {best_model[1]}) avec une validation accuracy de {best_accuracy:.4f}.")

# Appel de la fonction pour comparer le mod√®le actuel
compare_with_registered_models(cfg, val_accuracy)

NameError: name 'val_accuracy' is not defined

## √âtape 5 : Promotion et Validation en Production

import onnxruntime as ort
from azure.monitor.opentelemetry.exporter import AzureMonitorTraceExporter
from opentelemetry import trace
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor

# Configuration Azure Application Insights
exporter = AzureMonitorTraceExporter(connection_string="InstrumentationKey=85b10953-35ac-45bc-9192-6044192484fe")
tracer_provider = TracerProvider()
span_processor = BatchSpanProcessor(exporter)
tracer_provider.add_span_processor(span_processor)
trace.set_tracer_provider(tracer_provider)
tracer = trace.get_tracer(__name__)

# Charger le mod√®le ONNX
onnx_session = ort.InferenceSession('./output/simple_model.onnx')

def predict_sentiment(tweet):
    """Pr√©dire le sentiment d'un tweet avec le mod√®le ONNX."""
    inputs = {onnx_session.get_inputs()[0].name: [[tweet]]}  # Respect du format attendu
    outputs = onnx_session.run(None, inputs)
    predicted_label = outputs[0][0]  # 1 pour "positif", 0 pour "n√©gatif"
    return "Positif" if predicted_label == 1 else "N√©gatif"

def main():
    print("=== Test de Sentiment ===")
    while True:
        # Saisir un tweet
        tweet = input("Entrez un tweet (ou tapez 'exit' pour quitter) : ")
        if tweet.lower() == 'exit':
            print("Au revoir !")
            break
        
        # Pr√©dire le sentiment
        sentiment = predict_sentiment(tweet)
        print(f"Pr√©diction : {sentiment}")
        
        # Demander validation utilisateur
        validation = input("La pr√©diction est-elle correcte ? (oui/non) : ").strip().lower()
        
        if validation == "non":
            print("Merci pour votre retour, une trace a √©t√© envoy√©e.")
            
            # Envoyer une trace √† Application Insights
            with tracer.start_as_current_span("Validation incorrecte"):
                span = trace.get_current_span()
                span.set_attribute("tweet", tweet)
                span.set_attribute("pr√©diction", sentiment)
                span.set_attribute("validation", "Non")
        elif validation == "oui":
            print("Merci pour votre validation.")
        else:
            print("R√©ponse invalide. Veuillez entrer 'oui' ou 'non'.")

if __name__ == "__main__":
    main()

#### Enregistrement dans le Model Registry 

from mlflow.tracking import MlflowClient

client = MlflowClient()
model_uri = f"runs:/{run.info.run_id}/{cfg.mlflow.model.name}"

try:
    # V√©rifier si le mod√®le existe dans le registre
    client.get_registered_model(cfg.mlflow.model.name)
except mlflow.exceptions.MlflowException:
    # Cr√©er un mod√®le dans le registre s'il n'existe pas
    client.create_registered_model(cfg.mlflow.model.name)

# Cr√©er une nouvelle version du mod√®le dans le registre
client.create_model_version(
    name=cfg.mlflow.model.name,
    source=model_uri,
    run_id=run.info.run_id
)

####

# Transitionner une version de mod√®le vers Production
client.transition_model_version_stage(
    name=cfg.mlflow.model.name,
    version=1,  # La version √† transitionner
    stage="Production"
)