In [None]:
import requests
import pandas as pd
import numpy as np
import mlflow
import mlflow.sklearn
import xgboost as xgb
import joblib 
import numpy as np
import dagshub
import os
from dotenv import load_dotenv
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.neighbors import KNeighborsClassifier



In [None]:
DAGSHUB_TOKEN = os.getenv('DAGSHUB_TOKEN')
mlflow.set_tracking_uri(f'https://{DAGSHUB_TOKEN}@dagshub.com/Shurens/my-first-repo.mlflow')


In [102]:
# API endpoint URLs
BASE_URL =  os.getenv('BASE_URL')  
TOKEN_URL = f"{BASE_URL}/token"
ALL_FILMS_URL = f"{BASE_URL}/all_films"


In [None]:
# Step 1: Récupération du token d'authentification
def get_token(username: str, password: str):
    response = requests.post(TOKEN_URL, data={"username": username, "password": password})
    if response.status_code == 200:
        return response.json()["access_token"]
    else:
        raise Exception("Authentication failed, check your credentials")


In [None]:
# Step 2: Récupérations des données des films
def fetch_all_films(token: str):
    headers = {
        "Authorization": f"Bearer {token}"
    }
    response = requests.get(ALL_FILMS_URL, headers=headers)
    
    if response.status_code == 200:
        films_data = response.json()["films"]
        return pd.DataFrame(films_data)
    else:
        raise Exception("Failed to fetch films data")


In [None]:

def train_model(df):
    # Étape 1: Préparation des données
    X = df.drop(columns=["f_evaluation"])  
    label_encoder = LabelEncoder()
    y = label_encoder.fit_transform(df["f_evaluation"])
    
    # Étape 2: Séparation des données en train et test avec stratification
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42, stratify=y
    )

    # Vérification de la répartition des classes
    print("Répartition des classes dans l'ensemble d'entraînement :", 
          dict(zip(*np.unique(y_train, return_counts=True))))
    print("Répartition des classes dans l'ensemble de test :", 
          dict(zip(*np.unique(y_test, return_counts=True))))
    
    # Étape 3: Entraînement des modèles de classification
    
    results = {}

    # Modèle RandomForestClassifier
    with mlflow.start_run(run_name="RandomForestClassifier"):
        rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
        rf_model.fit(X_train, y_train)
        y_pred_rf = rf_model.predict(X_test)
        results["RandomForestClassifier"] = log_metrics_and_return_results(
            "RandomForestClassifier", y_test, y_pred_rf, rf_model
        )

    # Modèle XGBoostClassifier
    with mlflow.start_run(run_name="XGBoostClassifier"):
        xgb_model = xgb.XGBClassifier(objective="multi:softprob", n_estimators=100, random_state=42)
        xgb_model.fit(X_train, y_train)
        y_pred_xgb = xgb_model.predict(X_test)
        results["XGBoostClassifier"] = log_metrics_and_return_results(
            "XGBoostClassifier", y_test, y_pred_xgb, xgb_model
        )

    # Modèle LogisticRegression
    with mlflow.start_run(run_name="LogisticRegression"):
        lr_model = LogisticRegression(max_iter=1000, random_state=42)
        lr_model.fit(X_train, y_train)
        y_pred_lr = lr_model.predict(X_test)
        results["LogisticRegression"] = log_metrics_and_return_results(
            "LogisticRegression", y_test, y_pred_lr, lr_model
        )
    
    # Modèle KNeighborsClassifier
    with mlflow.start_run(run_name="KNeighborsClassifier"):
        knn_model = KNeighborsClassifier(n_neighbors=5)
        knn_model.fit(X_train, y_train)
        y_pred_knn = knn_model.predict(X_test)
        results["KNeighborsClassifier"] = log_metrics_and_return_results(
            "KNeighborsClassifier", y_test, y_pred_knn, knn_model
        )
    
    
    # Affichage des résultats
    for model_name, metrics in results.items():
        print(f"{model_name} - Accuracy: {metrics['accuracy']}, Precision: {metrics['precision']}, Recall: {metrics['recall']}, F1-score: {metrics['f1']}")
    
    return results


def log_metrics_and_return_results(model_name, y_test, y_pred, model):
    """Log metrics to MLflow and return results."""
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='weighted')
    recall = recall_score(y_test, y_pred, average='weighted')
    f1 = f1_score(y_test, y_pred, average='weighted')
    
    mlflow.log_metric(f"accuracy_{model_name}", accuracy)
    mlflow.log_metric(f"precision_{model_name}", precision)
    mlflow.log_metric(f"recall_{model_name}", recall)
    mlflow.log_metric(f"f1_{model_name}", f1)
    mlflow.sklearn.log_model(model, f"{model_name.lower()}_model", registered_model_name=f"{model_name.lower()}_model")
    
    return {"accuracy": accuracy, "precision": precision, "recall": recall, "f1": f1}


In [None]:
import os
import dotenv
username = os.getenv('USERNAME')
password = os.getenv('PASSWORD')

token = get_token(username, password)
df = fetch_all_films(token)


# Step 4: entrainement du modèle + log
results = train_model(df)
print("Model training complete. Results:")
print(results)


Répartition des classes dans l'ensemble d'entraînement : {np.int64(0): np.int64(151), np.int64(1): np.int64(152), np.int64(2): np.int64(152)}
Répartition des classes dans l'ensemble de test : {np.int64(0): np.int64(38), np.int64(1): np.int64(38), np.int64(2): np.int64(38)}


Successfully registered model 'randomforestclassifier_model'.
2024/11/22 18:10:41 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: randomforestclassifier_model, version 1
Created version '1' of model 'randomforestclassifier_model'.
2024/11/22 18:10:41 INFO mlflow.tracking._tracking_service.client: 🏃 View run RandomForestClassifier at: https://Shurens:6eedb430bbccec564c65f996c1c03f5f6001ec32@dagshub.com/Shurens/my-first-repo.mlflow/#/experiments/0/runs/f59a8692c1a746b98240e2988b737ec4.
2024/11/22 18:10:41 INFO mlflow.tracking._tracking_service.client: 🧪 View experiment at: https://Shurens:6eedb430bbccec564c65f996c1c03f5f6001ec32@dagshub.com/Shurens/my-first-repo.mlflow/#/experiments/0.
Successfully registered model 'xgboostclassifier_model'.
2024/11/22 18:10:53 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: xgboostclassifier_model, ver

RandomForestClassifier - Accuracy: 0.7456140350877193, Precision: 0.7447368421052633, Recall: 0.7456140350877193, F1-score: 0.7448176921861133
XGBoostClassifier - Accuracy: 0.7105263157894737, Precision: 0.715013794282087, Recall: 0.7105263157894737, F1-score: 0.7122317253962823
LogisticRegression - Accuracy: 0.543859649122807, Precision: 0.5190058479532164, Recall: 0.543859649122807, F1-score: 0.46940077466393254
KNeighborsClassifier - Accuracy: 0.5087719298245614, Precision: 0.49520334814452466, Recall: 0.5087719298245614, F1-score: 0.49321004993757805
NaiveBayes - Accuracy: 0.42105263157894735, Precision: 0.6000000000000001, Recall: 0.42105263157894735, F1-score: 0.34294608648056923
Model training complete. Results:
{'RandomForestClassifier': {'accuracy': 0.7456140350877193, 'precision': np.float64(0.7447368421052633), 'recall': np.float64(0.7456140350877193), 'f1': np.float64(0.7448176921861133)}, 'XGBoostClassifier': {'accuracy': 0.7105263157894737, 'precision': np.float64(0.71501

In [None]:
# import os
# import sys
# from mlflow.tracking import MlflowClient


# MLFLOW_URL = "http://localhost:5000"
# PROJECT_MODEL_NAME = "logistic_regression_model"
# MONITORER_DIR = "mlflow"
# experiment_name = "logistic_regression_model"

# def recuperer_nom_modeles(MLFLOW_URL, PROJECT_MODEL_NAME):
#     # Récupération des noms des modèles sur MLFLow
#     all_model_names=[]
#     model_registry_client = mlflow.tracking.MlflowClient(MLFLOW_URL)
#     model_versions = model_registry_client.search_model_versions("")
#     model_names = set([mv.name for mv in model_versions])
#     for name in model_names:
#         if PROJECT_MODEL_NAME in name:
#             all_model_names.append(name)
#     return all_model_names[0], model_registry_client

# def charger_modele_et_artefacts(model_name, model_registry_client, MONITORER_DIR):
#     """
#     Charge un modèle MLflow, ainsi que ses artefacts associés, et importe les modules Python associés.

#     Cette fonction récupère la version en production d'un modèle à partir du registre des modèles MLflow,
#     télécharge les artefacts associés, et importe dynamiquement tous les modules Python contenus dans les artefacts.
#     Les données de test et les prédictions associées au modèle sont également extraites.

#     Args:
#         model_name (str): Le nom du modèle à charger depuis le registre de modèles MLflow.
#         model_registry_client (mlflow.tracking.MlflowClient): Le client MLflow pour interagir avec le registre des modèles.
#         WORK_DIR (str): Le répertoire de travail où les artefacts du modèle seront téléchargés.

#     Returns:
#         tuple: Un tuple contenant deux éléments :
            
#     dict: Un dictionnaire avec les éléments suivants :
#     'model' (sklearn model): Le modèle MLflow chargé.
#     'run_id' (str): L'identifiant de la run associée au modèle.
#     'pickle' (str): Le chemin du fichier pickle des variables sauvegardées.
#     'X_test' (str): Les données de test utilisées lors de l'entraînement du modèle.
#     'y_test' (str): Les labels de test utilisés lors de l'entraînement du modèle.
#     'y_pred' (str): Les prédictions du modèle sur les données de test.
#     'rmse' (str or float): La valeur RMSE (Root Mean Square Error) du modèle, ou un message indiquant
#                             qu'aucune RMSE n'a été trouvée.
#     dict: Un dictionnaire des modules Python importés dynamiquement, avec les noms des modules comme clés.

#     Raises:
#         FileNotFoundError: Si le répertoire spécifié pour les artefacts n'existe pas ou n'est pas un répertoire.
#         ImportError: Si l'importation des modules Python échoue.

#     """
#     # Récupérer la version en production du modèle désigné
#     prod_model_version = model_registry_client.get_model_version_by_alias(model_name, "production")

#     # Charger le modèle MLflow et l'enregistrer dans un dictionnaire
#     model={}
#     model["model"] = mlflow.sklearn.load_model(prod_model_version.source)
#     model["run_id"] = prod_model_version.run_id

#     # Récupérer les artefacts du modèle
#     run = mlflow.get_run(model["run_id"])
#     artifact_uri = run.info.artifact_uri

#     # # Supprimer le dossier des artefacts s'il existe déjà
#     # if os.path.exists(MONITORER_DIR+"/model_artefacts/") and os.path.isdir(MONITORER_DIR+"/model_artefacts/"):
#     #     shutil.rmtree(MONITORER_DIR+"/model_artefacts/")

#     # Télécharger les artefacts du modèle
#     artifact_folder = mlflow.artifacts.download_artifacts(artifact_uri, dst_path=MONITORER_DIR+"/model_artefacts/")
#     sys.path.append(artifact_folder)

#     # Télécharger les artefacts du modèle
#     artifact_folder = mlflow.artifacts.download_artifacts(artifact_uri, dst_path=os.path.join(MONITORER_DIR, "model_artefacts"))
#     sys.path.append(artifact_folder)

#     # Charger le LabelEncoder
#     label_encoder_path = os.path.join(artifact_folder, "label_encoder_films.joblib")
#     if os.path.exists(label_encoder_path):
#         model["label_encoder"] = joblib.load(label_encoder_path)
#     else:
#         raise FileNotFoundError(f"Le fichier {label_encoder_path} n'a pas été trouvé.")


#     return model

# def tag_latest_model_as_production(MLFLOW_URL, experiment_name):
#     '''
#     Marque le modèle le plus récent comme étant le modèle en production.

#     Args:
#         mlflowURI (str): Adresse qui pointe vers MLFlow.
#         experiment_name (str): Nom du modèle dans le registre MLFlow.
#     '''
#     client = mlflow.tracking.MlflowClient(MLFLOW_URL)
#     registered_model = client.get_registered_model(experiment_name)

#     model_versions = client.search_model_versions(f"name='{experiment_name}'")
#     model_versions.sort(key=lambda x: x.last_updated_timestamp, reverse=True)

#     latest_model_version = model_versions[0] if model_versions else None
#     if latest_model_version:
#         client.set_registered_model_alias(registered_model.name, 'production', latest_model_version.version)

In [None]:
# tag_latest_model_as_production(MLFLOW_URL, "logistic_regression_model")

In [None]:
# # Appeler la fonction pour récupérer le nom du modèle et le client MLflow
# try:
#     model_name, client = recuperer_nom_modeles(MLFLOW_URL, PROJECT_MODEL_NAME)
#     print(f"Nom du modèle récupéré : {model_name}")
# except Exception as e:
#     print(f"Erreur lors de la récupération du nom du modèle : {e}")


Nom du modèle récupéré : logistic_regression_model


In [None]:
# # Définir le répertoire de surveillance (assurez-vous que le chemin existe)
# if not os.path.exists(MONITORER_DIR):
#     os.makedirs(MONITORER_DIR)

# # Appeler la fonction pour charger le modèle et ses artefacts
# try:
#     model_data = charger_modele_et_artefacts(model_name, client, MONITORER_DIR)
#     label_encoder = model_data["label_encoder"]
#     loaded_model = model_data["model"]
#     run_id = model_data["run_id"]
#     print(f"Modèle chargé avec succès. Run ID : {run_id}")
# except Exception as e:
#     print(f"Erreur lors du chargement du modèle et des artefacts : {e}")


Erreur lors du chargement du modèle et des artefacts : Le fichier c:\Users\Utilisateur\Documents\projet_ia\bdd_films\mlflow\model_artefacts\artifacts\label_encoder.joblib n'a pas été trouvé.


In [None]:
# encoder = joblib.load("label_encoder_films.joblib")
# model = mlflow.sklearn.load_model("mlflow/model_artefacts/artifacts/logistic_regression_model") 
# X_new = pd.DataFrame([[10550000, 15500000, 145, 75]], columns=["budget", "revenue", "runtime", "vote_count"])
# try:
#     prediction_numeric = loaded_model.predict(X_new)
#     prediction_label = label_encoder.inverse_transform(prediction_numeric.astype(int))
#     print(f"Prédiction pour les données {X_new.values} : {prediction_label[0]}")
# except Exception as e:
#     print(f"Erreur lors de la prédiction : {e}")


Prédiction pour les données [[10550000 15500000      145       75]] : moyen


In [None]:
# import mlflow
# import joblib 
# import pandas as pd

# # Load the model
# logged_model = 'runs:/4c15cf97a8124539ad82139f53ba5fbe/random_forest_model'
# encoder = joblib.load("label_encoder_films.joblib")

# # Load model as a PyFuncModel.
# loaded_model = mlflow.pyfunc.load_model(logged_model)

# # Create a DataFrame for prediction input
# X_new = pd.DataFrame([[5500000, 141195658, 130, 562 ]], columns=["f_budget", "f_revenue", "f_runtime", "f_vote_count"])

# # Predict and assign the output to a variable
# prediction_numeric = loaded_model.predict(X_new)

# # Transform the numeric prediction to a label
# prediction_label = encoder.inverse_transform(prediction_numeric.astype(int))

# # Print the result
# print(f"Prédiction pour les données {X_new.values} : {prediction_label[0]}")


Prédiction pour les données [[  5500000 141195658       130       562]] : moyen


In [None]:
# import pandas as pd
# import mlflow
# import joblib

# # Load the model and the encoder
# logged_model = 'runs:/4c15cf97a8124539ad82139f53ba5fbe/random_forest_model'
# encoder = joblib.load("label_encoder_films.joblib")
# loaded_model = mlflow.pyfunc.load_model(logged_model)

# # Load the test data from CSV (assuming it's saved as 'test_data.csv')
# test_data = pd.read_csv('test_data.csv')

# # Prepare the features for prediction
# X_test = test_data[["f_budget", "f_revenue", "f_runtime", "f_vote_count"]]

# # Make predictions
# predictions_numeric = loaded_model.predict(X_test)

# # Convert numeric predictions to labels
# predictions_label = encoder.inverse_transform(predictions_numeric.astype(int))

# # Add the predictions to the DataFrame for comparison
# test_data['predicted_evaluation'] = predictions_label

# # Check how many predictions match the actual values
# correct_predictions = (test_data['predicted_evaluation'] == test_data['f_evaluation']).sum()

# # Validate the model with a threshold of 7 correct answers
# if correct_predictions >= 7:
#     print(f"Model validation successful: {correct_predictions} correct predictions.")
# else:
#     print(f"Model validation failed: {correct_predictions} correct predictions.")

# # Optionally, print the DataFrame to see the comparison
# print(test_data[['f_original_title', 'f_evaluation', 'predicted_evaluation']])


Model validation successful: 8 correct predictions.
                           f_original_title f_evaluation predicted_evaluation
0  From Dusk Till Dawn 2: Texas Blood Money     mediocre                 bien
1                                      Seed     mediocre             mediocre
2                             Spirited Away         bien                 bien
3           The Good, the Bad and the Ugly          bien                 bien
4                            Precious Cargo        moyen                moyen
5                                   Morbius        moyen                 bien
6                                Coriolanus        moyen                moyen
7                                    Volver        moyen                moyen
8                              The Runaways        moyen                moyen
9                               Thunderball        moyen                moyen
