## üéØ Objectif du notebook `06_predict.ipynb`

Ce notebook a pour objectif de **charger les meilleurs mod√®les** s√©lectionn√©s lors des √©tapes pr√©c√©dentes et de **r√©aliser des pr√©dictions** sur de nouvelles donn√©es.

### ‚ùì Pourquoi ne teste-t-on pas plusieurs mod√®les ici ?

Les mod√®les utilis√©s sont ceux ayant d√©j√† √©t√© **rigoureusement compar√©s et valid√©s** dans les notebooks pr√©c√©dents :

- üìò `03_model_regression.ipynb`  
  ‚û§ S√©lection du mod√®le **XGBoost** comme meilleur pr√©dicteur de prix, bas√© sur les m√©triques MAE, RMSE, et R¬≤.

- üìò `04_model_classification.ipynb`  
  ‚û§ S√©lection du mod√®le **Random Forest** pour la classification binaire (tranche de prix), avec un score **Accuracy > 96%**.

Il ne s‚Äôagit donc **pas ici de r√©entra√Æner ni de comparer d‚Äôautres mod√®les**, mais de :
- charger les mod√®les finalis√©s,
- appliquer les transformations n√©cessaires,
- produire les pr√©dictions finales.

Cette approche garantit :
- la **coh√©rence avec l‚Äôensemble du pipeline**,
- un **gain de temps** pour les pr√©dictions r√©elles,
- une **tra√ßabilit√© claire** des choix m√©thodologiques pour la soutenance.

---

In [None]:
# üìò 06_predict.ipynb ‚Äî √âvaluation crois√©e de toutes les paires de mod√®les

import os
import pandas as pd
import joblib
import numpy as np
from sentence_transformers import SentenceTransformer

# üîß Configuration
REGRESSION_MODELS = [
    "decision_tree", "gradient_boosting", "knn_regressor",
    "linear_regression", "random_forest", "ridge", "xgboost"
]

CLASSIFICATION_MODELS = [
    "decision_tree", "knn_classifier", "logistic_regression", "random_forest"
]

MODEL_DIR_REG = "../models/regression"
MODEL_DIR_CLF = "../models/classification"
SCALER_PATH = "../models/regression/scaler_notebook.pkl"
COLUMNS_PATH = "../models/columns_used_notebook.pkl"
OUTPUT_DIR = "../data/predictions_grid"

# üîß Chargement des objets communs
scaler = joblib.load(SCALER_PATH)
columns = joblib.load(COLUMNS_PATH)
embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

# üß± Fonction de pr√©traitement
def preprocess_input(description: str, fiabilite: float) -> pd.DataFrame:
    emb = embedding_model.encode([description])
    emb_dict = {f"emb_{i}": emb[0][i] for i in range(384)}
    row = {**emb_dict, "Fiabilite": fiabilite}
    df = pd.DataFrame([row])
    df = df.reindex(columns=columns, fill_value=0)
    df[["Fiabilite"]] = scaler.transform(df[["Fiabilite"]])
    return df

# üß™ Chargement des donn√©es sources
df_source = pd.read_csv("../data/fiverr_cleaned_dl_notebook.csv")

# üîÅ Boucle sur toutes les paires de mod√®les
for reg_name in REGRESSION_MODELS:
    reg_model = joblib.load(f"{MODEL_DIR_REG}/{reg_name}_notebook.pkl")

    for clf_name in CLASSIFICATION_MODELS:
        clf_model = joblib.load(f"{MODEL_DIR_CLF}/{clf_name}_notebook.pkl")

        df = df_source.copy()

        # üîÆ Pr√©dictions
        df["Prix_pr√©dit"] = df.apply(
            lambda row: round(np.expm1(reg_model.predict(preprocess_input(row["Description"], row["Fiabilite"]))[0]) * 10, 2),
            axis=1
        )
        df["Tranche_pr√©vue"] = df.apply(
            lambda row: clf_model.predict(preprocess_input(row["Description"], row["Fiabilite"]))[0],
            axis=1
        )

        # üíæ Sauvegarde du fichier de sortie
        filename = f"fiverr_predicted_{reg_name}_{clf_name}_notebook.csv"
        df.to_csv(os.path.join(OUTPUT_DIR, filename), index=False)
        print(f"‚úÖ Sauvegard√© : {filename}")



In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, accuracy_score
import pandas as pd
import numpy as np
import os

# üìÇ R√©pertoire des fichiers de pr√©diction
INPUT_DIR = "../data/predictions_grid"
results = []

# üîÅ Boucle sur les fichiers de pr√©diction
for filename in os.listdir(INPUT_DIR):
    if filename.endswith(".csv"):
        df = pd.read_csv(os.path.join(INPUT_DIR, filename))

        # ‚ö†Ô∏è Ajout de la tranche r√©elle si manquante
        if "Tranche_r√©elle" not in df.columns:
            df["Tranche_r√©elle"] = pd.qcut(df["Prix"], q=3, labels=["Basse", "Moyenne", "Haute"])

        # üè∑Ô∏è Extraction des noms de mod√®les
        reg_name, clf_name = filename.replace(".csv", "").replace("fiverr_predicted_", "").split("__")

        # üìè Calcul des m√©triques
        mae = mean_absolute_error(df["Prix"], df["Prix_pr√©dit"])
        rmse = np.sqrt(mean_squared_error(df["Prix"], df["Prix_pr√©dit"]))
        acc = accuracy_score(df["Tranche_r√©elle"], df["Tranche_pr√©vue"])

        results.append({
            "R√©gression": reg_name,
            "Classification": clf_name,
            "MAE": round(mae, 2),
            "RMSE": round(rmse, 2),
            "Accuracy": round(acc, 4)
        })

# üìä Affichage des r√©sultats
df_results = pd.DataFrame(results).sort_values(by="RMSE")
print("üìà R√©sultats comparatifs des paires (ordonn√©s par RMSE) :\n")
print(df_results.to_markdown(index=False))


In [None]:
import pandas as pd
import joblib

# Chargement du mod√®le entra√Æn√© (doit √™tre un mod√®le √† base d‚Äôarbres)
reg_model = joblib.load("models/regression/decision_tree.pkl")
columns = joblib.load("models/columns_used.pkl")

# Importance des variables
importances = reg_model.feature_importances_
features = pd.Series(importances, index=columns)

# Affichage
print("Importance de la variable Fiabilite :", round(features["Fiabilite"], 4))
print("\nTop 10 features :")
print(features.sort_values(ascending=False).head(10))