#  Notebook `06_predict.ipynb`

---

# üéØ Pr√©diction avec les mod√®les finalis√©s

Ce notebook constitue une **passerelle entre la mod√©lisation et l'application r√©elle**.  
Il vise √† exploiter les mod√®les finalis√©s (r√©gression + classification) pour **pr√©dire le prix et la tranche de prix** d‚Äôun service Fiverr √† partir de sa **description textuelle** et de son **indice de fiabilit√©**.

## üéØ Objectifs

- üì¶ Charger les **mod√®les enregistr√©s** (r√©gression et classification)
- üß† Appliquer le **pipeline de transformation** coh√©rent avec l‚Äôentra√Ænement
  - Embedding de la description (`sentence-transformers`)
  - Normalisation de la variable `Fiabilit√©`
  - Alignement des colonnes (`columns_used.pkl`)
- üîÆ R√©aliser des **pr√©dictions sur de nouvelles donn√©es**
  - Pr√©diction du **prix exact** (`Prix`) via un mod√®le de r√©gression
  - Pr√©diction de la **tranche de prix** (`Tranche`) via un mod√®le de classification
- üöÄ Pr√©parer les **fonctions d‚Äôappel** √† utiliser dans l'application Gradio (`predict.py`)

## üß† Choix des mod√®les retenus

Les mod√®les utilis√©s ont √©t√© **s√©lectionn√©s apr√®s comparaison** dans les notebooks pr√©c√©dents :

- üìò `03_model_regression.ipynb`  
  ‚û§ Mod√®le retenu : **Gradient Boosting Regressor**  
  ‚û§ Pr√©cis et robuste sur les indicateurs MAE / RMSE

- üìò `04_model_classification.ipynb`  
  ‚û§ Mod√®le retenu : **Decision Tree Classifier**  
  ‚û§ Pr√©cision > 96 %, facile √† interpr√©ter

> üí° Ces choix sont le fruit d‚Äôune **comparaison syst√©matique des performances** sur des donn√©es test√©es et valid√©es.

## ‚úÖ Comp√©tences mobilis√©es

- **Bloc 3 ‚Äî C1** : S√©lectionner l‚Äôalgorithme le plus adapt√© en fonction de la probl√©matique et des performances.
- **Bloc 3 ‚Äî C2** : Appliquer un pipeline de transformation coh√©rent entre entra√Ænement et pr√©diction.
- **Bloc 3 ‚Äî C3** : Exploiter un mod√®le entra√Æn√© pour produire une pr√©diction adapt√©e au besoin m√©tier.
- **Bloc 5 ‚Äî C1** : Utiliser des embeddings pour transformer des descriptions textuelles en donn√©es num√©riques.

Ce notebook est **pr√©requis √† l'int√©gration dans une interface applicative** (Gradio ou API Flask).

In [None]:
import pandas as pd
import joblib
from sentence_transformers import SentenceTransformer

# üì¶ Chargement des objets enregistr√©s
reg_model = joblib.load("models/regression/gradient_boosting.pkl")  # Mod√®le de r√©gression
clf_model = joblib.load("models/classification/decision_tree.pkl")  # Mod√®le de classification
scaler = joblib.load("models/regression/scaler.pkl")                # Scaler pour Fiabilit√©
columns = joblib.load("models/columns_used.pkl")                    # Liste des colonnes attendues
embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")  # Embedding

# üîß Fonction de pr√©traitement des donn√©es d'entr√©e
def preprocess_input(description: str, fiabilite: float) -> pd.DataFrame:
    # ‚û§ G√©n√©ration de l'embedding de la description
    emb = embedding_model.encode([description])
    emb_dict = {f"emb_{i}": emb[0][i] for i in range(384)}
    
    # ‚û§ Construction du DataFrame d'entr√©e avec la fiabilit√© pond√©r√©e
    row = {**emb_dict, "Fiabilite": fiabilite}
    df = pd.DataFrame([row])

    # ‚û§ R√©indexation selon les colonnes utilis√©es √† l'entra√Ænement (ajout de 0 si n√©cessaire)
    df = df.reindex(columns=columns, fill_value=0)

    # ‚û§ Mise √† l‚Äô√©chelle de la colonne 'Fiabilite'
    df[["Fiabilite"]] = scaler.transform(df[["Fiabilite"]])
    return df

# üîÆ Fonction de pr√©diction du prix (r√©gression)
def predict_price(description: str, fiabilite: float) -> float:
    fiabilite_pond√©r√©e = fiabilite * 0.8  # Pond√©ration conserv√©e (ex. : Beginner)
    X = preprocess_input(description, fiabilite_pond√©r√©e)
    return round(reg_model.predict(X)[0] * 10, 2)  # Multiplication pour retrouver l'√©chelle

# üîÆ Fonction de pr√©diction de la tranche (classification)
def predict_tranche(description: str, fiabilite: float) -> str:
    fiabilite_pond√©r√©e = fiabilite * 0.8  # Pond√©ration identique √† la r√©gression
    X = preprocess_input(description, fiabilite_pond√©r√©e)
    return str(clf_model.predict(X)[0])  # Retourne : "Basse", "Moyenne" ou "Haute"