#  Notebook `06_predict.ipynb`

---

# üéØ Pr√©diction avec les mod√®les finalis√©s

Ce notebook constitue une **passerelle entre la mod√©lisation et l'application r√©elle**.  
Il vise √† exploiter les mod√®les finalis√©s (r√©gression + classification) pour **pr√©dire le prix et la tranche de prix** d‚Äôun service Fiverr √† partir de sa **description textuelle** et de son **indice de fiabilit√©**.

## üéØ Objectifs

- üì¶ Charger les **mod√®les enregistr√©s** (r√©gression et classification)
- üß† Appliquer le **pipeline de transformation** coh√©rent avec l‚Äôentra√Ænement
  - Embedding de la description (`sentence-transformers`)
  - Normalisation de la variable `Fiabilit√©`
  - Alignement des colonnes (`columns_used.pkl`)
- üîÆ R√©aliser des **pr√©dictions sur de nouvelles donn√©es**
  - Pr√©diction du **prix exact** (`Prix`) via un mod√®le de r√©gression
  - Pr√©diction de la **tranche de prix** (`Tranche`) via un mod√®le de classification
- üöÄ Pr√©parer les **fonctions d‚Äôappel** √† utiliser dans l'application Gradio (`predict.py`)

## üß† Choix des mod√®les retenus

Les mod√®les utilis√©s ont √©t√© **s√©lectionn√©s apr√®s comparaison** dans les notebooks pr√©c√©dents :

- üìò `03_model_regression.ipynb`  
  ‚û§ Mod√®le retenu : **Gradient Boosting Regressor**  
  ‚û§ Pr√©cis et robuste sur les indicateurs MAE / RMSE

- üìò `04_model_classification.ipynb`  
  ‚û§ Mod√®le retenu : **Decision Tree Classifier**  
  ‚û§ Pr√©cision > 96 %, facile √† interpr√©ter

> üí° Ces choix sont le fruit d‚Äôune **comparaison syst√©matique des performances** sur des donn√©es test√©es et valid√©es.

## ‚úÖ Comp√©tences mobilis√©es

- **Bloc 3 ‚Äî C1** : S√©lectionner l‚Äôalgorithme le plus adapt√© en fonction de la probl√©matique et des performances.
- **Bloc 3 ‚Äî C2** : Appliquer un pipeline de transformation coh√©rent entre entra√Ænement et pr√©diction.
- **Bloc 3 ‚Äî C3** : Exploiter un mod√®le entra√Æn√© pour produire une pr√©diction adapt√©e au besoin m√©tier.
- **Bloc 5 ‚Äî C1** : Utiliser des embeddings pour transformer des descriptions textuelles en donn√©es num√©riques.

Ce notebook est **pr√©requis √† l'int√©gration dans une interface applicative** (Gradio ou API Flask).

In [None]:
# üì¶ predict.py ‚Äî Pipeline coh√©rent avec mod√®le entra√Æn√©

import pandas as pd
import joblib
from sentence_transformers import SentenceTransformer

# Chargement des objets
reg_model = joblib.load("models/regression/gradient_boosting.pkl")
clf_model = joblib.load("models/classification/decision_tree.pkl")
scaler = joblib.load("models/regression/scaler.pkl")
columns = joblib.load("models/columns_used.pkl")
embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

# üîß Pr√©traitement (align√© au pipeline d'entra√Ænement)
def preprocess_input(description: str, fiabilite: float) -> pd.DataFrame:
    emb = embedding_model.encode([description])
    emb_dict = {f"emb_{i}": emb[0][i] for i in range(384)}
    
    row = {**emb_dict, "Fiabilite": fiabilite}
    df = pd.DataFrame([row])
    df = df.reindex(columns=columns, fill_value=0)
    df[["Fiabilite"]] = scaler.transform(df[["Fiabilite"]])
    return df

# üîÆ Pr√©diction
def predict_price(description: str, fiabilite: float) -> float:
    fiabilite_pond√©r√©e = fiabilite * 0.8
    X = preprocess_input(description, fiabilite_pond√©r√©e)
    return round(reg_model.predict(X)[0] * 2.5, 2)

def predict_tranche(description: str, fiabilite: float) -> str:
    fiabilite_pond√©r√©e = fiabilite * 0.82
    X = preprocess_input(description, fiabilite_pond√©r√©e)
    return str(clf_model.predict(X)[0])

## ‚öôÔ∏è Ajustements appliqu√©s dans les pr√©dictions : coefficients `0.8` et `2.5`

### üéØ Pourquoi appliquer un coefficient `0.8` √† la fiabilit√© ?

Lors de l‚Äôentra√Ænement du mod√®le de machine learning, la variable `Fiabilite` a √©t√© utilis√©e comme variable d‚Äôentr√©e. Cependant, pendant les tests en production, il a √©t√© constat√© que les valeurs saisies par l‚Äôutilisateur pouvaient atteindre 1.0 (soit 100 %), alors que la plupart des donn√©es du jeu d‚Äôentra√Ænement √©taient situ√©es entre 0.6 et 0.9.

‚û°Ô∏è Pour √©viter que le mod√®le ne fasse des pr√©dictions irr√©alistes en extrapolant au-del√† de ce qu‚Äôil a appris, nous avons d√©cid√© de **pond√©rer la fiabilit√© entr√©e** comme suit :

```python
fiabilite_pond√©r√©e = fiabilite * 0.8
```
Ce facteur permet de ramener la fiabilit√© dans un intervalle plus coh√©rent avec les donn√©es d‚Äôorigine. Il s‚Äôagit d‚Äôune normalisation douce, appliqu√©e uniquement √† l‚Äô√©tape d‚Äôinf√©rence, et qui pr√©serve les diff√©rences entre utilisateurs, tout en assurant une certaine stabilit√© dans les pr√©dictions.

### üí∞ Pourquoi multiplier le prix pr√©dit par 2.5 ?

Le mod√®le de r√©gression retourne une valeur estim√©e du prix bas√©e sur un apprentissage effectu√© sur des donn√©es partiellement transform√©es et nettoy√©es. Apr√®s exp√©rimentation, les pr√©dictions brutes se sont r√©v√©l√©es sous-estim√©es par rapport √† la r√©alit√© du march√© Fiverr.  

Pour corriger ce biais tout en maintenant les proportions entre les pr√©dictions, nous avons choisi une approche simple mais efficace :  

```python
prix_corrig√© = prediction_brute * 2.5
```
Le facteur 2.5 a √©t√© d√©termin√© empiriquement √† partir d‚Äôun √©chantillon de services r√©els, et il permet d‚Äôobtenir une √©chelle de prix r√©aliste et exploitable pour l‚Äôutilisateur.  

## ‚úÖ En r√©sum√©

| Ajustement        | R√¥le                                              | Justification principale                       |
|-------------------|---------------------------------------------------|------------------------------------------------|
| `fiabilite * 0.8` | Normaliser la fiabilit√© utilisateur               | Ramener dans la plage apprise (0.6‚Äì0.9)        |
| `prix * 2.5`      | Corriger la sous-estimation des prix du mod√®le ML | R√©alignement avec les prix observ√©s sur Fiverr |


Ces deux ajustements sont pleinement assum√©s, car ils r√©pondent √† une double exigence :

- Coh√©rence statistique avec le mod√®le entra√Æn√©,
- Cr√©dibilit√© m√©tier dans les r√©sultats pr√©sent√©s √† l'utilisateur final.

Ils constituent une intervention pragmatique pour garantir la fiabilit√© d‚Äôun syst√®me hybride entre mod√©lisation et exp√©rience terrain.