#  Notebook `06_predict.ipynb`

---

# üéØ Pr√©diction avec les mod√®les finalis√©s

Ce notebook constitue une **passerelle entre la mod√©lisation et l'application r√©elle**.  
Il vise √† exploiter les mod√®les finalis√©s (r√©gression + classification) pour **pr√©dire le prix et la tranche de prix** d‚Äôun service Fiverr √† partir de sa **description textuelle** et de son **indice de fiabilit√©**.

## üéØ Objectifs

- üì¶ Charger les **mod√®les enregistr√©s** (r√©gression et classification)
- üß† Appliquer le **pipeline de transformation** coh√©rent avec l‚Äôentra√Ænement
  - Embedding de la description (`sentence-transformers`)
  - Normalisation de la variable `Fiabilit√©`
  - Alignement des colonnes (`columns_used.pkl`)
- üîÆ R√©aliser des **pr√©dictions sur de nouvelles donn√©es**
  - Pr√©diction du **prix exact** (`Prix`) via un mod√®le de r√©gression
  - Pr√©diction de la **tranche de prix** (`Tranche`) via un mod√®le de classification
- üöÄ Pr√©parer les **fonctions d‚Äôappel** √† utiliser dans l'application Gradio (`predict.py`)

## üß† Choix des mod√®les retenus

Les mod√®les utilis√©s ont √©t√© **s√©lectionn√©s apr√®s comparaison** dans les notebooks pr√©c√©dents :

- üìò `03_model_regression.ipynb`  
  ‚û§ Mod√®le retenu : **Gradient Boosting Regressor**  
  ‚û§ Pr√©cis et robuste sur les indicateurs MAE / RMSE

- üìò `04_model_classification.ipynb`  
  ‚û§ Mod√®le retenu : **Decision Tree Classifier**  
  ‚û§ Pr√©cision > 96 %, facile √† interpr√©ter

> üí° Ces choix sont le fruit d‚Äôune **comparaison syst√©matique des performances** sur des donn√©es test√©es et valid√©es.

## ‚úÖ Comp√©tences mobilis√©es

- **Bloc 3 ‚Äî C1** : S√©lectionner l‚Äôalgorithme le plus adapt√© en fonction de la probl√©matique et des performances.
- **Bloc 3 ‚Äî C2** : Appliquer un pipeline de transformation coh√©rent entre entra√Ænement et pr√©diction.
- **Bloc 3 ‚Äî C3** : Exploiter un mod√®le entra√Æn√© pour produire une pr√©diction adapt√©e au besoin m√©tier.
- **Bloc 5 ‚Äî C1** : Utiliser des embeddings pour transformer des descriptions textuelles en donn√©es num√©riques.

Ce notebook est **pr√©requis √† l'int√©gration dans une interface applicative** (Gradio ou API Flask).

---

## üß≠ Sommaire

1. [üß† Chargement des biblioth√®ques pour le traitement des textes](#üß†-1-chargement-des-biblioth√®ques-pour-le-traitement-des-textes)
2. [üì¶ Chargement des mod√®les et objets n√©cessaires √† l'inf√©rence](#üì¶-2-chargement-des-mod√®les-et-objets-n√©cessaires-√†-linf√©rence)
3. [üîß Fonction de pr√©traitement de l‚Äôentr√©e utilisateur](#üîß-3-fonction-de-pr√©traitement-de-lentr√©e-utilisateur)
4. [üîÆ Fonction de pr√©diction de prix](#üîÆ-4-fonction-de-pr√©diction-de-prix)
5. [üßÆ Fonction de pr√©diction de la tranche de prix](#üßÆ-5-fonction-de-pr√©diction-de-la-tranche-de-prix)

---

## üß† 1. Chargement des biblioth√®ques pour le traitement des textes

### ‚ùì 1.1. Pourquoi cette √©tape maintenant ?

Cette cellule importe les **modules essentiels** pour la prochaine phase du pipeline, √† savoir :
- La manipulation de donn√©es textuelles et tabulaires,
- Le **chargement de mod√®les** sauvegard√©s (comme un scaler ou un mod√®le entra√Æn√©),
- La **transformation de textes en vecteurs num√©riques** via des embeddings (√©tape cl√© pour les mod√®les de deep learning ou de machine learning).

### üéØ 1.2. R√©sultat attendu

- Toutes les biblioth√®ques n√©cessaires sont import√©es sans erreur.
- Le script est pr√™t √† effectuer des op√©rations de transformation de texte, de lecture de donn√©es, ou de chargement de mod√®les.

---

### üêç 1.3. Script d‚Äôimportation des biblioth√®ques n√©cessaires au traitement textuel

In [None]:
# üì¶ Importation des biblioth√®ques n√©cessaires

# üî¢ Manipulation de donn√©es tabulaires
import pandas as pd  # Pour lire, manipuler et analyser les donn√©es sous forme de DataFrame

# üíæ Sauvegarde/chargement de mod√®les et objets Python
import joblib  # Utilis√© pour sauvegarder et recharger des objets comme les mod√®les ou les scalers

# üß† Embedding de texte via transformer
from sentence_transformers import SentenceTransformer  # Permet de transformer du texte en vecteurs num√©riques via un mod√®le pr√©-entra√Æn√©

---

## üì¶ 2. Chargement des mod√®les et objets n√©cessaires √† l'inf√©rence

### ‚ùì 2.1. Pourquoi cette √©tape maintenant ?

Avant toute pr√©diction, nous devons charger les **mod√®les entra√Æn√©s** et les **objets auxiliaires** n√©cessaires √† leur bon fonctionnement :
- Le mod√®le de **r√©gression** pour pr√©dire le prix,
- Le mod√®le de **classification** pour estimer la tranche de prix,
- Le **scaler** utilis√© pour normaliser les donn√©es lors de l‚Äôentra√Ænement,
- La **liste exacte des colonnes** utilis√©es pour cr√©er les features,
- Le mod√®le d‚Äô**embedding** pour transformer les descriptions textuelles.

Ces √©l√©ments assurent la **coh√©rence entre l‚Äôentra√Ænement et l‚Äôinf√©rence**.

### üéØ 2.2. R√©sultat attendu

- Tous les objets sont correctement charg√©s depuis les r√©pertoires `models/` et sont disponibles en m√©moire.
- Le mod√®le `embedding_model` est initialis√© avec le bon encoder (`all-MiniLM-L6-v2`).
- Aucun message d'erreur n'est lev√©, ce qui confirme la disponibilit√© des fichiers.

---

### üêç 2.3. Script de chargement des mod√®les et outils d'encodage

In [None]:
# üîπ Chargement des mod√®les et objets n√©cessaires √† l'inf√©rence

# üì¶ Mod√®le de r√©gression bas√© sur Gradient Boosting (mod√®le entra√Æn√©)
reg_model = joblib.load("models/regression/gradient_boosting.pkl")

# üå≥ Mod√®le de classification bas√© sur un arbre de d√©cision
clf_model = joblib.load("models/classification/decision_tree.pkl")

# üìè Scaler utilis√© pour standardiser les variables num√©riques pendant l'entra√Ænement
scaler = joblib.load("models/regression/scaler.pkl")

# üìã Liste des colonnes/features utilis√©es pendant l'entra√Ænement du mod√®le
columns = joblib.load("models/columns_used.pkl")

# üß† Mod√®le d'embedding pour transformer la description textuelle en vecteur num√©rique
embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

---

## üîß 3. Fonction de pr√©traitement de l‚Äôentr√©e utilisateur

### ‚ùì 3.1. Pourquoi cette √©tape maintenant ?

Avant d‚Äôenvoyer une nouvelle donn√©e √† notre mod√®le de deep learning, elle doit √™tre **mise en forme** de mani√®re identique aux donn√©es d‚Äôentra√Ænement.  
Cela implique :

- D‚Äôencoder la description textuelle en vecteurs num√©riques (embeddings),
- D‚Äôajouter la fiabilit√©,
- De respecter le m√™me **ordre et format de colonnes** que durant l‚Äôentra√Ænement,
- De standardiser la fiabilit√© si un scaler a √©t√© utilis√©.

### üéØ 3.2. R√©sultat attendu

- La fonction `preprocess_input()` retourne un DataFrame avec exactement les m√™mes colonnes que celles utilis√©es pour l'entra√Ænement.
- La colonne `Fiabilite` est standardis√©e.
- Le mod√®le peut imm√©diatement utiliser cette entr√©e pour g√©n√©rer une pr√©diction.

---

### üêç 3.3. Script de transformation d‚Äôun couple (description, fiabilit√©) en entr√©e exploitable

In [None]:
# üîß Fonction de pr√©traitement des entr√©es pour le mod√®le de deep learning

def preprocess_input(description: str, fiabilite: float) -> pd.DataFrame:
    """
    Transforme une description textuelle et une fiabilit√© en un DataFrame pr√™t √† √™tre
    utilis√© comme entr√©e pour le mod√®le de deep learning.

    Param√®tres :
    - description (str) : texte d√©crivant le service propos√© (ex. "je vais faire votre logo").
    - fiabilite (float) : score de fiabilit√© du vendeur (entre 0 et 1).

    Retour :
    - DataFrame contenant 385 colonnes : 384 embeddings + 1 colonne de fiabilit√© normalis√©e.
    """

    # üß† Encodage de la description en vecteur dense (embedding de 384 dimensions)
    emb = embedding_model.encode([description])

    # üîÅ Conversion de l‚Äôembedding en dictionnaire de type {"emb_0": ..., ..., "emb_383": ...}
    emb_dict = {f"emb_{i}": emb[0][i] for i in range(384)}

    # ‚ûï Fusion des embeddings et de la fiabilit√© dans une seule ligne
    row = {**emb_dict, "Fiabilite": fiabilite}

    # üìÑ Conversion en DataFrame Pandas (1 ligne, 385 colonnes)
    df = pd.DataFrame([row])

    # ‚úÖ Recalage des colonnes pour respecter l‚Äôordre attendu par le mod√®le
    df = df.reindex(columns=columns, fill_value=0)

    # ‚öñÔ∏è Standardisation de la fiabilit√© avec le scaler appris lors de l‚Äôentra√Ænement
    df[["Fiabilite"]] = scaler.transform(df[["Fiabilite"]])

    # üì§ Renvoi du DataFrame pr√™t √† √™tre pass√© au mod√®le
    return df

---

## üîÆ 4. Fonction de pr√©diction de prix

### ‚ùì 4.1. Pourquoi cette √©tape maintenant ?

Nous encapsulons la **logique de pr√©diction** dans une fonction d√©di√©e.  
C‚Äôest cette fonction qui sera appel√©e par l‚Äôapplication (Gradio ou API) pour estimer le prix √† partir d‚Äôune description et d‚Äôun score de fiabilit√©.

Cela permet de :
- Centraliser la logique m√©tier (pond√©ration, transformation, pr√©diction),
- Rendre le code plus lisible et r√©utilisable,
- Garantir la coh√©rence avec les mod√®les charg√©s pr√©c√©demment.

### üéØ 4.2. R√©sultat attendu

- Une fonction `predict_price(...)` fonctionnelle, prenant en entr√©e une description et une fiabilit√©.
- Le mod√®le renvoie un **prix estim√© en sortie**, correctement format√© pour affichage (float, deux d√©cimales).
- La pr√©diction est **pond√©r√©e** en fonction de la fiabilit√© fournie par l‚Äôutilisateur.

---

### üêç 4.3. Script de pr√©diction de prix pond√©r√©

In [None]:
# üîÆ Fonction de pr√©diction du prix avec pond√©ration de la fiabilit√©

def predict_price(description: str, fiabilite: float) -> float:
    """
    Pr√©dit le prix estim√© d‚Äôun service Fiverr √† partir de la description et de la fiabilit√©.

    Param√®tres :
    - description (str) : texte d√©crivant le service propos√©
    - fiabilite (float) : score de fiabilit√© renseign√© par l‚Äôutilisateur (entre 0 et 1)

    Retour :
    - float : prix estim√© (arrondi √† deux d√©cimales)
    """

    # üí° Pond√©ration de la fiabilit√© : on diminue l√©g√®rement l‚Äôimpact du score brut
    fiabilite_pond√©r√©e = fiabilite * 0.8

    # üõ†Ô∏è Pr√©traitement des donn√©es d‚Äôentr√©e (description + fiabilit√© pond√©r√©e)
    X = preprocess_input(description, fiabilite_pond√©r√©e)

    # üîÅ Pr√©diction du mod√®le de r√©gression, puis mise √† l‚Äô√©chelle finale (multipli√©e par 2.5)
    prix = reg_model.predict(X)[0] * 2.5

    # üî¢ Arrondi √† deux d√©cimales pour affichage
    return round(prix, 2)

---

## üßÆ 5. Fonction de pr√©diction de la tranche de prix

### ‚ùì 5.1. Pourquoi cette √©tape maintenant ?

Apr√®s avoir pr√©par√© les donn√©es et entra√Æn√© un mod√®le de classification,  
nous avons besoin d‚Äôune **fonction d‚Äôinf√©rence simple et autonome** pour utiliser ce mod√®le.

Cette fonction permet de :
- Fournir un **r√©sultat imm√©diat** bas√© sur une nouvelle description et une fiabilit√© donn√©e,
- Int√©grer facilement cette logique dans une application Gradio ou une API.

### üéØ 5.2. R√©sultat attendu

- La fonction retourne la **tranche de prix pr√©dite** sous forme de cha√Æne de caract√®res : `"Basse"`, `"Moyenne"` ou `"Haute"`.
- La **fiabilit√© est pond√©r√©e** avant d‚Äô√™tre utilis√©e comme feature, ce qui am√©liore la robustesse du mod√®le.

---

### üêç 5.3. Script de pr√©diction de la tranche de prix

In [None]:
# üîç Fonction de pr√©diction de la tranche de prix

def predict_tranche(description: str, fiabilite: float) -> str:
    """
    Pr√©dit la tranche de prix (basse, moyenne, haute) d‚Äôun service en fonction
    de sa description et de la fiabilit√© du vendeur.

    Param√®tres :
    - description (str) : le texte d√©crivant le service Fiverr.
    - fiabilite (float) : un score de fiabilit√© du vendeur entre 0 et 1.

    Retour :
    - str : √©tiquette de la tranche pr√©dite ("Basse", "Moyenne" ou "Haute").
    """
    
    # üîÅ Pond√©ration de la fiabilit√© pour √©quilibrer son influence sur le mod√®le
    fiabilite_pond√©r√©e = fiabilite * 0.82

    # ‚öôÔ∏è Pr√©paration des features (embedding + fiabilit√© pond√©r√©e)
    X = preprocess_input(description, fiabilite_pond√©r√©e)

    # üìä Pr√©diction de la classe avec le mod√®le de classification
    return str(clf_model.predict(X)[0])

---

## ‚öôÔ∏è Ajustements appliqu√©s dans les pr√©dictions : coefficients `0.8` et `2.5`

### üéØ Pourquoi appliquer un coefficient `0.8` √† la fiabilit√© ?

Lors de l‚Äôentra√Ænement du mod√®le de machine learning, la variable `Fiabilite` a √©t√© utilis√©e comme variable d‚Äôentr√©e. Cependant, pendant les tests en production, il a √©t√© constat√© que les valeurs saisies par l‚Äôutilisateur pouvaient atteindre 1.0 (soit 100 %), alors que la plupart des donn√©es du jeu d‚Äôentra√Ænement √©taient situ√©es entre 0.6 et 0.9.

‚û°Ô∏è Pour √©viter que le mod√®le ne fasse des pr√©dictions irr√©alistes en extrapolant au-del√† de ce qu‚Äôil a appris, nous avons d√©cid√© de **pond√©rer la fiabilit√© entr√©e** comme suit :

```python
fiabilite_pond√©r√©e = fiabilite * 0.8
```
Ce facteur permet de ramener la fiabilit√© dans un intervalle plus coh√©rent avec les donn√©es d‚Äôorigine. Il s‚Äôagit d‚Äôune normalisation douce, appliqu√©e uniquement √† l‚Äô√©tape d‚Äôinf√©rence, et qui pr√©serve les diff√©rences entre utilisateurs, tout en assurant une certaine stabilit√© dans les pr√©dictions.

### üí∞ Pourquoi multiplier le prix pr√©dit par 2.5 ?

Le mod√®le de r√©gression retourne une valeur estim√©e du prix bas√©e sur un apprentissage effectu√© sur des donn√©es partiellement transform√©es et nettoy√©es. Apr√®s exp√©rimentation, les pr√©dictions brutes se sont r√©v√©l√©es sous-estim√©es par rapport √† la r√©alit√© du march√© Fiverr.  

Pour corriger ce biais tout en maintenant les proportions entre les pr√©dictions, nous avons choisi une approche simple mais efficace :  

```python
prix_corrig√© = prediction_brute * 2.5
```
Le facteur 2.5 a √©t√© d√©termin√© empiriquement √† partir d‚Äôun √©chantillon de services r√©els, et il permet d‚Äôobtenir une √©chelle de prix r√©aliste et exploitable pour l‚Äôutilisateur.  

## ‚úÖ En r√©sum√©

| Ajustement        | R√¥le                                              | Justification principale                       |
|-------------------|---------------------------------------------------|------------------------------------------------|
| `fiabilite * 0.8` | Normaliser la fiabilit√© utilisateur               | Ramener dans la plage apprise (0.6‚Äì0.9)        |
| `prix * 2.5`      | Corriger la sous-estimation des prix du mod√®le ML | R√©alignement avec les prix observ√©s sur Fiverr |


Ces deux ajustements sont pleinement assum√©s, car ils r√©pondent √† une double exigence :

- Coh√©rence statistique avec le mod√®le entra√Æn√©,
- Cr√©dibilit√© m√©tier dans les r√©sultats pr√©sent√©s √† l'utilisateur final.

Ils constituent une intervention pragmatique pour garantir la fiabilit√© d‚Äôun syst√®me hybride entre mod√©lisation et exp√©rience terrain.