# Notebook `02_model_regression.ipynb`

---

## üìà Entra√Ænement des mod√®les de r√©gression

Ce notebook a pour objectif de construire et √©valuer diff√©rents **mod√®les de r√©gression** pour pr√©dire le **prix d‚Äôun service Fiverr** √† partir de ses caract√©ristiques (texte, fiabilit√©, etc.).

Nous comparons ici plusieurs algorithmes supervis√©s, avec ou sans transformation logarithmique, pour identifier le mod√®le le plus robuste.

## üéØ Objectifs

- Charger les features et les cibles pr√©par√©es (`X_scaled`, `y_reg`)
- Tester plusieurs mod√®les de r√©gression (lin√©aire, arbres, boosting, etc.)
- √âvaluer les performances avec des m√©triques comme **MAE**, **RMSE** et **R¬≤**
- S√©lectionner le meilleur mod√®le pour la pr√©diction du **prix r√©el**
- Sauvegarder le mod√®le retenu pour les √©tapes de pr√©diction et de mise en production

## ‚úÖ Comp√©tences mobilis√©es

- **Bloc 3 ‚Äî C1** : Comparer les performances de plusieurs algorithmes de r√©gression pour choisir le plus adapt√© √† la probl√©matique.
- **Bloc 3 ‚Äî C2** : Adapter les donn√©es √† la forme attendue par les mod√®les (notamment via `StandardScaler` et transformation `log`).
- **Bloc 3 ‚Äî C3** : Entra√Æner un mod√®le de r√©gression en optimisant ses performances selon des indicateurs clairement d√©finis (MAE, RMSE, R¬≤).

*Ce notebook permet de poser les fondations du moteur de pr√©diction de prix utilis√© dans l'application finale.*

---

## üß≠ Sommaire

1. [Importation des biblioth√®ques](#-1-importation-des-biblioth√®ques)
2. [Chargement des donn√©es transform√©es](#-2-chargement-des-donn√©es-transform√©es)
3. [Construction des variables explicatives (`X`) et cibles (`y`)](#-3-construction-des-variables-explicatives-x-et-cibles-y)
4. [S√©paration des donn√©es et d√©finition des mod√®les](#-4-s√©paration-des-donn√©es-et-d√©finition-des-mod√®les)
5. [Entra√Ænement, √©valuation et sauvegarde des mod√®les de r√©gression](#-5-entra√Ænement-√©valuation-et-sauvegarde-des-mod√®les-de-r√©gression)
6. [Sauvegarde du pr√©processeur et des colonnes de features](#-6-sauvegarde-du-pr√©processeur-et-des-colonnes-de-features)
7. [R√©sultats comparatifs des mod√®les de r√©gression](#-7-r√©sultats-comparatifs-des-mod√®les-de-r√©gression)
8. [S√©lection du meilleur mod√®le de r√©gression](#-8-s√©lection-du-meilleur-mod√®le-de-r√©gression)

---

## üìò 1. Importation des biblioth√®ques

### ‚ùì 1.1. Pourquoi cette √©tape ?

Avant d‚Äôentamer le processus de mod√©lisation, il est indispensable d‚Äôimporter toutes les biblioth√®ques n√©cessaires au traitement des donn√©es, √† l‚Äôentra√Ænement des mod√®les et √† leur √©valuation.

Les modules import√©s ici permettent de :

- **Charger et manipuler** les donn√©es (`pandas`, `numpy`, `os`, `joblib`)
- **Pr√©parer les jeux de donn√©es** (`train_test_split`, `StandardScaler`)
- **Entra√Æner plusieurs types de mod√®les de r√©gression** :
  - `LinearRegression`, `Ridge`
  - `DecisionTreeRegressor`, `RandomForestRegressor`
  - `GradientBoostingRegressor`, `XGBRegressor`
  - `KNeighborsRegressor`
- **√âvaluer les performances** via des m√©triques (`MAE`, `RMSE`, `R¬≤`)
- **G√©n√©rer des embeddings textuels** √† partir de la description (`SentenceTransformer`)

---

### üêç 1.2. Script d‚Äôimportation des biblioth√®ques

In [None]:
# Importation des biblioth√®ques n√©cessaires √† la mod√©lisation

# Manipulation de donn√©es
import pandas as pd                                              # Manipulation de DataFrames
import numpy as np                                               # Fonctions math√©matiques avanc√©es
import os                                                        # Interaction avec le syst√®me de fichiers
import joblib                                                    # Sauvegarde et chargement de mod√®les

# Pr√©paration des donn√©es
from sklearn.model_selection import train_test_split             # D√©coupe en train/test
from sklearn.preprocessing import StandardScaler                 # Normalisation des donn√©es num√©riques

# Mod√®les de r√©gression standards
from sklearn.linear_model import LinearRegression, Ridge         # R√©gressions lin√©aires (classique et r√©gularis√©e)
from sklearn.ensemble import RandomForestRegressor               # For√™ts al√©atoires
from sklearn.ensemble import GradientBoostingRegressor           # Boosting
from sklearn.tree import DecisionTreeRegressor                   # Arbre de r√©gression simple
from sklearn.neighbors import KNeighborsRegressor                # R√©gression par les k plus proches voisins
from xgboost import XGBRegressor                                 # R√©gression boost√©e performante (XGBoost)

# √âvaluation des performances
from sklearn.metrics import mean_absolute_error                  # - MAE : erreur absolue moyenne
from sklearn.metrics import  mean_squared_error                  # - MSE : erreur quadratique moyenne
from sklearn.metrics import r2_score                             # - R¬≤ : coefficient de d√©termination (qualit√© d'ajustement)

# NLP - Embeddings de texte
from sentence_transformers import SentenceTransformer            # G√©n√©ration de vecteurs √† partir de texte

---

## üì¶ 2. Chargement des donn√©es transform√©es

### ‚ùì 2.1. Pourquoi cette √©tape maintenant ?

Apr√®s le pr√©traitement complet du jeu de donn√©es brut, nous avons sauvegard√© une version transform√©e et enrichie (`fiverr_cleaned_transformed.csv`).  
Cette √©tape consiste √† **recharger ce fichier pr√©par√©** pour d√©marrer la phase de mod√©lisation.

Ce fichier contient :
- Des **colonnes nettoy√©es et pr√™tes √† l‚Äôemploi** : `Description`, `Niveau`, `Prix`, `Fiabilite`, etc.
- Les **valeurs manquantes imput√©es**
- Les descriptions textuelles **nettoy√©es des stopwords** et formules types
- Des formats unifi√©s (`float`, `str`, etc.)

### üéØ 2.2. R√©sultat attendu

- Les donn√©es sont charg√©es dans un objet `DataFrame` nomm√© `df`.
- Elles sont pr√™tes √† √™tre utilis√©es pour la phase de mod√©lisation (r√©gression et/ou classification).

---

### üêç 2.3. Script de chargement des donn√©es transform√©es

In [None]:
# Chargement du jeu de donn√©es transform√©

# Lecture du fichier CSV contenant les donn√©es nettoy√©es et enrichies
# - Le fichier 'fiverr_cleaned_transformed.csv' est issu des √©tapes pr√©c√©dentes de pr√©processing.
# - Il contient d√©j√† les colonnes pr√™tes √† √™tre utilis√©es pour l'entra√Ænement des mod√®les (ex. : Description nettoy√©e, Fiabilit√©, Niveau, Prix, etc.)

df = pd.read_csv("../data/fiverr_cleaned_dl_notebook.csv")

---

## üß† 3. Construction des variables explicatives (`X`) et cibles (`y`)

### ‚ùì 3.1. Pourquoi cette √©tape maintenant ?

Nous allons maintenant pr√©parer les **donn√©es d‚Äôentr√©e du mod√®le** (`X`) et la **variable √† pr√©dire** (`y`), √† partir du fichier transform√©.  
Les colonnes choisies sont pr√™tes √† l‚Äôemploi gr√¢ce aux √©tapes pr√©c√©dentes (nettoyage, vectorisation, standardisation).

### üîß 3.2. D√©tails des transformations effectu√©es

| √âtape | Description |
|-------|-------------|
| üß© Embedding | Les titres de service (`Description`) sont transform√©s en **vecteurs num√©riques de 384 dimensions** via un mod√®le pr√©-entra√Æn√© (`all-MiniLM-L6-v2`). |
| ‚öñÔ∏è Normalisation | La variable `Fiabilite` est **standardis√©e** √† l‚Äôaide d‚Äôun `StandardScaler`. Cela am√©liore la performance de nombreux mod√®les. |
| üß∑ Fusion | Les embeddings et la fiabilit√© standardis√©e sont **fusionn√©s horizontalement** dans une matrice `X` utilis√©e pour l'entra√Ænement. |
| üéØ Cibles | Deux cibles sont d√©finies : `y_log` (log du prix pour l'entra√Ænement) et `y_real` (prix r√©el pour l‚Äô√©valuation des performances). |

> üí° Remarque : le one-hot encoding de `Niveau` peut √™tre r√©int√©gr√© ult√©rieurement si l'on souhaite inclure cette variable dans les features.

---

### üêç 3.3. Script de construction des variables explicatives

In [23]:
# G√©n√©ration des embeddings √† partir des descriptions textuelles

# Mod√®le pr√©-entra√Æn√© pour transformer le texte en vecteurs num√©riques (384 dimensions)
embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

# Transformation de chaque description textuelle en vecteur dense
# - On s'assure que la colonne Description est bien convertie en cha√Æne de caract√®res
# - Le param√®tre show_progress_bar=True affiche une barre de progression utile en cas de grand volume
embeddings = embedding_model.encode(df["Description"].astype(str).tolist(), show_progress_bar=True)

# Conversion en DataFrame avec noms explicites pour chaque dimension
embed_df = pd.DataFrame(embeddings, columns=[f"emb_{i}" for i in range(384)])

# Encodage one-hot du niveau (comment√© ici si non utilis√©)
# - Utile si l'on souhaite int√©grer le niveau du vendeur dans le mod√®le
# niveau_encoded = pd.get_dummies(df["Niveau"], prefix="Niveau")

# Standardisation de la variable Fiabilit√©

# - Le StandardScaler transforme la variable pour qu‚Äôelle ait une moyenne de 0 et un √©cart-type de 1
# - Cela facilite la convergence des algorithmes sensibles √† l‚Äô√©chelle (ex. : r√©gression, KNN...)
scaler = StandardScaler()
fiabilite_scaled = scaler.fit_transform(df[["Fiabilite"]])

# Conversion en DataFrame avec nom de colonne conserv√©
fiabilite_df = pd.DataFrame(fiabilite_scaled, columns=["Fiabilite"])

# Fusion des diff√©rentes sources de donn√©es

# - On concat√®ne horizontalement les embeddings textuels et la fiabilit√© normalis√©e
# - Le DataFrame final `X` est l‚Äôensemble des features utilis√©es pour l‚Äôentra√Ænement
X = pd.concat([embed_df, fiabilite_df], axis=1)

# Cibles √† pr√©dire
# - y_log : version logarithmique du prix (pour mod√®le)
# - y_real : prix r√©el (pour interpr√©tation ou √©valuation)
y_log = df["Prix_log"]
y_real = df["Prix"]

Batches:   0%|          | 0/36 [00:00<?, ?it/s]

---

## üß™ 4. S√©paration des donn√©es et d√©finition des mod√®les

### ‚ùì 4.1. Pourquoi cette √©tape maintenant ?

Avant de tester nos mod√®les, il est indispensable de :
1. **Diviser le jeu de donn√©es** en un ensemble d'entra√Ænement (80 %) et un ensemble de test (20 %) ;
2. **D√©finir une s√©lection de mod√®les** √† comparer objectivement sur les m√™mes donn√©es.

### üîÑ 4.2. D√©tails de la division train/test

| Variable        | R√¥le                                      |
|----------------|-------------------------------------------|
| `X_train`       | Donn√©es d'entra√Ænement (features)         |
| `X_test`        | Donn√©es de test (features)                |
| `y_train`       | Prix log transform√© ‚Äî √† pr√©dire (train)   |
| `y_test`        | Prix log transform√© ‚Äî √† pr√©dire (test)    |
| `y_real_train`  | Prix r√©el pour comparaison √©ventuelle     |
| `y_real_test`   | Prix r√©el pour l‚Äô√©valuation des erreurs   |

### ü§ñ 4.3. Mod√®les s√©lectionn√©s pour la r√©gression

| Mod√®le               | Description rapide                           |
|----------------------|----------------------------------------------|
| `LinearRegression`   | R√©gression lin√©aire classique                |
| `Ridge`              | R√©gression lin√©aire avec r√©gularisation L2   |
| `RandomForest`       | Agr√©gation d‚Äôarbres d√©cisionnels (bagging)   |
| `GradientBoosting`   | Entra√Ænement s√©quentiel d‚Äôarbres faibles     |
| `XGBoost`            | Boosting optimis√© tr√®s performant            |
| `DecisionTree`       | Arbre de d√©cision unique                     |
| `KNN Regressor`      | Moyenne des k plus proches voisins           |

> ‚ö†Ô∏è Tous les mod√®les seront entra√Æn√©s sur les **m√™mes donn√©es** et √©valu√©s selon des m√©triques identiques pour un comparatif juste.

---

### üêç 4.4. Script de s√©paration des donn√©es et d√©finition des mod√®les

In [None]:
# S√©paration des donn√©es en ensembles d'entra√Ænement et de test

# X         : matrice des caract√©ristiques (embeddings + fiabilit√©)
# y_log     : prix transform√© en √©chelle logarithmique (cible d'entra√Ænement)
# y_real    : prix r√©el (utilis√© uniquement pour l'√©valuation, pas pour l'entra√Ænement)

# Param√®tres :
# - test_size=0.2        : 20 % des donn√©es seront utilis√©es pour les tests
# - random_state=42      : graine al√©atoire pour garantir la reproductibilit√©

X_train, X_test, y_train, y_test, y_real_train, y_real_test = train_test_split(
    X, y_log, y_real, test_size=0.2, random_state=42
)

# D√©finition des mod√®les de r√©gression √† comparer

# Chaque mod√®le est instanci√© avec des param√®tres de base coh√©rents
models = {
    "Linear Regression": LinearRegression(),                                            # - LinearRegression : mod√®le lin√©aire de base
    "Ridge": Ridge(alpha=1.0),                                                          # - Ridge : r√©gression lin√©aire avec r√©gularisation L2      
    "Random Forest": RandomForestRegressor(n_estimators=100, random_state=42),          # - Random Forest    : ensemble d‚Äôarbres (100 arbres, al√©atoire fix√©)
    "Gradient Boosting": GradientBoostingRegressor(n_estimators=100, random_state=42),  # - Gradient Boosting: boosting d‚Äôarbres (100 it√©rations, al√©atoire fix√©)
    "XGBoost": XGBRegressor(n_estimators=100, random_state=42, verbosity=0),            # - XGBoost          : gradient boosting tr√®s performant (100 arbres, verbosit√© coup√©e)    
    "Decision Tree": DecisionTreeRegressor(random_state=42),                            # - Decision Tree    : arbre unique, simple √† interpr√©ter
    "KNN Regressor": KNeighborsRegressor(n_neighbors=5)                                 # - KNN              : r√©gression par les k plus proches voisins (ici k=5)
}

---

## üß† 5. Entra√Ænement, √©valuation et sauvegarde des mod√®les de r√©gression

### üéØ 5.1. Objectif

Comparer les performances de plusieurs mod√®les de r√©gression sur la pr√©diction du **prix r√©el**, √† partir de la cible log-transform√©e (`Prix_log`).  
Nous allons :
- entra√Æner chaque mod√®le sur les m√™mes donn√©es (`X_train`, `y_train`),
- pr√©dire sur les m√™mes donn√©es de test (`X_test`),
- √©valuer les performances selon 3 m√©triques principales.

### üìè 5.2. M√©triques utilis√©es

| M√©trique | Signification                             |
|----------|-------------------------------------------|
| MAE      | Erreur absolue moyenne                    |
| RMSE     | Erreur quadratique moyenne                |
| R¬≤       | Coefficient de d√©termination              |

> üîÅ Tous les r√©sultats sont **calcul√©s √† partir des prix r√©els** (apr√®s transformation inverse du log).

### üíæ 5.3. Sauvegarde automatique

Chaque mod√®le est enregistr√© automatiquement dans le dossier :


### ü•á 5.4. S√©lection du meilleur mod√®le

Le **mod√®le ayant le plus petit RMSE** est conserv√© comme meilleur mod√®le (`best_model`), et son nom est stock√© pour une utilisation future.

---

### üêç 5.5. Script de s√©lection du meilleur mod√®le


In [None]:
# Entra√Ænement et √©valuation de tous les mod√®les de r√©gression

results = []                          # Liste pour stocker les scores de chaque mod√®le
best_model = None                    # Pour conserver le meilleur mod√®le trouv√©
best_rmse = float('inf')             # Initialisation du plus petit RMSE √† l‚Äôinfini

# Boucle sur chaque mod√®le du dictionnaire
for name, model in models.items():
    # Entra√Ænement du mod√®le sur l'ensemble d'entra√Ænement
    model.fit(X_train, y_train)

    # Pr√©diction sur l‚Äôensemble de test (prix en √©chelle log)
    y_pred_log = model.predict(X_test)

    # Transformation inverse pour retrouver les prix r√©els
    y_pred = np.expm1(y_pred_log)

    # Calcul des m√©triques d‚Äô√©valuation
    mae = mean_absolute_error(y_real_test, y_pred)  # Erreur absolue moyenne
    rmse = np.sqrt(mean_squared_error(y_real_test, y_pred))  # Erreur quadratique moyenne
    r2 = r2_score(y_real_test, y_pred)  # Coefficient de d√©termination

    # Stockage des r√©sultats arrondis dans une liste de dictionnaires
    results.append({
        "Mod√®le": name,
        "MAE": round(mae, 2),
        "RMSE": round(rmse, 2),
        "R¬≤": round(r2, 4)
    })

    # Sauvegarde du mod√®le entra√Æn√© dans le dossier appropri√©
    model_filename = f"{name.replace(' ', '_').lower()}_notebook.pkl"
    joblib.dump(model, f"../models/regression/{model_filename}")

    # Suivi du meilleur mod√®le (bas√© sur le plus petit RMSE)
    if rmse < best_rmse:
        best_rmse = rmse
        best_model = model
        best_name = name


---

## üíæ 6. Sauvegarde du pr√©processeur et des colonnes de features

### üéØ 6.1. Objectif

Pour garantir que le pipeline de pr√©diction future soit **reproductible et coh√©rent**, il est indispensable de sauvegarder :
- le **scaler** utilis√© pour la standardisation de la colonne `Fiabilite` (ici : `StandardScaler`),
- la **liste exacte des colonnes** utilis√©es comme features (noms et ordre).

Cela √©vite les erreurs de transformation ou de dimensions lors de l'inf√©rence en production ou dans l‚Äôapplication Gradio.

### üß± 6.2. √âl√©ments sauvegard√©s

| √âl√©ment         | Chemin de sauvegarde                  | Description |
|-----------------|----------------------------------------|-------------|
| `scaler`        | `models/regression/scaler.pkl`        | Objet `StandardScaler` entra√Æn√© sur la fiabilit√© |
| `columns_used`  | `models/columns_used.pkl`             | Liste ordonn√©e des noms de colonnes de `X` |

---

### üêç 6.3. Script de sauvegarde

In [26]:
# Sauvegarde du scaler et des colonnes utilis√©es

# Le mod√®le s√©lectionn√© (best_model) a d√©j√† √©t√© sauvegard√© pr√©c√©demment dans la boucle.
# Ici, nous sauvegardons le pr√©processeur utilis√© (StandardScaler) et la liste des colonnes du jeu de donn√©es final.

# Sauvegarde du scaler utilis√© pour la standardisation de la variable 'Fiabilite'
# Cela permettra de reproduire exactement la m√™me transformation √† l'inf√©rence
joblib.dump(scaler, "../models/regression/scaler_notebook.pkl")

# Sauvegarde de la liste des colonnes utilis√©es dans X (ordre et noms)
# Utile pour reconstituer la m√™me matrice de features √† la pr√©diction
joblib.dump(X.columns.tolist(), "../models/columns_used_notebook.pkl")

['../models/columns_used_notebook.pkl']

---

## üèÅ 7. R√©sultats comparatifs des mod√®les de r√©gression

### üìä 7.1. Tableau de synth√®se des performances

Une fois les mod√®les entra√Æn√©s, nous comparons leurs performances sur l‚Äôensemble de test √† l‚Äôaide des m√©triques suivantes :

| Mod√®le              | MAE  | RMSE | R¬≤    |
|---------------------|------|------|-------|
| ... (ex. Ridge, RF) | ...  | ...  | ...   |

Le tableau est tri√© selon la **valeur croissante du RMSE**, afin de visualiser directement les mod√®les les plus performants.

> ‚ÑπÔ∏è Toutes les m√©triques sont calcul√©es **sur les prix r√©els**, apr√®s transformation inverse du logarithme.

### ü•á 7.2. Meilleur mod√®le s√©lectionn√©

Le **mod√®le ayant obtenu le plus faible RMSE** est automatiquement s√©lectionn√© comme mod√®le final (`best_model`).  
Son nom est affich√© √† la fin du tableau pour confirmation.

---

### üêç 7.3. Script d‚Äôaffichage des performances

In [27]:
# Affichage des r√©sultats comparatifs des mod√®les de r√©gression

# Transformation de la liste des r√©sultats en DataFrame et tri par RMSE (croissant)
df_results = pd.DataFrame(results).sort_values("RMSE")

# Affichage format√© des r√©sultats en tableau Markdown
print("R√©sultats comparatifs (√©valu√©s sur les vrais prix) :\n")
print(df_results.to_markdown(index=False))  # affichage lisible dans les notebooks / consoles

# ü•á Rappel du meilleur mod√®le
print(f"\nMeilleur mod√®le : {best_name} (RMSE = {round(best_rmse, 2)})")

üìä R√©sultats comparatifs (√©valu√©s sur les vrais prix) :

| Mod√®le            |   MAE |   RMSE |      R¬≤ |
|:------------------|------:|-------:|--------:|
| Gradient Boosting |  3.21 |   4.9  |  0.2566 |
| XGBoost           |  3.33 |   5    |  0.2274 |
| Random Forest     |  3.32 |   5.03 |  0.2173 |
| Ridge             |  3.82 |   5.47 |  0.0748 |
| KNN Regressor     |  3.99 |   5.8  | -0.0407 |
| Decision Tree     |  4.43 |   7.14 | -0.577  |
| Linear Regression |  5.86 |   9.9  | -2.0358 |

‚úÖ Meilleur mod√®le : Gradient Boosting (RMSE = 4.9)


## üèÜ 8. S√©lection du meilleur mod√®le de r√©gression

Apr√®s avoir entra√Æn√© et compar√© **7 mod√®les de r√©gression**, leurs performances ont √©t√© √©valu√©es selon trois m√©triques essentielles :  
- **MAE** : Erreur absolue moyenne (plus c‚Äôest bas, mieux c‚Äôest)  
- **RMSE** : Racine de l'erreur quadratique moyenne (plus c‚Äôest bas, mieux c‚Äôest)  
- **R¬≤** : Coefficient de d√©termination (plus c‚Äôest proche de 1, mieux c‚Äôest)

---

### üìä 8.1. R√©sultats comparatifs (√©valu√©s sur les vrais prix)

| Mod√®le            |   MAE |   RMSE |    R¬≤    |
|-------------------|-------|--------|----------|
| **Gradient Boosting** |  3.21 |   4.90 | **0.2566** |
| XGBoost           |  3.33 |   5.00 | 0.2274   |
| Random Forest     |  3.32 |   5.03 | 0.2173   |
| Ridge             |  3.82 |   5.47 | 0.0748   |
| KNN Regressor     |  3.99 |   5.80 | -0.0407  |
| Decision Tree     |  4.43 |   7.14 | -0.5770  |
| Linear Regression |  5.86 |   9.90 | -2.0353  |

‚úÖ **Meilleur mod√®le : Gradient Boosting (RMSE = 4.90)**

---

‚ÑπÔ∏è **Remarque sur le choix du mod√®le**

 Le mod√®le `Gradient Boosting` s‚Äôest impos√© comme le plus performant sur les donn√©es de test, avec :
 - la **plus faible erreur quadratique moyenne (RMSE)**,
 - un **coefficient R¬≤ positif**, montrant une bonne capacit√© de g√©n√©ralisation.

Ce mod√®le sera donc utilis√© pour la suite de l‚Äôanalyse et dans l‚Äôapplication finale.