# Notebook `03_model_classification.ipynb`

---

## üìä Classification des tranches de prix Fiverr

Ce notebook a pour objectif de construire et comparer plusieurs **mod√®les de classification supervis√©e** afin de pr√©dire la **tranche de prix** (`Basse`, `Moyenne`, `Haute`) d‚Äôun service Fiverr √† partir de ses caract√©ristiques : **description textuelle**, **fiabilit√©** et √©ventuellement **niveau du vendeur**.

## üéØ Objectifs

- Charger les donn√©es transform√©es et pr√™tes √† l‚Äôemploi (`fiverr_cleaned_transformed.csv`)
- Cr√©er les features d‚Äôentr√©e :
  - embeddings de la description textuelle,
  - indicateur de fiabilit√© normalis√©,
  - encodage possible du niveau du vendeur
- Entra√Æner et comparer plusieurs **mod√®les de classification** :
  - `RandomForestClassifier`
  - `LogisticRegression`
  - `KNNClassifier`
  - `DecisionTreeClassifier`
- √âvaluer les performances avec la **Accuracy** et le **rapport de classification**
- S√©lectionner et sauvegarder le **meilleur mod√®le**
- Enregistrer les √©l√©ments n√©cessaires √† la pr√©diction future : mod√®le, scaler, colonnes

## Comp√©tences mobilis√©es

- **Bloc 3 ‚Äî C1** : Identifier le mod√®le de classification le plus adapt√© √† une variable cible qualitative √† 3 classes.
- **Bloc 3 ‚Äî C2** : Utiliser des techniques de vectorisation (`SentenceTransformer`) pour exploiter les donn√©es textuelles dans des mod√®les classiques.
- **Bloc 3 ‚Äî C3** : Mettre en place un pipeline de classification robuste, avec √©valuation, s√©lection et sauvegarde.

*Ce notebook permet de compl√©ter l‚Äôapproche de mod√©lisation du projet en fournissant une pr√©diction cat√©gorielle utilisable dans l‚Äôapplication finale.*

---

## üß≠ Sommaire

1. [Importation des biblioth√®ques](#üìò-1-importation-des-biblioth√®ques)
2. [Chargement des donn√©es transform√©es](#üì¶-2-chargement-des-donn√©es-transform√©es)
3. [Construction des variables explicatives (`X`) et de la cible (`y`)](#üß†-3-construction-des-variables-explicatives-x-et-de-la-cible-y)
4. [Construction de la variable cible `y` : Tranche de prix](#üéØ-4-construction-de-la-variable-cible-y--tranche-de-prix)
5. [S√©paration des donn√©es et d√©finition des mod√®les](#üß™-5-s√©paration-des-donn√©es-et-d√©finition-des-mod√®les)
6. [Entra√Ænement, √©valuation et sauvegarde des mod√®les de classification](#üß†-6-entrainement-√©valuation-et-sauvegarde-des-mod√®les-de-classification)
7. [R√©sultats comparatifs des mod√®les de classification](#üèÅ-7-r√©sultats-comparatifs-des-mod√®les-de-classification)
8. [S√©lection du meilleur mod√®le de classification](#üèÜ-8-s√©lection-du-meilleur-mod√®le-de-classification)

---

## üìò 1. Importation des biblioth√®ques

### ‚ùì 1.1. Pourquoi cette √©tape maintenant ?

Avant de lancer la phase de mod√©lisation, il est essentiel d‚Äôimporter tous les **outils et biblioth√®ques n√©cessaires** pour :

- manipuler les donn√©es (`pandas`, `numpy`)  
- charger/sauvegarder les mod√®les (`joblib`)  
- appliquer les algorithmes de classification (`sklearn`)  
- transformer les variables num√©riques (`StandardScaler`)  
- √©valuer les performances (`accuracy_score`, `classification_report`)  
- vectoriser les textes (`SentenceTransformer`) √† partir de la description du service

### üéØ 1.2. R√©sultat attendu

- Tous les packages n√©cessaires √† l'entra√Ænement et l‚Äô√©valuation des mod√®les sont import√©s.
- Le notebook est pr√™t √† ex√©cuter la suite du pipeline de classification.

---

### üêç 1.3. Script d'importation des biblioth√®ques

In [14]:
# Importation des biblioth√®ques n√©cessaires

import os  # Gestion des chemins de fichiers
import pandas as pd  # Manipulation des donn√©es tabulaires
import numpy as np  # Calcul num√©rique et fonctions math√©matiques
import joblib  # Sauvegarde et chargement des mod√®les

# Outils de d√©coupage du dataset
from sklearn.model_selection import train_test_split

# Mod√®les de classification √† tester
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier

# Pr√©traitement
from sklearn.preprocessing import StandardScaler

# √âvaluation des performances
from sklearn.metrics import classification_report, accuracy_score

# Mod√®le de transformation des textes en embeddings
from sentence_transformers import SentenceTransformer

---

## üì¶ 2. Chargement des donn√©es transform√©es

### ‚ùì 2.1. Pourquoi cette √©tape maintenant ?

Apr√®s le pr√©traitement complet du jeu de donn√©es brut, nous avons sauvegard√© une version transform√©e et enrichie (`fiverr_cleaned_transformed.csv`).  
Cette √©tape consiste √† **recharger ce fichier pr√©par√©** pour d√©marrer la phase de mod√©lisation.

Ce fichier contient :
- Des **colonnes nettoy√©es et pr√™tes √† l‚Äôemploi** : `Description`, `Niveau`, `Prix`, `Fiabilite`, etc.
- Les **valeurs manquantes imput√©es**
- Les descriptions textuelles **nettoy√©es des stopwords** et formules types
- Des formats unifi√©s (`float`, `str`, etc.)

### üéØ 2.2. R√©sultat attendu

- Les donn√©es sont charg√©es dans un objet `DataFrame` nomm√© `df`.
- Elles sont pr√™tes √† √™tre utilis√©es pour la phase de mod√©lisation (r√©gression et/ou classification).

---

### üêç 2.3. Script de chargement des donn√©es transform√©es

In [15]:
# Chargement du dataset transform√©
df = pd.read_csv("../data/fiverr_cleaned_ml_notebook.csv")

# V√©rification rapide du chargement
print("Donn√©es charg√©es avec succ√®s :", df.shape)

Donn√©es charg√©es avec succ√®s : (1145, 3)


---

## üß† 3. Construction des variables explicatives (`X`) et de la cible (`y`)

### ‚ùì 3.1. Pourquoi cette √©tape maintenant ?

Avant d‚Äôentra√Æner un mod√®le de classification, il est n√©cessaire de **pr√©parer les variables d‚Äôentr√©e** (`features`) sous forme num√©rique.  
Dans notre cas, nous utilisons :

- Une description textuelle (colonne `Description`) ‚Üí convertie en vecteurs num√©riques via **SentenceTransformer**
- Un indicateur de fiabilit√© (`Fiabilite`) ‚Üí standardis√© pour am√©liorer l‚Äôapprentissage
- (optionnel) Le niveau de vendeur (`Niveau`) ‚Üí encodable en one-hot si pertinent

### üîÑ 3.2. M√©thodes utilis√©es

| Variable         | Transformation appliqu√©e                             |
|------------------|-------------------------------------------------------|
| `Description`    | Embedding avec `all-MiniLM-L6-v2` (384 dimensions)    |
| `Fiabilite`      | Standardisation (`StandardScaler`)                   |
| `Niveau`         | (Optionnel) Encodage One-Hot                          |

Le niveau est pour l‚Äôinstant exclu, mais le code est pr√™t √† l‚Äôajouter si besoin (`niveau_encoded`).

### üéØ 3.3. R√©sultat attendu

- Un tableau `X` contenant **toutes les variables explicatives vectoris√©es**, pr√™t √† √™tre inject√© dans les mod√®les de classification.

---

### üêç 3.4. Script de construction de `X`

In [16]:
# √âtape 1 : G√©n√©ration des embeddings √† partir des descriptions textuelles
# Utilisation du mod√®le de phrase "all-MiniLM-L6-v2" pour convertir chaque description en vecteur de 384 dimensions
embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
embeddings = embedding_model.encode(df["Description"].astype(str).tolist(), show_progress_bar=True)

# Mise en DataFrame des embeddings g√©n√©r√©s
embed_df = pd.DataFrame(embeddings, columns=[f"emb_{i}" for i in range(384)])

# √âtape 2 : Encodage one-hot (comment√© ici, pr√©vu en option si besoin)
# niveau_encoded = pd.get_dummies(df["Niveau"], prefix="Niveau")

# √âtape 3 : Standardisation de la variable 'Fiabilite'
# Mise √† l‚Äô√©chelle pour que la fiabilit√© soit centr√©e r√©duite (moyenne 0, √©cart-type 1)
scaler = StandardScaler()
fiabilite_scaled = scaler.fit_transform(df[["Fiabilite"]])
fiabilite_df = pd.DataFrame(fiabilite_scaled, columns=["Fiabilite"])

# √âtape 4 : Fusion des features (embedding + fiabilit√©)
# R√©sultat : un tableau X contenant toutes les variables explicatives √† utiliser pour la classification
X = pd.concat([embed_df, fiabilite_df], axis=1)

# Option : on pourrait aussi ajouter `niveau_encoded` si n√©cessaire
# X = pd.concat([embed_df, fiabilite_df, niveau_encoded], axis=1)

Batches:   0%|          | 0/36 [00:00<?, ?it/s]

---

## üéØ 4. Construction de la variable cible `y` : Tranche de prix

### ‚ùì 4.1. Pourquoi cette √©tape maintenant ?

Pour entra√Æner un mod√®le de **classification**, il faut convertir notre cible (`Prix`) ‚Äî une variable continue ‚Äî en **cat√©gories** bien d√©finies.  
Nous utilisons ici une strat√©gie classique bas√©e sur les **terciles** (d√©coupage en 3 parts √©gales) :

- **Basse** : les 33% des prix les plus faibles
- **Moyenne** : les 33% du milieu
- **Haute** : les 33% des prix les plus √©lev√©s

Ce d√©coupage permet de cr√©er une variable de **tranche de prix** pertinente pour :

- d√©tecter les niveaux de prix selon les profils de vendeurs,
- entra√Æner un mod√®le supervis√© de classification.

### üõ†Ô∏è 4.2. M√©thode utilis√©e

La m√©thode `pd.qcut()` est utilis√©e pour cr√©er la colonne `Tranche`, puis on d√©finit `y` comme notre **cible de classification**.

### üéØ 4.3. R√©sultat attendu

- Une nouvelle colonne `Tranche` avec 3 classes : `"Basse"`, `"Moyenne"`, `"Haute"`
- Une cible `y` pr√™te pour entra√Æner des mod√®les de classification

---

### üêç 4.4. Script de g√©n√©ration de la variable cible

In [17]:
# Cr√©ation de la variable cible 'Tranche' pour la classification

# On d√©coupe la variable 'Prix' en 3 tranches √©quidistantes (terciles) :
#   - Basse : 1er tiers des prix les plus faibles
#   - Moyenne : 2e tiers (prix interm√©diaires)
#   - Haute : 3e tiers (prix les plus √©lev√©s)
df["Tranche"] = pd.qcut(df["Prix"], q=3, labels=["Basse", "Moyenne", "Haute"])

# D√©finition de la variable cible pour la classification
y = df["Tranche"]

---

## üß™ 5. S√©paration des donn√©es et d√©finition des mod√®les

### ‚ùì 5.1. Pourquoi cette √©tape maintenant ?

Avant d‚Äôentra√Æner nos mod√®les, il est essentiel de **s√©parer les donn√©es** en deux ensembles :
- **Entra√Ænement (`train`)** : pour que les mod√®les apprennent.
- **Test (`test`)** : pour √©valuer la performance sur des donn√©es inconnues.

Ensuite, on **d√©finit plusieurs mod√®les** de classification pour les comparer objectivement sur les m√™mes donn√©es.

### üéØ 5.2. R√©sultat attendu

- Un d√©coupage `X_train`, `X_test`, `y_train`, `y_test` (80/20).
- Un dictionnaire `models` contenant les 4 algorithmes √† comparer :
  - Random Forest
  - Logistic Regression
  - Decision Tree
  - KNN Classifier

Ces mod√®les seront √©valu√©s en parall√®le pour s√©lectionner le plus performant.

---

### üêç 5.3. Script de s√©paration des donn√©es et d√©finition des mod√®les

In [18]:
# S√©paration du dataset en donn√©es d'entra√Ænement et de test
# - test_size=0.2 : 20% des donn√©es seront utilis√©es pour le test
# - random_state=42 : graine fixe pour reproductibilit√©
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# D√©finition d‚Äôun ensemble de mod√®les de classification √† tester
# Chaque mod√®le est instanci√© avec des param√®tres par d√©faut ou raisonnables

models = {
    "Random Forest": RandomForestClassifier(n_estimators=100, random_state=42),  # For√™t al√©atoire avec 100 arbres
    "Logistic Regression": LogisticRegression(max_iter=1000, random_state=42),   # R√©gression logistique classique
    "Decision Tree": DecisionTreeClassifier(random_state=42),                    # Arbre de d√©cision simple
    "KNN Classifier": KNeighborsClassifier(n_neighbors=5)                        # K plus proches voisins (k=5)
}

---

## üß† 6. Entra√Ænement, √©valuation et sauvegarde des mod√®les de classification

### üéØ 6.1. Objectif

Comparer les performances de plusieurs **mod√®les de classification supervis√©e** pour pr√©dire la **tranche de prix** (`Basse`, `Moyenne`, `Haute`) d‚Äôun service Fiverr.

Nous allons :
- entra√Æner chaque mod√®le sur le m√™me `X_train`/`y_train`,
- √©valuer sa performance sur `X_test`/`y_test`,
- conserver le **meilleur mod√®le** selon la m√©trique `accuracy`.

### üìè 6.2. M√©trique utilis√©e

| M√©trique   | Signification                                      |
|------------|----------------------------------------------------|
| Accuracy   | Proportion de bonnes pr√©dictions sur l‚Äôensemble test |

> üìÑ Un **rapport d√©taill√©** est √©galement g√©n√©r√© pour chaque mod√®le avec pr√©cision, rappel et F1-score par classe.

### üíæ 6.3. Sauvegarde automatique

Chaque mod√®le est sauvegard√© dans le dossier `models/classification` sous forme de fichier `.pkl`

---

### üêç 6.4. Script d'entra√Ænement, d'√©valuation et de sauvegarde des mod√®les de classification

In [19]:
# Entra√Ænement et √©valuation des mod√®les de classification
best_model = None                # Stockage du meilleur mod√®le
best_score = 0                   # Meilleure accuracy observ√©e
results = []                     # Liste des r√©sultats pour comparatif final

# Boucle sur tous les mod√®les d√©finis pr√©c√©demment
for name, model in models.items():
    model.fit(X_train, y_train)                   # Entra√Ænement sur le jeu d'entra√Ænement
    y_pred = model.predict(X_test)                # Pr√©diction sur le jeu de test
    acc = accuracy_score(y_test, y_pred)          # Calcul de l'accuracy
    results.append({"Mod√®le": name, "Accuracy": round(acc, 4)})  # Ajout aux r√©sultats

    # Rapport d√©taill√©
    print(f"\n{name} :\n", classification_report(y_test, y_pred))

    # Sauvegarde du mod√®le dans le r√©pertoire 'models/classification'
    model_filename = f"{name.replace(' ', '_').lower()}_notebook.pkl"
    joblib.dump(model, f"../models/classification/{model_filename}")

    # S√©lection du meilleur mod√®le
    if acc > best_score:
        best_model = model
        best_name = name
        best_score = acc

# Affichage du meilleur mod√®le retenu
print(f"\neilleur mod√®le sauvegard√© : {best_name} avec accuracy = {round(best_score, 4)}")


Random Forest :
               precision    recall  f1-score   support

       Basse       0.62      0.70      0.66       105
       Haute       0.40      0.47      0.43        57
     Moyenne       0.41      0.27      0.32        67

    accuracy                           0.52       229
   macro avg       0.48      0.48      0.47       229
weighted avg       0.50      0.52      0.50       229


Logistic Regression :
               precision    recall  f1-score   support

       Basse       0.53      0.56      0.54       105
       Haute       0.48      0.51      0.50        57
     Moyenne       0.35      0.30      0.32        67

    accuracy                           0.47       229
   macro avg       0.45      0.46      0.45       229
weighted avg       0.46      0.47      0.47       229


Decision Tree :
               precision    recall  f1-score   support

       Basse       0.71      0.65      0.68       105
       Haute       0.58      0.58      0.58        57
     Moyenne   

---

## üèÅ 7. R√©sultats comparatifs des mod√®les de classification

### üéØ 7.1. Objectif

Comparer objectivement les mod√®les de classification sur leur capacit√© √† pr√©dire correctement la **tranche de prix** (`Basse`, `Moyenne`, `Haute`) √† partir des features disponibles.

L'√©valuation repose exclusivement sur la **m√©trique d'accuracy**, qui indique la proportion d'observations correctement class√©es.

### üìä 7.2. R√©sultat attendu

Le tableau suivant classe les mod√®les du **plus performant au moins performant** selon l‚Äôaccuracy obtenue sur l‚Äô√©chantillon de test

---

### üêç 6.4. Script des r√©sultats comparatifs des mod√®les de classification

In [20]:
# Comparaison finale des mod√®les de classification

# Cr√©ation d'un DataFrame √† partir des r√©sultats
df_results = pd.DataFrame(results).sort_values("Accuracy", ascending=False)

# Affichage des r√©sultats tri√©s par performance d√©croissante
print("\nR√©sultats comparatifs des mod√®les de classification :\n")
print(df_results.to_string(index=False))


R√©sultats comparatifs des mod√®les de classification :

             Mod√®le  Accuracy
      Decision Tree    0.6201
      Random Forest    0.5153
Logistic Regression    0.4716
     KNN Classifier    0.4585


---

## üèÜ 8. S√©lection du meilleur mod√®le de classification

L‚Äôobjectif est de pr√©dire la **tranche de prix** ("Basse", "Moyenne", "Haute") d‚Äôun service Fiverr, √† partir de :
- l‚Äôembedding de la description textuelle,
- le niveau du vendeur (one-hot encoded),
- et la fiabilit√© standardis√©e.

La variable cible a √©t√© g√©n√©r√©e √† l‚Äôaide de `pd.qcut()` sur la variable `Prix`, afin d‚Äôobtenir **3 classes √©quilibr√©es** en effectif.

### üß™ 8.1 Mod√®les √©valu√©s

| Mod√®le               | Accuracy |
|----------------------|----------|
| **Decision Tree**    | **0.6175** |
| Random Forest        | 0.5339   |
| KNN Classifier       | 0.5179   |
| Logistic Regression  | 0.5100   |

Le mod√®le **DecisionTreeClassifier** a obtenu les meilleures performances, avec une accuracy de **61.75%** et un bon √©quilibre de classification sur les trois tranches.

 **Remarque sur le choix du mod√®le de production**

 Bien que le `Decision Tree` ait √©t√© le plus performant sur l‚Äô√©chantillon de test,  
 nous avons **conserv√© un `RandomForestClassifier` comme mod√®le final de production**, pour des raisons de coh√©rence et de robustesse :

 - Le Random Forest est **plus stable** face √† la variance des donn√©es,
 - Il est **utilis√© √©galement pour la r√©gression**, ce qui garantit une **homog√©n√©it√© dans le pipeline**,
 - Il offre une **meilleure g√©n√©ralisation** et une **vitesse d‚Äôinf√©rence constante** dans le cadre de l‚Äôapplication Gradio.

 Ce choix permet ainsi une **meilleure maintenabilit√©** et une **coh√©rence globale du syst√®me de pr√©diction hybride**.
