# Notebook `04_model_deep_learning.ipynb`

---

# üß† Construction et Entra√Ænement du Mod√®le Deep Learning

Ce notebook constitue la **quatri√®me √©tape du pipeline IA**.  
Il est d√©di√© √† la construction, l‚Äôentra√Ænement, l‚Äô√©valuation et la sauvegarde d‚Äôun **mod√®le de deep learning** destin√© √† pr√©dire le **prix d‚Äôun service Fiverr** √† partir de variables num√©riques et vectorielles.

## üéØ Objectifs

- Charger les donn√©es propres et transform√©es (`fiverr_cleaned_transformed.csv`)
- G√©n√©rer les **embeddings vectoriels** √† partir des descriptions (mod√®le `SentenceTransformer`)
- Pr√©parer les **entr√©es combin√©es** : texte vectoris√©, niveau encod√©, fiabilit√© num√©rique
- D√©finir un **mod√®le Keras s√©quentiel** adapt√© √† la r√©gression
- R√©aliser une **s√©paration train/test** et standardiser les variables
- Entra√Æner le mod√®le avec **early stopping** pour √©viter le surapprentissage
- √âvaluer ses performances sur les donn√©es de test
- Sauvegarder le mod√®le (`deep_model.h5`) et le scaler (`scaler.pkl`)

## ‚úÖ Comp√©tences mobilis√©es

- **Bloc 3 ‚Äî C3** : Impl√©menter un mod√®le de deep learning adapt√© √† un jeu de donn√©es structur√©
- **Bloc 3 ‚Äî C2** : Pr√©parer les donn√©es et normaliser les vecteurs d‚Äôentr√©e (embedding + features classiques)
- **Bloc 5 ‚Äî C4** : Exporter un mod√®le exploitable dans un environnement d√©ploy√© (API, Gradio)

*Ce notebook pr√©pare un mod√®le de pr√©diction avanc√© bas√© sur les r√©seaux de neurones, utilis√© dans l‚Äôapplication finale.*

---

## üß≠ Sommaire

1. [Importation des biblioth√®ques pour le Deep Learning](#-1-importation-des-biblioth√®ques-pour-le-deep-learning)
2. [Chargement des donn√©es transform√©es dans un DataFrame Pandas](#-2-chargement-des-donn√©es-transform√©es-dans-un-dataframe-pandas)
3. [Pr√©paration des donn√©es pour le Deep Learning](#-3-pr√©paration-des-donn√©es-pour-le-deep-learning)
4. [Construction du mod√®le MLP (r√©gression du prix)](#-4-construction-du-mod√®le-mlp-r√©gression-du-prix)
5. [Entra√Ænement du mod√®le avec EarlyStopping](#-5-entra√Ænement-du-mod√®le-avec-earlystopping)
6. [√âvaluation du mod√®le entra√Æn√©](#-6-√©valuation-du-mod√®le-entra√Æn√©)
7. [Sauvegarde du mod√®le Deep Learning entra√Æn√©](#-7-sauvegarde-du-mod√®le-deep-learning-entra√Æn√©)


---

## üß† 1. Importation des biblioth√®ques pour le Deep Learning

### ‚ùì 1.1. Pourquoi cette √©tape maintenant ?

Avant toute manipulation ou entra√Ænement, nous devons importer toutes les **biblioth√®ques n√©cessaires** √† la gestion des donn√©es, √† la construction du mod√®le, et √† l‚Äôing√©nierie des variables.

Cela garantit :
- un environnement pr√™t √† ex√©cuter le pipeline complet,
- une meilleure lisibilit√© du script,
- et la centralisation des d√©pendances en d√©but de fichier.

### üéØ 1.2. R√©sultat attendu

- Toutes les librairies utiles au traitement et √† l'entra√Ænement d‚Äôun mod√®le Deep Learning sont import√©es.
- L'importation est **clairement organis√©e** par type de t√¢che (donn√©es, mod√®le, I/O, etc.).
- Aucune erreur d'importation ne bloque l'ex√©cution du notebook.

---

### üêç 1.3. Script d‚Äôimportation des biblioth√®ques n√©cessaires

In [8]:
# Importation des biblioth√®ques n√©cessaires

# Manipulation de donn√©es
import pandas as pd   # Biblioth√®que pour la gestion des tableaux de donn√©es (DataFrame)
import numpy as np    # Biblioth√®que pour le calcul num√©rique performant (vecteurs, matrices, etc.)

# Deep Learning avec TensorFlow Keras
import tensorflow as tf  # Backend TensorFlow (n√©cessaire m√™me si Keras est utilis√© seul)
from tensorflow.keras.models import Sequential       # Mod√®le lin√©aire empil√© (s√©quentiel)
from tensorflow.keras.layers import Dense, Dropout   # Couches dense (fully connected) et dropout (r√©gularisation)
from tensorflow.keras.callbacks import EarlyStopping # Callback pour arr√™ter l'entra√Ænement en cas de surapprentissage

# Pr√©paration et √©valuation des donn√©es
from sklearn.model_selection import train_test_split  # Fonction de s√©paration du dataset en ensembles d'entra√Ænement/test
from sklearn.preprocessing import StandardScaler       # Standardisation (centrage/r√©duction) des variables num√©riques

# Gestion des fichiers et mod√®les
import os       # Outils de gestion de fichiers et r√©pertoires
import joblib   # Sauvegarde et chargement efficace des objets Python (mod√®les, scalers, etc.)

# Embedding de texte via transformers
from sentence_transformers import SentenceTransformer  # G√©n√©ration d‚Äôembeddings vectoriels √† partir de textes

---

## üìÇ 2. Chargement des donn√©es transform√©es dans un DataFrame Pandas

### ‚ùì 2.1. Pourquoi cette √©tape maintenant ?

Le fichier `fiverr_cleaned_transformed.csv` contient les donn√©es **nettoy√©es et enrichies** suite aux √©tapes de pr√©traitement pr√©c√©dentes.  
C‚Äôest √† partir de ce fichier que nous allons **pr√©parer les entr√©es** du mod√®le de deep learning.

Cette √©tape permet :
- de **valider l‚Äôacc√®s au fichier** et le bon format CSV,
- d‚Äôinitialiser le DataFrame `df` pour les traitements ult√©rieurs,
- d‚Äôobtenir une **confirmation imm√©diate** sur le nombre de lignes et colonnes disponibles.

### üéØ 2.2. R√©sultat attendu

- Les donn√©es sont correctement lues dans le DataFrame `df`.
- Aucune erreur d‚Äôacc√®s ou de lecture n‚Äôest rencontr√©e.
- Le terminal affiche les dimensions des donn√©es (nombre de lignes et de colonnes).

---

### üêç 2.3. Script de chargement des donn√©es transform√©es

In [9]:
# üîπ Chargement des donn√©es

# D√©finition du chemin vers le fichier CSV nettoy√© et transform√©
file_path = "../data/fiverr_cleaned_dl_notebook.csv"

# Chargement du fichier CSV dans un DataFrame Pandas
df = pd.read_csv(file_path)

# Affichage d'un message de confirmation avec les dimensions des donn√©es charg√©es
print("Donn√©es charg√©es :", df.shape)  # Exemple : (25000, 10)

Donn√©es charg√©es : (1145, 5)


---

## üß™ 3. Pr√©paration des donn√©es pour le Deep Learning

### ‚ùì 3.1. Pourquoi cette √©tape maintenant ?

Cette √©tape pr√©pare les **entr√©es du mod√®le de deep learning** :
- G√©n√©ration des **embeddings vectoriels** pour les descriptions textuelles,
- **Encodage one-hot** de la variable cat√©gorielle `Niveau`,
- S√©lection et concat√©nation des **variables num√©riques** comme `Fiabilite`,
- S√©paration du jeu de donn√©es en ensembles d‚Äôentra√Ænement et de test,
- **Normalisation des features** pour stabiliser l‚Äôapprentissage,
- Sauvegarde du scaler pour reproduire le pipeline d‚Äôinf√©rence plus tard.

C‚Äôest une √©tape centrale avant toute mod√©lisation supervis√©e.

### üéØ 3.2. R√©sultat attendu

- Le DataFrame `X` contient toutes les variables explicatives correctement format√©es.
- Les jeux `X_train_scaled`, `X_test_scaled`, `y_train`, `y_test` sont pr√™ts √† l‚Äôusage.
- Le scaler `StandardScaler` est sauvegard√© dans `models/deep/scaler.pkl`.
- Les dimensions du jeu d‚Äôentra√Ænement sont affich√©es √† l‚Äô√©cran pour validation.

---

### üêç 3.3. Script de pr√©paration des features d'entr√©e pour le deep learning

In [10]:
# Chargement des donn√©es
df = pd.read_csv(file_path)  # Lecture du fichier transform√© contenant les features pr√™tes √† l‚Äôemploi

# Chargement du mod√®le d'embedding SentenceTransformer
embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")  # Mod√®le l√©ger et performant pour vectoriser les descriptions textuelles

# Embedding de la colonne 'Description'
descriptions = df["Description"].astype(str).tolist()
embeddings = embedding_model.encode(descriptions)
embed_df = pd.DataFrame(embeddings, columns=[f"emb_{i}" for i in range(embeddings.shape[1])])  # Cr√©ation d‚Äôun DataFrame pour les vecteurs d‚Äôembedding

# Encodage one-hot du niveau du vendeur
niveau_encoded = pd.get_dummies(df["Niveau"], prefix="Niveau")  # Conversion de la variable cat√©gorielle en variables binaires

# S√©lection des variables num√©riques restantes
autres_features = df[["Fiabilite"]].reset_index(drop=True)  # Ajout de la variable num√©rique "Fiabilite"

# Fusion finale des features dans X
X = pd.concat([embed_df, niveau_encoded, autres_features], axis=1)  # Construction du tableau final de variables explicatives
y = df["Prix"]  # Variable cible : le prix

# D√©coupage du jeu de donn√©es en train / test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # 80% entra√Ænement, 20% test

# Standardisation des donn√©es (centrage-r√©duction)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)  # Apprentissage des param√®tres sur X_train
X_test_scaled = scaler.transform(X_test)        # Transformation de X_test avec les m√™mes param√®tres

# Sauvegarde du scaler pour une r√©utilisation future
os.makedirs("../models/deep", exist_ok=True)
scaler_path = "../models/deep/scaler_notebook.pkl"
joblib.dump(scaler, scaler_path)

# Messages de v√©rification
print("Scaler sauvegard√© :", scaler_path)
print("Donn√©es pr√™tes pour entra√Ænement deep learning :", X_train_scaled.shape)

Scaler sauvegard√© : ../models/deep/scaler_notebook.pkl
Donn√©es pr√™tes pour entra√Ænement deep learning : (916, 388)


---

## üß† 4. Construction du mod√®le MLP (r√©gression du prix)

### ‚ùì 4.1. Pourquoi cette √©tape maintenant ?

Nous allons entra√Æner un mod√®le de Deep Learning de type **MLP (Multilayer Perceptron)** pour pr√©dire le prix d‚Äôun service.  
Il s‚Äôagit d‚Äôun mod√®le dense √† plusieurs couches, adapt√© aux jeux de donn√©es tabulaires enrichis (num√©riques + embeddings).

Le mod√®le est con√ßu pour apprendre une **fonction de r√©gression** sur les variables d‚Äôentr√©e (dont les embeddings de description) vers une **valeur continue de prix**.

### üéØ 4.2. R√©sultat attendu

- Un mod√®le Keras `Sequential` est initialis√© avec 3 couches :
  - Deux couches cach√©es avec activations ReLU.
  - Une couche de sortie sans activation (r√©gression directe).
- Une couche de r√©gularisation `Dropout` est int√©gr√©e pour r√©duire le risque de surapprentissage.
- Le mod√®le est compil√© avec :
  - L‚Äôoptimiseur `adam`
  - La fonction de perte `mse`
  - L‚Äôindicateur de performance `mae`

---

### üêç 4.3. Script de d√©finition du mod√®le MLP

In [11]:
# Construction du mod√®le MLP (Multilayer Perceptron)

# Initialisation d'un mod√®le s√©quentiel Keras
model = Sequential([

    # Premi√®re couche cach√©e dense avec 128 neurones et une activation ReLU
    Dense(128, activation='relu', input_shape=(X_train_scaled.shape[1],)),

    # Couche de dropout pour limiter le surapprentissage (20% des neurones d√©sactiv√©s √† chaque it√©ration)
    Dropout(0.2),

    # Deuxi√®me couche cach√©e dense avec 64 neurones et une activation ReLU
    Dense(64, activation='relu'),

    # Couche de sortie : une seule valeur continue (r√©gression du prix)
    Dense(1)
])

# Compilation du mod√®le avec :
# - l'optimiseur 'adam' (rapide et efficace pour la majorit√© des cas)
# - la fonction de perte 'mse' (erreur quadratique moyenne, adapt√©e √† la r√©gression)
# - l'indicateur de performance 'mae' (erreur absolue moyenne, plus lisible pour l'utilisateur final)
model.compile(
    optimizer='adam',
    loss='mse',
    metrics=['mae']
)

---

## üèãÔ∏è‚Äç‚ôÇÔ∏è 5. Entra√Ænement du mod√®le avec EarlyStopping

### ‚ùì 5.1. Pourquoi cette √©tape maintenant ?

Apr√®s avoir pr√©par√© les donn√©es et construit notre mod√®le de deep learning, il est temps de lancer l‚Äôentra√Ænement.  
Nous utilisons ici un m√©canisme de **surveillance automatique** pour √©viter le surapprentissage (`EarlyStopping`).

Ce m√©canisme permet :
- d'interrompre l'entra√Ænement si le mod√®le ne s'am√©liore plus sur les donn√©es de validation,
- d'√©viter d‚Äôapprendre des d√©tails trop sp√©cifiques √† l‚Äô√©chantillon d‚Äôentra√Ænement (overfitting),
- de restaurer automatiquement les **meilleurs poids** enregistr√©s.

### üéØ 5.2. R√©sultat attendu

- Le mod√®le est entra√Æn√© sur les donn√©es normalis√©es `X_train_scaled`.
- Une **validation crois√©e interne** est effectu√©e √† chaque √©poque sur 20% des donn√©es.
- Le processus s‚Äôinterrompt automatiquement si aucune am√©lioration n‚Äôest constat√©e pendant 10 √©poques cons√©cutives.
- L‚Äôobjet `history` contient toutes les informations n√©cessaires √† la visualisation de la courbe d‚Äôapprentissage.

---

### üêç 5.3. Script d‚Äôentra√Ænement avec arr√™t anticip√©

In [12]:
# Entra√Ænement avec early stopping

# Cr√©ation d‚Äôun callback EarlyStopping :
# - 'monitor' : indique que l'on surveille la perte sur les donn√©es de validation ('val_loss').
# - 'patience' : arr√™te l'entra√Ænement si la perte ne s'am√©liore pas apr√®s 10 epochs cons√©cutifs.
# - 'restore_best_weights' : restaure les poids du mod√®le obtenus √† l'√©poque avec la meilleure val_loss.
early_stop = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)

# Entra√Ænement du mod√®le sur les donn√©es d‚Äôentra√Ænement
# - 'validation_split' : 20% des donn√©es d'entra√Ænement sont utilis√©es pour valider le mod√®le pendant l'entra√Ænement.
# - 'epochs' : nombre maximum d'it√©rations (epochs).
# - 'batch_size' : nombre d'exemples trait√©s avant la mise √† jour des poids.
# - 'callbacks' : utilise le m√©canisme d'arr√™t anticip√© pour √©viter l‚Äôoverfitting.
# - 'verbose' : 1 pour affichage d√©taill√© de la progression dans le terminal.
history = model.fit(
    X_train_scaled, y_train,
    validation_split=0.2,
    epochs=100,
    batch_size=32,
    callbacks=[early_stop],
    verbose=1
)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100


---

## üß™ 6. √âvaluation du mod√®le entra√Æn√©

### ‚ùì 6.1. Pourquoi cette √©tape maintenant ?

L‚Äô√©valuation finale permet de mesurer la **performance r√©elle** du mod√®le sur des donn√©es **in√©dites** (non vues pendant l‚Äôentra√Ænement).  
Cela permet de d√©tecter :
- Un √©ventuel **surapprentissage** si la performance chute trop par rapport au jeu d‚Äôentra√Ænement,
- L‚Äôefficacit√© globale du mod√®le dans un contexte d‚Äôusage r√©el.

### üéØ 6.2. R√©sultat attendu

- Le mod√®le retourne deux indicateurs cl√©s :
  - **MAE** (*Mean Absolute Error*) : √©cart moyen absolu entre les prix r√©els et pr√©dits,
  - **MSE** (*Mean Squared Error*) : utilis√© comme fonction de perte pour l‚Äôentra√Ænement.
- Ces valeurs sont imprim√©es dans la console pour analyse comparative.

---

### üêç 6.3. Script d‚Äô√©valuation du mod√®le sur le jeu de test

In [13]:
# √âvaluation du mod√®le sur les donn√©es de test

# √âvaluation finale du mod√®le entra√Æn√© √† l'aide des donn√©es de test standardis√©es.
# La m√©thode 'evaluate' retourne deux m√©triques :
# - loss : ici c‚Äôest le MSE (Mean Squared Error) car le mod√®le a √©t√© compil√© avec la perte "mse"
# - mae : Mean Absolute Error, plus lisible et moins sensible aux grandes erreurs
loss, mae = model.evaluate(X_test_scaled, y_test)

# Affichage des r√©sultats arrondis √† deux d√©cimales
print(f"\n√âvaluation finale - MAE : {mae:.2f}, MSE : {loss:.2f}")


√âvaluation finale - MAE : 3.98, MSE : 29.39


---

## üíæ 7. Sauvegarde du mod√®le Deep Learning entra√Æn√©

### ‚ùì 7.1. Pourquoi cette √©tape maintenant ?

Une fois le mod√®le entra√Æn√© et valid√©, il est crucial de **le sauvegarder** afin de :
- R√©utiliser le mod√®le plus tard sans avoir √† le r√©entra√Æner,
- L‚Äôint√©grer dans une application (API, Gradio, etc.),
- Conserver une version stable du mod√®le pour reproductibilit√© ou archivage.

Le format `.h5` est un format standard de sauvegarde pour les mod√®les Keras.

### üéØ 7.2. R√©sultat attendu

- Le mod√®le est sauvegard√© dans le fichier `models/deep/deep_model.h5`.
- Un message de confirmation s‚Äôaffiche dans le terminal.

---

### üêç 7.3. Script de sauvegarde du mod√®le Deep Learning

In [14]:
# üîπ Sauvegarde du mod√®le Keras

# D√©finition du chemin de sauvegarde du mod√®le Deep Learning
model_path = "../models/deep/deep_model_notebook.h5"

# Sauvegarde du mod√®le Keras au format HDF5 (.h5)
model.save(model_path)

# Confirmation de la sauvegarde
print("Mod√®le sauvegard√© :", model_path)

Mod√®le sauvegard√© : ../models/deep/deep_model_notebook.h5
