# 🧠 Projet de Soutenance IA – Overview

## 🎯 Objectif du projet

L’objectif de ce projet est de prédire le **prix d’un service freelance** proposé sur la plateforme Fiverr, en s’appuyant à la fois sur :
- la **description textuelle** du service,
- le **niveau du vendeur** (`Nouveau`, `Confirmé`, `Top`),
- la **fiabilité estimée** du profil (note composite calculée à partir des évaluations et du nombre d’avis).

Deux approches complémentaires sont explorées :
- une **régression** pour estimer le prix exact du service,
- une **classification** pour prédire la tranche de prix (`Basse`, `Moyenne`, `Haute`).

---

## 🗂️ Structure des notebooks

Le projet est organisé en **5 notebooks principaux**, chacun correspondant à une étape clé du pipeline de traitement :

| Étape | Notebook | Description |
|-------|----------|-------------|
| 1️⃣ | [`01_pre-processing.ipynb`](./01_pre-processing.ipynb) | Nettoyage du jeu de données brut : suppression des doublons, traitement des prix aberrants, uniformisation des formats, et export d’un fichier transformé prêt à l’usage |
| 2️⃣ | [`02_model_regression.ipynb`](./02_model_regression.ipynb) | Entraînement de modèles de régression (RandomForest, XGBoost, etc.) à partir des variables classiques pour prédire le **prix exact** |
| 3️⃣ | [`03_model_classification.ipynb`](./03_model_classification.ipynb) | Création de la cible `Tranche`, puis entraînement de modèles de classification pour estimer **la gamme de prix** (basse, moyenne, haute) |
| 4️⃣ | [`04_model_deep_learning.ipynb`](./04_model_deep_learning.ipynb) | Entraînement d’un modèle Deep Learning combinant **embeddings textuels** et variables numériques pour prédire le prix. Export au format `.h5` |
| 5️⃣ | [`05_predict.ipynb`](./05_predict.ipynb) | Centralisation des fonctions de prédiction pour des cas utilisateurs : chargement des modèles, transformation des entrées, et génération des résultats |
| 6️⃣ | [`06_api_fastapi.py`](./06_api_fastapi.py) | Déploiement d’une **API REST** avec FastAPI pour soumettre une description et obtenir une prédiction de prix, utilisable avec `uvicorn` |
| 7️⃣ | [`07_app.ipynb`](./07_app.ipynb) | Interface Gradio interactive permettant de tester tous les modèles, visualiser les résultats, et **enregistrer les prédictions** dans un fichier `log.csv` |

---

## ⚙️ Technologies principales

- **Python 3.10**
- `pandas`, `numpy`, `scikit-learn`
- `xgboost`, `sentence-transformers`
- `Gradio` pour l’interface utilisateur
- `joblib` pour la sérialisation des modèles

---

## 💡 Remarques pédagogiques

Chaque notebook est conçu pour être **autonome**, lisible et pédagogiquement structuré :

- Des blocs explicatifs (`🔹 Info`, `✅ Résultat attendu`, `🐍 Script`) facilitent la compréhension.
- Les étapes sont **progressives et comparables**, avec des mesures de performance standardisées.
- L’ensemble du pipeline est pensé pour une **mise en production facilitée**, avec sauvegardes automatiques et architecture modulaire.

---

## 🧩 Compétences mobilisées par notebook

| Bloc   | Compétence | Description                                                                                          | Notebooks concernés                                                                 |
|--------|------------|------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------|
| Bloc_3 | C1         | Sélection du meilleur algorithme ML selon les performances (MAE, RMSE, Accuracy…)                   | `02_model_regression.ipynb`, `03_model_classification.ipynb`                         |
| Bloc_3 | C2         | Prétraitement des données (scaling, encodage, embeddings) adapté à chaque type de modèle            | `01_pre-processing.ipynb`, `02_model_regression.ipynb`, `03_model_classification.ipynb`, `04_model_deep_learning.ipynb`, `05_predict.ipynb` |
| Bloc_3 | C3         | Entraînement et validation de modèles ML supervisés sur métriques définies                          | `02_model_regression.ipynb`, `03_model_classification.ipynb`                         |
| Bloc_5 | C1         | Transformation de textes en vecteurs numériques (embeddings BERT via `sentence-transformers`)       | `01_pre-processing.ipynb`, `02_model_regression.ipynb`, `04_model_deep_learning.ipynb`, `05_predict.ipynb` |
| Bloc_5 | C2         | Comparaison de modèles hybrides (ML vs Deep Learning) adaptés aux contraintes du cas métier         | `02_model_regression.ipynb`, `04_model_deep_learning.ipynb`, `05_predict.ipynb`      |
| Bloc_5 | C3         | Entraînement de modèles Deep Learning exploitant les embeddings textuels                            | `04_model_deep_learning.ipynb`                                                      |
| Bloc_5 | C4         | Déploiement du pipeline avec une interface Gradio et exposition d’un modèle via une API FastAPI     | `06_app.ipynb`, `06_api_fastapi.ipynb`                                              |

---

🧠 **Remarque importante** :  
Le projet repose sur des **embeddings de texte** issus de `sentence-transformers` (modèles préentraînés BERT), ce qui justifie pleinement la mobilisation des **compétences du Bloc 5**, même si l'entraînement final est confié à des modèles classiques de Machine Learning.

---

👨‍🏫 *Ce document est conçu comme un guide de lecture pour le jury de soutenance, afin de faciliter la navigation dans le projet.*