# 🧠 Projet de Soutenance IA – Overview

## 🎯 Objectif du projet

L’objectif de ce projet est de prédire le **prix d’un service freelance** proposé sur la plateforme Fiverr, en s’appuyant à la fois sur :
- la **description textuelle** du service,
- le **niveau du vendeur** (`Nouveau`, `Confirmé`, `Top`),
- la **fiabilité estimée** du profil (note composite calculée à partir des évaluations et du nombre d’avis).

Deux approches complémentaires sont explorées :
- une **régression** pour estimer le prix exact du service,
- une **classification** pour prédire la tranche de prix (`Basse`, `Moyenne`, `Haute`).

---

## 🗂️ Structure des notebooks

Le projet est organisé en **5 notebooks principaux**, chacun correspondant à une étape clé du pipeline de traitement :

| Étape | Notebook | Description |
|-------|----------|-------------|
| 1️⃣ | [`01_pre-processing.ipynb`](./01_pre-processing.ipynb) | Nettoyage des données brutes et préparation du jeu analysable |
| 3️⃣ | [`02_model_regression.ipynb`](./02_model_regression.ipynb) | Entraînement des modèles de régression pour estimer les prix |
| 4️⃣ | [`03_model_classification.ipynb`](./03_model_classification.ipynb) | Entraînement des modèles de classification pour estimer les tranches de prix |
| 6️⃣ | [`04_predict.ipynb`](./04_predict.ipynb) | Tests de prédiction sur de nouveaux cas et analyse des performances |
| 7️⃣ | [`05_app.ipynb`](./05_app.ipynb) | Déploiement d’une application interactive avec Gradio |

---

## ⚙️ Technologies principales

- **Python 3.10**
- `pandas`, `numpy`, `scikit-learn`
- `xgboost`, `sentence-transformers`
- `Gradio` pour l’interface utilisateur
- `joblib` pour la sérialisation des modèles

---

## 💡 Remarques pédagogiques

Chaque notebook est conçu pour être **autonome**, lisible et pédagogiquement structuré :

- Des blocs explicatifs (`🔹 Info`, `✅ Résultat attendu`, `🐍 Script`) facilitent la compréhension.
- Les étapes sont **progressives et comparables**, avec des mesures de performance standardisées.
- L’ensemble du pipeline est pensé pour une **mise en production facilitée**, avec sauvegardes automatiques et architecture modulaire.

---

## 🧩 Compétences mobilisées par notebook

| Bloc   | Compétence | Description                                                                                      | Notebooks concernés                                         |
|--------|------------|--------------------------------------------------------------------------------------------------|--------------------------------------------------------------|
| Bloc_3 | C1         | Sélection du meilleur algorithme ML selon les performances (MAE, RMSE, Accuracy…)               | `03_model_regression.ipynb`, `04_model_classification.ipynb` |
| Bloc_3 | C2         | Prétraitement des données (scaling, encodage, embeddings) selon le modèle                        | `01_pre-processing.ipynb`, `03_model_regression.ipynb`, `04_model_classification.ipynb`, `06_predict.ipynb` |
| Bloc_3 | C3         | Entraînement et validation de modèles ML supervisés sur métriques définies                      | `03_model_regression.ipynb`, `04_model_classification.ipynb` |
| Bloc_5 | C1         | Transformation de textes en vecteurs numériques (embeddings BERT via `sentence-transformers`)   | `01_pre-processing.ipynb`, `03_model_regression.ipynb`, `04_model_classification.ipynb`, `06_predict.ipynb` |
| Bloc_5 | C2         | Comparaison de modèles hybrides (deep + ML) adaptés aux problématiques métier                    | `03_model_regression.ipynb`, `04_model_classification.ipynb` |
| Bloc_5 | C3         | Entraînement de modèles ML avec des features issues du deep (embeddings de modèles pré-entraînés) | `03_model_regression.ipynb`, `04_model_classification.ipynb` |
| Bloc_5 | C4         | Déploiement d’une interface utilisateur avec Gradio et intégration d’un pipeline de prédiction   | `06_predict.ipynb`, `07_app.ipynb` |

---

🧠 **Remarque importante** :  
Le projet repose sur des **embeddings de texte** issus de `sentence-transformers` (modèles préentraînés BERT), ce qui justifie pleinement la mobilisation des **compétences du Bloc 5**, même si l'entraînement final est confié à des modèles classiques de Machine Learning.

---

👨‍🏫 *Ce document est conçu comme un guide de lecture pour le jury de soutenance, afin de faciliter la navigation dans le projet.*