# üß† Projet de Soutenance IA ‚Äì Overview

## üéØ Objectif du projet

L‚Äôobjectif de ce projet est de pr√©dire le **prix d‚Äôun service freelance** propos√© sur la plateforme Fiverr, en s‚Äôappuyant √† la fois sur :
- la **description textuelle** du service,
- le **niveau du vendeur** (`Nouveau`, `Confirm√©`, `Top`),
- la **fiabilit√© estim√©e** du profil (note composite calcul√©e √† partir des √©valuations et du nombre d‚Äôavis).

Deux approches compl√©mentaires sont explor√©es :
- une **r√©gression** pour estimer le prix exact du service,
- une **classification** pour pr√©dire la tranche de prix (`Basse`, `Moyenne`, `Haute`).

---

## üóÇÔ∏è Structure des notebooks

Le projet est organis√© en **5 notebooks principaux**, chacun correspondant √† une √©tape cl√© du pipeline de traitement :

| √âtape | Notebook | Description |
|-------|----------|-------------|
| 1Ô∏è‚É£ | [`01_pre-processing.ipynb`](./01_pre-processing.ipynb) | Nettoyage du jeu de donn√©es brut : suppression des doublons, traitement des prix aberrants, uniformisation des formats, et export d‚Äôun fichier transform√© pr√™t √† l‚Äôusage |
| 2Ô∏è‚É£ | [`02_model_regression.ipynb`](./02_model_regression.ipynb) | Entra√Ænement de mod√®les de r√©gression (RandomForest, XGBoost, etc.) √† partir des variables classiques pour pr√©dire le **prix exact** |
| 3Ô∏è‚É£ | [`03_model_classification.ipynb`](./03_model_classification.ipynb) | Cr√©ation de la cible `Tranche`, puis entra√Ænement de mod√®les de classification pour estimer **la gamme de prix** (basse, moyenne, haute) |
| 4Ô∏è‚É£ | [`04_model_deep_learning.ipynb`](./04_model_deep_learning.ipynb) | Entra√Ænement d‚Äôun mod√®le Deep Learning combinant **embeddings textuels** et variables num√©riques pour pr√©dire le prix. Export au format `.h5` |
| 5Ô∏è‚É£ | [`05_predict.ipynb`](./05_predict.ipynb) | Centralisation des fonctions de pr√©diction pour des cas utilisateurs : chargement des mod√®les, transformation des entr√©es, et g√©n√©ration des r√©sultats |
| 6Ô∏è‚É£ | [`06_api_fastapi.py`](./06_api_fastapi.py) | D√©ploiement d‚Äôune **API REST** avec FastAPI pour soumettre une description et obtenir une pr√©diction de prix, utilisable avec `uvicorn` |
| 7Ô∏è‚É£ | [`07_app.ipynb`](./07_app.ipynb) | Interface Gradio interactive permettant de tester tous les mod√®les, visualiser les r√©sultats, et **enregistrer les pr√©dictions** dans un fichier `log.csv` |

---

## ‚öôÔ∏è Technologies principales

- **Python 3.10**
- `pandas`, `numpy`, `scikit-learn`
- `xgboost`, `sentence-transformers`
- `Gradio` pour l‚Äôinterface utilisateur
- `joblib` pour la s√©rialisation des mod√®les

---

## üí° Remarques p√©dagogiques

Chaque notebook est con√ßu pour √™tre **autonome**, lisible et p√©dagogiquement structur√© :

- Des blocs explicatifs (`üîπ Info`, `‚úÖ R√©sultat attendu`, `üêç Script`) facilitent la compr√©hension.
- Les √©tapes sont **progressives et comparables**, avec des mesures de performance standardis√©es.
- L‚Äôensemble du pipeline est pens√© pour une **mise en production facilit√©e**, avec sauvegardes automatiques et architecture modulaire.

---

## üß© Comp√©tences mobilis√©es par notebook

| Bloc   | Comp√©tence | Description                                                                                          | Notebooks concern√©s                                                                 |
|--------|------------|------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------|
| Bloc_3 | C1         | S√©lection du meilleur algorithme ML selon les performances (MAE, RMSE, Accuracy‚Ä¶)                   | `02_model_regression.ipynb`, `03_model_classification.ipynb`                         |
| Bloc_3 | C2         | Pr√©traitement des donn√©es (scaling, encodage, embeddings) adapt√© √† chaque type de mod√®le            | `01_pre-processing.ipynb`, `02_model_regression.ipynb`, `03_model_classification.ipynb`, `04_model_deep_learning.ipynb`, `05_predict.ipynb` |
| Bloc_3 | C3         | Entra√Ænement et validation de mod√®les ML supervis√©s sur m√©triques d√©finies                          | `02_model_regression.ipynb`, `03_model_classification.ipynb`                         |
| Bloc_5 | C1         | Transformation de textes en vecteurs num√©riques (embeddings BERT via `sentence-transformers`)       | `01_pre-processing.ipynb`, `02_model_regression.ipynb`, `04_model_deep_learning.ipynb`, `05_predict.ipynb` |
| Bloc_5 | C2         | Comparaison de mod√®les hybrides (ML vs Deep Learning) adapt√©s aux contraintes du cas m√©tier         | `02_model_regression.ipynb`, `04_model_deep_learning.ipynb`, `05_predict.ipynb`      |
| Bloc_5 | C3         | Entra√Ænement de mod√®les Deep Learning exploitant les embeddings textuels                            | `04_model_deep_learning.ipynb`                                                      |
| Bloc_5 | C4         | D√©ploiement du pipeline avec une interface Gradio et exposition d‚Äôun mod√®le via une API FastAPI     | `06_app.ipynb`, `06_api_fastapi.ipynb`                                              |

---

üß† **Remarque importante** :  
Le projet repose sur des **embeddings de texte** issus de `sentence-transformers` (mod√®les pr√©entra√Æn√©s BERT), ce qui justifie pleinement la mobilisation des **comp√©tences du Bloc 5**, m√™me si l'entra√Ænement final est confi√© √† des mod√®les classiques de Machine Learning.

---

üë®‚Äçüè´ *Ce document est con√ßu comme un guide de lecture pour le jury de soutenance, afin de faciliter la navigation dans le projet.*