# 🏆 Quelles sont les étapes clés d'un projet de machine learning ?

## 📌 1. Définir le problème
<img src="https://resize.prod.femina.ladmedia.fr/rblr/652,438/img/var/2022-07/faim.jpg" alt="drawing" width="250"/>

- **Objectif** : Quel est le problème à résoudre ?
- **Utilisation en clinique** : Qui utilisera le modèle ? Dans quel contexte ? Quelles sont les contraintes ?
- **Alternative plus simple** : Existe-t-il une solution déjà efficace ?
- **Formulation du problème** : Apprentissage supervisé ou non ? Classification ou régression ? Nature des données ?
- **Mesurer la performance** : Quel critère d’évaluation choisir ? Quelle est la performance minimale attendue ?

## 📌 2. Récupérer les données
<img src="https://media.sudouest.fr/4376836/1000x500/so-57ef9aae66a4bdef1ea1355b-ph0.jpg?v=1475255423" alt="drawing" width="250"/>

- Identifier les données nécessaires.
- Respect du RGPD
- Convertir les données dans un format exploitable.
- Automatiser la collecte autant que possible.

## 📌 3. Analyser et nettoyer les données
<img src="https://media.ouest-france.fr/v1/pictures/MjAyMjEwYjQ0MzIyZTE4NGFiYzM0YTU4ZDIyZTM2ZDZmZTg4NmM?width=375&focuspoint=50%2C25&cropresize=1&client_id=bpeditorial&sign=89c32ae29d2fc85f6aa43066b71f527da91e0031af1b47467d4eae4ce6748323" alt="drawing" width="250"/>

- Identifier les types de données (quantitatives, qualitatives, etc.).
- Détecter et traiter les valeurs manquantes et les données aberrantes (erreurs, outliers, etc.).
- Visualiser les distributions et corrélations.
- Vérifier la possibilité d’une résolution manuelle du problème (ex : on découvre une forte corrélation entre une variable et les cibles)
- Supprimer les données non pertinentes.

## 📌 4. Préparer les données
<img src="https://resize.elle.fr/original/var/plain_site/storage/images/elle-a-table/les-dossiers-de-la-redaction/news-de-la-redaction/comment-cuisiner-les-pieds-de-champignons-4176707/100747611-1-fre-FR/Ne-jetez-plus-les-pieds-de-champignons-5-astuces-pour-ne-plus-les-gaspiller.jpg" alt="drawing" width="250"/>

- Transformer les variables : transformer des variables discrètes en variables continues ou inversement au besoin, appliquer des transformations potentiellement intéressantes (log, racine, carré, etc), combiner des variables entre-elles
- Calibrer les variables
- Séparer les données : **conserver un jeu de test indépendant**.

## 📌 5. Évaluer plusieurs modèles
<img src="https://lescommis-strapi-media.s3.eu-west-3.amazonaws.com/20190711_104710_8774a0046e.jpg" alt="drawing" width="350"/>

- Tester différentes familles d’algorithmes (régression, arbres, SVM, réseaux de neurones, etc.).
- Sélectionner les variables pertinentes pour chaque modèle.
- Tester les modèles avec des **hyperparamètres par défaut** ou via une recherche rapide.
- Comparer les performances via **validation croisée**.
- Sélectionner les modèles les plus prometteurs.

## 📌 6. Réglage fin des modèles
<img src="https://www.super-marmite.com/wp-content/uploads/2021/11/mettre-du-sel-696x425.jpg" alt="drawing" width="300"/>

- Optimiser les hyperparamètres par **validation croisée**.
- Eventuellement tester des **méthodes ensemblistes** (combinaison de plusieurs modèles).
- **Évaluer la performance finale** sur les données test. Attention à ne pas utiliser les données test pendant le réglage du modèle ou à modifier le réglage du modèle en fonction des résultats obtenus sur les données test sinon la mesure de l'erreur de généralisation sur les données test sera biaisée de manière optimiste (sur-ajustement sur les données test).

## 📌 7. Surveiller son modèle
<img src="https://s.rfi.fr/media/display/6d1cef12-6e7e-11ef-a0f0-005056a90284/w:980/p:16x9/MAUX%20DE%20VENTRE%20-%20iStock-962782170.jpg" alt="drawing" width="250"/>

- **Vérifier la stabilité du modèle** en routine.
- Surveiller l’impact des **évolutions des données d’entrée** (nouveau capteur, mise à jour d’algorithme, etc.).
- Si les données changent, **réentraîner le modèle** pour maintenir ses performances.




  
  
  
  
  Ressource bibliographie: 🔗 [Dunod - ML-avec-scikit-learn](https://www.dunod.com/sciences-techniques/machine-learning-avec-scikit-learn-mise-en-oeuvre-et-cas-concrets-1)
  
  
  ![image.png](https://www.dunod.com/sites/default/files/styles/principal_desktop/public/thumbnails/image/9782100847686-001-X.jpeg)!
  
  Vidéos sur la statistique, le ML et le DL : 🔗 [Chaine Youtube -StatQuest](https://www.youtube.com/@statquest)
  
  Documentation en ligne de scikit learn : 🔗 [Documentation - Scikit](https://scikit-learn.org/stable/index.html)



---



---

