# 🔬 Segmentation panoptique des noyaux et des tissus dans le mélanome avancé (PUMA)
## 🧬 Projet d'apprentissage profond

Bonjour à tous,

Nous allons vous présenter notre projet de deep learning sur la segmentation et classification des noyaux cellulaires dans le mélanome.

Dans ce projet, nous avons travaillé sur l'application de méthodes et modèles de deep  sur la segmentation et classification des noyaux cellulaires et tissus dans les images histopathologiques du mélanome en utilisant des techniques de deep learning.

Ce projet se base sur le concours PUMA organisé par le consortium de recherche sur le mélan

Nous nous basons sur l'article scientifique : "PUMA: A dataset for deep learning-based nuclei and tissue segmentation in advanced melanoma with improved biomarker potential" publié dans GigaScience en 2024.

Ce travail s'inscrit dans une démarche d'amélioration des biomarqueurs pronostiques pour le mélanome avancé.

# 1. 📜 Contexte

## 🩺 Le mélanome et ses biomarqueurs

- Mélanome : cancer agressif de la peau en augmentation
- 50% des patients ne répondent pas à l'immunothérapie
- Les lymphocytes infiltrant la tumeur (TILs) = biomarqueur pronostique clé
- Limites actuelles : évaluation manuelle subjective et variable

Le mélanome est une forme particulièrement agressive de cancer cutané dont l'incidence augmente globalement. Bien que le mélanome primaire soit souvent traité par excision chirurgicale, le mélanome avancé nécessite une immunothérapie par inhibiteurs de points de contrôle immunitaires.

Malheureusement, environ la moitié des patients ne répondent pas à cette thérapie, qui est coûteuse et potentiellement toxique. Il est donc crucial d'identifier des biomarqueurs capables de prédire la réponse au traitement.

Les lymphocytes infiltrant la tumeur (TILs) sont reconnus comme un biomarqueur pronostique important, mais leur évaluation manuelle est subjective, chronophage et souffre d'une variabilité inter-observateurs considérable.

Ces limitations motivent le développement d'approches automatisées basées sur l'intelligence artificielle pour quantifier et caractériser les TILs de manière plus objective et reproductible.

## 🤔 Défis spécifiques au mélanome

- Cellules de mélanome mimétiques imitant d'autres types cellulaires
- Modèles génériques (HoverNet sur PanNuke) : performance sous-optimale
- Confusion fréquente entre cellules tumorales/lymphocytes/stromales

→ Nécessité d'un modèle spécifique au mélanome

L'analyse histopathologique du mélanome présente des défis spécifiques qui compliquent l'application des modèles d'IA existants :

1. Les cellules de mélanome ont une capacité unique à imiter morphologiquement d'autres types cellulaires, rendant leur identification automatique particulièrement difficile.

2. Les modèles génériques comme HoverNet, même lorsqu'ils sont pré-entraînés sur des datasets comme PanNuke (qui inclut des échantillons de peau), montrent des performances sous-optimales sur les images de mélanome.

3. Ces modèles confondent fréquemment les cellules tumorales avec des lymphocytes ou des cellules stromales, compromettant ainsi l'évaluation précise des TILs.

4. Les méthodes manuelles actuelles souffrent également d'une grande variabilité dans l'évaluation de la localisation des TILs (intratumorale vs péritumorale), qui est pourtant cruciale pour évaluer leur valeur pronostique.

Ces défis justifient le développement d'un modèle spécifiquement adapté au mélanome, entraîné sur des données annotées de haute qualité.

## 📊 Jeu de données (PUMA)

- Régions tumorales 
  - 155 mélanomes primaires
  - 155 mélanomes métastatiques
  - Images TIFF H&E à 40x (1024×1024 pixels)
- Annotations de zones en GeoJSON validées par un dermato-pathologiste :
  - Noyaux :
    - Zone : polygone
    - Classe : tumeur, lymphocytes, plasmocytes ... (10 classes)
  - Tissus : tumeur, stroma, épiderme, vaisseaux sanguins ... (5 classes)
    - Zone : polygone(s)
    - Classe : tumeur, épiderme, vaisseaux sanguins ... (5 classes)

Le dataset PUMA (Panoptic segmentation of nUclei and tissue in MelanomA) constitue la première base de données spécifique au mélanome pour la segmentation panoptique des noyaux cellulaires et des tissus :

- Il comprend 155 régions d'intérêt (ROIs) de mélanomes primaires et 155 de mélanomes métastatiques, offrant ainsi un échantillonnage représentatif de la diversité morphologique de cette pathologie.

- Les images sont des coupes histologiques colorées à l'hématoxyline et à l'éosine (H&E), numérisées à un grossissement de 40x avec une résolution de 1024×1024 pixels.

- Chaque ROI est accompagnée d'une ROI contextuelle de 5120×5120 pixels centrée autour d'elle, permettant d'analyser l'environnement tissulaire plus large.

- Les annotations des noyaux cellulaires identifient 10 types distincts : tumeur, lymphocytes, plasmocytes, histiocytes, mélanophages, neutrophiles, cellules stromales, épithélium, endothélium et cellules apoptotiques.

- Les annotations tissulaires comprennent 5 catégories : tumeur, stroma, épithélium, vaisseaux sanguins et zones nécrotiques.

- Toutes les annotations ont été réalisées par un professionnel médical et vérifiées par un dermato-pathologiste certifié, garantissant leur qualité et leur pertinence clinique.

Ce jeu de données unique permet de développer et d'évaluer des modèles spécifiques au mélanome avec un niveau de granularité sans précédent.

## 🖼️ Jeu de données (PUMA)

![./images/6f3736bd-a0f5-42a7-8d54-98852b7e6af1.png](./images/6f3736bd-a0f5-42a7-8d54-98852b7e6af1.png)

## 🎯 Principe

Il y a 2 tâches : 

1. Noyaux cellulaires
   1. Segmentation
   2. Classification (10 classes)
2. Segmentation des tissus
   1. Segmentation
   2. Classification (5 classes)

Pour permettre le diagnostic et le pronostic du mélanome, il est essentiel de segmenter et classifier les noyaux cellulaires et les tissus dans les images histopathologiques.

Il s'agit de deux tâches de segmentation panoptique, où chaque pixel d'une image est classé en fonction de son appartenance à une catégorie spécifique.

Attention, il faut bien faire la différence entre la segmentation panoptique et la segmentation sémantique. 

La segmentation panoptique consiste à segmenter chaque pixel d'une image en lui attribuant une étiquette de classe, tout en tenant compte de la hiérarchie des objets présents dans l'image. En revanche, la segmentation sémantique se concentre uniquement sur l'attribution d'étiquettes de classe aux pixels, sans tenir compte de la hiérarchie ou des relations entre les objets.

Ainsi, il à la fois une tâche de segmentation sémantique (identifier les classes) et une tâche de détection d'objets (identifier les instances).

Il faut donc 2 modèles : un pour la segmentation des noyaux et un pour la segmentation des tissus.

# 2. 🛠️ Méthodologie

1. État de l'art 
2. Prétraitement
3. Entraînement
4. Évaluation
5. Interprétation

La méthodologie de ce projet se décline en plusieurs étapes clés :

1. **État de l'art** : Analyse des méthodes existantes pour la segmentation et la classification des noyaux cellulaires et des tissus dans les images histopathologiques, en mettant l'accent sur les défis spécifiques au mélanome. Cette étape est réalisée en consultant la littérature scientifique et également en demandant à ChatGPT de faire une revue de la littérature sur le sujet.
2. **Prétraitement** : Préparation des données, y compris la normalisation des images, l'augmentation des données et la création de masques d'annotation pour les noyaux et les tissus.
3. **Entraînement** : Entraînement du modèle sur le jeu de données PUMA, en utilisant des techniques d'optimisation et de régularisation pour améliorer la performance.
4. **Évaluation** : Évaluation des performances du modèle sur un ensemble de test indépendant, en utilisant des métriques appropriées pour la segmentation et la classification.
5. **Interprétation** : Analyse des résultats obtenus, identification des forces et des faiblesses du modèle, et discussion des implications cliniques potentielles.

# 3. 💻 Projet

Nous avons essayé les modèles suivants :
- Segmentation et classification des noyaux :
  - CellVit++
- Segmentation et classification des tissus :
  - HoVer-Net
  - nnU-Net

## 🌐 HoVer-Net

Architecture multi-branche :

```mermaid
graph TD
    Entrée[📥 Entrée] -->|🖼️ Image| B["🧠 Encodeur (Ex: ResNet50)"]
    B -->|🔢 Vecteur| C1[🔲 Segmentation binaire]
    B -->|🔢 Vecteur| C2["↔️ Cartes HoVer (H & V)"]
    B -->|🔢 Vecteur| C3[🏷️ Classification des noyaux]

    C1 --> D1[🟣 Carte de segmentation]
    C2 --> D2["🔵 Carte horizontale (H)"]
    C2 --> D3["🟢 Carte verticale (V)"]
    C3 --> D4[🟡 Carte de classification]

    D1 & D2 & D3 --> E[🧩 Identifier les instances de noyaux]
    D4 & E -->|Noyaux segmentés et classifiés| Sortie[📤 Sortie]
```


## ✨ CellVit++

```mermaid
flowchart LR
    Entrée[📥 Entrée] -->|📷 Image| Transformer[🧠 Vision Transformer ]
    Transformer -->|🔢 Vecteur| Classifieur[🎯 Classifieur léger]
    Classifieur -->|Segmentation + classification| Sortie[📤 Sortie]
```

## ✨ CellVit++

Avantanges : 

- ⚡ Adaptabilité : on ne réentraîne que le classifieur (pas le modèle entier)
- 🧪 Génération automatique d’un dataset via images IF (CD3, CD20, etc.) + CellViT++
- Performance EDLA sur 7 jeux de données, même en **zero-shot**
- Comparable aux méthodes lourdes (HoVer-Net, SoftCTM)
- Jusqu'à **90 % de temps de calcul en moins**
- Classifieur entraîné en **< 2 min**
- 🖥️ Interface web interactive (annotation, AutoML)



1. **Architecture de base**  
   - **Encodeur** : un Vision Transformer pré-entraîné (“foundation model” comme HIPT256, UNI, Virchow, SAM-H) qui extrait des « tokens » (vecteurs d’embedding) correspondant à des régions locales de l’image.  
   - **Tête de segmentation** : génère directement un masque instance-par-instance pour chaque noyau/cellule, en parallèle de l’extraction des embeddings, sans coût computationnel supplémentaire .

2. **Extraction et utilisation des embeddings**  
   - À chaque position où une cellule est détectée, on récupère le token du dernier bloc du Transformer (« cell embedding »).  
   - Ces embeddings, riches en information morphologique et texturale, servent de **base pour la classification** des cellules, sans avoir à recouper ou recadrer manuellement chaque cellule.

3. **Module de classification léger et adaptatif**  
   - **Structure** : un petit réseau (une couche cachée + activation ReLU) prend en entrée les embeddings et prédit le type cellulaire (ex : lymphocyte, épithéliale, mitotique, etc.).  
   - **Avantage** : pour un nouveau jeu de classes, seule cette tête de classification est réentraînée sur un petit jeu de données (quelques centaines à milliers d’exemples), laissant l’encodeur et la tête de segmentation inchangés.  
   - **Bénéfices** :  
     - **Zéro-shot** sur nouveaux types de cellules (très bonne segmentation d’emblée).  
     - **Training light** : quelques minutes, faible empreinte carbone.  
     - **Haute data-efficience** : performances SOTA même avec 5–25 % des données classiques .

4. **Workflow et outils associés**  
   - **Génération automatique de jeux de données** via couplage H&E + immunofluorescence (IF) :  
     - Enregistrer un masque binaire IF pour cibler une population cellulaire (ex : CD3 pour lymphocytes).  
     - Aligner (registration) H&E ↔ IF, segmenter avec CellViT++, puis transférer les labels.  
     - Permet de créer de larges jeux de données sans annotation manuelle coûteuse .  
   - **Interface web** pour visualisation, annotation et réentraînement “in the loop” avec un module AutoML intégré, accessible sans infra HPC.


### Sweep Run

![./images/sweep.png](./images/sweep.png)

Avant d'entraîner le modèle final, on a utilisé **Weights & Biases Sweep** pour explorer automatiquement différentes combinaisons d’hyperparamètres. Cette étape est cruciale pour identifier les réglages les plus performants sans avoir à les tester manuellement un par un.

Le sweep a permis de tester plusieurs valeurs pour des paramètres comme le taux d’apprentissage, la taille du batch, les coefficients de régularisation, ou encore les paramètres spécifiques à l’optimiseur. Chaque configuration a été évaluée selon des métriques de validation (AUROC, F1-Score, etc.), et Wandb a automatiquement sélectionné les runs les plus prometteurs.

Grâce à ce processus, j’ai pu **trouver une combinaison d’hyperparamètres optimale**, qui a ensuite été utilisée pour entraîner le modèle final, dont les performances sont présentées dans les graphiques précédents. Cela garantit une meilleure efficacité d’apprentissage et une généralisation plus robuste.

### Hyperparamètres

![./images/resultats_sweep.png](./images/resultats_sweep.png)

Sur cette slide, nous analysons les performances de notre modèle à travers un sweep d’hyperparamètres, avec comme métrique principale l’AUROC sur le jeu de validation.
- **Graphique en haut à gauche** : Évolution de l’AUROC au fil du temps. On observe une progression globale, avec une stabilisation autour de **0.930 à 0.934**, ce qui indique une convergence vers des combinaisons efficaces.
- **Encart à droite** : Importance des hyperparamètres par rapport à l’AUROC. Les plus influents sont :
    - model.hidden_dim (taille des couches cachées),
    - training.optimizer.lr (taux d’apprentissage),
    - training.drop_rate (taux de dropout).
        
On note une **corrélation positive du hidden_dim** et du **dropout**, et une **corrélation négative pour le learning_rate**, indiquant qu’un taux trop élevé dégrade la performance.
        
- **Graphique en bas** : Visualisation parallèle des hyperparamètres. Chaque ligne correspond à un essai, colorée selon la valeur de l’AUROC.
    - Les lignes les plus claires (meilleurs scores) se regroupent autour de certaines plages :
        - hidden_dim autour de 300-450,
        - drop_rate entre 0.2 et 0.4,
        - learning_rate entre 2e-5 et 5e-5.

**Le sweep a permis d’identifier une configuration optimale et de mieux comprendre l’influence de chaque paramètre sur la performance du modèle.


## 🚀 nnU-Net

- Même structure que U-Net classique.
- Ajustements minimes :  
  - **Leaky ReLU** à la place du **ReLU**  
  - Instance Normalization au lieu de BatchNorm  
- Tout se joue dans le **pipeline automatique** :  
  - pré-traitement,  
  - entraînement,  
  - inférence,  
  - post-traitement.

## 🚀 U-Net

1. **Chemin de contraction**
   - Séries de blocs : (Conv 3×3 → ReLU) ×2 → MaxPool 2×2  
   - À chaque pooling, on double le nombre de canaux.  
2. **Chemin d'expansion**
   - Up-convolution 2×2 (halving des canaux)  
   - **Skip connection** : concatène la carte de la couche correspondante du contratant  
   - (Conv 3×3 → ReLU) ×2  
3. **Sortie**  
   - Conv 1×1 : Carte de segmentation pixel-wise  
4. **Tiling & overlap-tile strategy** pour traiter de grandes images

Le U-Net capture à la fois le contexte global (contracting) et la localisation fine (expansive).


## 🚀 nnU-Net

Avantages :

✅ nnU-Net = pipeline automatique, pas de nouvelle architecture  
✅ Généralise très bien à des cas variés  
✅ Montre que le **contexte d'entraînement** est souvent plus critique que l’architecture elle-même

🧪 Idéal pour benchmark, pré-entraînement, ou compétition

# 4. 📈 Résultats

## ✨ CellVit++

![./images/best_run.png](./images/best_run.png)

Voici l’évolution des principales métriques pour notre modèle CellViT-SAM-H sur 50 étapes d'entraînement. On observe d’abord une baisse régulière de la perte d'entraînement, signe que le modèle apprend efficacement à partir des données.

Du côté de la validation, la perte diminue nettement au début puis se stabilise, avec une légère hausse après l’étape 10, ce qui indique un début de surapprentissage. Malgré cela, les métriques de performance restent très solides : l’AUROC dépasse 0.93, ce qui montre une très bonne capacité à distinguer les classes. Le F1-Score se stabilise autour de 0.767, ce qui traduit un bon équilibre entre précision et rappel. Enfin, la précision moyenne (Average Precision) progresse rapidement avant de se stabiliser autour de 0.445, ce qui reste un très bon score pour ce type de tâche.

En résumé, le modèle montre une excellente capacité d’apprentissage et de généralisation, avec un léger surapprentissage à surveiller. Un arrêt anticipé de l'entraînement autour de l’étape 15 à 20 pourrait permettre d’optimiser encore davantage la performance sur données de validation.

## 🌐 HoVer-Net

## 🚀 nnU-Net

Impossible de lancer un apprentissage : 
  - Environnement incompatible ?
  - Dépendances ?

Dépannage compliqué car aucun message d'erreur (processus bloqué).

```sh
Date: Tue Apr 29 12:41:03 PM CEST 2025
Noeud: juliet4
Job ID: 22392
Partition: mesonet
Compte: m25031
GPUs alloués: 0
nnUNet_preprocessed set to: /home/alanneraud/Deep_learning_project/nnunet/nnUNet_preprocessed
nnUNet_raw set to: /home/alanneraud/Deep_learning_project/nnunet/nnUNet_raw
nnUNet_results set to: /home/alanneraud/Deep_learning_project/nnunet/nnUNet_results
Activation de l'environnement uv: /home/alanneraud/Deep_learning_project/nnunet/.venv
Python 3.10.17
PyTorch et nnUNet (avec trainer custom) sont supposés être installés dans l'environnement uv.
Vérification de la disponibilité du GPU via PyTorch...
PyTorch version: 2.7.0+cu126
CUDA available: True
Device count: 1
Current device: 0
Device name: NVIDIA A100-SXM4-80GB
Fin de la vérification PyTorch GPU.
Étape 5: Lancement du pré-entraînement (Task 2 - NSCLC) avec nnUNetTrainerIgnoreIndex et plans nnUNetPlans_pretrain...
```

Concernant l’entraînement de nnU-Net, il nous a été impossible de lancer un entraînement car il se mettait à freeze.

# 5. ✅ Conclusion

## 🤔 Critique

- **Occupation des nœuds :**
  - Queue d'attente importante
  - Plantage partiel de `juliet2` et `juliet4`
- **Qualité de l'implémentation des modèles :**
  - Gestion insuffisante des erreurs.
  - Manque de clarté et de robustesse du code.
- **Stabilité et dépendances des modèles :**
  - Difficultés liées à la gestion des versions des librairies.
  - Instabilité potentielle des environnements d'exécution.
- **Maintenance et support des modèles :**
  - Peu de suivi des problèmes signalés (issues).
  - Manque de réactivité sur les contributions (pull requests).

Au cours de ce projet, l'exploitation des modèles existants a présenté plusieurs défis.

1. la gestion des ressources informatiques a été problématique. La queue d'attente pour accéder aux nœuds de calcul était souvent longue, ce qui a entraîné des retards dans le démarrage des expériences. De plus, le nœud `juliet2` a rencontré des problèmes de stabilité, il était impossible d'utiliser les ressources graphiques sur ce dernier, tandis que le nœud `juliet4` a été partiellement bloqué par une tâche qui ne se termine jamais.

2. La qualité de l'implémentation de certains outils s'est avérée perfectible. Par exemple, une gestion limitée des exceptions a entraîné des arrêts inattendus du programme, parfois sans message d'erreur explicite, compliquant le débogage.

3. La stabilité des modèles a été affectée par une gestion imprécise des dépendances. Il a fallu tester itérativement différentes versions de librairies pour assurer la compatibilité et le bon fonctionnement, ce qui a ralenti le processus de développement.

4. Le manque de maintenance active et de support communautaire pour certains des outils utilisés a été un frein. Les problèmes signalés par la communauté (issues GitHub) restent souvent sans réponse, et les propositions d'amélioration (pull requests) ne sont pas intégrées, ce qui soulève des questions sur la pérennité et la fiabilité à long terme de ces outils.

## 🌍 Impact

- **Environnemental :**
  - Fabrication des puces
  - Consommation énergétique

- **Politique :** 
  - Indépendance sur la fabrication des machines de lithographie 
  - Dépendance à l'égard de Taïwan (TSMC) pour la fabrication des puces
  - Dépendance à l'égard de la Chine pour les terres rares
  - Dépendance à l'égard des États-Unis pour les logiciels et les licences (ROCm et CUDA)

- **Sociétal :**
  - Amélioration du diagnostic/pronostic
  - Optimisation du flux de travail
  - Aide à la décision thérapeutique
  - Potentiel de réduction des coûts

Enfin, abordons l'impact de ce type de projet et des technologies sous-jacentes.

Sur le plan **environnemental**, 
1. il faut considérer l'empreinte liée à la fabrication des puces électroniques. Cela inclut l'extraction et la purification de grandes quantités de silicium, issu du sable, pour créer les *wafers* sur lesquels sont gravées les puces mémoire (VRAM) et les processeurs graphiques (GPU). La fabrication des GPU est particulièrement gourmande : leurs *dies* (les puces individuelles) sont très larges, ce qui augmente le taux de perte lors de la découpe des *wafers*.
2. À cela s'ajoute la consommation énergétique significative des usines de fabrication (*fabs*), des centres de données et des phases d'entraînement des modèles.

D'un point de vue **politique et économique**, observons une forte dépendance géostratégique.
1. La production des puces de pointe est concentrée à Taïwan avec TSMC.
2. L'approvisionnement en terres rares, essentielles, dépend largement de la Chine.
3. Les logiciels et écosystèmes comme CUDA ou ROCm sont majoritairement américains.
4. Cependant, l'Europe détient un avantage stratégique majeur avec l'entreprise néerlandaise ASML, qui produit les machines de lithographie EUV (Extreme Ultraviolet) indispensables à la gravure des semi-conducteurs les plus avancés et utilisées par tous les grands fondeurs mondiaux.

Cependant, l'impact le plus direct et positif se situe au niveau **clinique et sociétal**.
1. Ces outils ont le potentiel d'améliorer significativement la précision et la reproductibilité du diagnostic et du pronostic du mélanome.
2. Ils peuvent optimiser le flux de travail des pathologistes, leur permettant de se concentrer sur les cas les plus complexes.
3. En fournissant une analyse plus fine, ils constituent une aide précieuse à la décision thérapeutique, notamment pour prédire la réponse à l'immunothérapie.
4. À terme, cela pourrait même contribuer à une réduction des coûts de santé en évitant des traitements inefficaces.