# Mission - Analysez des images médicales avec des méthodes semi-supervisées

Vous êtes Data Scientist junior spécialisé en Computer Vision au sein de CurelyticsIA, une startup innovante dans le domaine de la e-santé. L’entreprise développe des solutions basées sur l’intelligence artificielle pour assister les professionnels de santé dans l’analyse d’images médicales, en particulier des IRM.
 
Dans le cadre d’un nouveau projet R&D, CurelyticsIA souhaite explorer la possibilité d’automatiser la détection de tumeurs du cerveau. Un ensemble conséquent de radios a été collecté : la majorité de ces images ne dispose d’aucun étiquetage, tandis qu’un sous-ensemble limité a été annoté par des radiologues experts.
 
Vous êtes chargé de concevoir une première exploration analytique du jeu de données. Plus précisément, votre mission est de :
- Explorer les images et extraire des caractéristiques visuelles via un modèle pré-entraîné ;
- Appliquer des méthodes de clustering pour identifier des structures ou regroupements dans les données ;
- Mettre en œuvre une méthode d’apprentissage semi-supervisé à partir des quelques étiquettes disponibles ;
- Synthétiser vos résultats, formuler des recommandations, et les présenter à votre équipe projet.

**Mail à prendre en compte :**

Comme discuté lors de notre dernière réunion, tu es assigné à la première phase du projet BrainScanAI. Tu trouveras en pièce jointe un fichier zip contenant :
- Le jeu de données de radiographies (en format PNG + métadonnées anonymisées),
- Une documentation technique sur le format des images ;
- Une liste restreinte de labels annotés par nos partenaires hospitaliers (normal/cancéreux). 

Pour info, notre budget actuel pour la labellisation par IA est de 300 euros pour ce dataset. 

Tes objectifs :
1) Extraire des caractéristiques visuelles pertinentes à l’aide d’un modèle pré-entraîné (type ResNet ou équivalent).
2) Réaliser un clustering exploratoire pour identifier des regroupements naturels.
3) Mettre en œuvre une méthode semi-supervisée en exploitant les labels partiels pour prédire les étiquettes manquantes.
4) Proposer des livrables au format Notebook contenant :
    - l’extraction des features
    - le preprocessing adapté au(x) modèle(s) utilisés
    - l’analyse non-supervisée (.ipynb)
    - l’entraînement de modèles de clustering
    - l’approche semi-supervisée (.ipynb)
 
Ces livrables doivent être accompagnés d’un support de présentation proposant des recommandations techniques pour un passage à l’échelle (budget de 5 000 euros pour 4 millions d’images à labelliser). Est-ce que ce passage te paraît faisable et si oui, sous quelles conditions ?

5) Rédiger une synthèse de ton approche et de tes résultats dans un support de présentation. Les contraintes :
    - Travailler en Python.
    - Tester plusieurs algorithmes.
    - Avoir des métriques pertinentes en fonction de l’erreur la plus importante (F1, Acc, Précision, ou autre ?).
    - Clairement définir ce que tu considères comme un objectif atteint (“definition of done”).


# Étape 2 - Prétraitez et extrayez les features
Préparez les images (redimensionnement, normalisation) et utilisez un modèle pré-entraîné (ex : ResNet) pour extraire des embeddings visuels.
 
**Prérequis**
- Avoir nettoyé et formaté les données image.
- Avoir compris le fonctionnement des CNNs.

**Résultat attendu** 
- Vecteurs de features pour chaque image, sauvegardés dans un tableau exploitable.

**Recommandations**
- Geler les couches convolutionnelles.
- Évaluer plusieurs couches d’extraction si besoin.

**Outils**
- Torchvision
- TensorFlow
- Transforms
- Numpy 
- Pandas 
- Matplotlib
- Opencv-python


## Importation des librairies

In [1]:
# Librairies de base
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Librairies spécifiques
import os # permet de travailler avec le système de fichiers
from PIL import Image # ouvrir et manipuler des images

# Librairies PyTorch
import torchvision
import torch
from torchvision import transforms # pour effectuer les changements de format, entre autres
from torchvision.models import resnet18, ResNet18_Weights # chargement du modèle ResNet 50
import torch.nn as nn

device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # pour l'application de la couche layer3 du ResNet50

### Pour extraire les embeddings de nos images, nous devons faire quelques transformations sur celles-ci afin de respecter la documentation de ResNet (modèle pré-entaîné utilisé ici). Nous avons suivi cette dernière pour transformer nos images médicales :
- https://pytorch.org/hub/pytorch_vision_resnet/

#### Preprocess afin :
* de réduire la taille
* de les transformer en tensor
* de les normaliser 
* pour respecter les attentes du ResNet

In [2]:
preprocess = transforms.Compose([
    transforms.Resize(256), # car entraînement ImageNet sur la taille 256
    transforms.CenterCrop(224), # ResNet a été entraîné sur du 224x224
    transforms.ToTensor(), # transformation de l'image PIL en tensor PyTorch
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) # normalisation du RGB selon les stats ResNet
])

#### Choix du modèle pré-entrâiné - ResNet18 avec application de l'avant dernière couche
* Les filtres des convolutions, les biais, etc. sont déjà appris.
* Le modèle sait déjà extraire des caractéristiques visuelles utiles (bords, textures, formes, objets).
* On utilise **model.fc = nn.Identity()** afin d'utiliser l'avant dernière couche pour ne pas générer la classification mais avoir uniquement les embeddings par image.

In [3]:
model = resnet18(weights=ResNet18_Weights.IMAGENET1K_V1) #18 fait référence au nombre de couches
model.fc = nn.Identity()
model.eval()

ResNet(
  (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (relu): ReLU(inplace=True)
  (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  (layer1): Sequential(
    (0): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
    (1): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
  

#### Fonction pour appliquer le preprocess/le model et l'enregistrement des vecteurs dans une liste à l'ensemble des dossiers

In [4]:
def extract_embeddings(folder_path):
    """ Génération des embeddings ET des filenames pour garder l'ordre exact """
    
    embeddings = []     # liste de vecteurs
    filenames = []      # liste des noms des fichiers dans le même ordre
    total = 0

    for img_name in sorted(os.listdir(folder_path)):  # sorted = ordre stable
        img_path = os.path.join(folder_path, img_name)

        img = Image.open(img_path).convert("RGB")
        input_tensor = preprocess(img)
        input_batch = input_tensor.unsqueeze(0)

        with torch.no_grad():
            emb = model(input_batch)
            emb = emb.squeeze(0)
        
        embeddings.append(emb.numpy())
        filenames.append(img_name)
        total += 1

    print(f"Nombre d'images : {total}")
    print(f"Shape embedding : {embeddings[0].shape}")

    return embeddings, filenames


#### Application sur le dossier normal

In [5]:
embeddings_normal, filenames_normal = extract_embeddings("../mri_dataset_brain_cancer_oc/avec_labels/normal")


Nombre d'images : 50
Shape embedding : (512,)


* On retrouve nos 50 images mais avec nos 2048 caractéristiques

#### Application sur le dossier cancer

In [7]:
embeddings_cancer, filenames_cancer  = extract_embeddings("../mri_dataset_brain_cancer_oc/avec_labels/cancer")

Nombre d'images : 50
Shape embedding : (512,)


* On retrouve nos 50 images mais avec nos 2048 caractéristiques

#### Application sur le dossier sans label

In [6]:
embeddings_sans_label, filenames_sans_label = extract_embeddings("../mri_dataset_brain_cancer_oc/sans_label")

Nombre d'images : 1406
Shape embedding : (512,)


* On retrouve nos 1406 images mais avec nos 2048 caractéristiques

### Enregistrement en DataFrame, on constitue nos jeux de données

In [8]:
df_unlabeled = pd.DataFrame(embeddings_sans_label)
df_unlabeled["filename"] = filenames_sans_label

#### On identifie les labels : 0 pour normal et 1 pour cancer

In [9]:
df_normal = pd.DataFrame(embeddings_normal)
df_normal["label"] = 0
df_normal["filename"] = filenames_normal

df_cancer = pd.DataFrame(embeddings_cancer)
df_cancer["label"] = 1
df_cancer["filename"] = filenames_cancer

#### On rassemble nos 2 jeux labellisés

In [10]:
df_labeled = pd.concat([df_normal, df_cancer], ignore_index=True)

#### Sauvegarde des DataFrame

In [11]:
df_labeled.to_csv("../data/processed/df_labeled_resnet18.csv", index=False)
df_unlabeled.to_csv("../data/processed/df_unlabeled_resnet18.csv", index=False)

### À des fins de comparaison, on va utiliser de nouveau le modèle pré-entrâiné - ResNet50 avec application de la couche layer3 (res4)
* Objectif : récupérer une couche moins abstraite que l'avant dernière couche.
* **Couches basses (près de l’entrée)** : features “peu abstraites”. Elles capturent des choses simples et locales :
    - bords
    - coins
    - textures fines
    - motifs locaux
    - Exemple : détecter "une petite zone lumineuse".
* Layer3 se trouve dans cette zone -> features locales, moins conceptuelles.

* **Couches hautes (layer4 / fc)** : features “abstraites”. Elles capturent :
    - la forme globale
    - les parties de l’objet
    - la structure anatomique
    - des concepts visuels complexes
* On les appelle “abstraites” car elles sont loin des pixels et proches du concept.

#### On commence par mettre en place le modèle

In [12]:
model = resnet18(weights=ResNet18_Weights.IMAGENET1K_V1) # Charge ResNet50 pré-entraîné sur ImageNet
model = model.to(device) # Envoie le modèle sur GPU si disponible, sinon CPU
model.eval() # Met le modèle en mode évaluation (désactive dropout, batchnorm training)

ResNet(
  (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (relu): ReLU(inplace=True)
  (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  (layer1): Sequential(
    (0): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
    (1): BasicBlock(
      (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU(inplace=True)
  

#### Fonction pour récupérer les caractéristiques de la couche layer3

In [15]:
layer3_output = None # Variable globale où sera stockée la sortie de layer3

def hook(module, input, output): # Son rôle : stocker les features de layer3 avant la suite du réseau
    global layer3_output # On dit que layer3_output est une variable globale
    layer3_output = output # Le hook copie la sortie de layer3 dans layer3_output

# On attache le hook
handle = model.layer3.register_forward_hook(hook) # handle est un objet qui représente le hook en mémoire

#### Transformation pour être utilisé par la suite dans nos analyses

In [16]:
gap = nn.AdaptiveAvgPool2d((1, 1)) # Pooling global pour transformer (C,H,W) -> (C)

#### Fonction pour appliquer le preprocess/le model et l'enregistrement des vecteurs dans une liste à l'ensemble des dossiers

In [None]:
def extract_layer3_features(model, folder, preprocess):
    """
    Extrait les features de la couche layer3 de ResNet50 pour toutes les images d'un dossier.
    
    model : modèle ResNet18 déjà chargé + hook déjà attaché
    folder : dossier contenant les images
    preprocess : transformations torchvision (Resize, ToTensor, Normalize)
    """

    features = []
    filenames = []

    # Parcours des images du dossier
    for img_name in os.listdir(folder):
        if not img_name.lower().endswith((".png", ".jpg", ".jpeg")):
            continue

        img_path = os.path.join(folder, img_name)

        # Chargement de l'image
        img = Image.open(img_path).convert("RGB")
        
        # Prétraitement
        x = preprocess(img).unsqueeze(0).to(device)

        # Forward -> le hook récupère layer3_output automatiquement
        with torch.no_grad():
            _ = model(x)

        # GAP -> vecteur 1D
        vect = gap(layer3_output).squeeze().cpu().numpy()

        # Stockage
        features.append(vect)
        filenames.append(img_name)

    # Construction du DataFrame
    df = pd.DataFrame(features)

    return df


#### Application de la fonction sur nos différents jeu de données

In [18]:
df_normal_layer3 = extract_layer3_features(model, "../mri_dataset_brain_cancer_oc/avec_labels/normal", preprocess)
df_cancer_layer3 = extract_layer3_features(model, "../mri_dataset_brain_cancer_oc/avec_labels/cancer", preprocess)
df_unlabeled_layer3 = extract_layer3_features(model, "../mri_dataset_brain_cancer_oc/sans_label", preprocess)

#### Création des colonnes avec les labels

In [19]:
df_normal_layer3["label"] = 0
df_cancer_layer3["label"] = 1

In [20]:
df_labeled_layer3 = pd.concat([df_normal_layer3, df_cancer_layer3], ignore_index=True)

#### Sauvegarde des données en csv

In [21]:
df_labeled_layer3.to_csv("../data/processed/df_labeled_resnet18_layer3.csv", index=False)
df_unlabeled_layer3.to_csv("../data/processed/df_unlabeled_resnet18_layer3.csv", index=False)

#### On enlève le suivi du handle

In [22]:
handle.remove()