# La propagation de labels, ou l'art de juger une image par ses voisins 

Bienvenue dans cette nouvelle exp√©rience ! Dans le chapitre pr√©c√©dent sur le pseudo-labeling, on a vu que notre mod√®le pouvait devenir un peu trop s√ªr de lui et finir par tourner en rond, en se confortant dans ses propres erreurs. C'est le fameux **biais de confirmation** ! 

> C'est comme ne parler qu'√† des gens qui sont d'accord avec vous : on n'apprend plus rien de nouveau.

**Nos objectifs de super-d√©tective :**
1.  **Recruter un expert** : Charger le mod√®le qu'on a p√©niblement entra√Æn√© au pseudo-labeling pour qu'il nous aide.
2.  **Cartographier le terrain** : Utiliser cet expert pour extraire l'ADN de chaque image (ses *embeddings*).
3.  **Tisser une toile** : Construire un graphe o√π chaque image est un n≈ìud, connect√© √† ses plus proches voisins.
4.  **Laisser la magie op√©rer** : Regarder les √©tiquettes de nos 350 images connues se propager √† travers la toile pour deviner les autres.
5.  **Comparer les r√©sultats** : Est-ce que cette m√©thode de 'sagesse des foules' est meilleure que de faire confiance √† un seul mod√®le ? Le suspense est √† son comble !

## 1. Pr√©paration du terrain : on reprend (presque) les m√™mes !

On commence par importer nos outils et pr√©parer notre jeu de donn√©es `DermaMNIST`. On va recr√©er notre sc√©nario de d√©part : 350 images √©tiquet√©es (50 par classe) et des milliers d'autres qui attendent d'√™tre identifi√©es.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import DataLoader, TensorDataset, Subset
from torchvision import transforms
import torchvision.models as models
import medmnist
from medmnist import INFO, Evaluator
from sklearn.model_selection import train_test_split
from tqdm import tqdm
from sklearn.semi_supervised import LabelSpreading
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, ConfusionMatrixDisplay, roc_auc_score

# Pour la reproductibilit√©, parce qu'on est des gens s√©rieux
torch.manual_seed(42)
np.random.seed(42)

In [2]:
# Chargement des donn√©es
data_flag = 'dermamnist'
info = INFO[data_flag]
n_classes = len(info['label'])
n_channels = info['n_channels']
DataClass = getattr(medmnist, info['python_class'])

# Transformations standard
data_transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize(mean=[.5], std=[.5])])

# On charge le jeu d'entra√Ænement complet et le jeu de test
train_dataset = DataClass(split='train', transform=data_transform, download=True)
test_dataset = DataClass(split='test', transform=data_transform, download=True)

# On recr√©e notre situation de d√©part : 50 images par classe √©tiquet√©es, et le reste en attente
all_indices = list(range(len(train_dataset)))
labels_array = np.array(train_dataset.labels).flatten()

# S√©lectionner 50 images par classe
labeled_indices = []
for c in range(n_classes):
    class_indices = np.where(labels_array == c)[0]
    selected = np.random.choice(class_indices, min(50, len(class_indices)), replace=False)
    labeled_indices.extend(selected)

# Les indices non √©tiquet√©s sont le reste
unlabeled_indices = list(set(all_indices) - set(labeled_indices))

print(f'Taille totale du jeu d\'entra√Ænement : {len(train_dataset)} images')
print(f'Donn√©es √©tiquet√©es (nos indics ) : {len(labeled_indices)} images')
print(f'Donn√©es non-√©tiquet√©es (les myst√®res √† r√©soudre ) : {len(unlabeled_indices)} images')

Taille totale du jeu d'entra√Ænement : 7007 images
Donn√©es √©tiquet√©es (nos indics ) : 350 images
Donn√©es non-√©tiquet√©es (les myst√®res √† r√©soudre ) : 6657 images


---

## 2. Recruter notre expert : le mod√®le du chapitre pr√©c√©dent

Pour que la propagation de labels fonctionne, on a besoin de 'sentir' la similarit√© entre les images. Utiliser les pixels bruts serait un d√©sastre ! 

On va donc faire appel √† un sp√©cialiste : le `SimpleCNN` qu'on a entra√Æn√© dans le notebook `P1C3`. M√™me s'il n'√©tait pas parfait, il a d√©j√† appris √† extraire des caract√©ristiques pertinentes des images de peau. On va lui demander de nous fournir les **embeddings** : une sorte de r√©sum√© num√©rique, ou d'ADN, pour chaque image.

In [9]:
# On d√©finit l'architecture de notre CNN. 
# ATTENTION : Elle doit √™tre IDENTIQUE √† celle du mod√®le sauvegard√© !
device = "cpu"
class SimpleCNN(nn.Module):
    def __init__(self, in_channels, num_classes):
        super(SimpleCNN, self).__init__()
        self.layer1 = nn.Sequential(
            nn.Conv2d(in_channels, 16, kernel_size=3, padding=1),
            nn.BatchNorm2d(16),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2))
        self.layer2 = nn.Sequential(
            nn.Conv2d(16, 32, kernel_size=3, padding=1),
            nn.BatchNorm2d(32),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2))
        # Pour correspondre exactement au mod√®le de P1C3
        self.fc = nn.Linear(7 * 7 * 32, num_classes)

    def forward(self, x, return_features=False):
        out = self.layer1(x)
        out = self.layer2(out)
        out = out.view(out.size(0), -1)
        if return_features:
            return out  # Retourne les features avant la classification (dimension 1568)
        out = self.fc(out)
        return out

model = SimpleCNN(in_channels=n_channels, num_classes=n_classes)
model_path = 'dermamnist_ssl_model.pth'

try:
    state_dict = torch.load(model_path, map_location="cpu")
    # Les noms de couches correspondent exactement, on charge tout
    model.load_state_dict(state_dict)
    print(f'‚úÖ Mod√®le charg√© depuis : {model_path}')
except FileNotFoundError:
    print(f'üö® Oups ! Le fichier {model_path} est introuvable.')
    print('Veuillez d\'abord ex√©cuter le notebook P1C3 pour entra√Æner et sauvegarder le mod√®le.')
    raise

# On passe le mod√®le sur le bon appareil et en mode √©valuation
model.to("cpu")
model.eval()

‚úÖ Mod√®le charg√© depuis : dermamnist_ssl_model.pth


SimpleCNN(
  (layer1): Sequential(
    (0): Conv2d(3, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (2): ReLU()
    (3): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (layer2): Sequential(
    (0): Conv2d(16, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (2): ReLU()
    (3): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (fc): Linear(in_features=1568, out_features=7, bias=True)
)

---

## 3. Extraction des 'coordonn√©es GPS' (embeddings) 

Maintenant que notre expert est pr√™t, on va le faire passer sur **toutes** les images de notre jeu d'entra√Ænement (√©tiquet√©es ou non) pour obtenir leurs fameux embeddings. C'est comme cr√©er une carte d'identit√© pour chaque image.

In [10]:
def get_embeddings(model, dataset, device):
    """Extrait les embeddings d'un dataset en utilisant un mod√®le."""
    model.eval()
    embeddings = []
    loader = DataLoader(dataset, batch_size=256, shuffle=False, num_workers=2)
    
    with torch.no_grad():
        for images, _ in tqdm(loader, desc='Extraction des embeddings'):
            images = images.to(device)
            feats = model(images, return_features=True)
            embeddings.append(feats.cpu().numpy())
            
    return np.vstack(embeddings)

# On extrait les embeddings en utilisant notre mod√®le
all_embeddings = get_embeddings(model, train_dataset, "cpu")

print(f'\nExtraction termin√©e ! On a obtenu {all_embeddings.shape[0]} embeddings de dimension {all_embeddings.shape[1]}.')

Extraction des embeddings: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 28/28 [00:03<00:00,  8.14it/s]


Extraction termin√©e ! On a obtenu 7007 embeddings de dimension 1568.





---

## 4. La propagation des rumeurs (de labels) 

C'est le moment que vous attendiez tous ! On va utiliser l'algorithme `LabelSpreading` de scikit-learn.

Comment √ßa marche ?
1. Il prend tous nos embeddings et construit un graphe de similarit√© (notre fameuse toile ).
2. On lui donne les 350 √©tiquettes qu'on conna√Æt. Pour les autres, on met une √©tiquette sp√©ciale : `-1` (qui veut dire 'Je ne sais pas').
3. L'algorithme va alors 'propager' l'influence des √©tiquettes connues √† leurs voisins, puis aux voisins de leurs voisins, jusqu'√† ce que chaque image ait une √©tiquette probable.

C'est un processus d√©mocratique o√π chaque image est influenc√©e par sa communaut√© !

In [11]:
# On pr√©pare le tableau des labels pour l'algorithme
labels_for_spreading = np.full(len(train_dataset), -1, dtype=int)
labels_for_spreading[labeled_indices] = labels_array[labeled_indices]

print(f'Verification : {np.sum(labels_for_spreading != -1)} labels sont connus. Parfait !')

# On instancie le mod√®le LabelSpreading
label_spreading_model = LabelSpreading(kernel='knn', n_neighbors=10, n_jobs=-1)

print('Propagation des labels en cours... C\'est le moment d\'aller prendre un caf√© ')
label_spreading_model.fit(all_embeddings, labels_for_spreading)
print('Propagation termin√©e ! Voyons ce qu\'on a trouv√©.')

# On r√©cup√®re les labels pr√©dits pour l'ensemble du dataset
predicted_labels = label_spreading_model.transduction_

# On r√©cup√®re les probabilit√©s pr√©dites pour l'AUC
predicted_probs = label_spreading_model.predict_proba(all_embeddings)

Verification : 350 labels sont connus. Parfait !
Propagation des labels en cours... C'est le moment d'aller prendre un caf√© 
Propagation termin√©e ! Voyons ce qu'on a trouv√©.


---

## 5. Le verdict : alors, √ßa a march√© ? 

Le mod√®le a rempli tous les trous et a attribu√© une √©tiquette √† chaque image. Mais est-ce que ces pr√©dictions sont bonnes?

Pour le savoir, on va comparer les √©tiquettes pr√©dites pour les donn√©es *initialement non-√©tiquet√©es* avec leurs vraies √©tiquettes (qu'on avait cach√©es). C'est l'heure de v√©rit√© !

In [12]:
from torch.utils.data import Dataset

# Cr√©er un dataset personnalis√© avec les labels propag√©s
class PropagatedDataset(Dataset):
    def __init__(self, dataset, labels):
        self.dataset = dataset
        self.labels = labels

    def __len__(self):
        return len(self.dataset)

    def __getitem__(self, idx):
        img, _ = self.dataset[idx]  # Ignore les labels d'origine, img est d√©j√† un tenseur transform√©
        label = self.labels[idx]
        return img, label

# Cr√©er le nouveau dataset avec les labels propag√©s
train_dataset_propagated = PropagatedDataset(train_dataset, predicted_labels)

# Cr√©er un DataLoader pour l'entra√Ænement
train_loader_propagated = DataLoader(train_dataset_propagated, batch_size=32, shuffle=True, num_workers=2)

In [14]:
def train_and_evaluate(model, train_loader, test_loader, optimizer, criterion, epochs=10):
    """
    Entra√Æne et √©value un mod√®le. Retourne (AUC, ACC, F1).
    Si des listes globales metrics_auc/metrics_acc/metrics_f1 existent, y ajoute les scores.
    """
    device = next(model.parameters()).device

    for epoch in range(epochs):
        model.train()
        for images, labels in train_loader:
            images = images.to(device)
            labels = labels.squeeze().long().to(device)
            optimizer.zero_grad()
            outputs = model(images)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()

    # √âvaluation
    model.eval()
    y_true = torch.tensor([]).to(device)
    y_score_logits = torch.tensor([]).to(device)
    y_score_preds = torch.tensor([]).to(device)
    with torch.no_grad():
        for images, labels in test_loader:
            images = images.to(device)
            labels = labels.to(device)
            outputs = model(images)
            y_true = torch.cat((y_true, labels), 0)
            y_score_logits = torch.cat((y_score_logits, outputs), 0)
            preds = torch.argmax(outputs, dim=1)
            y_score_preds = torch.cat((y_score_preds, preds), 0)

    y_true = y_true.squeeze().cpu().numpy()
    y_score_logits = y_score_logits.detach().cpu().numpy()
    y_score_preds = y_score_preds.detach().cpu().numpy()

    evaluator = Evaluator(data_flag, 'test')
    auc, acc = evaluator.evaluate(y_score_logits)
    f1 = f1_score(y_true, y_score_preds, average='macro')

    try:
        metrics_auc.append(auc)
        metrics_acc.append(acc)
        metrics_f1.append(f1)
    except NameError:
        pass

    print(f'AUC: {auc:.3f}, Accuracy: {acc:.3f}, F1: {f1:.3f}')
    return (auc, acc, f1)

In [15]:
# D√©finir la fonction de perte et l'optimiseur
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

print("Entra√Ænement du mod√®le de base sur images √©tiquet√©es avec labels propag√©s...")
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=True, num_workers=2)
metrics = train_and_evaluate(model, train_loader_propagated, test_loader, optimizer, criterion)

print('Entra√Ænement termin√© !')

Entra√Ænement du mod√®le de base sur images √©tiquet√©es avec labels propag√©s...
AUC: 0.504, Accuracy: 0.319, F1: 0.316
Entra√Ænement termin√© !


## 6. Conclusion et questions pour la suite 

Dans ce run, la propagation de labels sur des embeddings issus d‚Äôun petit `SimpleCNN` n‚Äôa pas surpass√© la boucle de pseudo‚Äëlabeling. C‚Äôest un r√©sultat fr√©quent quand les embeddings sont encore ¬´ jeunes ¬ª et que le graphe n‚Äôest pas optimis√©. Cela ne remet pas en cause l‚Äôint√©r√™t de la m√©thode‚ÄØ: la propagation reste une technique utile pour exploiter la structure globale des donn√©es et compl√©ter le pseudo‚Äëlabeling.

La propagation de labels est puissante car elle exploite la **structure globale** des donn√©es, au lieu de se fier aux pr√©dictions isol√©es et parfois trop confiantes d'un seul mod√®le. 

**Mais on peut encore faire mieux ! Voici quelques questions pour ouvrir sur les prochains chapitres :**

1. **La qualit√© des embeddings** : On a utilis√© un petit CNN entra√Æn√© sur peu de donn√©es. Que se passerait-il si on utilisait un mod√®le beaucoup plus puissant, comme un **ResNet pr√©-entra√Æn√© sur des millions d'images (ImageNet)**, pour extraire nos embeddings ? La carte serait-elle plus pr√©cise ?

2. **Et si on cr√©ait de fausses images ?** On manque de donn√©es √©tiquet√©es. Et si, au lieu de deviner des labels, on demandait √† une IA de nous **g√©n√©rer de nouvelles images** de l√©sions cutan√©es qui ressemblent aux vraies ? C'est le monde fascinant des **GANs (Generative Adversarial Networks)** que nous explorerons bient√¥t !

3. **Le meilleur des deux mondes ?** Peut-on combiner le pseudo-labeling et les approches par graphe ? (Indice : oui, et ce sont souvent les m√©thodes les plus performantes !)