# ðŸ““ Notebook POC : Benchmark Scientifique (IoU & Latence)

## 1. Contexte et Objectifs
**Objectif :** Ã‰valuer quantitativement la prÃ©cision (IoU) et la vitesse de deux modÃ¨les de dÃ©tourage sur un jeu de donnÃ©es rÃ©el.
**Dataset :** [Human Parsing Dataset](https://huggingface.co/datasets/mattmdjaga/human_parsing_dataset) (Images contenant des humains + Masques de segmentation segmentÃ©s par parties du corps).

**ModÃ¨les comparÃ©s :**
1.  **DeepLabV3 (Baseline 2017) :** Segmentation sÃ©mantique classique.
2.  **RMBG-1.4 (SOTA 2024) :** Segmentation saillante optimisÃ©e pour le dÃ©tourage.

In [7]:
import torch
import time
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from PIL import Image
from torchvision import transforms
from torchvision.models.segmentation import deeplabv3_resnet101, DeepLabV3_ResNet101_Weights
from transformers import AutoModelForImageSegmentation
from datasets import load_dataset

# Configuration du device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Environnement d'exÃ©cution : {device}")

# --- Chargement du Dataset ---
print("TÃ©lÃ©chargement du dataset...")

# Le dataset n'a qu'un split 'train', on le charge
dataset_full = load_dataset("mattmdjaga/human_parsing_dataset", split="train")

# On simule un split de test en prenant un Ã©chantillon alÃ©atoire (ex: 20% ou juste 50 images pour le POC)
# Pour aller vite, on va juste piocher alÃ©atoirement dans le dataset complet plus tard
print(f"Dataset chargÃ©. Nombre total d'images disponibles : {len(dataset_full)}")
dataset = dataset_full # On garde la rÃ©fÃ©rence

Environnement d'exÃ©cution : cpu
TÃ©lÃ©chargement du dataset...
Dataset chargÃ©. Nombre total d'images disponibles : 17706


## 3. PrÃ©paration des MÃ©triques et Utilitaires

Le dataset fournit des masques oÃ¹ chaque partie du corps (bras, tÃªte, jambes) a une valeur diffÃ©rente. Pour le dÃ©tourage, nous devons convertir cela en masque binaire : **0 = Fond, 1 = Humain**.

In [8]:
import torch
import time
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from PIL import Image
from torchvision import transforms
from torchvision.models.segmentation import deeplabv3_resnet101, DeepLabV3_ResNet101_Weights
from transformers import AutoModelForImageSegmentation

# Configuration Device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# --- 1. FONCTIONS UTILITAIRES & MÃ‰TRIQUES ---

def preprocess_ground_truth(mask_pil):
    """Convertit le masque colorÃ© du dataset en masque binaire (0=Fond, 1=Humain)"""
    mask_np = np.array(mask_pil)
    # Dans ce dataset, le fond est 0, tout le reste (parties du corps) est > 0
    binary_mask = (mask_np > 0).astype(np.uint8)
    return binary_mask

def calculate_iou(pred_mask, true_mask):
    """Calcule l'IoU (Intersection over Union) entre deux masques binaires"""
    if pred_mask.shape != true_mask.shape:
        return 0.0
    intersection = np.logical_and(pred_mask, true_mask).sum()
    union = np.logical_or(pred_mask, true_mask).sum()
    return intersection / union if union > 0 else (1.0 if intersection == 0 else 0.0)

def find_tensor(data):
    """Cherche le tenseur image dans les sorties complexes des modÃ¨les HuggingFace"""
    if isinstance(data, torch.Tensor): return data
    if isinstance(data, (list, tuple)):
        for item in data:
            found = find_tensor(item)
            if found is not None: return found
    return None

# --- 2. MOTEURS D'INFÃ‰RENCE ---

def run_deeplab(image, model, preprocess):
    start = time.time()
    input_tensor = preprocess(image).unsqueeze(0).to(device)
    with torch.no_grad():
        output = model(input_tensor)['out'][0]
        preds = output.argmax(0).byte().cpu().numpy()
    # Classe 15 = Personne
    mask = (preds == 15).astype(np.uint8)
    if mask.sum() == 0: mask = (preds > 0).astype(np.uint8) # Fallback
    
    # Resize pour correspondre Ã  la vÃ©ritÃ© terrain
    mask_pil = Image.fromarray(mask * 255).resize(image.size, resample=Image.NEAREST)
    return (np.array(mask_pil) > 128).astype(np.uint8), time.time() - start

def run_rmbg(image, model):
    start = time.time()
    w, h = image.size
    # Preprocessing spÃ©cifique RMBG
    transform = transforms.Compose([
        transforms.Resize((1024, 1024)),
        transforms.ToTensor(),
        transforms.Normalize([0.5, 0.5, 0.5], [1.0, 1.0, 1.0])
    ])
    input_tensor = transform(image).unsqueeze(0).to(device)
    
    with torch.no_grad():
        raw_output = model(input_tensor)
        tensor = find_tensor(raw_output)
        preds = torch.sigmoid(tensor).cpu().squeeze()
    
    # Resize propre
    mask_pil = transforms.ToPILImage()(preds)
    mask_resized = mask_pil.resize((w, h), resample=Image.BILINEAR)
    return (np.array(mask_resized) > 128).astype(np.uint8), time.time() - start

# --- 3. CHARGEMENT DES MODÃˆLES ---
print("Chargement des modÃ¨les en mÃ©moire...")
# DeepLab
w_classic = DeepLabV3_ResNet101_Weights.DEFAULT
model_classic = deeplabv3_resnet101(weights=w_classic).to(device).eval()
pre_classic = w_classic.transforms()

# RMBG-1.4
model_sota = AutoModelForImageSegmentation.from_pretrained("briaai/RMBG-1.4", trust_remote_code=True).to(device).eval()

# --- 4. EXÃ‰CUTION DU BENCHMARK ---

NUM_SAMPLES = 20  # Nombre d'images pour le test
results = []

print(f"\nðŸš€ Lancement du Benchmark sur {NUM_SAMPLES} images...")
indices = np.random.choice(len(dataset), NUM_SAMPLES, replace=False)

for idx in indices:
    sample = dataset[int(idx)]
    img = sample['image'].convert("RGB")
    gt_mask = preprocess_ground_truth(sample['mask']) # Masque "VÃ©ritÃ© Terrain"
    
    # Test Classique
    mask_c, t_c = run_deeplab(img, model_classic, pre_classic)
    iou_c = calculate_iou(mask_c, gt_mask)
    
    # Test SOTA
    mask_s, t_s = run_rmbg(img, model_sota)
    iou_s = calculate_iou(mask_s, gt_mask)
    
    results.append({
        "Image": idx,
        "DeepLab IoU": iou_c, "DeepLab Time": t_c,
        "RMBG IoU": iou_s, "RMBG Time": t_s
    })

# --- 5. RÃ‰SULTATS ET COMPARAISON ---
df = pd.DataFrame(results)

print("\n" + "="*50)
print(" RÃ‰SULTATS DU BENCHMARK SCIENTIFIQUE")
print("="*50)
print(f"ModÃ¨le Classique (DeepLabV3) | IoU Moyen: {df['DeepLab IoU'].mean():.2%} | Temps Moyen: {df['DeepLab Time'].mean():.3f}s")
print(f"ModÃ¨le SOTA (RMBG-1.4)       | IoU Moyen: {df['RMBG IoU'].mean():.2%} | Temps Moyen: {df['RMBG Time'].mean():.3f}s")
print("-" * 50)

# Gains
gain_iou = (df['RMBG IoU'].mean() - df['DeepLab IoU'].mean()) * 100
gain_time = (df['DeepLab Time'].mean() - df['RMBG Time'].mean()) / df['DeepLab Time'].mean() * 100

print(f"GAIN DE PRÃ‰CISION (SOTA) : {gain_iou:+.1f} points de pourcentage")
print(f"GAIN DE VITESSE (SOTA)   : {gain_time:+.1f} % plus rapide")
print("="*50)

Chargement des modÃ¨les en mÃ©moire...

ðŸš€ Lancement du Benchmark sur 20 images...

 RÃ‰SULTATS DU BENCHMARK SCIENTIFIQUE
ModÃ¨le Classique (DeepLabV3) | IoU Moyen: 88.64% | Temps Moyen: 2.562s
ModÃ¨le SOTA (RMBG-1.4)       | IoU Moyen: 90.07% | Temps Moyen: 1.304s
--------------------------------------------------
GAIN DE PRÃ‰CISION (SOTA) : +1.4 points de pourcentage
GAIN DE VITESSE (SOTA)   : +49.1 % plus rapide
