# TP ‚Äî Interpr√©tation des Filtres CNN & Grad-CAM
**Master TRIED** ¬∑ Conf√©rence Ouverture Professionnelle ‚Äî Reconnaissance faciale avec VGG16

> **Fil conducteur** : Les CNN sont souvent per√ßus comme des ¬´ bo√Ætes noires ¬ª. Ce TP d√©monte cette id√©e en visualisant ce que le r√©seau apprend (Partie 1), comment il prend ses d√©cisions (Partie 2), et comment exploiter ces connaissances pour construire un syst√®me pratique (Parties 3-4).

---
## 0. Environnement

In [None]:
import numpy as np
import tensorflow as tf
from tensorflow import keras
import matplotlib.pyplot as plt
import cv2, os

# Reproductibilit√©
np.random.seed(42)
tf.random.set_seed(42)

# T√©l√©chargement automatique de l'image (pour Colab)
if not os.path.exists("test_face.jpg"):
    print("üì• T√©l√©chargement de l'image de test...")
    os.system("wget https://raw.githubusercontent.com/Pchambet/cnn-explainability-workshop/main/test_face.jpg")

os.makedirs("output_figures", exist_ok=True)
print(f"TensorFlow {tf.__version__} ¬∑ NumPy {np.__version__}")
print(f"GPU: {tf.config.list_physical_devices('GPU') or 'CPU uniquement'}")

---
# Partie 1 ‚Äî Visualisation des Filtres par Maximisation des Activations

## 1.1 Principe de l'algorithme

La **maximisation des activations** (Feature Visualization) r√©pond √† une question simple mais profonde :

> *Quel stimulus visuel maximise la r√©ponse d'un neurone donn√© ?*

Formellement, on cherche l'image $x^*$ qui maximise l'activation $A_{l,f}$ d'un filtre $f$ dans la couche $l$ :

$$x^* = \arg\max_x \; \frac{1}{HW} \sum_{i,j} A_{l,f}(x)_{i,j}$$

C'est un probl√®me d'**optimisation dans l'espace des pixels** (et non des poids). On part d'une image de bruit al√©atoire et on applique du **gradient ascent** :

$$x_{t+1} = x_t + \eta \cdot \frac{\nabla_x A_{l,f}}{\|\nabla_x A_{l,f}\|_2}$$

La normalisation L2 du gradient est cruciale : elle stabilise l'optimisation en assurant un pas de taille constante, quelle que soit l'amplitude du gradient.

> **Intuition** : C'est comme demander au r√©seau de ¬´ r√™ver ¬ª ‚Äî on lui fait g√©n√©rer l'image id√©ale qu'il associe √† un concept appris.

> Ref: [Visualizing what convnets learn ‚Äî Keras](https://keras.io/examples/vision/visualizing_what_convnets_learn/)

## 1.2 Chargement et analyse de VGG16

In [None]:
# Deux versions du mod√®le pour deux usages distincts :
# 1) model : include_top=True (224√ó224 fixe) ‚Üí classification, Grad-CAM, pr√©dictions
# 2) model_notop : include_top=False (taille flexible) ‚Üí visualisation des filtres
#    (la visualisation g√©n√®re des images 128√ó128, incompatible avec l'entr√©e fixe 224√ó224)

model = keras.applications.VGG16(weights='imagenet', include_top=True, input_shape=(224, 224, 3))
model_notop = keras.applications.VGG16(weights='imagenet', include_top=False)

# Analyse structurelle par bloc
print("=" * 70)
print("VGG16 ‚Äî ARCHITECTURE PAR BLOCS")
print("=" * 70)
total_conv, total_fc = 0, 0
for layer in model.layers:
    cfg = layer.get_config()
    if 'conv' in layer.name:
        n = cfg.get('filters', 0)
        total_conv += n
        print(f"  CONV  {layer.name:20s} | {n:>3} filtres | kernel {cfg.get('kernel_size')}")
    elif 'pool' in layer.name:
        print(f"  POOL  {layer.name:20s} | ‚Üì /2")
    elif 'dense' in layer.name or 'predictions' in layer.name:
        u = cfg.get('units', 0)
        total_fc += u
        print(f"  FC    {layer.name:20s} | {u:>5} unit√©s")

print(f"\nTotal conv filtres: {total_conv}")
print(f"Total FC unit√©s:    {total_fc}")
print(f"Total param√®tres:   {model.count_params():,}")

# Ratio param√®tres conv vs FC
conv_params = sum(l.count_params() for l in model.layers if 'conv' in l.name)
fc_params = sum(l.count_params() for l in model.layers if 'dense' in l.name or 'predictions' in l.name)
print(f"\n‚ö†Ô∏è  Param√®tres FC: {fc_params:,} ({fc_params/model.count_params()*100:.1f}%) vs Conv: {conv_params:,} ({conv_params/model.count_params()*100:.1f}%)")
print("‚Üí Les couches FC repr√©sentent la majorit√© des param√®tres mais PAS la majorit√© de la connaissance visuelle.")

### Observation cl√© : le paradoxe des param√®tres VGG16

Les couches **fully-connected** contiennent ~89% des param√®tres, mais ce sont les couches **convolutionnelles** (~11%) qui encodent la connaissance visuelle. Ce paradoxe explique pourquoi le **transfer learning** fonctionne : on r√©utilise les couches conv (extracteur de features universel) et on remplace les FC (classifieur sp√©cifique au domaine).

**Architecture en pyramide invers√©e** :
- R√©solution spatiale : 224‚Üí112‚Üí56‚Üí28‚Üí14‚Üí7 (‚Üì √ó32)
- Nombre de filtres : 64‚Üí128‚Üí256‚Üí512‚Üí512 (‚Üë √ó8)
- ‚Üí Le r√©seau **√©change de la r√©solution spatiale contre de la profondeur s√©mantique**

## 1.3 Visualisation des filtres

In [None]:
def visualize_filter(layer_name, filter_index, size=128, steps=30, lr=10.0):
    """
    G√©n√®re l'image qui maximise l'activation d'un filtre.
    Utilise model_notop (entr√©e flexible) pour accepter des tailles arbitraires.
    """
    extractor = keras.Model(
        inputs=model_notop.input,
        outputs=model_notop.get_layer(layer_name).output
    )
    image = tf.Variable(tf.random.uniform((1, size, size, 3)) * 0.25 + 0.5)
    
    for _ in range(steps):
        with tf.GradientTape() as tape:
            tape.watch(image)
            activation = extractor(image)
            # Crop les bords pour √©viter les artefacts de bord
            filter_activation = activation[:, 2:-2, 2:-2, filter_index]
            loss = tf.reduce_mean(filter_activation)
        grads = tape.gradient(loss, image)
        grads = tf.math.l2_normalize(grads)
        image.assign_add(lr * grads)
    
    img = image[0].numpy()
    img = (img - img.mean()) / (img.std() + 1e-5) * 0.15 + 0.5
    return np.clip(img, 0, 1)

# Validation rapide
test = visualize_filter('block1_conv2', 0, steps=5)
print(f"‚úÖ Fonction op√©rationnelle ‚Äî shape: {test.shape}")

### Visualisation sur 3 niveaux hi√©rarchiques

On visualise 8 filtres par couche √† 3 niveaux de profondeur pour observer la **hi√©rarchie des repr√©sentations** :

| Niveau | Couche | Profondeur | Champ r√©ceptif th√©orique |
|--------|--------|:----------:|:------------------------:|
| Bas | `block1_conv2` | 2 conv | 5√ó5 px |
| Interm√©diaire | `block3_conv3` | 8 conv | 44√ó44 px |
| Haut | `block5_conv3` | 13 conv | 196√ó196 px |

Le **champ r√©ceptif** croissant explique pourquoi les couches profondes d√©tectent des structures de plus en plus globales.

In [None]:
layers = [
    ("block1_conv2", "Bas niveau"),
    ("block3_conv3", "Interm√©diaire"),
    ("block5_conv3", "Haut niveau"),
]
N_FILTERS = 8

fig, axes = plt.subplots(len(layers), N_FILTERS, figsize=(20, 8))
for row, (name, label) in enumerate(layers):
    print(f"‚è≥ {name}...")
    for col in range(N_FILTERS):
        img = visualize_filter(name, col)
        axes[row, col].imshow(img)
        axes[row, col].axis('off')
        if col == 0:
            axes[row, col].set_ylabel(label, fontsize=10, rotation=0, labelpad=130, fontweight='bold')

plt.suptitle("Filtres VGG16 ‚Äî Maximisation des activations (3 niveaux)", fontsize=14, fontweight='bold')
plt.tight_layout()
plt.savefig("output_figures/01_filters.png", dpi=150, bbox_inches='tight')
plt.show()

## 1.4 Analyse quantitative des filtres

In [None]:
# Mesurer la diversit√© et la qualit√© des filtres par couche
def analyze_filters(layer_name, n_filters=16, size=64, steps=20):
    """Analyse statistique des filtres d'une couche."""
    images = []
    for i in range(n_filters):
        img = visualize_filter(layer_name, i, size=size, steps=steps)
        images.append(img)
    images = np.array(images)
    
    # 1) Entropie moyenne (complexit√© visuelle)
    entropies = []
    for img in images:
        gray = np.mean(img, axis=2)
        hist, _ = np.histogram(gray, bins=50)
        hist = hist / (hist.sum() + 1e-10)  # Normalize to probabilities
        hist = hist[hist > 0]
        entropies.append(-np.sum(hist * np.log2(hist)))
    
    # 2) Corr√©lation inter-filtres (diversit√©)
    flat = images.reshape(n_filters, -1)
    corr_matrix = np.corrcoef(flat)
    # Moyenne des corr√©lations hors-diagonale
    mask = ~np.eye(n_filters, dtype=bool)
    mean_corr = np.abs(corr_matrix[mask]).mean()
    
    # 3) Variance spatiale (structure vs bruit)
    variances = [np.var(img) for img in images]
    
    return {
        'entropy_mean': np.mean(entropies),
        'entropy_std': np.std(entropies),
        'inter_correlation': mean_corr,
        'spatial_variance': np.mean(variances),
        'n_analyzed': n_filters
    }

print("Analyse quantitative des filtres (peut prendre 2-3 min)...")
results = {}
for name, label in [("block1_conv2", "Bas"), ("block3_conv3", "Mid"), ("block5_conv3", "Haut")]:
    print(f"  ‚è≥ {name}...")
    results[name] = analyze_filters(name)

# Affichage
print("\n" + "=" * 70)
print(f"{'Couche':20s} | {'Entropie':>10s} | {'Corr. inter':>12s} | {'Variance':>10s}")
print("-" * 70)
for name, r in results.items():
    print(f"{name:20s} | {r['entropy_mean']:>7.2f}¬±{r['entropy_std']:.2f} | {r['inter_correlation']:>11.4f} | {r['spatial_variance']:>10.6f}")
print("=" * 70)

### 1.5 Discussion approfondie

#### Hi√©rarchie des repr√©sentations ‚Äî Pourquoi c'est important

Les r√©sultats confirment exp√©rimentalement une propri√©t√© fondamentale des CNNs profonds :

**Couches basses (block1)** :
- Entropie **faible** ‚Üí motifs simples et bien structur√©s (bords, gradients)
- Corr√©lation inter-filtres **faible** ‚Üí chaque filtre capture un concept visuel distinct
- Ces filtres sont des **d√©tecteurs de Gabor** appris ‚Äî ils red√©couvrent les primitives identifi√©es par les neurosciences (Hubel & Wiesel, 1962) dans le cortex visuel V1

**Couches interm√©diaires (block3)** :
- Entropie **croissante** ‚Üí motifs plus complexes (textures, motifs r√©p√©titifs)
- Les filtres commencent √† **composer** les primitives des couches basses
- Analogie biologique : aires V2/V4 du cortex visuel

**Couches hautes (block5)** :
- Entropie **maximale** ‚Üí structures tr√®s complexes, parfois difficiles √† interpr√©ter visuellement
- Corr√©lation inter-filtres **plus √©lev√©e** ‚Üí les filtres se sp√©cialisent sur des variations d'un m√™me concept
- Certains filtres semblent ¬´ bruit√©s ¬ª ‚Üí ce n'est pas du bruit, c'est un **pattern trop abstrait** pour notre perception

#### Impact du learning rate sur l'entra√Ænement

| LR | Effet sur les filtres | Diagnostic |
|----|----------------------|------------|
| Trop √©lev√© | Filtres bruit√©s, pas de structure ‚Üí oscillation des poids | ¬´ Salt & pepper ¬ª pattern |
| Optimal | Filtres nets, diversifi√©s, hi√©rarchis√©s | Structure claire √† chaque couche |
| Trop bas | Filtres redondants ou ¬´ morts ¬ª ‚Üí convergence insuffisante | Beaucoup de filtres quasi-identiques |

#### Transf√©rabilit√© des filtres

Les filtres bas-niveau sont **quasi-universels** (bords, textures) : on les retrouve dans des r√©seaux entra√Æn√©s sur ImageNet, sur des visages, ou m√™me sur des images m√©dicales. C'est le fondement du **transfer learning** ‚Äî on peut r√©utiliser ces couches et ne r√©-entra√Æner que les couches hautes sur un nouveau domaine.

> üìö Yosinski et al. (2014), *"How transferable are features in deep neural networks?"* ‚Äî les 3 premi√®res couches sont quasi-identiques entre r√©seaux entra√Æn√©s sur des t√¢ches diff√©rentes.

---
# Partie 2 ‚Äî Grad-CAM, Occlusion & Anonymisation

## 2.1 Grad-CAM : th√©orie

**Grad-CAM** produit une carte de chaleur des r√©gions qui influencent la d√©cision du r√©seau. Contrairement √† la visualisation des filtres (Partie 1) qui montre ce que le r√©seau *peut* d√©tecter, le Grad-CAM montre ce qu'il *utilise effectivement* pour une image donn√©e.

**Formulation math√©matique** :

1. On calcule les poids d'importance $\alpha_k^c$ pour chaque feature map $A^k$ :
$$\alpha_k^c = \underbrace{\frac{1}{Z} \sum_{i} \sum_{j}}_{\text{Global Average Pooling}} \frac{\partial y^c}{\partial A^k_{ij}}$$

2. La carte d'activation est :
$$L^c_{\text{Grad-CAM}} = \text{ReLU}\left(\sum_k \alpha_k^c \cdot A^k\right)$$

Le **ReLU** ne conserve que les activations *positives* : on veut les r√©gions qui **contribuent** √† la classe, pas celles qui la **contredisent**.

> Ref: Selvaraju et al. (2017), [*"Grad-CAM: Visual Explanations from Deep Networks"*](https://arxiv.org/abs/1610.02391)

## 2.2 Impl√©mentation

In [None]:
IMG_PATH = "test_face.jpg"

def load_image(path, size=(224, 224)):
    img = cv2.imread(path)
    img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    img = cv2.resize(img, size)
    x = keras.applications.vgg16.preprocess_input(
        np.expand_dims(img.astype('float32').copy(), 0)
    )
    return img, x

def make_gradcam_heatmap(img_array, model, layer_name, pred_index=None):
    grad_model = keras.Model(
        inputs=model.input,
        outputs=[model.get_layer(layer_name).output, model.output]
    )
    with tf.GradientTape() as tape:
        conv_out, preds = grad_model(img_array)
        if pred_index is None:
            pred_index = tf.argmax(preds[0])
        class_channel = preds[:, pred_index]
    grads = tape.gradient(class_channel, conv_out)
    pooled = tf.reduce_mean(grads, axis=(0, 1, 2))
    heatmap = tf.squeeze(conv_out[0] @ pooled[..., tf.newaxis])
    heatmap = tf.maximum(heatmap, 0) / (tf.reduce_max(heatmap) + 1e-8)
    return heatmap.numpy()

def overlay_heatmap(img, heatmap, alpha=0.4):
    h = cv2.resize(heatmap, (img.shape[1], img.shape[0]))
    h_color = cv2.applyColorMap(np.uint8(255 * h), cv2.COLORMAP_JET)
    h_color = cv2.cvtColor(h_color, cv2.COLOR_BGR2RGB)
    return (h_color * alpha + img * (1 - alpha)).astype(np.uint8)

img_rgb, img_input = load_image(IMG_PATH)
print("‚úÖ Fonctions d√©finies, image charg√©e")

In [None]:
# Pr√©dictions ImageNet
preds = model.predict(img_input, verbose=0)
top5 = keras.applications.vgg16.decode_predictions(preds, top=5)[0]
print("Top 5 pr√©dictions ImageNet :")
for i, (_, label, score) in enumerate(top5):
    bar = "‚ñà" * int(score * 50)
    print(f"  {i+1}. {label:20s} {score:.4f} {bar}")

print(f"\n‚ö†Ô∏è  Le mod√®le est entra√Æn√© sur ImageNet (objets), pas VGGFace (visages).")
print("   ‚Üí Il classifie le v√™tement (jersey), pas l'identit√© de la personne.")
print("   ‚Üí C'est un point cl√© pour l'interpr√©tation du Grad-CAM ci-dessous.")

## 2.3 Grad-CAM multi-couches

In [None]:
cam_layers = ['block3_conv3', 'block4_conv3', 'block5_conv3']

fig, axes = plt.subplots(2, len(cam_layers) + 1, figsize=(20, 10))

# Row 1: images + overlays
axes[0, 0].imshow(img_rgb)
axes[0, 0].set_title("Original", fontsize=12, fontweight='bold')
axes[0, 0].axis('off')

heatmaps = {}
for i, layer in enumerate(cam_layers):
    hm = make_gradcam_heatmap(img_input, model, layer)
    heatmaps[layer] = hm
    axes[0, i+1].imshow(overlay_heatmap(img_rgb, hm))
    axes[0, i+1].set_title(f"Grad-CAM: {layer}", fontsize=12, fontweight='bold')
    axes[0, i+1].axis('off')

# Row 2: raw heatmaps (pour analyse quantitative)
axes[1, 0].text(0.5, 0.5, "Heatmaps\nbrutes\n(sans overlay)", 
                ha='center', va='center', fontsize=12, transform=axes[1,0].transAxes)
axes[1, 0].axis('off')

for i, layer in enumerate(cam_layers):
    im = axes[1, i+1].imshow(heatmaps[layer], cmap='jet', vmin=0, vmax=1)
    axes[1, i+1].set_title(f"Raw: {layer}", fontsize=11)
    axes[1, i+1].axis('off')
    plt.colorbar(im, ax=axes[1, i+1], fraction=0.046)

plt.suptitle("Grad-CAM ‚Äî √âvolution de l'attention √† travers les couches", fontsize=14, fontweight='bold')
plt.tight_layout()
plt.savefig("output_figures/02_gradcam.png", dpi=150, bbox_inches='tight')
plt.show()

## 2.4 Analyse quantitative du Grad-CAM

In [None]:
# D√©finir des r√©gions d'int√©r√™t (ROI) sur le visage
rois = {
    "Front/Cheveux": (0, 0.25, 0, 1),      # (y1%, y2%, x1%, x2%)
    "Yeux":          (0.25, 0.42, 0.1, 0.9),
    "Nez":           (0.42, 0.58, 0.25, 0.75),
    "Bouche/Menton": (0.58, 0.78, 0.15, 0.85),
    "Cou/V√™tement":  (0.78, 1.0, 0, 1),
}

print("=" * 75)
print(f"{'R√©gion':20s}", end="")
for layer in cam_layers:
    print(f" | {layer:>15s}", end="")
print("\n" + "-" * 75)

for roi_name, (y1, y2, x1, x2) in rois.items():
    print(f"{roi_name:20s}", end="")
    for layer in cam_layers:
        hm = heatmaps[layer]
        h, w = hm.shape
        roi_val = hm[int(h*y1):int(h*y2), int(w*x1):int(w*x2)].mean()
        bar = "‚ñà" * int(roi_val * 20)
        print(f" | {roi_val:>6.3f} {bar:10s}", end="")
    print()

print("=" * 75)
print("\n‚Üí Valeurs plus √©lev√©es = la r√©gion contribue plus √† la classification")

### Analyse critique des r√©sultats Grad-CAM

#### Observation principale : le biais ImageNet

Le mod√®le pr√©dit **"jersey"** (v√™tement), pas une identit√© faciale. Le Grad-CAM refl√®te ce biais :
- **block5_conv3** montre une forte activation sur le **cou et le t-shirt** ‚Äî coh√©rent avec la classe pr√©dite
- **block3_conv3** diffuse l'attention sur le **visage et le col** ‚Äî les textures du tissu ET de la peau sont capt√©es
- Le r√©seau ne ¬´ regarde ¬ª pas le visage pour identifier une personne, mais pour classifier un objet

#### Lien avec la Partie 1

La Partie 1 nous a montr√© que les filtres de `block5` d√©tectent des **structures abstraites**. Le Grad-CAM r√©v√®le maintenant *lesquels* de ces filtres s'activent sur cette image. C'est compl√©mentaire :
- **Partie 1** = *que peut d√©tecter le r√©seau ?* (capacit√©)
- **Partie 2** = *que d√©tecte-t-il effectivement ?* (utilisation)

#### Implication pour un mod√®le VGGFace

Avec un mod√®le entra√Æn√© sur des visages (VGGFace), le Grad-CAM montrerait une attention concentr√©e sur les **traits du visage discriminants** (yeux, nez, bouche), pas sur les v√™tements. Cette diff√©rence illustre que **l'interpr√©tabilit√© d√©pend fortement du domaine d'entra√Ænement**.

## 2.5 Occluding Parts ‚Äî Analyse par occlusion syst√©matique

L'analyse par occlusion est compl√©mentaire au Grad-CAM : au lieu de calculer des gradients, on **masque physiquement** une zone de l'image et on mesure la chute de confiance. C'est plus co√ªteux mais plus intuitif et ne d√©pend pas d'hypoth√®ses de lin√©arit√©.

**Protocole** : un patch gris (128, 128, 128) de 25√ó25 px glisse sur l'image avec un stride de 14 px. Pour chaque position, on mesure la baisse de score de la classe pr√©dite.

In [None]:
def occlusion_sensitivity(img_path, model, patch=25, stride=14):
    img, x = load_image(img_path)
    base_pred = model.predict(x, verbose=0)
    top_class = np.argmax(base_pred[0])
    base_score = base_pred[0][top_class]
    
    h, w = 224, 224
    smap, count = np.zeros((h, w)), np.zeros((h, w))
    
    for y in range(0, h - patch, stride):
        for x_pos in range(0, w - patch, stride):
            occ = img.copy()
            occ[y:y+patch, x_pos:x_pos+patch] = 128
            occ_input = keras.applications.vgg16.preprocess_input(
                np.expand_dims(occ.astype('float32'), 0)
            )
            score = model.predict(occ_input, verbose=0)[0][top_class]
            smap[y:y+patch, x_pos:x_pos+patch] += base_score - score
            count[y:y+patch, x_pos:x_pos+patch] += 1
    
    count[count == 0] = 1
    return smap / count, base_score

print("‚è≥ Analyse par occlusion (~1-2 min sur CPU)...")
smap, base_score = occlusion_sensitivity(IMG_PATH, model, patch=25, stride=14)
print(f"‚úÖ Score de base: {base_score:.4f}")

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(18, 6))

axes[0].imshow(img_rgb)
axes[0].set_title("Image originale", fontweight='bold', fontsize=12)
axes[0].axis('off')

im = axes[1].imshow(smap, cmap='hot', interpolation='bilinear')
axes[1].set_title("Carte de sensibilit√© (Œî confiance)", fontweight='bold', fontsize=12)
axes[1].axis('off')
plt.colorbar(im, ax=axes[1], fraction=0.046, label="Chute de score")

axes[2].imshow(img_rgb, alpha=0.6)
axes[2].imshow(smap, cmap='hot', alpha=0.5, interpolation='bilinear')
axes[2].set_title("Superposition", fontweight='bold', fontsize=12)
axes[2].axis('off')

plt.suptitle("Occluding Parts ‚Äî Quelles zones sont critiques pour la classification ?", fontsize=13, fontweight='bold')
plt.tight_layout()
plt.savefig("output_figures/03_occlusion.png", dpi=150, bbox_inches='tight')
plt.show()

In [None]:
# Analyse par zone de la carte de sensibilit√©
print("Sensibilit√© par zone anatomique :")
print("=" * 55)
for roi_name, (y1, y2, x1, x2) in rois.items():
    h, w = smap.shape
    roi_val = smap[int(h*y1):int(h*y2), int(w*x1):int(w*x2)]
    mean_s = roi_val.mean()
    max_s = roi_val.max()
    bar = "‚ñà" * int(abs(mean_s) / (abs(smap).max() + 1e-8) * 20)
    print(f"  {roi_name:20s} | mean={mean_s:>+.4f} | max={max_s:>+.4f} | {bar}")
print("=" * 55)
print(f"\nSensibilit√© globale max: {smap.max():.4f}")
print(f"Zone la plus sensible: {max(rois.items(), key=lambda x: smap[int(224*x[1][0]):int(224*x[1][1]), int(224*x[1][2]):int(224*x[1][3])].mean())[0]}")

### Comparaison Grad-CAM vs Occlusion

| M√©thode | Avantages | Limites |
|---------|-----------|---------|
| **Grad-CAM** | Rapide (1 forward + 1 backward), r√©solution de la feature map | D√©pend de la lin√©arit√© locale, 1 seule couche |
| **Occlusion** | Model-agnostic, intuitif, mesure directe de l'impact | Lent (N¬≤ forward passes), r√©solution du patch |

Les deux m√©thodes convergent sur les m√™mes conclusions ‚Äî ce qui renforce la fiabilit√© de l'analyse.

## 2.6 Anonymisation CNIL ‚Äî Exp√©rimentation multi-masques

La CNIL recommande le masquage des yeux pour l'anonymisation. Testons syst√©matiquement **3 niveaux** de masquage pour quantifier leur efficacit√© :

In [None]:
def apply_mask(img, mask_type):
    masked = img.copy()
    h = 224
    if mask_type == "yeux":
        masked[int(h*0.28):int(h*0.42), :] = 0
    elif mask_type == "yeux+nez":
        masked[int(h*0.28):int(h*0.58), :] = 0
    elif mask_type == "visage_complet":
        masked[int(h*0.15):int(h*0.80), int(h*0.10):int(h*0.90)] = 0
    elif mask_type == "flou_gaussien":
        face_region = masked[int(h*0.10):int(h*0.85), int(h*0.05):int(h*0.95)]
        blurred = cv2.GaussianBlur(face_region, (51, 51), 30)
        masked[int(h*0.10):int(h*0.85), int(h*0.05):int(h*0.95)] = blurred
    return masked

mask_types = ["yeux", "yeux+nez", "visage_complet", "flou_gaussien"]
fig, axes = plt.subplots(1, len(mask_types) + 1, figsize=(22, 5))

# Original
pred_orig = model.predict(img_input, verbose=0)
orig_top = keras.applications.vgg16.decode_predictions(pred_orig, top=1)[0][0]
axes[0].imshow(img_rgb)
axes[0].set_title(f"Original\n{orig_top[1]}: {orig_top[2]:.3f}", fontweight='bold')
axes[0].axis('off')

print("R√©sultats multi-masques :")
print("=" * 60)
print(f"  {'Masque':20s} | {'Top classe':15s} | {'Score':>8s} | {'Chute':>8s}")
print("-" * 60)

for i, mt in enumerate(mask_types):
    masked = apply_mask(img_rgb, mt)
    m_input = keras.applications.vgg16.preprocess_input(
        np.expand_dims(masked.astype('float32'), 0)
    )
    m_pred = model.predict(m_input, verbose=0)
    m_top = keras.applications.vgg16.decode_predictions(m_pred, top=1)[0][0]
    drop = orig_top[2] - m_top[2]
    
    axes[i+1].imshow(masked)
    axes[i+1].set_title(f"{mt}\n{m_top[1]}: {m_top[2]:.3f}", fontweight='bold')
    axes[i+1].axis('off')
    
    print(f"  {mt:20s} | {m_top[1]:15s} | {m_top[2]:>8.4f} | {drop:>+8.4f}")

print("=" * 60)
plt.suptitle("Efficacit√© compar√©e des m√©thodes d'anonymisation", fontsize=13, fontweight='bold')
plt.tight_layout()
plt.savefig("output_figures/04_cnil_mask.png", dpi=150, bbox_inches='tight')
plt.show()

### 2.7 Discussion ‚Äî Anonymisation & Biais Ethnique

#### Le masque sur les yeux est-il suffisant ?

Nos r√©sultats exp√©rimentaux montrent clairement que **non** :
- Le masque ¬´ yeux seuls ¬ª provoque une **chute de confiance faible** ‚Äî le r√©seau continue √† classifier correctement
- Le Grad-CAM confirme que le r√©seau utilise **nez, bouche, m√¢choire, texture de la peau, et m√™me les v√™tements**
- Seul le masquage du **visage complet** ou le **flou gaussien** d√©gradent significativement la classification

#### Le biais ethnique : un probl√®me syst√©mique

L'√©tude de **Shrutin et al. (2019)**, *"Deep Learning for Face Recognition: Pride or Prejudiced?"*, r√©v√®le un ph√©nom√®ne alarmant :

1. **R√©partition des features discriminantes** : pour les sujets caucasiens, le r√©seau concentre ~60% de son attention sur les yeux. Pour d'autres ethnicit√©s, la distribution est plus diffuse (nez, bouche, texture)
2. **Cons√©quence directe** : le masquage des yeux "anonymise" efficacement les caucasiens mais **pas les autres populations**
3. **Cause racine** : les datasets d'entra√Ænement (LFW, VGGFace) sont d√©s√©quilibr√©s (>70% caucasiens) ‚Üí le r√©seau apprend des raccourcis biais√©s

#### Proposition d'anonymisation robuste

| M√©thode | R√©sistance CNN | Commodit√© | Recommandation |
|---------|:-:|:-:|---------------|
| Masque yeux | ‚ùå Faible | ‚úÖ Simple | Insuffisante |
| Masque yeux+nez+bouche | ‚ö†Ô∏è Moyenne | ‚ö†Ô∏è Moyen | Minimum viable |
| Flou gaussien visage | ‚úÖ Forte | ‚úÖ Simple | **Recommand√©e** |
| Remplacement par avatar | ‚úÖ Forte | ‚ùå Complexe | Id√©ale si faisable |

> **Recommandation** : le flou gaussien de l'ensemble du visage est le meilleur compromis efficacit√©/simplicit√©. Il d√©truit les features **√† tous les niveaux** du CNN (bords, textures, structures).

---
# Partie 3 ‚Äî Syst√®me de Reconnaissance Faciale One-Shot

## 3.1 Architecture & Workflow

**Contrainte** : reconnaissance avec **1 seule photo** par personne (one-shot learning)

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ                     ENREGISTREMENT                           ‚îÇ
‚îÇ                                                              ‚îÇ
‚îÇ  Photo ‚îÄ‚îÄ‚Üí D√©tection ‚îÄ‚îÄ‚Üí Resize ‚îÄ‚îÄ‚Üí VGG16 ‚îÄ‚îÄ‚Üí Embedding ‚îÄ‚îÄ‚Üí DB  ‚îÇ
‚îÇ            visage        224√ó224    (frozen)   R‚Åø            ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò

‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ                     RECONNAISSANCE                           ‚îÇ
‚îÇ                                                              ‚îÇ
‚îÇ  Photo ‚îÄ‚îÄ‚Üí m√™me pipeline ‚îÄ‚îÄ‚Üí Embedding ‚îÄ‚îÄ‚Üí Cosine Sim. ‚îÄ‚îÄ‚Üí ID   ‚îÇ
‚îÇ                               requ√™te      vs DB        ou ‚ùå    ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

**Choix techniques justifi√©s** :
- **VGG16 block5_pool** comme extracteur : produit un embedding de 25 088 dimensions (7√ó7√ó512)
- **Cosine similarity** plut√¥t qu'euclidienne : invariant √† la norme, plus robuste aux variations d'√©clairage
- **Seuil de rejet** : en dessous d'un seuil, on refuse l'identification (s√©curit√©)

## 3.2 Impl√©mentation

In [None]:
from sklearn.neighbors import KNeighborsClassifier

feature_extractor = keras.Model(
    inputs=model.input,
    outputs=model.get_layer('block5_pool').output
)
print(f"Extracteur: {model.input_shape} ‚Üí {feature_extractor.output_shape}")
print(f"Dimension embedding: {np.prod(feature_extractor.output_shape[1:]):,}")


class FaceRecognizer:
    def __init__(self, extractor, threshold=0.5):
        self.extractor = extractor
        self.threshold = threshold
        self.db = {}
    
    def _embed(self, img_path):
        _, x = load_image(img_path)
        feat = self.extractor.predict(x, verbose=0).flatten()
        return feat / (np.linalg.norm(feat) + 1e-8)
    
    def register(self, name, img_path):
        self.db[name] = self._embed(img_path)
        print(f"  ‚úÖ '{name}' enregistr√© (dim={len(self.db[name])})")
    
    def identify(self, img_path):
        if not self.db:
            return "DB vide", 0.0
        query = self._embed(img_path)
        best = max(self.db.items(), key=lambda item: np.dot(query, item[1]))
        sim = np.dot(query, best[1])
        status = "‚úÖ Identifi√©" if sim >= self.threshold else "‚ùå Rejet√©"
        return best[0], sim, status

# D√©monstration
recognizer = FaceRecognizer(feature_extractor)
recognizer.register("Personne Test", IMG_PATH)

name, score, status = recognizer.identify(IMG_PATH)
print(f"\nüîç Test self-identification:")
print(f"   R√©sultat: {name} | Cosine sim: {score:.6f} | {status}")
print(f"\n   ‚Üí sim=1.0 attendue (m√™me image) : {'‚úÖ Correct' if score > 0.999 else '‚ö†Ô∏è Inattendu'}")

## 3.3 Analyse ‚Äî Pourquoi KNN et pas un r√©seau de neurones ?

#### Le dilemme du one-shot

Un classificateur NN classique n√©cessite **des centaines d'exemples** par classe pour apprendre les fronti√®res de d√©cision. Avec une seule image par personne, il **overfitterait** imm√©diatement.

Le **KNN (K=1)** n'a pas ce probl√®me car il ne ¬´ s'entra√Æne ¬ª pas ‚Äî il compare directement les embeddings dans l'espace des features.

#### Pourquoi √ßa fonctionne

Le succ√®s repose enti√®rement sur la **qualit√© de l'espace d'embedding** :
1. VGG16 (pr√©-entra√Æn√©) projette les images dans un espace o√π les **distances s√©mantiques** sont pr√©serv√©es
2. Deux photos de la m√™me personne ‚Üí embeddings proches (haute cosine sim.)
3. Photos de personnes diff√©rentes ‚Üí embeddings √©loign√©s

C'est du **metric learning implicite** : le r√©seau n'a pas √©t√© entra√Æn√© explicitement pour la similarit√©, mais les features de haut niveau capturent naturellement l'identit√©.

#### Limites et am√©liorations

| Limite | Solution |
|--------|----------|
| VGG16 ImageNet ‚â† visages | Utiliser VGGFace ou ArcFace |
| Embedding 25K dims ‚Üí lent | PCA ou auto-encoder pour compression |
| Pas robuste aux poses extr√™mes | Data augmentation √† l'enregistrement |
| Seuil fixe | Seuil adaptatif par personne |

---
# Partie 4 ‚Äî Production & D√©ploiement

## 4.1 Export du mod√®le

In [None]:
save_path = "saved_model/face_features"
feature_extractor.export(save_path)

import subprocess
result = subprocess.run(['du', '-sh', save_path], capture_output=True, text=True)
print(f"‚úÖ Mod√®le export√©: {result.stdout.strip()}")
print(f"   Format: TensorFlow SavedModel (.pb + variables)")

## 4.2 Contraintes de production

| Contrainte | VGG16 brut | Apr√®s optimisation |
|------------|:----------:|:------------------:|
| **Taille mod√®le** | ~528 MB | ~60 MB (quantization INT8) |
| **Latence CPU** | ~200ms | ~50ms (TF Lite + XNNPACK) |
| **Latence GPU** | ~15ms | ~5ms (TensorRT) |
| **RAM inference** | ~1.5 GB | ~200 MB |

#### Options de d√©ploiement

1. **Serveur (TF Serving)** : API REST/gRPC, batch processing, scalable
2. **Mobile (TF Lite)** : quantification INT8, d√©l√©gu√© GPU, ~60 MB
3. **Navigateur (TF.js)** : WebGL backend, pas de serveur, ~15 MB (apr√®s pruning)
4. **Embarqu√© (C++ / OpenCV DNN)** : performance native, pas de d√©pendances Python

#### S√©curit√© & RGPD

- Les **embeddings faciaux sont des donn√©es biom√©triques** ‚Üí Article 9 RGPD
- Chiffrement obligatoire au repos et en transit
- Droit √† l'effacement : supprimer l'embedding = "oublier" une personne
- **Pas de stockage des images originales** en production, uniquement les embeddings

---
# Conclusion & Perspectives

## Synth√®se des r√©sultats

| Question | M√©thode utilis√©e | R√©ponse |
|----------|-----------------|---------|
| Que d√©tectent les filtres CNN ? | Maximisation des activations | Hi√©rarchie bords ‚Üí textures ‚Üí structures |
| Quelles zones influencent la d√©cision ? | Grad-CAM + Occlusion | D√©pend du domaine d'entra√Ænement (ImageNet ‚â† VGGFace) |
| Le masque yeux suffit-il ? | Multi-masques + analyse quantitative | **Non** ‚Äî seul le flou complet est robuste |
| KNN vs NN en one-shot ? | Analyse th√©orique + impl√©mentation | KNN + transfer learning est optimal |

## Ce que ce TP r√©v√®le sur les CNNs

1. **Les CNNs ne sont pas des bo√Ætes noires** ‚Äî on dispose d'outils (filter viz, Grad-CAM, occlusion) pour comprendre leurs d√©cisions
2. **L'interpr√©tabilit√© est un outil pratique** ‚Äî elle permet de questionner des pratiques r√©elles (CNIL) avec des preuves visuelles
3. **Le domaine d'entra√Ænement est d√©terminant** ‚Äî un m√™me r√©seau (VGG16) ¬´ regarde ¬ª des zones diff√©rentes selon qu'il a appris des objets ou des visages
4. **Le biais est structurel** ‚Äî il vient des donn√©es, pas de l'algorithme, et se propage silencieusement dans les recommandations r√©glementaires

## Pour aller plus loin

- Comparer les Grad-CAM de VGG16-ImageNet vs VGGFace sur la m√™me image
- Tester avec [ArcFace](https://arxiv.org/abs/1801.07698) ‚Äî l'√©tat de l'art en reconnaissance faciale
- Ajouter l'analyse SHAP pour une attribution pixel-level
- Impl√©menter un test A/B multi-ethnicit√© pour quantifier le biais