# üìä Interpr√©tabilit√© et Visualisation des R√©seaux de Neurones

## üéØ Objectifs

Dans ce notebook, nous allons **ouvrir la bo√Æte noire** des r√©seaux de neurones et comprendre :

- üß† **Ce que les neurones apprennent** - Visualisation des poids
- üîç **Comment le r√©seau prend ses d√©cisions** - Activation maps
- üé® **Quelles parties des images sont importantes** - Saliency maps
- üìà **Analyse des erreurs** - O√π et pourquoi le mod√®le se trompe
- üî¨ **Statistiques des activations** - Distribution des neurones

---

## ü§î Pourquoi l'Interpr√©tabilit√© est Importante ?

### Les R√©seaux de Neurones sont souvent vus comme des **bo√Ætes noires**:

```
Input (image) ‚Üí [??? MAGIE ???] ‚Üí Output (pr√©diction)
```

### Probl√®mes de cette approche :

1. ‚ùå **Pas de confiance** : Comment faire confiance √† un mod√®le qu'on ne comprend pas ?
2. ‚ùå **Difficile √† d√©boguer** : Pourquoi le mod√®le fait-il des erreurs ?
3. ‚ùå **Biais cach√©s** : Le mod√®le peut apprendre des patterns incorrects
4. ‚ùå **Pas d'insights** : On ne comprend pas ce que les donn√©es nous apprennent

### Solutions : Techniques d'Interpr√©tabilit√© ‚úÖ

1. **Visualisation des poids** ‚Üí Voir ce que chaque neurone cherche
2. **Activation maps** ‚Üí Observer les neurones en action
3. **Saliency maps** ‚Üí Identifier les pixels importants
4. **Analyse des erreurs** ‚Üí Comprendre les faiblesses
5. **t-SNE / PCA** ‚Üí Visualiser l'espace des features

---

In [None]:
# Imports
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import sys

# Ajouter le dossier parent au path
sys.path.append('../')

from src.network import NeuralNetwork
from src.utils import load_mnist_data
from src import visualize
from src.metrics import confusion_matrix

# Configuration
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
np.random.seed(42)

print("‚úì Imports r√©ussis !")

## 1Ô∏è‚É£ Chargement du Mod√®le Entra√Æn√©

Commen√ßons par charger un mod√®le d√©j√† entra√Æn√©.

In [None]:
# Charger les donn√©es
print("Chargement des donn√©es MNIST...")
X_train, y_train, X_val, y_val, X_test, y_test = load_mnist_data()

print(f"Train: {X_train.shape[0]:,} exemples")
print(f"Val: {X_val.shape[0]:,} exemples")
print(f"Test: {X_test.shape[0]:,} exemples")

# Charger le mod√®le entra√Æn√© (ou en entra√Æner un nouveau)
model_path = Path('../models/best_model.pkl')

if model_path.exists():
    print(f"\nüìÇ Chargement du mod√®le: {model_path}")
    model = NeuralNetwork.load(model_path)
else:
    print("\n‚ö†Ô∏è Aucun mod√®le trouv√©. Entra√Ænement d'un nouveau mod√®le...")
    model = NeuralNetwork(
        layer_dims=[784, 256, 128, 10],
        learning_rate=0.01,
        optimizer='adam'
    )
    model.train(X_train, y_train, X_val, y_val, epochs=10, batch_size=128)
    model.save(model_path)

# √âvaluer
test_acc = model.accuracy(X_test, y_test)
print(f"\nüéØ Accuracy sur le test: {test_acc:.4f}")

---

## 2Ô∏è‚É£ Visualisation des Poids de la Premi√®re Couche

### üß† Que font les neurones de la premi√®re couche ?

Chaque neurone de la premi√®re couche est connect√© √† **tous les pixels** de l'image (784 connexions).

En visualisant ces poids, on peut voir **ce que chaque neurone cherche** dans l'image.

### Interpr√©tation :

- **Pixels blancs (positifs)** : Le neurone s'active quand ces pixels sont pr√©sents
- **Pixels noirs (n√©gatifs)** : Le neurone s'active quand ces pixels sont absents
- **Pixels gris** : Pas d'importance particuli√®re

### Patterns attendus :

Les neurones apprennent souvent √† d√©tecter :
- Bords horizontaux/verticaux
- Coins
- Courbes
- Formes g√©om√©triques basiques

In [None]:
# Extraire les poids de la premi√®re couche
W1 = model.parameters['W1']  # Shape: (784, 256)

print(f"Poids W1 shape: {W1.shape}")
print(f"Chaque neurone a {W1.shape[0]} poids (un par pixel)")
print(f"Il y a {W1.shape[1]} neurones dans la premi√®re couche\n")

# Visualiser 64 neurones
visualize.plot_weights_visualization(
    W1, 
    n_neurons=64,
    figsize=(14, 14),
    save_path='../models/weights_layer1.png'
)

### üîç Analyse des Poids

**Question** : Que voyez-vous ?

Observez attentivement :

1. **Certains neurones d√©tectent des bords** (horizontaux, verticaux, diagonaux)
2. **D'autres d√©tectent des formes** (courbes, coins)
3. **Certains sont sp√©cialis√©s** pour des zones pr√©cises de l'image
4. **Quelques-uns semblent bruyants** (pas de pattern clair) - c'est normal !

C'est fascinant : **le r√©seau d√©couvre automatiquement** ces features √† partir des donn√©es ! ü§Ø

In [None]:
# Analyser les statistiques des poids
print("üìä Statistiques des Poids W1:\n")
print(f"Mean: {W1.mean():.6f}")
print(f"Std:  {W1.std():.6f}")
print(f"Min:  {W1.min():.6f}")
print(f"Max:  {W1.max():.6f}")

# Distribution des poids
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 4))

# Histogramme
ax1.hist(W1.flatten(), bins=100, color='steelblue', edgecolor='black', alpha=0.7)
ax1.axvline(0, color='red', linestyle='--', linewidth=2, label='Z√©ro')
ax1.set_xlabel('Valeur du poids', fontsize=12)
ax1.set_ylabel('Fr√©quence', fontsize=12)
ax1.set_title('Distribution des Poids (Couche 1)', fontsize=14, fontweight='bold')
ax1.legend()
ax1.grid(alpha=0.3)

# Heatmap de corr√©lation entre neurones
sample_neurons = W1[:, :50].T  # Prendre 50 neurones
correlation = np.corrcoef(sample_neurons)
sns.heatmap(correlation, cmap='coolwarm', center=0, square=True, ax=ax2,
            cbar_kws={'label': 'Corr√©lation'})
ax2.set_title('Corr√©lation entre Neurones (50 premiers)', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print("\nüí° Interpr√©tation:")
print("- Distribution centr√©e sur 0 ‚Üí Bonne initialisation He")
print("- Faible corr√©lation entre neurones ‚Üí Chaque neurone apprend des features diff√©rentes")

---

## 3Ô∏è‚É£ Visualisation des Activations (Neurones en Action)

### üî• Activation Maps

Maintenant, voyons comment les neurones **r√©agissent** √† de vraies images.

Pour une image donn√©e :
- Certains neurones s'activent fortement (valeurs √©lev√©es)
- D'autres restent silencieux (valeurs proches de 0)

Cela nous montre **quels neurones sont activ√©s** pour chaque type de chiffre.

In [None]:
# Fonction pour extraire les activations interm√©diaires
def get_layer_activations(model, X):
    """
    R√©cup√®re les activations de toutes les couches
    """
    _, cache = model.forward(X)
    
    activations = {}
    for l in range(1, len(model.layer_dims)):
        activations[f'Layer {l}'] = cache[f'A{l}']
    
    return activations

# Prendre quelques exemples
n_samples = 5
sample_indices = np.random.choice(len(X_test), n_samples, replace=False)
X_samples = X_test[sample_indices]
y_samples = y_test[sample_indices]

# Obtenir les activations
activations = get_layer_activations(model, X_samples)

print("Activations r√©cup√©r√©es:")
for layer_name, acts in activations.items():
    print(f"  {layer_name}: shape {acts.shape}")

In [None]:
# Visualiser les activations pour chaque couche
layer_names = [f'Layer {i}' for i in range(1, len(model.layer_dims)-1)]  # Exclure la sortie

visualize.plot_activation_outputs(
    activations,
    layer_names,
    n_samples=3,
    n_neurons=32,
    figsize=(15, 8),
    save_path='../models/activations.png'
)

In [None]:
# Analyser la sparsit√© des activations (apr√®s ReLU)
print("\nüìä Analyse de la Sparsit√© (% de neurones actifs):\n")

for layer_name, acts in activations.items():
    if 'Layer' in layer_name and layer_name != f'Layer {len(model.layer_dims)-1}':
        # Compter les neurones actifs (> 0)
        active_neurons = (acts > 0).sum() / acts.size * 100
        print(f"{layer_name}: {active_neurons:.1f}% neurones actifs")

print("\nüí° Une sparsit√© de ~50% est id√©ale (gr√¢ce √† ReLU)")
print("   - Trop peu (<20%) : Les neurones ne s'activent pas assez")
print("   - Trop (>80%) : Risque de surapprentissage")

---

## 4Ô∏è‚É£ Saliency Maps : Pixels Importants

### ‚ùì Question Cl√© :

**Quels pixels de l'image ont le plus d'influence sur la d√©cision du r√©seau ?**

### üéØ Saliency Map (Carte de Saillance)

Une **saliency map** montre l'importance de chaque pixel pour la pr√©diction.

**M√©thode** : Calculer le gradient de la sortie par rapport √† l'input

```
Saliency = |‚àÇoutput / ‚àÇinput|
```

- **Valeurs √©lev√©es** ‚Üí Le pixel est important
- **Valeurs faibles** ‚Üí Le pixel n'a pas d'impact

### Utilit√© :

‚úÖ V√©rifier que le r√©seau se concentre sur les **bonnes parties** de l'image  
‚úÖ D√©tecter si le r√©seau apprend des **biais** (ex: se concentrer sur le fond plut√¥t que le chiffre)  
‚úÖ Comprendre les **erreurs** du mod√®le

In [None]:
def compute_saliency_map(model, x, target_class):
    """
    Calcule la saliency map pour une image
    
    Args:
        model: r√©seau de neurones
        x: image (784,)
        target_class: classe cible
    
    Returns:
        saliency: gradient de l'output par rapport √† l'input (784,)
    """
    # Forward pass
    x_batch = x.reshape(1, -1)
    output, cache = model.forward(x_batch)
    
    # Cr√©er un gradient pour la classe cible
    grad_output = np.zeros_like(output)
    grad_output[0, target_class] = 1.0
    
    # Backprop simple (sans changer les poids)
    # Gradient de la couche de sortie
    dZ = grad_output
    
    # Backprop √† travers les couches
    L = len(model.layer_dims) - 1
    
    for l in reversed(range(1, L + 1)):
        dA_prev = np.dot(dZ, model.parameters[f'W{l}'].T)
        
        # Si pas la premi√®re couche, appliquer d√©riv√©e ReLU
        if l > 1:
            dZ = dA_prev * (cache[f'Z{l-1}'] > 0)
        else:
            # Gradient par rapport √† l'input
            saliency = dA_prev
    
    # Valeur absolue (on s'int√©resse √† la magnitude)
    saliency = np.abs(saliency).reshape(784)
    
    return saliency

print("‚úì Fonction saliency_map d√©finie")

In [None]:
# Calculer et visualiser les saliency maps
n_examples = 10
sample_indices = np.random.choice(len(X_test), n_examples, replace=False)

fig, axes = plt.subplots(3, n_examples, figsize=(16, 6))

for i, idx in enumerate(sample_indices):
    x = X_test[idx]
    y_true = y_test[idx]
    
    # Pr√©diction
    pred = model.predict(x.reshape(1, -1))[0]
    
    # Saliency map
    saliency = compute_saliency_map(model, x, pred)
    
    # Image originale
    axes[0, i].imshow(x.reshape(28, 28), cmap='gray')
    axes[0, i].set_title(f'Vrai: {y_true}\nPred: {pred}', fontsize=9)
    axes[0, i].axis('off')
    
    # Saliency map
    axes[1, i].imshow(saliency.reshape(28, 28), cmap='hot')
    axes[1, i].set_title('Saliency', fontsize=9)
    axes[1, i].axis('off')
    
    # Superposition
    axes[2, i].imshow(x.reshape(28, 28), cmap='gray', alpha=0.7)
    axes[2, i].imshow(saliency.reshape(28, 28), cmap='hot', alpha=0.3)
    axes[2, i].set_title('Overlay', fontsize=9)
    axes[2, i].axis('off')

axes[0, 0].set_ylabel('Image', fontsize=12, fontweight='bold')
axes[1, 0].set_ylabel('Saliency Map', fontsize=12, fontweight='bold')
axes[2, 0].set_ylabel('Superposition', fontsize=12, fontweight='bold')

plt.suptitle('üîç Saliency Maps - Pixels Importants pour la D√©cision', 
             fontsize=14, fontweight='bold', y=0.98)
plt.tight_layout()
plt.savefig('../models/saliency_maps.png', dpi=150, bbox_inches='tight')
plt.show()

print("\nüí° Interpr√©tation:")
print("Les zones rouges/jaunes sont les pixels importants pour la d√©cision.")
print("Le r√©seau se concentre-t-il sur le chiffre ou sur le fond ?")

---

## 5Ô∏è‚É£ Analyse des Erreurs

### üêõ Pourquoi le Mod√®le se Trompe-t-il ?

Analyser les erreurs est **crucial** pour am√©liorer le mod√®le.

**Questions importantes** :

1. Quels chiffres sont les plus confondus ?
2. Les erreurs sont-elles compr√©hensibles (m√™me pour un humain) ?
3. Y a-t-il des patterns dans les erreurs ?
4. Le mod√®le est-il confiant quand il se trompe ?

In [None]:
# Faire des pr√©dictions sur le test set
print("Calcul des pr√©dictions sur le test set...")
y_pred = model.predict(X_test)
y_probs, _ = model.forward(X_test)

# Matrice de confusion
cm = confusion_matrix(y_test, y_pred, num_classes=10)

print("\nüìä Matrice de Confusion:\n")
visualize.plot_confusion_matrix(
    cm,
    class_names=[str(i) for i in range(10)],
    figsize=(12, 5),
    save_path='../models/confusion_matrix_analysis.png'
)

In [None]:
# Identifier les paires les plus confondues
print("\nüîç Top 10 Confusions:\n")

confusions = []
for i in range(10):
    for j in range(10):
        if i != j and cm[i, j] > 0:
            confusions.append((i, j, cm[i, j]))

# Trier par nombre de confusions
confusions.sort(key=lambda x: x[2], reverse=True)

print(f"{'Vrai':<6} {'Pr√©dit':<8} {'Erreurs':<10} {'% du vrai'}")
print("-" * 40)

for true, pred, count in confusions[:10]:
    total_true = cm[true, :].sum()
    percentage = (count / total_true) * 100
    print(f"{true:<6} {pred:<8} {count:<10} {percentage:.2f}%")

print("\nüí° Ces confusions sont-elles logiques ?")
print("   Ex: 3/5, 4/9, 7/1 sont visuellement similaires")

In [None]:
# Visualiser les exemples mal classifi√©s (avec haute confiance)
print("\nüö® Exemples Mal Classifi√©s (avec haute confiance):\n")

visualize.plot_misclassified_examples(
    X_test,
    y_test,
    y_pred,
    y_probs,
    n_samples=20,
    figsize=(14, 12),
    save_path='../models/misclassified_confident.png'
)

In [None]:
# Analyser la distribution de confiance
errors_indices = np.where(y_test != y_pred)[0]
correct_indices = np.where(y_test == y_pred)[0]

# Confiance sur les pr√©dictions
confidence_errors = np.max(y_probs[errors_indices], axis=1)
confidence_correct = np.max(y_probs[correct_indices], axis=1)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

# Histogrammes de confiance
ax1.hist(confidence_correct, bins=50, alpha=0.7, color='green', 
         label=f'Correctes ({len(correct_indices)})', edgecolor='black')
ax1.hist(confidence_errors, bins=50, alpha=0.7, color='red', 
         label=f'Erreurs ({len(errors_indices)})', edgecolor='black')
ax1.set_xlabel('Confiance (max probabilit√©)', fontsize=12)
ax1.set_ylabel('Fr√©quence', fontsize=12)
ax1.set_title('Distribution de Confiance', fontsize=14, fontweight='bold')
ax1.legend()
ax1.grid(alpha=0.3)

# Box plot
data_to_plot = [confidence_correct, confidence_errors]
ax2.boxplot(data_to_plot, labels=['Correctes', 'Erreurs'], 
            patch_artist=True,
            boxprops=dict(facecolor='lightblue', color='black'),
            medianprops=dict(color='red', linewidth=2))
ax2.set_ylabel('Confiance', fontsize=12)
ax2.set_title('Comparaison de Confiance', fontsize=14, fontweight='bold')
ax2.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.savefig('../models/confidence_analysis.png', dpi=150, bbox_inches='tight')
plt.show()

print("\nüìä Statistiques de Confiance:\n")
print(f"Pr√©dictions Correctes:")
print(f"  Mean: {confidence_correct.mean():.4f}")
print(f"  Median: {np.median(confidence_correct):.4f}")
print(f"\nPr√©dictions Incorrectes:")
print(f"  Mean: {confidence_errors.mean():.4f}")
print(f"  Median: {np.median(confidence_errors):.4f}")

# Erreurs avec haute confiance (> 0.9)
high_conf_errors = np.sum(confidence_errors > 0.9)
print(f"\n‚ö†Ô∏è Erreurs avec confiance > 90%: {high_conf_errors} ({high_conf_errors/len(errors_indices)*100:.1f}%)")
print("   ‚Üí Le mod√®le est tr√®s s√ªr de lui m√™me quand il se trompe !")

---

## 6Ô∏è‚É£ Visualisation de l'Espace des Features (t-SNE)

### üó∫Ô∏è t-SNE : R√©duction de Dimensionnalit√©

**t-SNE** (t-Distributed Stochastic Neighbor Embedding) projette les donn√©es haute dimension en 2D.

### Pourquoi c'est utile ?

- Les features apprises par le r√©seau sont en haute dimension (ex: 128D)
- Impossible de les visualiser directement
- t-SNE les projette en 2D tout en **pr√©servant les similarit√©s**

### Interpr√©tation :

‚úÖ **Clusters bien s√©par√©s** ‚Üí Le r√©seau a bien appris √† s√©parer les classes  
‚ùå **Clusters m√©lang√©s** ‚Üí Le r√©seau confond certaines classes  
üîç **Points isol√©s** ‚Üí Exemples difficiles ou outliers

In [None]:
# Installer sklearn si n√©cessaire
try:
    from sklearn.manifold import TSNE
except ImportError:
    print("Installation de scikit-learn...")
    !pip install scikit-learn
    from sklearn.manifold import TSNE

print("‚úì t-SNE disponible")

In [None]:
# Extraire les features de l'avant-derni√®re couche
# (c'est l√† que les repr√©sentations sont les plus riches)
n_samples_tsne = 1000  # Limiter pour la vitesse
sample_indices = np.random.choice(len(X_test), n_samples_tsne, replace=False)
X_sample = X_test[sample_indices]
y_sample = y_test[sample_indices]

# Forward pass pour obtenir les features
_, cache = model.forward(X_sample)
features = cache[f'A{len(model.layer_dims)-2}']  # Avant-derni√®re couche

print(f"Features extraites: {features.shape}")
print(f"Dimension originale: {features.shape[1]}D")
print(f"\nCalcul du t-SNE (peut prendre 1-2 minutes)...")

# Appliquer t-SNE
tsne = TSNE(n_components=2, random_state=42, perplexity=30, n_iter=1000)
features_2d = tsne.fit_transform(features)

print("‚úì t-SNE termin√© !")

In [None]:
# Visualiser le t-SNE
fig, ax = plt.subplots(figsize=(12, 10))

# Couleurs pour chaque classe
colors = plt.cm.tab10(np.linspace(0, 1, 10))

for digit in range(10):
    mask = y_sample == digit
    ax.scatter(features_2d[mask, 0], features_2d[mask, 1],
              c=[colors[digit]], label=str(digit),
              alpha=0.6, edgecolors='black', linewidth=0.5, s=50)

ax.set_xlabel('t-SNE Dimension 1', fontsize=12, fontweight='bold')
ax.set_ylabel('t-SNE Dimension 2', fontsize=12, fontweight='bold')
ax.set_title('Visualisation t-SNE des Features Apprises', fontsize=14, fontweight='bold')
ax.legend(title='Chiffre', loc='best', frameon=True, shadow=True)
ax.grid(alpha=0.3)

plt.tight_layout()
plt.savefig('../models/tsne_visualization.png', dpi=150, bbox_inches='tight')
plt.show()

print("\nüí° Interpr√©tation:")
print("- Clusters bien s√©par√©s ‚Üí Le r√©seau distingue bien les classes")
print("- Chevauchements ‚Üí Chiffres visuellement similaires (ex: 3/5, 4/9)")
print("- Points isol√©s ‚Üí Exemples atypiques ou mal √©crits")

---

## üéì R√©sum√© et Conclusions

### üîë Points Cl√©s de l'Interpr√©tabilit√©

1. **Visualisation des Poids** üß†
   - Montre ce que chaque neurone cherche dans l'image
   - R√©v√®le des d√©tecteurs de bords, coins, courbes
   - Permet de v√©rifier que le r√©seau apprend des features sens√©es

2. **Activation Maps** üî•
   - Montre quels neurones s'activent pour chaque image
   - Analyse de la sparsit√© (id√©alement ~50% avec ReLU)
   - Permet de d√©tecter les neurones "morts" ou trop actifs

3. **Saliency Maps** üéØ
   - Identifie les pixels importants pour la d√©cision
   - V√©rifie que le r√©seau se concentre sur les bonnes zones
   - D√©tecte les biais potentiels

4. **Analyse des Erreurs** üêõ
   - Comprendre o√π et pourquoi le mod√®le se trompe
   - Identifier les confusions logiques (3/5, 4/9, etc.)
   - Analyser la confiance (le mod√®le sait-il quand il ne sait pas ?)

5. **Visualisation t-SNE** üó∫Ô∏è
   - Projette les features en 2D
   - Montre la s√©paration des classes dans l'espace appris
   - R√©v√®le les exemples difficiles et outliers

---

### üöÄ Applications Pratiques

Ces techniques d'interpr√©tabilit√© sont **essentielles** pour :

‚úÖ **Debugging** : Trouver pourquoi le mod√®le ne performe pas  
‚úÖ **Confiance** : Comprendre et faire confiance aux pr√©dictions  
‚úÖ **Am√©lioration** : Identifier les faiblesses et les corriger  
‚úÖ **Transparence** : Expliquer les d√©cisions (crucial en m√©decine, finance, etc.)  
‚úÖ **D√©tection de biais** : S'assurer que le mod√®le est √©quitable

---

### üí° Pour Aller Plus Loin

**Techniques avanc√©es d'interpr√©tabilit√©** :

1. **Grad-CAM** : Version am√©lior√©e des saliency maps pour les CNN
2. **LIME** : Explication locale avec mod√®les lin√©aires
3. **SHAP** : Valeurs de Shapley pour l'importance des features
4. **Adversarial Examples** : Trouver les faiblesses du mod√®le
5. **Feature Visualization** : G√©n√©rer des images qui maximisent l'activation

**Biblioth√®ques utiles** :
- `captum` (PyTorch)
- `tf-explain` (TensorFlow)
- `lime`
- `shap`

---

## üéØ Exercices

1. **Modifier l'architecture** et observer l'impact sur les poids visualis√©s
2. **Comparer les saliency maps** entre pr√©dictions correctes et incorrectes
3. **Identifier les neurones morts** (jamais activ√©s) dans votre r√©seau
4. **Analyser les erreurs** : Y a-t-il des patterns sp√©cifiques ?
5. **t-SNE sur diff√©rentes couches** : Comment l'espace des features √©volue ?

---

**F√©licitations ! üéâ**

Vous savez maintenant **ouvrir la bo√Æte noire** et comprendre ce qui se passe √† l'int√©rieur de vos r√©seaux de neurones !