> **‚ö†Ô∏è EN COURS DE CONSTRUCTION**
>
> Ce notebook est en cours de finalisation. Merci de ne pas le consulter pour l'instant.

# TP 03 - Multi-Head Attention

**Module** : R√©seaux de Neurones Approfondissement  
**Dur√©e** : 2h  
**Objectif** : Comprendre et impl√©menter le Multi-Head Attention

---

## Objectifs p√©dagogiques

√Ä la fin de ce TP, vous serez capable de :
1. Expliquer pourquoi plusieurs t√™tes d'attention sont utiles
2. Impl√©menter le Multi-Head Attention from scratch
3. Visualiser ce que chaque t√™te apprend
4. Comprendre le lien avec les Transformers

---

## Pr√©requis

Ce TP suppose que vous avez compl√©t√© le **TP 02 - M√©canisme d'Attention** o√π vous avez :
- Impl√©ment√© le Scaled Dot-Product Attention
- Compris les concepts de Query, Key, Value
- Visualis√© l'attention sur un vrai mod√®le

Ici, nous allons voir comment **combiner plusieurs t√™tes d'attention** pour capturer diff√©rents types de relations.

## 0. Installation et imports

In [None]:
# Installation des d√©pendances (Google Colab)
!pip install torch matplotlib numpy -q

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import math

torch.manual_seed(42)
print(f"PyTorch version: {torch.__version__}")

## 1. Rappel : Single-Head Attention

Reprenons notre fonction d'attention du TP pr√©c√©dent.

In [None]:
def scaled_dot_product_attention(Q, K, V, mask=None):
    """
    Scaled Dot-Product Attention.
    
    Args:
        Q: Queries, shape (..., seq_len, d_k)
        K: Keys, shape (..., seq_len, d_k)
        V: Values, shape (..., seq_len, d_v)
        mask: Masque optionnel
    
    Returns:
        output, attention_weights
    """
    d_k = K.shape[-1]
    scores = Q @ K.transpose(-2, -1) / math.sqrt(d_k)
    
    if mask is not None:
        scores = scores.masked_fill(mask, float('-inf'))
    
    attention_weights = F.softmax(scores, dim=-1)
    output = attention_weights @ V
    
    return output, attention_weights

---

## 2. Pourquoi Multi-Head ?

### Le probl√®me avec une seule t√™te

Une seule t√™te d'attention calcule **une** repr√©sentation des relations entre mots.

Mais dans une phrase, il y a **plusieurs types de relations** :
- Relations syntaxiques (sujet-verbe)
- Relations s√©mantiques (sens)
- Relations de proximit√©
- etc.

### La solution : plusieurs t√™tes

Chaque t√™te peut apprendre √† d√©tecter un type de relation diff√©rent !

**Analogie** : C'est comme avoir plusieurs experts qui analysent une phrase sous diff√©rents angles, puis combinent leurs analyses.

In [None]:
# Illustration : diff√©rentes t√™tes peuvent capturer diff√©rentes relations
phrase = ["Le", "chat", "noir", "mange", "la", "souris"]

# T√™te 1 : Relations syntaxiques (sujet-verbe)
attention_syntaxe = torch.tensor([
    [0.3, 0.5, 0.1, 0.05, 0.03, 0.02],  # "Le" ‚Üí "chat"
    [0.1, 0.3, 0.1, 0.4, 0.05, 0.05],   # "chat" ‚Üí "mange"
    [0.1, 0.6, 0.2, 0.05, 0.03, 0.02],  # "noir" ‚Üí "chat"
    [0.05, 0.5, 0.05, 0.2, 0.1, 0.1],   # "mange" ‚Üí "chat"
    [0.02, 0.03, 0.02, 0.03, 0.3, 0.6], # "la" ‚Üí "souris"
    [0.02, 0.1, 0.02, 0.4, 0.06, 0.4],  # "souris" ‚Üí "mange"
])

# T√™te 2 : Relations de proximit√©
attention_proximite = torch.tensor([
    [0.5, 0.4, 0.08, 0.01, 0.005, 0.005],
    [0.3, 0.4, 0.25, 0.04, 0.005, 0.005],
    [0.1, 0.35, 0.35, 0.15, 0.03, 0.02],
    [0.02, 0.1, 0.3, 0.35, 0.18, 0.05],
    [0.01, 0.02, 0.05, 0.25, 0.4, 0.27],
    [0.005, 0.01, 0.02, 0.1, 0.35, 0.515],
])

# Visualisation c√¥te √† c√¥te
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

for idx, (attn, title) in enumerate([
    (attention_syntaxe, "T√™te 1 : Relations syntaxiques"),
    (attention_proximite, "T√™te 2 : Proximit√©")
]):
    ax = axes[idx]
    im = ax.imshow(attn, cmap='Blues')
    ax.set_xticks(range(6))
    ax.set_xticklabels(phrase, rotation=45)
    ax.set_yticks(range(6))
    ax.set_yticklabels(phrase)
    ax.set_title(title)
    plt.colorbar(im, ax=ax)

plt.tight_layout()
plt.show()

---

## 3. Architecture Multi-Head Attention

### Sch√©ma

```
Input (seq_len, embed_dim)
        ‚Üì
   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
   ‚Üì         ‚Üì        ‚Üì        ‚Üì
 Head 1   Head 2   Head 3   Head 4   (chaque t√™te a sa propre projection Q, K, V)
   ‚Üì         ‚Üì        ‚Üì        ‚Üì
   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
        ‚Üì
    Concat
        ‚Üì
   Linear (projection de sortie)
        ‚Üì
Output (seq_len, embed_dim)
```

### Dimensions

- **embed_dim** : Dimension des embeddings (ex: 512)
- **num_heads** : Nombre de t√™tes (ex: 8)
- **d_k = embed_dim / num_heads** : Dimension par t√™te (ex: 64)

Chaque t√™te travaille avec une dimension r√©duite, puis on concat√®ne.

---

## 4. Impl√©mentation √©tape par √©tape

### √âtape 1 : Projections Q, K, V

In [None]:
# Configuration
batch_size = 2
seq_len = 6
embed_dim = 32
num_heads = 4
d_k = embed_dim // num_heads  # 32 / 4 = 8

print(f"embed_dim: {embed_dim}")
print(f"num_heads: {num_heads}")
print(f"d_k (dim par t√™te): {d_k}")

# Input
x = torch.randn(batch_size, seq_len, embed_dim)
print(f"\nInput shape: {x.shape}")

In [None]:
# Cr√©er les projections
# On projette vers embed_dim (pas num_heads * d_k, c'est la m√™me chose)
W_q = nn.Linear(embed_dim, embed_dim)
W_k = nn.Linear(embed_dim, embed_dim)
W_v = nn.Linear(embed_dim, embed_dim)

# Projeter
Q = W_q(x)  # (batch, seq_len, embed_dim)
K = W_k(x)
V = W_v(x)

print(f"Q shape apr√®s projection: {Q.shape}")

### √âtape 2 : Reshape pour s√©parer les t√™tes

On doit transformer `(batch, seq_len, embed_dim)` en `(batch, num_heads, seq_len, d_k)`

In [None]:
# ============================================
# EXERCICE 1 : Reshape pour multi-head
# ============================================

# Transformer (batch, seq_len, embed_dim) en (batch, num_heads, seq_len, d_k)
# Indice : utilisez view() et transpose()

def split_heads(x, num_heads):
    """
    Reshape (batch, seq_len, embed_dim) -> (batch, num_heads, seq_len, d_k)
    """
    batch_size, seq_len, embed_dim = x.shape
    d_k = embed_dim // num_heads
    
    # TODO: Impl√©menter le reshape en 2 √©tapes
    # - S√©parer embed_dim en (num_heads, d_k)
    # - R√©organiser pour avoir num_heads en position 1
    
    x = None  # √Ä compl√©ter
    
    return x

# Test (d√©commentez apr√®s avoir compl√©t√© l'exercice)
# Q_heads = split_heads(Q, num_heads)
# print(f"Q shape apr√®s split: {Q_heads.shape}")  # Attendu: (2, 4, 6, 8)

### √âtape 3 : Attention par t√™te

### √âtape 4 : Concat√©ner les t√™tes

In [None]:
# ============================================
# EXERCICE 2 : Concat des t√™tes
# ============================================

def concat_heads(x):
    """
    Reshape (batch, num_heads, seq_len, d_k) -> (batch, seq_len, embed_dim)
    C'est l'inverse de split_heads
    """
    batch_size, num_heads, seq_len, d_k = x.shape
    embed_dim = num_heads * d_k
    
    # TODO: Impl√©menter le reshape inverse
    # Indice : inverse des op√©rations de split_heads
    # N'oubliez pas .contiguous() si n√©cessaire
    
    x = None  # √Ä compl√©ter
    
    return x

# Test (d√©commentez apr√®s avoir compl√©t√© les exercices 1 et 2)
# Q_heads = split_heads(Q, num_heads)
# K_heads = split_heads(K, num_heads)
# V_heads = split_heads(V, num_heads)
# attn_output, attn_weights = scaled_dot_product_attention(Q_heads, K_heads, V_heads)
# concat_output = concat_heads(attn_output)
# print(f"Output apr√®s concat: {concat_output.shape}")  # Attendu: (2, 6, 32)

### √âtape 5 : Projection de sortie

In [None]:
# Projection finale
W_o = nn.Linear(embed_dim, embed_dim)

final_output = W_o(concat_output)
print(f"Final output shape: {final_output.shape}")  # (2, 6, 32)

In [None]:
class MultiHeadAttention(nn.Module):
    """
    Multi-Head Attention.
    
    Args:
        embed_dim: Dimension des embeddings
        num_heads: Nombre de t√™tes d'attention
    """
    
    def __init__(self, embed_dim, num_heads):
        super().__init__()
        
        assert embed_dim % num_heads == 0, "embed_dim doit √™tre divisible par num_heads"
        
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.d_k = embed_dim // num_heads
        
        # TODO: Cr√©er les 4 projections lin√©aires
        self.W_q = None  # nn.Linear(embed_dim, embed_dim)
        self.W_k = None
        self.W_v = None
        self.W_o = None
    
    def split_heads(self, x):
        """(batch, seq_len, embed_dim) -> (batch, num_heads, seq_len, d_k)"""
        batch_size, seq_len, _ = x.shape
        # TODO: Impl√©menter
        return None
    
    def concat_heads(self, x):
        """(batch, num_heads, seq_len, d_k) -> (batch, seq_len, embed_dim)"""
        batch_size, _, seq_len, _ = x.shape
        # TODO: Impl√©menter
        return None
    
    def forward(self, x, mask=None):
        """
        Args:
            x: Input, shape (batch, seq_len, embed_dim)
            mask: Masque optionnel
        
        Returns:
            output: (batch, seq_len, embed_dim)
            attention_weights: (batch, num_heads, seq_len, seq_len)
        """
        # TODO: Impl√©menter le forward
        # 1. Projeter x en Q, K, V
        Q = None
        K = None
        V = None
        
        # 2. Split en t√™tes
        Q = None  # self.split_heads(Q)
        K = None
        V = None
        
        # 3. Attention
        attn_output, attn_weights = None, None  # scaled_dot_product_attention(Q, K, V, mask)
        
        # 4. Concat
        concat_output = None  # self.concat_heads(attn_output)
        
        # 5. Projection de sortie
        output = None  # self.W_o(concat_output)
        
        return output, attn_weights

In [None]:
# Test de votre impl√©mentation
mha = MultiHeadAttention(embed_dim=32, num_heads=4)

x = torch.randn(2, 6, 32)  # batch=2, seq=6, embed=32
output, weights = mha(x)

print(f"Input shape: {x.shape}")
print(f"Output shape: {output.shape}")  # Attendu: (2, 6, 32)
print(f"Weights shape: {weights.shape}")  # Attendu: (2, 4, 6, 6)

---

## 6. Visualisation des t√™tes sur un vrai mod√®le

Voyons ce que les diff√©rentes t√™tes capturent sur un mod√®le **r√©ellement entra√Æn√©**.

In [None]:
# Charger DistilBERT (comme au TP 02)
!pip install transformers -q

from transformers import AutoModel, AutoTokenizer

model_name = "distilbert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, output_attentions=True)
model.eval()

# Phrase de test
phrase = "The cat sat on the mat because it was tired"
inputs = tokenizer(phrase, return_tensors="pt")
tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])

# Forward pass
with torch.no_grad():
    outputs = model(**inputs)

# Extraire les attentions de la couche 5 (12 t√™tes)
layer = 4  # Couche 5 (index 0-5)
attention = outputs.attentions[layer][0]  # (num_heads, seq_len, seq_len)

print(f"Phrase: {phrase}")
print(f"Tokens: {tokens}")
print(f"Shape attention couche {layer+1}: {attention.shape}")  # (12, 11, 11)

In [None]:
# Visualiser 4 t√™tes diff√©rentes de la m√™me couche
fig, axes = plt.subplots(2, 2, figsize=(14, 12))

# S√©lectionner 4 t√™tes int√©ressantes
heads_to_show = [1, 2, 5, 10]  # Diff√©rentes t√™tes

for idx, head in enumerate(heads_to_show):
    ax = axes[idx // 2, idx % 2]
    w = attention[head].numpy()
    
    im = ax.imshow(w, cmap='Blues')
    ax.set_xticks(range(len(tokens)))
    ax.set_xticklabels(tokens, rotation=45, ha='right', fontsize=9)
    ax.set_yticks(range(len(tokens)))
    ax.set_yticklabels(tokens, fontsize=9)
    ax.set_title(f"T√™te {head + 1}", fontsize=12)
    plt.colorbar(im, ax=ax)

plt.suptitle(f"Diff√©rentes t√™tes de la couche {layer+1} - Chaque t√™te capture des relations diff√©rentes", fontsize=13)
plt.tight_layout()
plt.show()

# Analyse sp√©cifique : que regarde "it" selon diff√©rentes t√™tes ?
it_index = tokens.index("it")
print(f"\n{'='*60}")
print(f"Que regarde le pronom 'it' selon chaque t√™te ?")
print(f"{'='*60}")

for head in heads_to_show:
    print(f"\n--- T√™te {head + 1} ---")
    weights = attention[head, it_index].numpy()
    top_indices = weights.argsort()[-3:][::-1]  # Top 3
    for i in top_indices:
        bar = "‚ñà" * int(weights[i] * 20)
        print(f"  {tokens[i]:10} {weights[i]:.2f} {bar}")

**Observation** : Chaque t√™te a appris √† capturer des **relations diff√©rentes** :
- Certaines t√™tes se concentrent sur la **cor√©f√©rence** ("it" ‚Üí "cat")
- D'autres sur la **proximit√©** (mots voisins)
- D'autres sur la **syntaxe** (sujet-verbe)
- Certaines regardent le token **[CLS]** (repr√©sentation globale)

C'est exactement ce qu'on voulait ! Multi-head = **plusieurs experts** qui analysent la phrase sous diff√©rents angles.

---

## 7. Comparaison avec PyTorch nn.MultiheadAttention

In [None]:
# PyTorch fournit une impl√©mentation optimis√©e
mha_pytorch = nn.MultiheadAttention(embed_dim=32, num_heads=4, batch_first=True)

x = torch.randn(2, 6, 32)

# Pour nn.MultiheadAttention, on passe query, key, value s√©par√©ment
# En self-attention, query = key = value = x
output_pytorch, weights_pytorch = mha_pytorch(x, x, x)

print(f"Output shape (PyTorch): {output_pytorch.shape}")
print(f"Weights shape (PyTorch): {weights_pytorch.shape}")

---

## 8. Exercice de synth√®se : Nombre de param√®tres

Calculons le nombre de param√®tres dans notre MultiHeadAttention.

In [None]:
# ============================================
# EXERCICE 4 : Calcul des param√®tres
# ============================================

embed_dim = 512
num_heads = 8

# Combien de param√®tres dans :
# - W_q : Linear(embed_dim, embed_dim) = embed_dim * embed_dim + embed_dim (weights + bias)
# - W_k : idem
# - W_v : idem
# - W_o : idem

params_per_linear = None  # TODO: Calculer
total_params = None  # TODO: 4 * params_per_linear

print(f"Param√®tres par couche lin√©aire: {params_per_linear:,}")
print(f"Total param√®tres MHA: {total_params:,}")

In [None]:
# V√©rification
mha_test = MultiHeadAttention(embed_dim=512, num_heads=8)
real_params = sum(p.numel() for p in mha_test.parameters())
print(f"V√©rification PyTorch: {real_params:,} param√®tres")

# ============================================
# EXERCICE 4 : Calcul des param√®tres
# ============================================

embed_dim = 512
num_heads = 8

# Combien de param√®tres dans notre MultiHeadAttention ?
# Rappel : nn.Linear(in, out) a (in * out + out) param√®tres (weights + bias)
#
# Indice : Comptez les param√®tres de chaque couche lin√©aire (W_q, W_k, W_v, W_o)

params_per_linear = None  # TODO: Calculer pour une couche Linear(embed_dim, embed_dim)
total_params = None  # TODO: Calculer le total

print(f"Param√®tres par couche lin√©aire: {params_per_linear:,}")
print(f"Total param√®tres MHA: {total_params:,}")

---

## 10. Pour aller plus loin : Cross-Attention

> **Note** : Le cross-attention sera abord√© en d√©tail dans les **projets** (Mini-GPT, RAG).

**Self-attention** (ce qu'on a fait) : Q, K, V viennent de la **m√™me** source.

**Cross-attention** : Q vient d'une source, K et V d'une **autre** source.
- Utilis√© en **traduction** : le d√©codeur (fran√ßais) "interroge" l'encodeur (anglais)
- Utilis√© dans les **mod√®les g√©n√©ratifs** avec contexte externe (RAG)

```
Self-attention:     x ‚îÄ‚îÄ‚ñ∫ Q, K, V     (m√™me source)
Cross-attention:    x_dec ‚îÄ‚îÄ‚ñ∫ Q       (une source)
                    x_enc ‚îÄ‚îÄ‚ñ∫ K, V    (autre source)
```

Dans les TP 2-4, nous utilisons uniquement la **self-attention** (encodeur). Le cross-attention sera explor√© dans les projets avec les architectures g√©n√©ratives.

---

## 11. Mini-projet : Classifier les Pok√©mon par type

> **üè† BONUS / DEVOIR MAISON**
> 
> Cette section est **optionnelle** et ne fait pas partie du TP en session.
> Elle est propos√©e pour les √©tudiants qui souhaitent approfondir √† la maison.

Dans ce projet, vous allez **fine-tuner CamemBERT** (un mod√®le BERT fran√ßais) pour classifier des articles Pok√©mon par type (Feu, Eau, Plante...), puis **analyser les t√™tes d'attention** pour comprendre ce que le mod√®le a appris.

### Objectifs p√©dagogiques

1. Comprendre le **fine-tuning** d'un mod√®le pr√©-entra√Æn√©
2. Observer comment les **t√™tes d'attention changent** apr√®s entra√Ænement
3. Analyser si certaines t√™tes se **sp√©cialisent** sur des patterns sp√©cifiques

### Structure du projet

| Partie | Contenu | Difficult√© |
|--------|---------|------------|
| **Partie 1** | Fine-tuning CamemBERT pour classification | ‚≠ê‚≠ê |
| **Partie 2** | Visualisation de l'attention avant/apr√®s | ‚≠ê‚≠ê |
| **Partie 3** | Analyse des t√™tes sp√©cialis√©es | ‚≠ê‚≠ê‚≠ê |

---

### Partie 1 : Fine-tuning CamemBERT

#### 1.1 Chargement du dataset Pok√©mon