# TP 01 - Le M√©canisme d'Attention

**Module** : R√©seaux de Neurones Approfondissement  
**Dur√©e** : 2h  
**Objectif** : Comprendre et impl√©menter le m√©canisme d'attention, brique fondamentale des Transformers

---

## Objectifs p√©dagogiques

√Ä la fin de ce TP, vous serez capable de :
1. Expliquer intuitivement ce qu'est l'attention
2. Comprendre les concepts de Query, Key, Value
3. Impl√©menter le Scaled Dot-Product Attention
4. Visualiser et interpr√©ter les poids d'attention

## 0. Installation et imports

Ex√©cutez cette cellule pour installer les d√©pendances n√©cessaires.

In [None]:
# Installation des d√©pendances (Google Colab)
!pip install torch matplotlib numpy -q

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np

# Configuration
torch.manual_seed(42)
print(f"PyTorch version: {torch.__version__}")
print(f"GPU disponible: {torch.cuda.is_available()}")

---

## 1. Introduction : Pourquoi l'attention ?

> **Note p√©dagogique** : Dans les sessions 1 √† 3, on se concentre sur le **fonctionnement** de l'architecture (inf√©rence/forward pass). L'**entra√Ænement** (backpropagation, optimisation) sera abord√© en session 4.

### 1.1 Les architectures s√©quentielles (RNN / LSTM)

Les **r√©seaux r√©currents (RNN)** traitent les s√©quences **mot par mot** :

```
        ‚îå‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îê
  x‚ÇÅ ‚îÄ‚îÄ‚ñ∂‚îÇ h ‚îú‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ h ‚îú‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ h ‚îú‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ h ‚îú‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ h ‚îú‚îÄ‚îÄ‚ñ∂ sortie
  Le    ‚îî‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îò
           ‚îÇ        ‚îÇ        ‚îÇ        ‚îÇ        ‚îÇ
          x‚ÇÇ       x‚ÇÉ       x‚ÇÑ       x‚ÇÖ       x‚ÇÜ
         chat     dort      sur      le     canap√©
```

**Probl√®me** : L'information passe de cellule en cellule. Pour relier "Le chat" √† "canap√©", il faut traverser toute la cha√Æne ‚Üí l'info se d√©grade (gradient √©vanescent).

Les **LSTM** ajoutent des "portes" pour mieux contr√¥ler la m√©moire :

```
                    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
                    ‚îÇ      CELLULE LSTM       ‚îÇ
        ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
        ‚îÇ  Porte    ‚îÇ  Porte    ‚îÇ    Porte    ‚îÇ
        ‚îÇ  Oubli    ‚îÇ  Entr√©e   ‚îÇ   Sortie    ‚îÇ
        ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
              ‚îÇ           ‚îÇ            ‚îÇ
          Effacer?    Ajouter?    Utiliser?
```

**Am√©lioration** : Les LSTM retiennent mieux les infos longue distance.
**Mais** : Toujours s√©quentiel (lent) et limit√© sur les tr√®s longues s√©quences.

### 1.2 L'architecture Transformer

Le **Transformer** (2017) abandonne la r√©currence. Chaque mot peut regarder **tous les autres directement** :

```
Entr√©e: "Le chat dort sur le canap√©" (6 tokens)
         ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ
         ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ          EMBEDDINGS (6 vecteurs)            ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ
         ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ             SELF-ATTENTION                  ‚îÇ
‚îÇ   Chaque vecteur regarde les 5 autres       ‚îÇ
‚îÇ   ‚Üí Enrichit chaque mot avec le CONTEXTE    ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ
         ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº
       (6 vecteurs enrichis)
         ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ
         ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ        FEED-FORWARD (par position)          ‚îÇ
‚îÇ   Exploite le contexte enrichi              ‚îÇ
‚îÇ   (comme un r√©seau de neurones classique)   ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ
         ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº
      Sortie: 6 vecteurs transform√©s
```

**Points cl√©s** :
- **Entr√©e = Sortie** : Si tu entres 6 mots ‚Üí tu obtiens 6 vecteurs enrichis
- **Taille variable** : Tu peux entrer 5, 50, ou 500 mots (jusqu'√† une limite : 512 pour BERT, 128K pour GPT-4)
- **Self-Attention** : Donne du contexte √† chaque mot
- **Feed-Forward** : Exploite ce contexte (transformation non-lin√©aire)

**Que sort le Transformer ?**

Le Transformer produit des **vecteurs enrichis** (repr√©sentations). Une couche de sortie (ajout√©e selon la t√¢che) les transforme en r√©sultat :
- **Classification** ‚Üí probabilit√© par classe (ex: 70% positif, 30% n√©gatif)
- **G√©n√©ration** ‚Üí probabilit√© du prochain mot
- **Traduction** ‚Üí phrase dans l'autre langue

### Comment les mots entrent dans le Transformer ?

Chaque mot passe par **deux √©tapes** avant d'entrer :

```
Mot "chat" (position 1)
        ‚îÇ
        ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Token Embedding (fixe pour chaque token)        ‚îÇ
‚îÇ "chat" ‚Üí [0.8, 0.1, 0.3, ...]                   ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
        ‚îÇ
        + (addition)
        ‚îÇ
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Positional Encoding (fixe pour chaque position) ‚îÇ
‚îÇ position 1 ‚Üí [0.0, 0.1, 0.0, ...]               ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
        ‚îÇ
        ‚ñº
Vecteur d'entr√©e = [0.8, 0.2, 0.3, ...]
```

**Deux composants distincts, tous deux fig√©s apr√®s entra√Ænement :**

| Composant | Taille | R√¥le |
|-----------|--------|------|
| Token embeddings | ~50k √ó dim | "Qui suis-je ?" (sens du mot) |
| Positional encodings | max_len √ó dim | "O√π suis-je ?" (position dans la phrase) |

**Pourquoi c'est important ?** Sans le positional encoding, le mod√®le ne distinguerait pas :
- *"Le chat mange la souris"*
- *"La souris mange le chat"*

(M√™mes tokens, ordre diff√©rent ‚Üí sens oppos√© !)

### 1.3 Empilement des blocs

Ces blocs (Attention + FFN) sont **empil√©s** : la sortie de l'un devient l'entr√©e du suivant.

```
Entr√©e (6 vecteurs)
         ‚îÇ
         ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ   Attention 1   ‚îÇ
‚îÇ        ‚Üì        ‚îÇ  Bloc 1
‚îÇ     FFN 1       ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ   Attention 2   ‚îÇ
‚îÇ        ‚Üì        ‚îÇ  Bloc 2
‚îÇ     FFN 2       ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
        ...
         ‚îÇ
         ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ   Attention N   ‚îÇ
‚îÇ        ‚Üì        ‚îÇ  Bloc N (ex: N=12 pour BERT)
‚îÇ     FFN N       ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚ñº
Sortie (6 vecteurs tr√®s enrichis)
```

Chaque passage enrichit les repr√©sentations. Apr√®s N blocs, chaque mot "comprend" toute la phrase.

### 1.4 Ce qu'on va construire

```
    TRANSFORMER
    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
    ‚îÇ  Embedding + Positional    ‚îÇ
    ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
    ‚îÇ ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê ‚îÇ
    ‚îÇ ‚îÇ   SELF-ATTENTION  ‚óÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îº‚îÄ‚îÄ‚îÄ Sessions 1-2
    ‚îÇ ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò ‚îÇ
    ‚îÇ ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê ‚îÇ
    ‚îÇ ‚îÇ     FEED-FORWARD       ‚îÇ ‚îÇ
    ‚îÇ ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò ‚îÇ
    ‚îÇ         √ó N blocs          ‚îÇ
    ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
    ‚îÇ     Couche de sortie       ‚îÇ
    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

**Plan du cours** :
- **Session 1** : M√©canisme d'attention (ce TP)
- **Session 2** : Multi-Head Attention
- **Session 3** : Assembler le Transformer complet
- **Sessions 4-5** : Entra√Ænement et projets

### 1.5 L'id√©e cl√© de l'attention

L'attention r√©pond √† la question : **"Pour comprendre ce mot, quels autres mots dois-je regarder ?"**

**Exemple** : *"Le chat qui dormait sur le canap√© a saut√©"*
- Pour comprendre **"a saut√©"** ‚Üí regarder **"chat"** (le sujet, pas "canap√©")

### Analogie : La biblioth√®que

- **Query (Q)** : Votre question ("Je cherche un livre sur les chats")
- **Key (K)** : Les mots-cl√©s de chaque livre
- **Value (V)** : Le contenu des livres

L'attention compare votre **question** aux **mots-cl√©s**, puis retourne un m√©lange pond√©r√© des **contenus** les plus pertinents.

---

### üìö Pour approfondir RNN/LSTM (optionnel)

**Vid√©os en fran√ßais** :
- [Machine Learnia - Les RNN expliqu√©s](https://www.youtube.com/watch?v=EL439RMv3Xc) (~20 min)
- [Science4All - Comprendre les LSTM](https://www.youtube.com/watch?v=WCUNPb-5EYI) (~15 min)

**Articles en fran√ßais** :
- [Pens√©e Artificielle - Introduction aux RNN](https://www.penseeartificielle.fr/comprendre-reseaux-neurones-recurrents-rnn/)
- [DataScientest - LSTM expliqu√© simplement](https://datascientest.com/lstm-tout-savoir)

---

## 2. Visualisation intuitive

Avant de coder, visualisons ce que fait l'attention.

In [None]:
# Exemple simple : attention dans une phrase
phrase = ["Le", "chat", "mange", "la", "souris"]

# Matrice d'attention simul√©e (quels mots regardent quels mots ?)
# Chaque ligne = un mot qui "regarde" les autres
attention_simulee = torch.tensor([
    [0.8, 0.1, 0.05, 0.03, 0.02],  # "Le" regarde surtout lui-m√™me
    [0.1, 0.7, 0.1, 0.05, 0.05],   # "chat" regarde surtout lui-m√™me
    [0.05, 0.4, 0.4, 0.05, 0.1],   # "mange" regarde "chat" et lui-m√™me
    [0.02, 0.03, 0.05, 0.8, 0.1],  # "la" regarde surtout lui-m√™me
    [0.02, 0.1, 0.2, 0.08, 0.6],   # "souris" regarde "mange" et elle-m√™me
])

# Visualisation
plt.figure(figsize=(8, 6))
plt.imshow(attention_simulee, cmap='Blues')
plt.xticks(range(5), phrase)
plt.yticks(range(5), phrase)
plt.xlabel("Mots regard√©s (Keys)")
plt.ylabel("Mots qui regardent (Queries)")
plt.title("Qui regarde qui ? (Matrice d'attention)")
plt.colorbar(label="Poids d'attention")

# Afficher les valeurs
for i in range(5):
    for j in range(5):
        plt.text(j, i, f'{attention_simulee[i,j]:.2f}', 
                ha='center', va='center',
                color='white' if attention_simulee[i,j] > 0.5 else 'black')
plt.show()

**Question** : Dans cette matrice, quel mot le verbe "mange" regarde-t-il le plus ? Pourquoi est-ce logique ?

---

## 3. Scaled Dot-Product Attention

Le **Scaled Dot-Product Attention** est l'op√©ration qui calcule la **matrice d'attention** (les poids "qui regarde qui") et produit les vecteurs enrichis en sortie.

**Rappel des 3 vecteurs :**

| Vecteur | R√¥le | Sert √†... |
|---------|------|-----------|
| **Q** (Query) | Ce que je cherche | Calculer les poids (avec K) |
| **K** (Key) | Mon identit√© / √©tiquette | Calculer les poids (avec Q) |
| **V** (Value) | Mon contenu / l'info que je transmets | √ätre r√©cup√©r√© selon les poids |

**Concr√®tement** : La matrice d'attention dit "√† quel point chaque mot m'int√©resse" (calcul√©e avec Q et K). Ensuite on r√©cup√®re l'**information** (V) de ces mots, pond√©r√©e par ces poids.

**Exemple** : Pour "dort" dans ["Le", "chat", "dort"], si les poids sont [0.26, 0.42, 0.32] :
- On r√©cup√®re 26% du **contenu** (V) de "Le"
- On r√©cup√®re 42% du **contenu** (V) de "chat"
- On r√©cup√®re 32% du **contenu** (V) de "dort"

**Attention au vocabulaire** :
- `softmax(QK^T/‚àöd_k)` = **matrice d'attention** (les poids)
- `Attention(Q,K,V)` = matrice d'attention √ó V = **sortie** (vecteurs enrichis)

### La formule

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

O√π :
- $Q$ (Query) : Ce que je cherche - shape `(seq_len, d_k)`
- $K$ (Key) : Les √©tiquettes de ce qui est disponible - shape `(seq_len, d_k)`
- $V$ (Value) : Le contenu disponible - shape `(seq_len, d_v)`
- $d_k$ : Dimension des cl√©s (pour normaliser)

> **Note** : Q, K, V sont obtenus √† partir des embeddings via des matrices de poids apprenables. Cela permet √† chaque mot d'avoir une repr√©sentation adapt√©e √† son r√¥le (chercher, s'identifier, transmettre).

### Exemple concret

Prenons la phrase **["Le", "chat", "dort"]** avec des embeddings de dimension 4.

Supposons qu'apr√®s transformation, on obtienne :

```
         Q (Queries)         K (Keys)           V (Values)
Le    ‚Üí [0.1, 0.2, 0.1, 0.0]  [0.9, 0.1, 0.0, 0.2]  [1.0, 0.0, 0.0, 0.0]
chat  ‚Üí [0.2, 0.8, 0.1, 0.3]  [0.2, 0.9, 0.2, 0.1]  [0.0, 1.0, 0.0, 0.0]
dort  ‚Üí [0.3, 0.7, 0.2, 0.1]  [0.1, 0.3, 0.8, 0.1]  [0.0, 0.0, 1.0, 0.0]
```

**Calculons l'attention pour "dort"** (quelle info r√©cup√®re-t-il des autres mots ?) :

**√âtape 1 - Scores (Q¬∑K·µÄ)** : On compare la Query de "dort" aux Keys de tous les mots
```
Q_dort ¬∑ K_Le   = 0.3√ó0.9 + 0.7√ó0.1 + 0.2√ó0.0 + 0.1√ó0.2 = 0.36
Q_dort ¬∑ K_chat = 0.3√ó0.2 + 0.7√ó0.9 + 0.2√ó0.2 + 0.1√ó0.1 = 0.74  ‚Üê score √©lev√© !
Q_dort ¬∑ K_dort = 0.3√ó0.1 + 0.7√ó0.3 + 0.2√ó0.8 + 0.1√ó0.1 = 0.41

Scores = [0.36, 0.74, 0.41]
```

**√âtape 2 - Scaling (√∑‚àöd_k)** : On divise par ‚àö4 = 2
```
Scaled = [0.18, 0.37, 0.205]
```

**√âtape 3 - Softmax** : On transforme en probabilit√©s
```
Poids = [0.26, 0.42, 0.32]  (somme = 1)
```

**√âtape 4 - Output (poids √ó V)** : Moyenne pond√©r√©e des Values
```
Output_dort = 0.26 √ó V_Le + 0.42 √ó V_chat + 0.32 √ó V_dort
            = 0.26 √ó [1,0,0,0] + 0.42 √ó [0,1,0,0] + 0.32 √ó [0,0,1,0]
            = [0.26, 0.42, 0.32, 0.0]
```

**Interpr√©tation** : La nouvelle repr√©sentation de "dort" contient **42% d'info de "chat"** (le sujet), **32% de lui-m√™me** (le verbe), et **26% de "Le"** (le d√©terminant). Le mod√®le a appris que pour comprendre un verbe, il faut surtout regarder son sujet.

### D√©composition √©tape par √©tape

1. **Scores** : $QK^T$ - Mesure la similarit√© entre queries et keys
2. **Scaling** : Division par $\sqrt{d_k}$ - √âvite des valeurs trop grandes
3. **Softmax** : Transforme en probabilit√©s (somme = 1)
4. **Output** : Multiplication par $V$ - Moyenne pond√©r√©e des values

### Pourquoi softmax ? Pourquoi normaliser ?

**Le softmax** transforme des scores quelconques en **probabilit√©s** :

$$\text{softmax}(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}}$$

```
Scores bruts :  [0.36, 0.74, 0.41]  (peuvent √™tre n√©gatifs, grands, etc.)
                        ‚Üì softmax
Probabilit√©s :  [0.26, 0.42, 0.32]  (entre 0 et 1, somme = 1)
```

**Propri√©t√©s utiles** :
- Toutes les valeurs sont positives et somment √† 1 ‚Üí interpr√©tables comme "pourcentage d'attention"
- Amplifie les diff√©rences : le score le plus √©lev√© "gagne" plus de poids

**La normalisation (√∑‚àöd_k)** √©vite un probl√®me quand la dimension est grande :

```
Sans normalisation (d_k = 512) :
  Scores Q¬∑K ‚Üí valeurs entre -50 et +50
  Softmax ‚Üí [0.0001, 0.9998, 0.0001]  ‚Üê trop "peaked" !
  
Avec normalisation (√∑‚àö512 ‚âà 22.6) :
  Scores ‚Üí valeurs entre -2 et +2
  Softmax ‚Üí [0.20, 0.45, 0.35]  ‚Üê distribution plus douce
```

Une distribution trop "peaked" pose probl√®me : gradients tr√®s faibles ‚Üí apprentissage difficile.

### Exercice 1 : Calcul manuel des scores

Commen√ßons par calculer les scores d'attention manuellement.

In [None]:
# Exemple simple avec 3 mots et dimension 4
seq_len = 3
d_k = 4

# Cr√©ons des Query, Key, Value al√©atoires
Q = torch.randn(seq_len, d_k)
K = torch.randn(seq_len, d_k)
V = torch.randn(seq_len, d_k)

print("Q (Queries):")
print(Q)
print(f"\nShape Q: {Q.shape}")
print(f"Shape K: {K.shape}")
print(f"Shape V: {V.shape}")

In [None]:
# ============================================
# EXERCICE 1 : Calculez les scores d'attention
# ============================================

# √âtape 1 : Calculer QK^T (produit matriciel)
# La transpos√©e de K se note K.T

scores = None  # TODO: Calculer QK^T

print("Scores (QK^T):")
print(scores)
print(f"Shape: {scores.shape}")  # Devrait √™tre (3, 3)

In [None]:
# ============================================
# EXERCICE 2 : Appliquez le scaling
# ============================================

# Diviser par la racine de la dimension des vecteurs pour √©viter des valeurs trop grandes

import math

scaled_scores = None  # TODO: scores / sqrt(d_k)

print("Scaled scores:")
print(scaled_scores)

In [None]:
# ============================================
# EXERCICE 3 : Appliquez le softmax
# ============================================

# Le softmax transforme les scores en probabilit√©s
# Chaque ligne doit sommer √† 1
# Indice : F.softmax(tensor, dim=i) applique softmax sur la dimension i

attention_weights = None  # TODO: Appliquer softmax sur scaled_scores

print("Poids d'attention (apr√®s softmax):")
print(attention_weights)
print(f"\nV√©rification - Somme par ligne: {attention_weights.sum(dim=1)}")

In [None]:
# ============================================
# EXERCICE 4 : Calculez la sortie finale
# ============================================

# Multiplier les poids d'attention par V
# C'est une moyenne pond√©r√©e des values

output = None  # TODO: attention_weights @ V

print("Output:")
print(output)
print(f"Shape: {output.shape}")  # Devrait √™tre (3, 4)

---

## 4. Impl√©mentation compl√®te

### Exercice 5 : Fonction d'attention

Maintenant, regroupez tout dans une fonction.

In [None]:
def scaled_dot_product_attention(Q, K, V):
    """
    Calcule le Scaled Dot-Product Attention.
    
    Args:
        Q: Queries, shape (seq_len, d_k) ou (batch, seq_len, d_k)
        K: Keys, shape (seq_len, d_k) ou (batch, seq_len, d_k)
        V: Values, shape (seq_len, d_v) ou (batch, seq_len, d_v)
    
    Returns:
        output: R√©sultat de l'attention, shape (seq_len, d_v)
        attention_weights: Poids d'attention, shape (seq_len, seq_len)
    """
    # TODO: R√©cup√©rer d_k (derni√®re dimension de K)
    d_k=None
    # TODO: Impl√©menter les 4 √©tapes
    # 1. Calculer les scores : QK^T
    scores = None
    
    # 2. Scaling : diviser par sqrt(d_k)
    scaled_scores = None
    
    # 3. Softmax pour obtenir les poids
    attention_weights = None
    
    # 4. Moyenne pond√©r√©e : weights @ V
    output = None
    
    return output, attention_weights

In [None]:
# Test de votre fonction
Q_test = torch.randn(4, 8)  # 4 tokens, dimension 8
K_test = torch.randn(4, 8)
V_test = torch.randn(4, 8)

output, weights = scaled_dot_product_attention(Q_test, K_test, V_test)

print(f"Structure de sortie: {output.shape}")  # Attendu: (4, 8)
print(f"Structure des poids: {weights.shape}")  # Attendu: (4, 4)
print(f"Somme des poids par ligne: {weights.sum(dim=1)}")  # Attendu: [1, 1, 1, 1]

---

## 5. Pourquoi diviser par sqrt(d_k) ?

C'est une question importante ! Voyons l'effet du scaling.

In [None]:
# Comparaison avec et sans scaling
d_k_grand = 512  # Dimension typique dans un Transformer

Q_grand = torch.randn(10, d_k_grand)
K_grand = torch.randn(10, d_k_grand)

# Scores sans scaling
scores_sans_scaling = Q_grand @ K_grand.T
attention_sans_scaling = F.softmax(scores_sans_scaling, dim=-1)

# Scores avec scaling
scores_avec_scaling = (Q_grand @ K_grand.T) / math.sqrt(d_k_grand)
attention_avec_scaling = F.softmax(scores_avec_scaling, dim=-1)

 # Fonction pour calculer l'entropie (avec epsilon pour √©viter log(0))
def entropy(p, eps=1e-9):
  p_safe = p.clamp(min=eps)
  return -(p * p_safe.log()).sum(dim=-1).mean()


print("=== SANS SCALING ===")
print(f"Scores - min: {scores_sans_scaling.min():.2f}, max: {scores_sans_scaling.max():.2f}")
print(f"Attention max par ligne: {attention_sans_scaling.max(dim=-1).values[:3]}")
print(f"Entropie moyenne: {entropy(attention_sans_scaling):.4f}")

print("\n=== AVEC SCALING ===")
print(f"Scores - min: {scores_avec_scaling.min():.2f}, max: {scores_avec_scaling.max():.2f}")
print(f"Attention max par ligne: {attention_avec_scaling.max(dim=-1).values[:3]}")
print(f"Entropie moyenne: {entropy(attention_avec_scaling):.4f}")

**Observation** : Sans scaling, le softmax devient tr√®s "peaked" (une valeur proche de 1, les autres proches de 0). Le scaling permet une distribution plus douce et des gradients plus stables.

**Comment lire l'entropie ?**
- **Entropie haute** (~2.3 pour 10 tokens) ‚Üí attention r√©partie sur plusieurs mots
- **Entropie basse** (~0) ‚Üí attention concentr√©e sur un seul mot

**Nuance importante** : Une attention concentr√©e n'est pas toujours mauvaise ! Par exemple, dans *"Le chat dort, il ronfle"*, le mot "il" DOIT regarder "chat" √† 95%.

Le probl√®me c'est quand l'attention est peaked **par d√©faut** (artefact num√©rique du softmax satur√©) plut√¥t que **par apprentissage**. Le scaling permet au mod√®le de **choisir** entre attention concentr√©e ou distribu√©e selon ce qui est pertinent.

---

## 6. Application : Self-Attention sur une phrase

Appliquons l'attention √† une vraie phrase et visualisons les r√©sultats.

In [None]:
# Phrase exemple
phrase = ["Le", "chat", "noir", "dort", "sur", "le", "canap√©"]
seq_len = len(phrase)
embed_dim = 16  # Dimension des embeddings

# Simulons des embeddings (en vrai, ils seraient appris)
torch.manual_seed(42)
embeddings = torch.randn(seq_len, embed_dim)

print(f"Phrase: {phrase}")
print(f"Embeddings shape: {embeddings.shape}")

In [None]:
# En self-attention, Q = K = V = embeddings
# (chaque mot se compare √† tous les autres)

output, attention_weights = scaled_dot_product_attention(
    Q=embeddings,
    K=embeddings,
    V=embeddings
)

# Visualisation
plt.figure(figsize=(10, 8))
plt.imshow(attention_weights.detach().numpy(), cmap='Blues')
plt.xticks(range(seq_len), phrase, rotation=45)
plt.yticks(range(seq_len), phrase)
plt.xlabel("Mots regard√©s (Keys)")
plt.ylabel("Mots qui regardent (Queries)")
plt.title("Self-Attention : Qui regarde qui ?")
plt.colorbar(label="Poids d'attention")

# Afficher les valeurs
for i in range(seq_len):
    for j in range(seq_len):
        val = attention_weights[i, j].item()
        plt.text(j, i, f'{val:.2f}', ha='center', va='center',
                color='white' if val > 0.3 else 'black', fontsize=8)
plt.tight_layout()
plt.show()

---

## 7. Module nn.Module

### Exercice 6 : Classe Attention en PyTorch

Cr√©ons une classe PyTorch r√©utilisable.

In [None]:
class SelfAttention(nn.Module):
    """
    Module de Self-Attention.
    
    En self-attention, on projette les embeddings en Q, K, V
    avec des matrices de poids apprenables.
    """
    
    def __init__(self, embed_dim):
        """
        Args:
            embed_dim: Dimension des embeddings d'entr√©e
        """
        super().__init__()
        self.embed_dim = embed_dim
        
        # TODO: Cr√©er 3 couches lin√©aires pour projeter vers Q, K, V
        # Chaque couche : embed_dim -> embed_dim
        self.W_q = None  # nn.Linear(embed_dim, embed_dim)
        self.W_k = None  # nn.Linear(embed_dim, embed_dim)
        self.W_v = None  # nn.Linear(embed_dim, embed_dim)
    
    def forward(self, x):
        """
        Args:
            x: Embeddings, shape (batch, seq_len, embed_dim)
        
        Returns:
            output: R√©sultat de l'attention
            attention_weights: Poids d'attention
        """
        # TODO: Projeter x vers Q, K, V
        Q = None  # self.W_q(x)
        K = None  # self.W_k(x)
        V = None  # self.W_v(x)
        
        # TODO: Appliquer l'attention
        # Attention: pour les batches, K.transpose(-2, -1) au lieu de K.T
        d_k = self.embed_dim
        
        scores = None  # Q @ K.transpose(-2, -1)
        scaled_scores = None  # scores / sqrt(d_k)
        attention_weights = None  # softmax
        output = None  # attention_weights @ V
        
        return output, attention_weights

In [None]:
# Test du module
embed_dim = 32
batch_size = 2
seq_len = 5

attention_layer = SelfAttention(embed_dim)
x = torch.randn(batch_size, seq_len, embed_dim)

output, weights = attention_layer(x)

print(f"Input shape: {x.shape}")
print(f"Output shape: {output.shape}")  # Attendu: (2, 5, 32)
print(f"Weights shape: {weights.shape}")  # Attendu: (2, 5, 5)

---

## 8. Visualiser l'attention d'un vrai mod√®le

Maintenant qu'on a compris et impl√©ment√© le m√©canisme, regardons ce que √ßa donne sur un mod√®le **r√©ellement entra√Æn√©**.

On va utiliser **DistilBERT**, une version l√©g√®re de BERT, pour observer les patterns d'attention appris.

In [None]:
# Installation de la librairie transformers
!pip install transformers -q

In [None]:
from transformers import AutoModel, AutoTokenizer
import torch

# Charger un petit mod√®le pr√©-entra√Æn√©
model_name = "distilbert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, output_attentions=True)
model.eval()

# Phrase de test (en anglais pour ce mod√®le)
phrase = "The cat sat on the mat because it was tired"

# Tokenizer la phrase
inputs = tokenizer(phrase, return_tensors="pt")
tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])

# Forward pass (sans calculer les gradients)
with torch.no_grad():
    outputs = model(**inputs)

# Extraire les attentions
attentions = outputs.attentions

print(f"Phrase: {phrase}")
print(f"Tokens: {tokens}")
print(f"Nombre de couches: {len(attentions)}")
print(f"Nombre de t√™tes par couche: {attentions[0].shape[1]}")

In [None]:
# Visualiser l'attention d'une t√™te sp√©cifique
layer = 0   # Premi√®re couche (0 √† 5)
head = 0    # Premi√®re t√™te (0 √† 11)

attention_matrix = attentions[layer][0, head].numpy()

plt.figure(figsize=(10, 8))
plt.imshow(attention_matrix, cmap='Blues')
plt.xticks(range(len(tokens)), tokens, rotation=45, ha='right')
plt.yticks(range(len(tokens)), tokens)
plt.xlabel("Tokens regard√©s (Keys)")
plt.ylabel("Tokens qui regardent (Queries)")
plt.title(f"Attention r√©elle - Couche {layer+1}, T√™te {head+1}")
plt.colorbar(label="Poids d'attention")

for i in range(len(tokens)):
    for j in range(len(tokens)):
        val = attention_matrix[i, j]
        plt.text(j, i, f'{val:.2f}', ha='center', va='center',
                color='white' if val > 0.3 else 'black', fontsize=7)
plt.tight_layout()
plt.show()

In [None]:
# Question : Que regarde le pronom "it" ?
# Trouvons son index et regardons sa ligne d'attention

it_index = tokens.index("it")
print(f"'it' est √† l'index {it_index}")
print(f"\nAttention de 'it' vers les autres tokens (couche {layer+1}, t√™te {head+1}):")
print("-" * 40)

for i, (token, weight) in enumerate(zip(tokens, attention_matrix[it_index])):
    bar = "‚ñà" * int(weight * 30)
    marker = " ‚Üê ?" if token in ["cat", "mat"] else ""
    print(f"  {token:10} {weight:.2f} {bar}{marker}")

**Questions d'analyse** :

1. Le pronom "it" regarde-t-il principalement "cat" ou "mat" ? Pourquoi est-ce logique grammaticalement ?

2. Changez `layer` et `head` dans les cellules ci-dessus. Que remarquez-vous ? (Indice : diff√©rentes t√™tes capturent diff√©rentes relations)

3. Essayez d'autres phrases, par exemple :
   - `"The dog chased the cat because it was fast"` (qui est "it" ici ?)
   - `"The trophy didn't fit in the suitcase because it was too big"` (cas ambigu !)

---

## 9. R√©capitulatif

### Ce que nous avons appris

1. **L'attention** permet √† chaque √©l√©ment de "regarder" tous les autres
2. **Q, K, V** : Query (ce que je cherche), Key (les √©tiquettes), Value (le contenu)
3. **Formule** : $\text{softmax}(QK^T / \sqrt{d_k}) \cdot V$
4. **Scaling** : Essentiel pour la stabilit√© des gradients

### Points cl√©s

| Concept | R√¥le |
|---------|------|
| Dot product $QK^T$ | Mesure la similarit√© |
| Softmax | Transforme en probabilit√©s |
| Scaling $\sqrt{d_k}$ | Stabilise les gradients |
| Self-attention | Q = K = V (chaque mot regarde tous les autres) |

### Prochaine session

Nous verrons le **Multi-Head Attention** : plusieurs "t√™tes" d'attention qui regardent sous diff√©rents angles.

---

## 10. Pour aller plus loin (optionnel)

### Exercice bonus : Masking

Dans certains cas (g√©n√©ration de texte), on veut emp√™cher un mot de "voir" les mots futurs.

In [None]:
def scaled_dot_product_attention_with_mask(Q, K, V, mask=None):
    """
    Attention avec masking optionnel.
    
    Args:
        Q, K, V: Query, Key, Value
        mask: Tensor bool√©en, True = position √† masquer
    """
    d_k = K.shape[-1]
    scores = Q @ K.transpose(-2, -1) / math.sqrt(d_k)
    
    # Appliquer le masque (mettre -inf pour les positions masqu√©es)
    if mask is not None:
        scores = scores.masked_fill(mask, float('-inf'))
    
    attention_weights = F.softmax(scores, dim=-1)
    output = attention_weights @ V
    
    return output, attention_weights

# Cr√©er un masque causal (triangulaire)
seq_len = 5
causal_mask = torch.triu(torch.ones(seq_len, seq_len), diagonal=1).bool()
print("Masque causal (True = masqu√©):")
print(causal_mask.int())

In [None]:
# Test avec masque
Q = torch.randn(seq_len, 8)
K = torch.randn(seq_len, 8)
V = torch.randn(seq_len, 8)

output_masked, weights_masked = scaled_dot_product_attention_with_mask(Q, K, V, causal_mask)

print("Poids d'attention avec masque causal:")
print(weights_masked.round(decimals=2))
print("\nObservation: chaque ligne ne peut voir que les positions pr√©c√©dentes (et elle-m√™me)")