# TP 02 - Positional Encoding et Bases de l'Attention

**Module** : R√©seaux de Neurones Approfondissement  
**Dur√©e** : 2h  
**Objectif** : Comprendre le Positional Encoding et les bases de l'attention

---

## Objectifs p√©dagogiques

√Ä la fin de cette session, vous serez capable de :
1. Expliquer pourquoi le **Positional Encoding** est n√©cessaire
2. Calculer le PE avec la formule sin/cos
3. Comprendre la relation entre **similarit√©** et **produit scalaire**
4. Calculer les **scores d'attention** √©tape par √©tape

---

**Note** : Ce TP pose les fondations. Le TP suivant impl√©mentera l'attention compl√®te.

## 0. Installation et imports

In [None]:
# Installation des d√©pendances (Google Colab)
!pip install torch matplotlib numpy transformers -q

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import math

# Configuration
torch.manual_seed(42)
print(f"PyTorch version: {torch.__version__}")
print(f"GPU disponible: {torch.cuda.is_available()}")

---

## 1. Rappel du TP1 - Chargement CamemBERT

In [None]:
# R√©cuperation d'un embedding sur un mod√®le d√©j√† entrain√© (BERT)
from transformers import CamembertTokenizer, CamembertModel

print("Chargement de CamemBERT (mod√®le fran√ßais)...")
tokenizer = CamembertTokenizer.from_pretrained("camembert-base")
model_camembert = CamembertModel.from_pretrained("camembert-base")

# On utilise UNIQUEMENT la couche d'embeddings
embedding_layer = model_camembert.embeddings.word_embeddings

print("‚úÖ CamemBERT charg√© !")
print(f"   Dimension des embeddings : {embedding_layer.embedding_dim}")

def get_french_embeddings(phrase, target_dim=100):
    """
    Extrait les embeddings d'une phrase fran√ßaise.
    """
    inputs = tokenizer(
        phrase,
        is_split_into_words=True,
        padding=True,
        truncation=True,
        return_tensors="pt")
    tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])

    with torch.no_grad():
        embeddings_768 = embedding_layer(inputs["input_ids"][0])

    if not hasattr(get_french_embeddings, 'projection'):
        torch.manual_seed(42)
        get_french_embeddings.projection = torch.randn(768, target_dim) / 30

    embeddings = embeddings_768 @ get_french_embeddings.projection
    return embeddings, tokens

In [None]:
# Exercice de rappel : similarit√©
mots = ["Paris", "tour", "Eiffel"]
embeddings, tokens = get_french_embeddings(mots)

emb_paris = embeddings[tokens.index("‚ñÅParis")]
emb_tour = embeddings[tokens.index("‚ñÅtour")]
emb_eiffel = embeddings[tokens.index("‚ñÅEiffel")]

emb_tour_eiffel = (emb_tour + emb_eiffel) / 2

sim_paris_tour_eiffel = F.cosine_similarity(
    emb_paris.unsqueeze(0),
    emb_tour_eiffel.unsqueeze(0)
)

sim_paris_tour = F.cosine_similarity(
    emb_paris.unsqueeze(0),
    emb_tour.unsqueeze(0)
)

print(f"Similarit√© Paris / tour Eiffel : {sim_paris_tour_eiffel.item():.4f}")
print(f"Similarit√© Paris / tour : {sim_paris_tour.item():.4f}")
print("\n‚Üí Paris est plus proche de 'tour Eiffel' que de 'tour' seul")

---

## 2. Introduction : Pourquoi l'attention ?

Jusqu'en 2017, la majorit√© des mod√®les de langage (RNN & LSTM) lisaient les phrases s√©quentiellement, de gauche √† droite. Cette approche pr√©sente deux limites majeures :

- elle est **lente**,
- un mot plac√© au d√©but de la phrase a du mal √† int√©grer des informations situ√©es beaucoup plus loin.

Le **Transformer** rompt compl√®tement avec cette logique.

Dans un Transformer, tous les mots de la phrase sont trait√©s **simultan√©ment**.

Prenons la phrase :

*"Le chat dort sur le canap√©"*

Elle contient six mots : le mod√®le re√ßoit donc six √©l√©ments en parall√®le.

La premi√®re √©tape consiste √† transformer chaque mot en nombres : ce sont les **embeddings**.

Chaque mot est repr√©sent√© par un vecteur de dimension fixe (par exemple 100 ou 512), qui encode des informations s√©mantiques.

√Ä ce stade :
- on ne manipule plus du texte,
- mais une suite de vecteurs num√©riques.

Cependant, ces vecteurs sont encore ind√©pendants les uns des autres. Le vecteur correspondant √† "chat" ne sait rien de "dort" ou de "canap√©".

üëâ **L'attention va pr√©cis√©ment servir √† cr√©er ces liens.**

### 2.1 L'architecture Transformer

Le **Transformer** (2017) abandonne la r√©currence. Chaque mot peut regarder **tous les autres directement** :

```
Entr√©e: "Le chat dort sur le canap√©" (6 tokens)
         ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ
         ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ          EMBEDDINGS (6 vecteurs)            ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ
         ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ             SELF-ATTENTION                  ‚îÇ
‚îÇ   Chaque vecteur regarde les 5 autres       ‚îÇ
‚îÇ   ‚Üí Enrichit chaque mot avec le CONTEXTE    ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ
         ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº
       (6 vecteurs enrichis)
         ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ
         ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ        FEED-FORWARD (par position)          ‚îÇ
‚îÇ   Exploite le contexte enrichi              ‚îÇ
‚îÇ   (comme un r√©seau de neurones classique)   ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ    ‚îÇ
         ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº    ‚ñº
      Sortie: 6 vecteurs transform√©s
```

**Points cl√©s** :
- **Entr√©e = Sortie** : Si une phrase contient 6 tokens, le Transformer produit 6 vecteurs en sortie, un par token, enrichis par le contexte.
- **Taille variable** : Tu peux entrer 5, 50, ou 500 mots (jusqu'√† une limite : 512 pour BERT, 128K pour GPT-4)
- **Self-Attention** : Donne du contexte √† chaque mot
- **Feed-Forward** : Exploite ce contexte (transformation non-lin√©aire)

**Que sort le Transformer ? Quelle utilit√© ?**

Le Transformer produit des **vecteurs enrichis** (repr√©sentations). Une couche de sortie (ajout√©e selon la t√¢che) les transforme en r√©sultat :
- **Classification** ‚Üí probabilit√© par classe (ex: 70% positif, 30% n√©gatif)
- **G√©n√©ration** ‚Üí probabilit√© du prochain mot
- **Traduction** ‚Üí phrase dans l'autre langue

### Comment les mots entrent dans le Transformer ?

Chaque mot passe par **deux √©tapes** avant d'entrer :

```
Mot "chat" (position 1)
        ‚îÇ
        ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Token Embedding (fixe pour chaque token)        ‚îÇ
‚îÇ "chat" ‚Üí [0.8, 0.1, 0.3, ...]                   ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
        ‚îÇ
        + (addition)
        ‚îÇ
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Positional Encoding (fixe pour chaque position) ‚îÇ
‚îÇ position 1 ‚Üí [0.0, 0.1, 0.0, ...]               ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
        ‚îÇ
        ‚ñº
Vecteur d'entr√©e = [0.8, 0.2, 0.3, ...]
```

**Deux composants distincts :**

| Composant | Taille | R√¥le |
|-----------|--------|------|
| Token embeddings | ~50k √ó dim | "Qui suis-je ?" (sens du mot) |
| Positional encodings | max_len √ó dim | "O√π suis-je ?" (position dans la phrase) |

**Pourquoi c'est important ?** Sans le positional encoding, le mod√®le ne distinguerait pas :
- *"Le chat mange la souris"*
- *"La souris mange le chat"*

(M√™mes tokens, ordre diff√©rent ‚Üí sens oppos√© !)

C'est l'empilement de ces blocs d'attention avec des blocs de Feed-Forward qui constitue le Transformer.

### 2.2 Ce qu'on va construire

```
    TRANSFORMER
    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
    ‚îÇ  Embedding + Positional    ‚îÇ
    ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
    ‚îÇ ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê ‚îÇ
    ‚îÇ ‚îÇ   SELF-ATTENTION  ‚óÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îº‚îÄ‚îÄ‚îÄ Sessions 2-3
    ‚îÇ ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò ‚îÇ
    ‚îÇ ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê ‚îÇ
    ‚îÇ ‚îÇ     FEED-FORWARD       ‚îÇ ‚îÇ
    ‚îÇ ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò ‚îÇ
    ‚îÇ         √ó N blocs          ‚îÇ
    ‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
    ‚îÇ     Couche de sortie       ‚îÇ
    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

**Plan du cours** :
- **Session 1** : Fondamentaux NLP (tokenization, embeddings)
- **Session 2** : PE + bases de l'attention (ce TP)
- **Session 3** : Impl√©menter l'attention compl√®te + intro Multi-Head
- **Session 4** : Multi-Head + Transformer + masque causal
- **Sessions 5-6** : Projets Mini-GPT

### 2.3 L'id√©e cl√© de l'attention

L'attention r√©pond √† la question : **"Pour comprendre ce mot, quels autres mots dois-je regarder ?"**

**Exemple** : *"Le chat qui dormait sur le canap√© a saut√©"*
- Pour comprendre **"a saut√©"** ‚Üí regarder **"chat"** (le sujet, pas "canap√©")

Gr√¢ce √† l'attention :
- chaque mot int√®gre l'information pertinente des autres mots,
- les mots importants contribuent davantage au vecteur final,
- l'ordre et le contexte sont pris en compte sans lecture s√©quentielle.

Le mot "chat" ne repr√©sente plus un animal abstrait, mais un chat qui dort sur un canap√©.

---

### Pour approfondir RNN/LSTM (optionnel)

**Vid√©os en fran√ßais** :
- [Machine Learnia - Les RNN expliqu√©s](https://www.youtube.com/watch?v=EL439RMv3Xc) (~20 min)
- [Science4All - Comprendre les LSTM](https://www.youtube.com/watch?v=WCUNPb-5EYI) (~15 min)

**Articles en fran√ßais** :
- [Pens√©e Artificielle - Introduction aux RNN](https://www.penseeartificielle.fr/comprendre-reseaux-neurones-recurrents-rnn/)
- [DataScientest - LSTM expliqu√© simplement](https://datascientest.com/lstm-tout-savoir)

---

## 3. Le probl√®me : l'ordre des mots

Les embeddings seuls ne capturent pas la **position** des mots dans la phrase.

```
"Le chat mange la souris"  ‚â†  "La souris mange le chat"
```

Pourtant, les m√™mes mots ont les m√™mes embeddings !

---

## 4. Positional Encoding

### La formule

$$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d_{model}}}\right)$$

$$PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{model}}}\right)$$

- **pos** : position dans la s√©quence (0, 1, 2, ...)
- **i** : indice de la dimension
- **d_model** : dimension totale des embeddings

In [None]:
def get_positional_encoding(seq_len, d_model):
    """
    G√©n√®re le positional encoding avec la formule sin/cos.
    
    Args:
        seq_len: longueur de la s√©quence
        d_model: dimension des embeddings
    
    Returns:
        Tensor de shape (seq_len, d_model) avec le PE
    
    Rappel des formules:
        PE(pos, 2i)   = sin(pos / 10000^(2i/d_model))
        PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))
    """
    # TODO: Cr√©er un tensor des positions (0, 1, 2, ..., seq_len-1)
    # Indice: torch.arange() puis .unsqueeze(1) pour avoir shape (seq_len, 1)
    position = None  # TODO
    
    # TODO: Calculer le terme de division 10000^(2i/d_model)
    # Indice: utiliser torch.exp et torch.arange(0, d_model, 2)
    # Note: on calcule -log(10000)/d_model pour la stabilit√© num√©rique
    div_term = None  # TODO
    
    # TODO: Cr√©er le tensor PE de z√©ros avec la bonne shape
    pe = None  # TODO
    
    # TODO: Remplir les dimensions paires (0, 2, 4, ...) avec sin
    # Indice: pe[:, 0::2] s√©lectionne les colonnes paires
    # TODO
    
    # TODO: Remplir les dimensions impaires (1, 3, 5, ...) avec cos
    # Indice: pe[:, 1::2] s√©lectionne les colonnes impaires
    # TODO
    
    return pe

# Test de votre impl√©mentation
pe_test = get_positional_encoding(4, 8)
if pe_test is not None:
    print(f"Shape du PE: {pe_test.shape}")
    print(f"PE[0, 0] (sin de pos 0): {pe_test[0, 0]:.4f}")
    print(f"PE[0, 1] (cos de pos 0): {pe_test[0, 1]:.4f}")
    print(f"PE[1, 0] (sin de pos 1): {pe_test[1, 0]:.4f}")
else:
    print("‚ö†Ô∏è Impl√©mentez la fonction get_positional_encoding")

### Exercice 1 : Pourquoi le PE est n√©cessaire ?

In [None]:
print("=== Exercice 1 : Pourquoi le Positional Encoding ? ===")

phrase_a = ["Pikachu", "attaque", "Dracaufeu"]
phrase_b = ["Dracaufeu", "attaque", "Pikachu"]

def get_same_embeddings(tokens):
    """Retourne embeddings identiques pour tokens identiques."""
    vocab = {"Pikachu": 0, "attaque": 1, "Dracaufeu": 2}
    torch.manual_seed(42)
    base = torch.randn(3, 100)
    return torch.stack([base[vocab[t]] for t in tokens])

emb_a = get_same_embeddings(phrase_a)
emb_b = get_same_embeddings(phrase_b)

print(f"Phrase A : {phrase_a}")
print(f"Phrase B : {phrase_b}")

# Calculer la diff√©rence
diff_sans_pe = torch.norm(emb_a - emb_b)
print(f"\nDiff√©rence SANS PE : {diff_sans_pe:.4f}")

# Pourquoi pas identiques ?
print("\n‚Üí La diff√©rence n'est PAS nulle car les embeddings sont dans un ordre diff√©rent.")
print("   Mais la SOMME des embeddings serait identique !")
print(f"   Somme A : {emb_a.sum():.4f}")
print(f"   Somme B : {emb_b.sum():.4f}")

### Exercice 2 : Calculer le PE manuellement

In [None]:
print("=== Exercice 2 : Calculer le PE manuellement ===")

print("\nCalculons le PE pour d_model=4, seq_len=3")
print("\nFormule :")
print("  PE(pos, 2i)   = sin(pos / 10000^(2i/d_model))")
print("  PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))\n")

# PE(0, 0) : pos=0, i=0 (dimension paire) ‚Üí sin(0 / 10000^0) = sin(0) = 0
pe_0_0 = math.sin(0 / (10000 ** (0/4)))
print(f"PE(0, 0) = sin(0 / 10000^0) = sin(0) = {pe_0_0:.4f}")

# PE(0, 1) : pos=0, i=0 (dimension impaire) ‚Üí cos(0 / 10000^0) = cos(0) = 1
pe_0_1 = math.cos(0 / (10000 ** (0/4)))
print(f"PE(0, 1) = cos(0 / 10000^0) = cos(0) = {pe_0_1:.4f}")

# PE(1, 0) : pos=1, i=0 (dimension paire) ‚Üí sin(1 / 10000^0) = sin(1)
pe_1_0 = math.sin(1 / (10000 ** (0/4)))
print(f"PE(1, 0) = sin(1 / 10000^0) = sin(1) = {pe_1_0:.4f}")

# V√©rification avec notre fonction
pe_verif = get_positional_encoding(2, 4)
print(f"\nV√©rification avec get_positional_encoding :")
print(f"  PE[0, 0] = {pe_verif[0, 0]:.4f}")
print(f"  PE[0, 1] = {pe_verif[0, 1]:.4f}")
print(f"  PE[1, 0] = {pe_verif[1, 0]:.4f}")

### Exercice 3 : Propri√©t√©s du PE

In [None]:
print("=== Exercice 3 : V√©rifier les propri√©t√©s du PE ===")

seq_len_test = 10
pe_test = get_positional_encoding(seq_len_test, 100)

# Propri√©t√© 1 : Valeurs ‚àà [-1, 1]
min_val = pe_test.min().item()
max_val = pe_test.max().item()
print(f"\nMin : {min_val:.4f}")
print(f"Max : {max_val:.4f}")
print(f"‚Üí Toutes les valeurs sont bien dans [-1, 1] ‚úì")

# Propri√©t√© 2 : Diff√©rence entre positions cons√©cutives
diff_pos_0_1 = torch.norm(pe_test[0] - pe_test[1]).item()
diff_pos_4_5 = torch.norm(pe_test[4] - pe_test[5]).item()
print(f"\nDistance pos 0 ‚Üí 1 : {diff_pos_0_1:.4f}")
print(f"Distance pos 4 ‚Üí 5 : {diff_pos_4_5:.4f}")
print(f"‚Üí Les distances sont similaires (positions relatives)")

# Propri√©t√© 3 : Dimensions paires et impaires
dim_0_all_pos = pe_test[:, 0]  # sin de toutes les positions
dim_1_all_pos = pe_test[:, 1]  # cos de toutes les positions
print(f"\nDimension 0 (sin) pour toutes les positions :")
print(f"  {[f'{x:.3f}' for x in dim_0_all_pos.tolist()[:5]]}...")
print(f"Dimension 1 (cos) pour toutes les positions :")
print(f"  {[f'{x:.3f}' for x in dim_1_all_pos.tolist()[:5]]}...")

### Exercice 4 : Impact du PE

In [None]:
print("=== Exercice 4 : D√©monstration de l'impact du PE ===")

phrase_a = ["Le", "chat", "mange", "la", "souris"]
phrase_b = ["La", "souris", "mange", "le", "chat"]

# Vocabulaire simplifi√©
vocab = {"Le": 0, "chat": 1, "mange": 2, "la": 3, "souris": 4, "La": 3, "le": 0}

def get_embeddings_simple(tokens, vocab):
    torch.manual_seed(42)
    base = torch.randn(5, 100)
    return torch.stack([base[vocab[t]] for t in tokens])

emb_a = get_embeddings_simple(phrase_a, vocab)
emb_b = get_embeddings_simple(phrase_b, vocab)

# Positional encoding
pe = get_positional_encoding(5, 100)

# Embeddings + PE
emb_a_pe = emb_a + pe
emb_b_pe = emb_b + pe

# Distances SANS PE
print("\nDistances SANS Positional Encoding :")
for i, (wa, wb) in enumerate(zip(phrase_a, phrase_b)):
    dist = torch.norm(emb_a[i] - emb_b[i]).item()
    print(f"  Position {i}: '{wa}' vs '{wb}' ‚Üí {dist:.4f}")

print("\nDistances AVEC Positional Encoding :")
for i, (wa, wb) in enumerate(zip(phrase_a, phrase_b)):
    dist = torch.norm(emb_a_pe[i] - emb_b_pe[i]).item()
    print(f"  Position {i}: '{wa}' vs '{wb}' ‚Üí {dist:.4f}")

print("\n‚Üí Avec PE, m√™me les mots identiques √† la m√™me position diff√®rent")
print("  car le contexte global (ordre des mots) est diff√©rent.")

### Visualisation du Positional Encoding

In [None]:
# Visualisation du PE
pe_visu = get_positional_encoding(50, 64)

plt.figure(figsize=(12, 6))
plt.imshow(pe_visu.T, cmap='RdBu', aspect='auto')
plt.xlabel('Position dans la s√©quence')
plt.ylabel('Dimension')
plt.title('Positional Encoding (sin/cos)')
plt.colorbar(label='Valeur')
plt.tight_layout()
plt.show()

print("Observation :")
print("- Les basses fr√©quences (dimensions hautes) varient lentement")
print("- Les hautes fr√©quences (dimensions basses) varient rapidement")
print("- Chaque position a un pattern unique")

---

## 5. Similarit√© et Produit Scalaire

Avant d'aborder l'attention, comprenons le lien entre **similarit√© cosinus** et **produit scalaire**.

### Formules

- **Produit scalaire** : $\vec{a} \cdot \vec{b} = \sum_i a_i b_i$

- **Similarit√© cosinus** : $\cos(\theta) = \frac{\vec{a} \cdot \vec{b}}{||\vec{a}|| \cdot ||\vec{b}||}$

Le produit scalaire mesure la "compatibilit√©" entre deux vecteurs.

In [None]:
# Comparaison similarit√© cosinus vs produit scalaire
print("=" * 60)
print("SIMILARIT√â COSINUS vs PRODUIT SCALAIRE")
print("=" * 60)

v1 = torch.tensor([1.0, 2.0, 3.0])
v2 = torch.tensor([2.0, 3.0, 4.0])

dot_product = torch.dot(v1, v2)
cos_sim = F.cosine_similarity(v1.unsqueeze(0), v2.unsqueeze(0))
cos_sim_manual = dot_product / (torch.norm(v1) * torch.norm(v2))

print(f"\nVecteur 1 : {v1}")
print(f"Vecteur 2 : {v2}")
print(f"\nProduit scalaire : {dot_product:.4f}")
print(f"Similarit√© cosinus : {cos_sim.item():.4f}")
print(f"Similarit√© cosinus (manuel) : {cos_sim_manual:.4f}")

print("\n‚úÖ Le produit scalaire Q¬∑K mesure la 'compatibilit√©' entre tokens")
print("   Le softmax transforme ces scores en probabilit√©s d'attention")

---

## 6. Introduction √† l'Attention

### La formule de l'attention

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

| Composant | R√¥le |
|-----------|------|
| **Q** (Query) | Ce que je cherche |
| **K** (Key) | Ce que j'offre pour √™tre trouv√© |
| **V** (Value) | L'information que je transmets |

### Analogie : Biblioth√®que

- **Query** = Ta question ("Je cherche un livre sur Python")
- **Key** = Les √©tiquettes des livres ("Python", "Java", "Cuisine"...)
- **Value** = Le contenu des livres

L'attention calcule **quels livres sont pertinents** pour ta question.

### Exercice 6.1 : Calcul des scores

In [None]:
print("=== Exercice 6.1 : Calcul des scores ===")

# Configuration
seq_len = 3  # 3 tokens
d_k = 4      # dimension des vecteurs

# Cr√©er Q, K, V al√©atoires
torch.manual_seed(42)
Q = torch.randn(seq_len, d_k)
K = torch.randn(seq_len, d_k)
V = torch.randn(seq_len, d_k)

print("Q (Queries) - Ce que chaque token cherche :")
print(Q)
print(f"\nK (Keys) - Comment chaque token se pr√©sente :")
print(K)

# TODO: Calculer les scores d'attention : QK^T
# Chaque ligne = un token qui "interroge" tous les autres
# Indice: utilisez l'op√©rateur @ pour la multiplication matricielle
# K.T transpose K pour avoir shape (d_k, seq_len)
scores = None  # TODO

if scores is not None:
    print(f"\nScores (QK^T) - Compatibilit√© entre tokens :")
    print(scores)
    print(f"\nShape: {scores.shape}  (3 tokens √ó 3 tokens)")
else:
    print("\n‚ö†Ô∏è Calculez scores = Q @ K.T")

### Exercice 6.2 : Scaling

In [None]:
print("=== Exercice 6.2 : Scaling ===")

# Pourquoi diviser par sqrt(d_k) ?
# ‚Üí √âviter que les scores soient trop grands (gradients instables)

# TODO: Appliquer le scaling aux scores
# Divisez par la racine carr√©e de d_k
# Indice: math.sqrt(d_k) ou d_k ** 0.5
scaled_scores = None  # TODO

if scores is not None and scaled_scores is not None:
    print(f"Scores originaux :")
    print(scores)
    print(f"\nScores apr√®s scaling (√∑‚àö{d_k} = √∑{math.sqrt(d_k):.2f}) :")
    print(scaled_scores)
    print(f"\n‚Üí Les valeurs sont r√©duites, le softmax sera plus 'doux'")
else:
    print("‚ö†Ô∏è Calculez d'abord les scores (exercice 6.1), puis appliquez le scaling")

### Exercice 6.3 : Softmax

In [None]:
print("=== Exercice 6.3 : Softmax ===")

# Softmax transforme les scores en probabilit√©s
# Chaque ligne somme √† 1

# TODO: Appliquer softmax sur les scores scal√©s
# Indice: F.softmax(tensor, dim=-1) applique softmax sur la derni√®re dimension
# dim=-1 signifie qu'on normalise sur les colonnes (chaque ligne somme √† 1)
attention_weights = None  # TODO

if attention_weights is not None:
    print("Poids d'attention (apr√®s softmax) :")
    print(attention_weights)

    print(f"\nV√©rification - Somme par ligne :")
    print(attention_weights.sum(dim=1))
    print("\n‚Üí Chaque ligne = distribution de probabilit√©s sur les tokens")
else:
    print("‚ö†Ô∏è Appliquez F.softmax() sur scaled_scores")

### Exercice 6.4 : Output

In [None]:
print("=== Exercice 6.4 : Output ===")

# L'output = moyenne pond√©r√©e des Values par les poids d'attention

print("V (Values) - L'information de chaque token :")
print(V)

# TODO: Calculer l'output de l'attention
# C'est la multiplication matricielle des poids d'attention avec V
# Indice: output = attention_weights @ V
output = None  # TODO

if output is not None:
    print(f"\nOutput (weights @ V) :")
    print(output)
    print(f"\nShape: {output.shape}  (m√™me que V)")

    print("\n‚Üí Chaque token a maintenant une repr√©sentation enrichie")
    print("   qui int√®gre l'information des tokens 'pertinents'")
else:
    print("\n‚ö†Ô∏è Calculez output = attention_weights @ V")

### Visualisation de l'attention

In [None]:
# Visualisation
tokens_demo = ["Le", "chat", "dort"]

plt.figure(figsize=(8, 6))
plt.imshow(attention_weights.detach().numpy(), cmap='Blues')
plt.xticks(range(3), tokens_demo)
plt.yticks(range(3), tokens_demo)
plt.xlabel("Tokens regard√©s (Keys)")
plt.ylabel("Tokens qui regardent (Queries)")
plt.title("Matrice d'attention")
plt.colorbar(label="Poids")

# Ajouter les valeurs
for i in range(3):
    for j in range(3):
        val = attention_weights[i, j].item()
        plt.text(j, i, f'{val:.2f}', ha='center', va='center',
                color='white' if val > 0.5 else 'black', fontsize=12)

plt.tight_layout()
plt.show()

---

## R√©capitulatif

### Ce que nous avons appris

| Concept | Description |
|---------|-------------|
| **Positional Encoding** | Encode la position avec sin/cos, valeurs ‚àà [-1, 1] |
| **Q, K, V** | Query = question, Key = √©tiquette, Value = contenu |
| **Scores** | QK^T = compatibilit√© entre tokens |
| **Scaling** | Diviser par ‚àöd_k pour stabiliser |
| **Softmax** | Transformer en probabilit√©s |
| **Output** | Moyenne pond√©r√©e des Values |

### Formule compl√®te

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

### Prochaine session

On va :
1. Impl√©menter la **fonction d'attention compl√®te**
2. Cr√©er une **classe SelfAttention** en PyTorch
3. Visualiser l'attention sur un **vrai mod√®le** (DistilBERT)
4. D√©couvrir le **Multi-Head Attention**