# ü§ñ Introduction aux Large Language Models (LLMs)

## üéØ Objectifs

Dans ce notebook, nous allons d√©couvrir :

- üß† **Qu'est-ce qu'un LLM** ? (ChatGPT, Claude, GPT-4)
- üèóÔ∏è **L'architecture Transformer** - La r√©volution de 2017
- üî§ **Comment les LLMs "comprennent" le texte**
- üìä **GPT vs BERT vs T5** - Diff√©rentes approches
- üõ£Ô∏è **Notre parcours d'apprentissage** - Ce qu'on va construire

---

## üí° Qu'est-ce qu'un Large Language Model ?

### D√©finition Simple

Un **LLM** est un r√©seau de neurones entra√Æn√© sur **√©norm√©ment de texte** pour :

1. **Comprendre** le langage naturel
2. **G√©n√©rer** du texte coh√©rent
3. **Accomplir** des t√¢ches vari√©es (traduction, r√©sum√©, code, etc.)

### Exemples Concrets

| Mod√®le | Entreprise | Param√®tres | Release |
|--------|-----------|------------|----------|
| **GPT-4** | OpenAI | ~1.76T | 2023 |
| **Claude 3** | Anthropic | Non divulgu√© | 2024 |
| **Gemini** | Google | ~1.5T | 2024 |
| **LLaMA 2** | Meta | 70B | 2023 |
| **Mistral** | Mistral AI | 7B | 2023 |

**Notre mini-LLM** : ~10 millions de param√®tres (√©ducatif)

---

## üèõÔ∏è Histoire : L'√âvolution vers les LLMs

### Ligne du Temps

```
1950s  : Premiers syst√®mes bas√©s sur des r√®gles
1980s  : R√©seaux de neurones r√©currents (RNN)
1997   : LSTM (Long Short-Term Memory)
2013   : Word2Vec (embeddings)
2017   : üî• TRANSFORMER (r√©volution)
2018   : BERT, GPT-1
2019   : GPT-2
2020   : GPT-3 (emergence)
2022   : ChatGPT (explosion)
2023   : GPT-4, LLaMA, Claude 2
2024   : Claude 3, Gemini, mod√®les open-source
```

### Le Moment Charni√®re : 2017

üìú **Paper** : "Attention Is All You Need" (Vaswani et al.)

**Innovation** : L'architecture **Transformer** remplace les RNN/LSTM

**Pourquoi c'est r√©volutionnaire ?**

| RNN/LSTM | Transformer |
|----------|-------------|
| ‚ùå S√©quentiel (lent) | ‚úÖ Parall√®le (rapide) |
| ‚ùå M√©moire limit√©e | ‚úÖ Attention sur tout le contexte |
| ‚ùå Difficile √† entra√Æner | ‚úÖ Plus stable |
| ‚ùå Max ~1000 tokens | ‚úÖ Jusqu'√† 128k tokens (GPT-4) |

---

In [None]:
# Imports pour ce notebook
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
np.random.seed(42)

print("‚úì Pr√™t √† explorer les LLMs !")

## üß© Comment Fonctionne un LLM ? (Vue d'Ensemble)

### Le Pipeline Complet

```
INPUT: "Le chat mange une"

‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  1Ô∏è‚É£ TOKENIZATION                                    ‚îÇ
‚îÇ     Texte ‚Üí Nombres                                 ‚îÇ
‚îÇ     "Le chat mange une" ‚Üí [142, 2304, 15673, 1739]  ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
            ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  2Ô∏è‚É£ EMBEDDINGS                                      ‚îÇ
‚îÇ     Nombres ‚Üí Vecteurs denses                       ‚îÇ
‚îÇ     142 ‚Üí [0.23, -0.45, 0.67, ...] (256 dimensions) ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
            ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  3Ô∏è‚É£ POSITIONAL ENCODING                            ‚îÇ
‚îÇ     Ajouter l'info de position                      ‚îÇ
‚îÇ     "Le"(pos=0), "chat"(pos=1), ...                 ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
            ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  4Ô∏è‚É£ TRANSFORMER LAYERS (√óN)                        ‚îÇ
‚îÇ     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê            ‚îÇ
‚îÇ     ‚îÇ  Multi-Head Self-Attention       ‚îÇ ‚Üê MAGIE !  ‚îÇ
‚îÇ     ‚îÇ  (contexte complet)              ‚îÇ            ‚îÇ
‚îÇ     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò            ‚îÇ
‚îÇ     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê            ‚îÇ
‚îÇ     ‚îÇ  Feed-Forward Network            ‚îÇ            ‚îÇ
‚îÇ     ‚îÇ  (transformations)               ‚îÇ            ‚îÇ
‚îÇ     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò            ‚îÇ
‚îÇ     (R√©p√©t√© 4-96 fois selon le mod√®le)              ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
            ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  5Ô∏è‚É£ OUTPUT PROJECTION                              ‚îÇ
‚îÇ     Vecteurs ‚Üí Probabilit√©s sur vocabulaire         ‚îÇ
‚îÇ     [0.45, 0.23, 0.12, ...] (50k probabilit√©s)      ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
            ‚Üì
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  6Ô∏è‚É£ SAMPLING                                        ‚îÇ
‚îÇ     Choisir le prochain token                       ‚îÇ
‚îÇ     Probabilit√© max ‚Üí "souris" (token 4523)         ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò

OUTPUT: "Le chat mange une souris"
```

---

## üîë Le Concept Cl√© : ATTENTION

### Analogie Simple

Imagine que tu lis cette phrase :

> "Le chat de Marie est mignon. **Il** aime jouer."

**Question** : √Ä quoi "Il" fait-il r√©f√©rence ?

**Humain** : Je regarde le contexte ‚Üí "Il" = "le chat"

**LLM avec Attention** : Calcule l'importance de chaque mot pr√©c√©dent pour comprendre "Il"

### Visualisation de l'Attention

```
Mot actuel : "Il"

Regarde le contexte :
"Le"     ‚Üí  5%  (peu important)
"chat"   ‚Üí 80%  (tr√®s important) ‚úì
"de"     ‚Üí  2%  (peu important)
"Marie"  ‚Üí 10%  (un peu important)
"est"    ‚Üí  1%  (peu important)
"mignon" ‚Üí  2%  (peu important)
```

Le mod√®le "attend" (attend to) principalement sur "chat" !

---

In [None]:
# D√©monstration simplifi√©e de l'attention

# Phrase exemple
words = ["Le", "chat", "de", "Marie", "est", "mignon", "Il"]

# Scores d'attention (simul√©s) pour le mot "Il" regardant les mots pr√©c√©dents
# En r√©alit√©, ces scores sont calcul√©s par le mod√®le
attention_scores = np.array([0.05, 0.80, 0.02, 0.10, 0.01, 0.02])

# Visualisation
fig, ax = plt.subplots(figsize=(12, 6))

colors = ['lightblue' if score < 0.5 else 'salmon' for score in attention_scores]
bars = ax.barh(words[:-1], attention_scores, color=colors, edgecolor='black', linewidth=2)

# Ajouter les valeurs
for i, (bar, score) in enumerate(zip(bars, attention_scores)):
    ax.text(score + 0.02, bar.get_y() + bar.get_height()/2, 
            f'{score:.0%}', 
            va='center', fontsize=12, fontweight='bold')

ax.set_xlabel('Score d\'Attention', fontsize=12, fontweight='bold')
ax.set_ylabel('Mots du Contexte', fontsize=12, fontweight='bold')
ax.set_title('Attention du mot "Il" sur le contexte pr√©c√©dent', 
             fontsize=14, fontweight='bold')
ax.set_xlim([0, 1])
ax.grid(axis='x', alpha=0.3)

# Annotation
ax.annotate('"Il" se concentre surtout sur "chat" !', 
            xy=(0.80, 1), xytext=(0.5, 3),
            arrowprops=dict(arrowstyle='->', color='red', lw=2),
            fontsize=12, color='red', fontweight='bold')

plt.tight_layout()
plt.show()

print("\nüí° C'est √ßa l'ATTENTION : le mod√®le apprend automatiquement")
print("   sur quels mots se concentrer pour comprendre le contexte !")

---

## üìê Architectures de Transformers : GPT vs BERT vs T5

### Les 3 Grandes Familles

#### 1Ô∏è‚É£ **Decoder-Only** (GPT family)

```
Structure : Decoder seulement
Task     : G√©n√©ration de texte (autor√©gressif)
Masking  : Causal (ne voit que le pass√©)

Exemples : GPT-2, GPT-3, GPT-4, LLaMA, Mistral

Usage    : Chatbots, g√©n√©ration cr√©ative, completion
```

**Notre projet** : On va construire un mod√®le **GPT-style** ! üéØ

#### 2Ô∏è‚É£ **Encoder-Only** (BERT family)

```
Structure : Encoder seulement
Task     : Compr√©hension (bidirectionnel)
Masking  : Bidirectionnel (voit pass√© ET futur)

Exemples : BERT, RoBERTa, ALBERT

Usage    : Classification, NER, Q&A
```

#### 3Ô∏è‚É£ **Encoder-Decoder** (T5 family)

```
Structure : Encoder + Decoder
Task     : Traduction, r√©sum√©

Exemples : T5, BART, mT5

Usage    : Traduction, r√©sum√©, reformulation
```

### Comparaison Visuelle

```
GPT (Decoder-Only)
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
Input:  "Le chat mange"
        ‚Üì
     [Decoder] ‚Üí Masked Self-Attention (causal)
        ‚Üì
Output: "une souris" (g√©n√©ration)


BERT (Encoder-Only)
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
Input:  "Le [MASK] mange une souris"
        ‚Üì
     [Encoder] ‚Üí Self-Attention (bidirectionnel)
        ‚Üì
Output: "chat" (pr√©diction du masque)


T5 (Encoder-Decoder)
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
Input:  "Traduire en anglais: Le chat mange"
        ‚Üì
     [Encoder] ‚Üí Context
        ‚Üì
     [Decoder] ‚Üí Generation
        ‚Üì
Output: "The cat eats"
```

---

## üéì Pourquoi GPT pour notre Projet ?

### Raisons P√©dagogiques

1. ‚úÖ **Plus simple** : Une seule composante (decoder)
2. ‚úÖ **Plus intuitif** : G√©n√©ration de texte est facile √† comprendre
3. ‚úÖ **Plus populaire** : ChatGPT, Claude = GPT-style
4. ‚úÖ **Plus fun** : On peut discuter avec notre mod√®le !

### Architecture GPT Simplifi√©e

```python
class MiniGPT:
    def __init__(self):
        self.token_embedding = Embedding(vocab_size, d_model)
        self.position_embedding = PositionalEncoding(max_len, d_model)

        self.transformer_blocks = [
            TransformerBlock(d_model, n_heads)  # ‚Üê On va construire √ßa !
            for _ in range(n_layers)
        ]

        self.output_projection = Linear(d_model, vocab_size)

    def forward(self, x):
        # 1. Embeddings
        x = self.token_embedding(x) + self.position_embedding(x)

        # 2. Transformer blocks
        for block in self.transformer_blocks:
            x = block(x)  # ‚Üê Magie de l'attention ici !

        # 3. Projection
        logits = self.output_projection(x)

        return logits
```

**C'est ce qu'on va impl√©menter from scratch !**

---

## üó∫Ô∏è Notre Parcours d'Apprentissage

### √âtape par √âtape

#### Phase 1 : Fondamentaux (Notebooks 00-03)

1. **00 - Introduction** ‚Üê Tu es ici !
2. **01 - Tokenization** : Texte ‚Üí Nombres
   - BPE (Byte-Pair Encoding)
   - Construction du vocabulaire
   - Encode/Decode

3. **02 - Embeddings** : Nombres ‚Üí Vecteurs riches
   - Word2Vec concepts
   - Embedding layers
   - Similarit√© s√©mantique

4. **03 - Attention** : Le c≈ìur du Transformer
   - Queries, Keys, Values
   - Scaled Dot-Product Attention
   - Impl√©mentation from scratch

#### Phase 2 : Architecture (Notebooks 04-07)

5. **04 - Multi-Head Attention** : Plusieurs perspectives
6. **05 - Positional Encoding** : Ordre des mots
7. **06 - Transformer Block** : Assembler les pi√®ces
8. **07 - GPT Complet** : Le mod√®le final

#### Phase 3 : Training & Generation (Notebooks 08-11)

9. **08 - Dataset** : Pr√©parer les donn√©es
10. **09 - Training** : Entra√Æner le mod√®le
11. **10 - Generation** : G√©n√©rer du texte
12. **11 - Fine-tuning** : Adapter √† des t√¢ches

#### Phase 4 : Projet Final (Notebook 12)

13. **12 - Mini-ChatGPT** : Projet complet end-to-end

---

## üìä Comparaison : Notre Mini-GPT vs GPT-3

### Sp√©cifications

| Param√®tre | Notre Mini-GPT | GPT-3 | GPT-4 |
|-----------|----------------|-------|-------|
| **Vocabulaire** | ~5,000 tokens | 50,257 tokens | ~100k tokens |
| **Embedding dim** | 256 | 12,288 | ~18,000 |
| **Layers** | 4-6 | 96 | ~120 |
| **Attention heads** | 8 | 96 | ~128 |
| **Context window** | 128 tokens | 2,048 tokens | 128k tokens |
| **Param√®tres** | **~10M** | **175B** | **~1.76T** |
| **Dataset** | 1MB texte | 45TB texte | Inconnu |
| **Co√ªt d'entra√Ænement** | ~0‚Ç¨ (CPU) | ~$4.6M | ~$100M |
| **Temps d'entra√Ænement** | Minutes/Heures | Semaines | Mois |

### Objectifs R√©alistes

**Notre mini-GPT pourra** :
- ‚úÖ G√©n√©rer du texte dans le style de l'entra√Ænement (ex: Shakespeare)
- ‚úÖ Compl√©ter des phrases
- ‚úÖ Suivre des patterns simples
- ‚úÖ D√©montrer la compr√©hension de l'attention

**Il NE pourra PAS** :
- ‚ùå Rivaliser avec ChatGPT
- ‚ùå Raisonner de mani√®re complexe
- ‚ùå Suivre des instructions vari√©es
- ‚ùå Connaissances du monde r√©el √©tendues

**C'est un projet P√âDAGOGIQUE** - L'objectif est la **compr√©hension** ! üéì

---

In [None]:
# Visualisation : √âchelle des param√®tres

models = ['Notre\nMini-GPT', 'GPT-2\nSmall', 'GPT-2\nLarge', 'GPT-3', 'GPT-4\n(estim√©)']
params = [10e6, 117e6, 1.5e9, 175e9, 1760e9]  # En param√®tres
params_billions = [p / 1e9 for p in params]  # Convertir en milliards

fig, ax = plt.subplots(figsize=(12, 6))

colors = ['lightgreen', 'skyblue', 'orange', 'salmon', 'red']
bars = ax.bar(models, params_billions, color=colors, edgecolor='black', linewidth=2)

# √âchelle log pour mieux voir
ax.set_yscale('log')
ax.set_ylabel('Nombre de Param√®tres (Milliards)', fontsize=12, fontweight='bold')
ax.set_title('Comparaison de la Taille des Mod√®les', fontsize=14, fontweight='bold')
ax.grid(axis='y', alpha=0.3)

# Ajouter les valeurs
for bar, p in zip(bars, params_billions):
    height = bar.get_height()
    if p < 1:
        label = f'{p*1000:.0f}M'
    else:
        label = f'{p:.0f}B'

    ax.text(bar.get_x() + bar.get_width()/2., height,
            label,
            ha='center', va='bottom', fontsize=11, fontweight='bold')

plt.tight_layout()
plt.show()

print("\nüí° Notre mod√®le est 17,500√ó plus petit que GPT-3 !")
print("   Mais il nous permet de COMPRENDRE les concepts fondamentaux.")

---

## üß™ Exemple Concret : Comment GPT G√©n√®re du Texte

### Le Processus Autor√©gressif

GPT g√©n√®re un token √† la fois, en utilisant tous les tokens pr√©c√©dents comme contexte.

```python
# Pseudo-code simplifi√©

prompt = "Il √©tait une fois"
generated = prompt

for _ in range(50):  # G√©n√©rer 50 tokens
    # 1. Encoder le texte actuel
    tokens = tokenize(generated)

    # 2. Forward pass dans le mod√®le
    logits = model(tokens)

    # 3. Obtenir les probabilit√©s du prochain token
    probs = softmax(logits[-1])  # Dernier token

    # 4. √âchantillonner (sample) le prochain token
    next_token = sample(probs, temperature=0.8)

    # 5. Ajouter au texte g√©n√©r√©
    generated += decode(next_token)
```

### Exemple Pas √† Pas

```
Prompt initial : "Il √©tait une fois"

It√©ration 1:
  Contexte : "Il √©tait une fois"
  Pr√©dictions : {"un": 0.35, "une": 0.25, "le": 0.15, ...}
  Choisi : "un"
  Texte : "Il √©tait une fois un"

It√©ration 2:
  Contexte : "Il √©tait une fois un"
  Pr√©dictions : {"roi": 0.40, "prince": 0.20, "dragon": 0.10, ...}
  Choisi : "roi"
  Texte : "Il √©tait une fois un roi"

It√©ration 3:
  Contexte : "Il √©tait une fois un roi"
  Pr√©dictions : {"qui": 0.50, ",": 0.20, "nomm√©": 0.15, ...}
  Choisi : "qui"
  Texte : "Il √©tait une fois un roi qui"

... et ainsi de suite !
```

**Key insight** : Le mod√®le utilise TOUT le contexte pr√©c√©dent gr√¢ce √† l'attention ! üéØ

---

## üí™ Pourquoi Construire from Scratch ?

### On pourrait juste utiliser Hugging Face...

```python
# 2 lignes et c'est fait !
from transformers import GPT2LMHeadModel
model = GPT2LMHeadModel.from_pretrained('gpt2')
```

### Mais construire from scratch permet de :

1. ‚úÖ **Comprendre en profondeur** comment √ßa marche
2. ‚úÖ **D√©mystifier la "magie"** de l'attention
3. ‚úÖ **Pouvoir d√©boguer** et am√©liorer
4. ‚úÖ **Innover** sur de nouvelles architectures
5. ‚úÖ **Impressionner** en entretien technique üòé

### Philosophie de ce Cours

> "Si tu ne peux pas le construire from scratch,  
> tu ne le comprends pas vraiment."

**Notre approche** :
1. Phase 1-3 : **NumPy** (from scratch complet)
2. Phase 4 : **PyTorch** (scaling up)
3. Comparaison : Notre impl√©mentation vs **Transformers library**

---

## üìö Ressources Compl√©mentaires

### Papers Fondamentaux

1. **"Attention Is All You Need"** (Vaswani et al., 2017)
   - Le paper original du Transformer
   - https://arxiv.org/abs/1706.03762

2. **"Improving Language Understanding by Generative Pre-Training"** (Radford et al., 2018)
   - GPT-1
   - Introduction du pretraining + fine-tuning

3. **"Language Models are Unsupervised Multitask Learners"** (Radford et al., 2019)
   - GPT-2
   - Zero-shot learning

4. **"Language Models are Few-Shot Learners"** (Brown et al., 2020)
   - GPT-3
   - Emergence de capacit√©s

### Tutoriels et Blogs

- **The Illustrated Transformer** (Jay Alammar)
  - http://jalammar.github.io/illustrated-transformer/
  - Visualisations excellentes

- **The Annotated Transformer** (Harvard NLP)
  - http://nlp.seas.harvard.edu/annotated-transformer/
  - Code ligne par ligne

- **Andrej Karpathy - "Let's build GPT"**
  - YouTube : Construction step-by-step

### Livres

- **"Speech and Language Processing"** (Jurafsky & Martin)
- **"Natural Language Processing with Transformers"** (Tunstall et al.)

---

## üéØ R√©sum√© et Prochaines √âtapes

### Ce qu'on a appris

‚úÖ **Qu'est-ce qu'un LLM** : R√©seau de neurones entra√Æn√© sur du texte  
‚úÖ **L'architecture Transformer** : R√©volution de 2017  
‚úÖ **Le concept d'Attention** : Regarder le contexte pertinent  
‚úÖ **GPT vs BERT vs T5** : Diff√©rentes approches  
‚úÖ **Notre objectif** : Construire un mini-GPT from scratch  

### Concepts Cl√©s √† Retenir

1. üîë **Attention** : Le c≈ìur du Transformer
2. üéØ **Autor√©gressif** : G√©n√®re un token √† la fois
3. üß± **Composantes** : Embeddings ‚Üí Transformer ‚Üí Projection
4. üìä **√âchelle** : Des millions aux billions de param√®tres

### Prochaine √âtape

**Notebook 01 - Tokenization** üéØ

On va apprendre comment transformer du texte en nombres !

```
"Bonjour le monde" ‚Üí [145, 298, 1023]
```

**Pourquoi c'est important ?**
- Les r√©seaux de neurones ne comprennent que les nombres
- Le choix du tokenizer impacte les performances
- GPT utilise BPE (Byte-Pair Encoding)

---

## üéì Exercices (Optionnels)

1. **Recherche** : Trouve la taille (en param√®tres) de LLaMA 2, Mistral 7B, Claude 3
2. **R√©flexion** : Pourquoi GPT-4 a besoin de 128k tokens de contexte ?
3. **Exploration** : Essaye ChatGPT et observe comment il g√©n√®re du texte token par token
4. **Lecture** : Lis "The Illustrated Transformer" de Jay Alammar

---

**Pr√™t pour la suite ? Let's go ! üöÄ**

**‚Üí Notebook suivant : `01_tokenization.ipynb`**