# üß† Exploration Compl√®te des LLMs : Param√®tres, Tokens et G√©n√©ration

## üéØ Objectifs de ce notebook

Bienvenue dans ce notebook p√©dagogique complet d√©di√© √† la compr√©hension approfondie des **Large Language Models (LLMs)**.

### Ce que vous allez apprendre :

1. üî§ **Comprendre la tokenization** : Comment les mod√®les d√©coupent et encodent le texte
2. üìä **Visualiser les embeddings** : La repr√©sentation vectorielle des mots dans l'espace s√©mantique
3. üëÅÔ∏è **Explorer l'attention** : Le m√©canisme cl√© des Transformers (Q/K/V, multi-head)
4. ‚öôÔ∏è **Ma√Ætriser les param√®tres de g√©n√©ration** : temperature, top_k, top_p, etc.
5. üî¨ **Exp√©rimenter concr√®tement** : Tester l'impact de chaque param√®tre
6. üìà **Analyser quantitativement** : Perplexit√© et m√©triques de qualit√©
7. ‚ö†Ô∏è **Comprendre les limites** : Hallucinations, biais, bonnes pratiques

---

## ü§ñ Qu'est-ce qu'un LLM ?

Un **Large Language Model** est un mod√®le d'IA entra√Æn√© sur d'√©normes quantit√©s de texte pour :

- **Pr√©dire le prochain token** (mot ou sous-mot) dans une s√©quence
- **G√©n√©rer du texte** de mani√®re coh√©rente et contextuelle
- **Comprendre le langage naturel** gr√¢ce aux repr√©sentations vectorielles

### Architecture : Le Transformer

Les LLMs modernes (GPT, BERT, etc.) reposent sur l'architecture **Transformer** qui utilise :

- **Self-Attention** : Permet au mod√®le de pond√©rer l'importance de chaque mot par rapport aux autres
- **Embeddings** : Transformation de tokens en vecteurs denses
- **Couches empil√©es** : Apprentissage de repr√©sentations de plus en plus abstraites

### Pipeline de g√©n√©ration :

```
Texte d'entr√©e ‚Üí Tokenization ‚Üí Embeddings ‚Üí Transformer (N layers)
    ‚Üì
Logits ‚Üí Softmax ‚Üí Sampling/D√©codage ‚Üí Texte g√©n√©r√©
```

---

## üéì Public cible

Ce notebook s'adresse aux **professionnels techniques** :
- Data Scientists
- ML Engineers
- D√©veloppeurs IA
- Chercheurs en NLP

**Pr√©requis** : Connaissances de base en Python, ML et NLP.

---

üí° **Note** : Ce notebook utilise `distilgpt2` pour des raisons de l√©g√®ret√© et de rapidit√© d'ex√©cution sur CPU. Les concepts s'appliquent √† tous les LLMs (GPT, LLaMA, etc.).

---

# üì¶ 2. Installation et Imports

## Installation des d√©pendances

Nous utilisons les biblioth√®ques suivantes avec des **versions fix√©es** pour garantir la compatibilit√© :

- **transformers** : HuggingFace pour charger les mod√®les pr√©-entra√Æn√©s
- **torch** : Backend PyTorch pour les calculs
- **plotly** : Visualisations interactives
- **scikit-learn** : PCA et autres outils ML
- **umap-learn** : R√©duction de dimensionnalit√© avanc√©e
- **numpy** & **pandas** : Manipulation de donn√©es

‚ö†Ô∏è **Important** : Les versions sont fix√©es pour √©viter les probl√®mes de compatibilit√©.

In [None]:
# Installation des packages avec versions fix√©es
# D√©commenter les lignes suivantes pour installer dans un environnement vide

# !pip install transformers==4.36.2
# !pip install torch==2.1.2
# !pip install plotly==5.18.0
# !pip install scikit-learn==1.3.2
# !pip install umap-learn==0.5.5
# !pip install numpy==1.24.3
# !pip install pandas==2.0.3

## Imports et configuration

In [None]:
# Imports standard
import warnings
warnings.filterwarnings('ignore')

import numpy as np
import pandas as pd
from typing import List, Dict, Tuple, Optional
import random

# Transformers & PyTorch
import torch
from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    set_seed as transformers_set_seed
)

# Visualisation
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# R√©duction de dimensionnalit√©
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
try:
    import umap
    UMAP_AVAILABLE = True
except ImportError:
    UMAP_AVAILABLE = False
    print("‚ö†Ô∏è UMAP non disponible. Installez avec: pip install umap-learn==0.5.5")

# Configuration
print("‚úÖ Imports r√©ussis!")
print(f"üì± PyTorch version: {torch.__version__}")
print(f"üîß Device disponible: {'GPU (CUDA)' if torch.cuda.is_available() else 'CPU'}")

---

# ü§ñ 3. Choix et Chargement du Mod√®le

## Pourquoi `distilgpt2` ?

Nous utilisons **DistilGPT-2** pour ce notebook car :

### ‚úÖ Avantages
- **L√©ger** : ~82M de param√®tres (vs 1.5B pour GPT-2 large)
- **Rapide** : Fonctionne bien sur CPU
- **Open-source** : Libre d'utilisation
- **P√©dagogique** : M√™me architecture que GPT-2, mais plus accessible

### üìä Compromis taille / performance

| Mod√®le | Param√®tres | M√©moire RAM | CPU/GPU |
|--------|------------|-------------|--------|
| distilgpt2 | 82M | ~350 MB | ‚úÖ CPU OK |
| gpt2 | 124M | ~550 MB | ‚úÖ CPU OK |
| gpt2-medium | 355M | ~1.5 GB | ‚ö†Ô∏è CPU lent |
| gpt2-large | 774M | ~3.2 GB | ‚ùå GPU recommand√© |

### üîÑ Alternatives possibles

Vous pouvez facilement remplacer par d'autres mod√®les :
```python
model_name = "gpt2"           # Mod√®le standard
model_name = "gpt2-medium"    # Plus puissant
model_name = "EleutherAI/gpt-neo-125M"  # Alternative
```

In [None]:
# Configuration du mod√®le
MODEL_NAME = "distilgpt2"
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

print(f"üîß Chargement du mod√®le: {MODEL_NAME}")
print(f"üì± Device: {DEVICE}")

# Chargement du tokenizer
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

# Important : GPT-2 n'a pas de pad_token par d√©faut
# On utilise eos_token comme pad_token
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token
    print("‚úÖ pad_token configur√© = eos_token")

# Chargement du mod√®le avec options pour l'analyse
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    output_attentions=True,      # Pour r√©cup√©rer les matrices d'attention
    output_hidden_states=True,   # Pour r√©cup√©rer les embeddings interm√©diaires
)

# D√©placer le mod√®le sur le device appropri√©
model = model.to(DEVICE)
model.eval()  # Mode √©valuation (pas d'entra√Ænement)

print(f"\n‚úÖ Mod√®le charg√© avec succ√®s!")
print(f"üìä Nombre de param√®tres: {model.num_parameters():,}")
print(f"üìè Taille du vocabulaire: {tokenizer.vocab_size:,}")
print(f"üî¢ Nombre de couches: {model.config.n_layer}")
print(f"üë• Nombre de t√™tes d'attention: {model.config.n_head}")
print(f"üìê Dimension des embeddings: {model.config.n_embd}")
print(f"üìè Context window: {model.config.n_positions} tokens")

---

# üî§ 4. Tokens et Tokenization

## Qu'est-ce qu'un token ?

Un **token** est l'unit√© de base trait√©e par un LLM. Ce n'est **pas forc√©ment un mot** !

### üìö D√©finition

- Un token peut √™tre :
  - Un mot entier : `"hello"` ‚Üí `[15339]`
  - Un sous-mot : `"tokenization"` ‚Üí `["token", "ization"]`
  - Un caract√®re : espaces, ponctuation
  - Un caract√®re sp√©cial : `\n`, `\t`

### üéØ Pourquoi tokenizer ?

1. **Vocabulaire fini** : Impossible d'avoir tous les mots du monde
2. **Gestion de l'inconnu** : D√©coupe les mots rares en morceaux connus
3. **Efficacit√©** : Repr√©sentation num√©rique optimale

### üî¢ Tokenization BPE (Byte Pair Encoding)

GPT-2 utilise **BPE** :
- Apprend les paires de caract√®res les plus fr√©quentes
- Fusionne it√©rativement pour cr√©er un vocabulaire
- R√©sultat : ~50,000 tokens dans le vocabulaire

In [None]:
# Exemples de tokenization
exemples_textes = [
    "Bonjour, comment allez-vous ?",
    "L'intelligence artificielle r√©volutionne le monde.",
    "Tokenization est un concept fondamental.",
    "2024 sera une ann√©e exceptionnelle!",
    "Machine Learning & Deep Learning"
]

print("üîç Exemples de tokenization:\n")

for texte in exemples_textes:
    # Tokenization
    tokens = tokenizer.tokenize(texte)
    token_ids = tokenizer.encode(texte, add_special_tokens=False)
    
    print(f"üìù Texte: {texte}")
    print(f"   üî§ Tokens: {tokens}")
    print(f"   üî¢ IDs: {token_ids}")
    print(f"   üìä Nombre de tokens: {len(tokens)}")
    print()

## üí∞ Impact des tokens : Co√ªt et Context Window

### Co√ªt
- Les APIs LLM facturent **au nombre de tokens** (input + output)
- Exemple OpenAI : ~$0.002 / 1K tokens (GPT-3.5)
- ‚ö†Ô∏è Un texte peut contenir plus de tokens que de mots !

### Context Window
- **Limite du mod√®le** : Nombre maximum de tokens en entr√©e
- distilgpt2 : 1024 tokens
- GPT-3.5-turbo : 4096 tokens  
- GPT-4 : 8192 tokens (ou 32K/128K pour versions √©tendues)
- Claude : jusqu'√† 100K tokens

### Visualisation des tokens

In [None]:
# Analyse d√©taill√©e d'un texte
texte_analyse = """L'apprentissage automatique et l'intelligence artificielle transforment 
radicalement notre soci√©t√©. Les mod√®les de langage comme GPT r√©volutionnent 
la g√©n√©ration de texte et la compr√©hension du langage naturel."""

tokens = tokenizer.tokenize(texte_analyse)
token_ids = tokenizer.encode(texte_analyse, add_special_tokens=False)

# Cr√©er un DataFrame pour visualisation
df_tokens = pd.DataFrame({
    'Position': range(len(tokens)),
    'Token': tokens,
    'Token_ID': token_ids,
    'Longueur': [len(t) for t in tokens]
})

print(f"üìä Analyse d√©taill√©e:\n")
print(f"Texte original: {len(texte_analyse)} caract√®res")
print(f"Nombre de mots: {len(texte_analyse.split())}")
print(f"Nombre de tokens: {len(tokens)}")
print(f"Ratio tokens/mots: {len(tokens)/len(texte_analyse.split()):.2f}")

print(f"\nüìã Premiers tokens:\n")
print(df_tokens.head(15))

# Visualisation de la distribution des longueurs
fig = px.histogram(
    df_tokens, 
    x='Longueur',
    title="Distribution de la longueur des tokens",
    labels={'Longueur': 'Nombre de caract√®res', 'count': 'Fr√©quence'},
    color_discrete_sequence=['#636EFA']
)
fig.update_layout(showlegend=False)
fig.show()

---

# üìä 5. Embeddings : La Repr√©sentation Vectorielle

## Qu'est-ce qu'un embedding ?

Un **embedding** est une repr√©sentation **vectorielle dense** d'un token dans un espace de dimension √©lev√©e.

### üéØ Transformation : Token ‚Üí Vecteur

```
Token "chat" (ID: 34534) ‚Üí Vecteur [0.23, -0.45, 0.87, ..., 0.12]
                                      ‚Üë
                                768 dimensions (pour distilgpt2)
```

### üîë Propri√©t√©s cl√©s

1. **Similarit√© s√©mantique** : Mots similaires = vecteurs proches
   - "chat" et "chien" auront des embeddings proches
   - "chat" et "ordinateur" seront √©loign√©s

2. **Contexte** : Dans les Transformers, les embeddings sont **contextuels**
   - Le mot "banque" aura des repr√©sentations diff√©rentes selon le contexte

3. **Apprentissage** : Les embeddings sont **appris** pendant l'entra√Ænement

### üßÆ R√¥le dans les LLMs

- **Couche d'entr√©e** : Transforme les token IDs en vecteurs
- **Repr√©sentation continue** : Permet les calculs du Transformer
- **Espace s√©mantique** : Capture les relations linguistiques

In [None]:
# Extraction des embeddings
def get_embeddings(texte: str) -> Tuple[np.ndarray, List[str]]:
    """
    Extrait les embeddings d'un texte.
    
    Returns:
        embeddings: Array de shape (n_tokens, embedding_dim)
        tokens: Liste des tokens correspondants
    """
    # Tokenization
    inputs = tokenizer(texte, return_tensors="pt").to(DEVICE)
    tokens = tokenizer.tokenize(texte)
    
    # Forward pass avec extraction des hidden states
    with torch.no_grad():
        outputs = model(**inputs)
    
    # Les hidden_states contiennent les embeddings de toutes les couches
    # hidden_states[0] = embeddings de la couche d'entr√©e
    # hidden_states[-1] = embeddings de la derni√®re couche
    embeddings = outputs.hidden_states[-1].squeeze(0).cpu().numpy()
    
    return embeddings, tokens

# Exemple d'extraction
texte_exemple = "Les mod√®les de langage sont puissants et fascinants"
embeddings, tokens = get_embeddings(texte_exemple)

print(f"üîç Analyse des embeddings:\n")
print(f"Texte: {texte_exemple}")
print(f"Nombre de tokens: {len(tokens)}")
print(f"Shape des embeddings: {embeddings.shape}")
print(f"  ‚Üí {embeddings.shape[0]} tokens")
print(f"  ‚Üí {embeddings.shape[1]} dimensions")
print(f"\nPremier embedding (premier token):")
print(f"  Min: {embeddings[0].min():.3f}")
print(f"  Max: {embeddings[0].max():.3f}")
print(f"  Mean: {embeddings[0].mean():.3f}")
print(f"  Std: {embeddings[0].std():.3f}")

## üìà Visualisation des Embeddings

Les embeddings sont en haute dimension (768D pour distilgpt2). Pour les visualiser, on utilise des techniques de **r√©duction de dimensionnalit√©** :

### 1Ô∏è‚É£ PCA (Principal Component Analysis)
- Lin√©aire, rapide
- Pr√©serve la variance globale
- Bon pour un aper√ßu rapide

### 2Ô∏è‚É£ t-SNE (t-Distributed Stochastic Neighbor Embedding)
- Non-lin√©aire
- Pr√©serve les structures locales
- Excellent pour la visualisation de clusters

### 3Ô∏è‚É£ UMAP (Uniform Manifold Approximation and Projection)
- Non-lin√©aire, plus rapide que t-SNE
- Pr√©serve structure globale ET locale
- √âtat de l'art pour la visualisation

In [None]:
# Pr√©parer un texte plus long pour la visualisation
texte_long = """L'intelligence artificielle transforme notre monde. Les machines apprennent 
√† comprendre le langage naturel. Les r√©seaux de neurones profonds analysent les donn√©es. 
Les algorithmes optimisent les processus. La technologie √©volue rapidement. 
Les chercheurs d√©veloppent des mod√®les innovants. Les applications pratiques se multiplient.
L'avenir de l'IA est prometteur et fascinant."""

# Extraire les embeddings
embeddings_viz, tokens_viz = get_embeddings(texte_long)

print(f"üìä Donn√©es pour visualisation:")
print(f"  Tokens: {len(tokens_viz)}")
print(f"  Dimensions originales: {embeddings_viz.shape[1]}")

# R√©duction avec PCA
pca = PCA(n_components=2)
embeddings_pca = pca.fit_transform(embeddings_viz)
print(f"\n‚úÖ PCA: Variance expliqu√©e: {pca.explained_variance_ratio_.sum():.1%}")

# R√©duction avec t-SNE
tsne = TSNE(n_components=2, random_state=42, perplexity=min(30, len(tokens_viz)-1))
embeddings_tsne = tsne.fit_transform(embeddings_viz)
print(f"‚úÖ t-SNE: R√©duction effectu√©e")

# R√©duction avec UMAP (si disponible)
if UMAP_AVAILABLE and len(tokens_viz) > 15:
    umap_reducer = umap.UMAP(n_components=2, random_state=42, n_neighbors=min(15, len(tokens_viz)-1))
    embeddings_umap = umap_reducer.fit_transform(embeddings_viz)
    print(f"‚úÖ UMAP: R√©duction effectu√©e")
else:
    embeddings_umap = None

In [None]:
# Visualisation interactive avec Plotly
def plot_embeddings_comparison(embeddings_pca, embeddings_tsne, embeddings_umap, tokens):
    """
    Cr√©e une visualisation comparative des trois m√©thodes de r√©duction.
    """
    # D√©terminer le nombre de subplots
    n_plots = 3 if embeddings_umap is not None else 2
    
    if n_plots == 3:
        fig = make_subplots(
            rows=1, cols=3,
            subplot_titles=('PCA', 't-SNE', 'UMAP'),
            horizontal_spacing=0.1
        )
    else:
        fig = make_subplots(
            rows=1, cols=2,
            subplot_titles=('PCA', 't-SNE'),
            horizontal_spacing=0.15
        )
    
    # PCA
    fig.add_trace(
        go.Scatter(
            x=embeddings_pca[:, 0],
            y=embeddings_pca[:, 1],
            mode='markers+text',
            text=tokens,
            textposition='top center',
            marker=dict(size=10, color=range(len(tokens)), colorscale='Viridis'),
            name='PCA'
        ),
        row=1, col=1
    )
    
    # t-SNE
    fig.add_trace(
        go.Scatter(
            x=embeddings_tsne[:, 0],
            y=embeddings_tsne[:, 1],
            mode='markers+text',
            text=tokens,
            textposition='top center',
            marker=dict(size=10, color=range(len(tokens)), colorscale='Viridis'),
            name='t-SNE'
        ),
        row=1, col=2
    )
    
    # UMAP (si disponible)
    if n_plots == 3:
        fig.add_trace(
            go.Scatter(
                x=embeddings_umap[:, 0],
                y=embeddings_umap[:, 1],
                mode='markers+text',
                text=tokens,
                textposition='top center',
                marker=dict(size=10, color=range(len(tokens)), colorscale='Viridis'),
                name='UMAP'
            ),
            row=1, col=3
        )
    
    fig.update_layout(
        title_text="Visualisation des Embeddings - Comparaison des M√©thodes",
        showlegend=False,
        height=500,
        width=1400 if n_plots == 3 else 1000
    )
    
    return fig

# Cr√©er et afficher la visualisation
fig = plot_embeddings_comparison(embeddings_pca, embeddings_tsne, embeddings_umap, tokens_viz)
fig.show()

print("\nüí° Interpr√©tation:")
print("- Les tokens s√©mantiquement similaires sont proches dans l'espace")
print("- Les couleurs repr√©sentent la position dans le texte")
print("- PCA: Vue lin√©aire globale")
print("- t-SNE: Emphase sur les clusters locaux")
if embeddings_umap is not None:
    print("- UMAP: Meilleur √©quilibre structure globale/locale")

---

# üëÅÔ∏è 6. Attention et Self-Attention

## Le M√©canisme d'Attention : C≈ìur des Transformers

L'**attention** est le m√©canisme qui permet au mod√®le de **pond√©rer l'importance** de chaque token par rapport aux autres lors du traitement.

### üîë Les 3 Composantes : Q, K, V

Pour chaque token, on calcule trois vecteurs :

1. **Q (Query)** : "Qu'est-ce que je cherche ?"
   - Repr√©sente l'information que le token souhaite obtenir

2. **K (Key)** : "Qu'est-ce que je peux offrir ?"
   - Repr√©sente le contenu du token

3. **V (Value)** : "Quelle information je porte ?"
   - Repr√©sente la valeur/information r√©elle du token

### üìê Calcul de l'Attention

```
1. Similarit√© : Score = Q ¬∑ K·µÄ / ‚àöd_k
2. Normalisation : Attention_weights = softmax(Score)
3. Agr√©gation : Output = Attention_weights ¬∑ V
```

### üé≠ Multi-Head Attention

Au lieu d'une seule attention, on calcule **plusieurs attentions en parall√®le** ("t√™tes") :

- Chaque t√™te se sp√©cialise sur diff√©rents aspects (syntaxe, s√©mantique, etc.)
- distilgpt2 : **12 t√™tes** d'attention
- Les sorties sont concat√©n√©es et projet√©es

### üîÑ Self-Attention

Dans un LLM, c'est de la **self-attention** : chaque token attend aux autres tokens de la **m√™me s√©quence**.

In [None]:
# Extraction des matrices d'attention
def get_attention_weights(texte: str):
    """
    Extrait les poids d'attention pour un texte.
    
    Returns:
        attentions: Tuple de tenseurs (n_layers, batch, n_heads, seq_len, seq_len)
        tokens: Liste des tokens
    """
    inputs = tokenizer(texte, return_tensors="pt").to(DEVICE)
    tokens = tokenizer.tokenize(texte)
    
    with torch.no_grad():
        outputs = model(**inputs)
    
    # attentions est un tuple de tenseurs, un par couche
    attentions = outputs.attentions
    
    return attentions, tokens

# Exemple
texte_attention = "L'intelligence artificielle transforme le monde"
attentions, tokens_att = get_attention_weights(texte_attention)

print(f"üîç Analyse des matrices d'attention:\n")
print(f"Texte: {texte_attention}")
print(f"Tokens: {tokens_att}")
print(f"Nombre de couches: {len(attentions)}")
print(f"Shape d'une matrice d'attention: {attentions[0].shape}")
print(f"  ‚Üí Batch size: {attentions[0].shape[0]}")
print(f"  ‚Üí Nombre de t√™tes: {attentions[0].shape[1]}")
print(f"  ‚Üí Longueur s√©quence: {attentions[0].shape[2]}")

## üî• Visualisation des Heatmaps d'Attention

Les **heatmaps** montrent quels tokens le mod√®le "regarde" pour comprendre chaque token.

### Interpr√©tation
- **Lignes** : Token qui "attend" (Query)
- **Colonnes** : Tokens auxquels on pr√™te attention (Key)
- **Couleur** : Intensit√© de l'attention (0 √† 1)
- **Patterns typiques** :
  - Diagonale : Auto-attention
  - Vertical : Attention vers tokens sp√©cifiques (ex: ponctuation)
  - Diffus : Attention distribu√©e sur tout le contexte

In [None]:
def plot_attention_heatmap(attention_weights, tokens, layer_idx=0, head_idx=0):
    """
    Visualise une heatmap d'attention pour une couche et t√™te sp√©cifiques.
    """
    # Extraire la matrice pour la couche et t√™te sp√©cifi√©es
    attention_matrix = attention_weights[layer_idx][0, head_idx].cpu().numpy()
    
    fig = go.Figure(data=go.Heatmap(
        z=attention_matrix,
        x=tokens,
        y=tokens,
        colorscale='Viridis',
        text=np.round(attention_matrix, 2),
        texttemplate='%{text}',
        textfont={"size": 8},
        colorbar=dict(title="Attention")
    ))
    
    fig.update_layout(
        title=f"Matrice d'Attention - Couche {layer_idx} - T√™te {head_idx}",
        xaxis_title="Tokens (Keys)",
        yaxis_title="Tokens (Queries)",
        width=800,
        height=700
    )
    
    return fig

# Visualisation pour la premi√®re couche, premi√®re t√™te
fig = plot_attention_heatmap(attentions, tokens_att, layer_idx=0, head_idx=0)
fig.show()

print("\nüí° Que voir dans cette heatmap:")
print("- Chaque cellule (i,j) = Attention du token i vers le token j")
print("- Les valeurs sont normalis√©es (somme = 1 par ligne)")
print("- Zones claires = forte attention")
print("- Zones sombres = faible attention")

In [None]:
# Comparaison de plusieurs t√™tes et couches
def plot_multi_head_attention(attention_weights, tokens, layer_idx=0, n_heads=4):
    """
    Visualise plusieurs t√™tes d'attention c√¥te √† c√¥te.
    """
    n_heads = min(n_heads, attention_weights[layer_idx].shape[1])
    
    fig = make_subplots(
        rows=1, cols=n_heads,
        subplot_titles=[f'T√™te {i}' for i in range(n_heads)],
        horizontal_spacing=0.05
    )
    
    for head_idx in range(n_heads):
        attention_matrix = attention_weights[layer_idx][0, head_idx].cpu().numpy()
        
        fig.add_trace(
            go.Heatmap(
                z=attention_matrix,
                x=tokens,
                y=tokens if head_idx == 0 else [''] * len(tokens),
                colorscale='Viridis',
                showscale=(head_idx == n_heads - 1),
                colorbar=dict(title="Attention") if head_idx == n_heads - 1 else None
            ),
            row=1, col=head_idx + 1
        )
    
    fig.update_layout(
        title_text=f"Multi-Head Attention - Couche {layer_idx}",
        height=500,
        width=300 * n_heads
    )
    
    return fig

# Afficher 4 t√™tes de la premi√®re couche
fig = plot_multi_head_attention(attentions, tokens_att, layer_idx=0, n_heads=4)
fig.show()

print("\nüéØ Observation:")
print("- Chaque t√™te capture des patterns diff√©rents")
print("- Certaines t√™tes se concentrent sur la structure syntaxique")
print("- D'autres capturent les relations s√©mantiques")
print("- La diversit√© des t√™tes enrichit la repr√©sentation")

---

# ‚öôÔ∏è 7. Param√®tres de G√©n√©ration

## Introduction

Les **param√®tres de g√©n√©ration** contr√¥lent comment le mod√®le produit du texte. Ils ont un impact majeur sur :
- La qualit√© du texte
- La cr√©ativit√© vs d√©terminisme
- La coh√©rence
- La diversit√© des sorties

Comprendre ces param√®tres est **essentiel** pour utiliser efficacement les LLMs.

## üî¢ 1. `max_new_tokens`

**D√©finition** : Nombre maximum de tokens √† g√©n√©rer.

### Comportement
- Limite la longueur de la sortie
- Le mod√®le peut s'arr√™ter avant si il g√©n√®re un token de fin (`<eos>`)

### Cas d'usage
- Contr√¥le de la longueur des r√©ponses
- Gestion des co√ªts (APIs payantes)
- Respect des limites du context window

### Valeurs typiques
- R√©sum√© court : 50-100
- Paragraphe : 150-300
- Article : 500-1000

```python
generate(prompt, max_new_tokens=50)
```

## üå°Ô∏è 2. `temperature`

**D√©finition** : Contr√¥le l'al√©atoire dans la s√©lection des tokens.

### Comportement

La temp√©rature modifie les probabilit√©s avant le sampling :

```
P'(token_i) = exp(logit_i / T) / Œ£ exp(logit_j / T)
```

- **T ‚Üí 0** : Distribution tr√®s "peaky" ‚Üí D√©terministe
- **T = 1** : Distribution originale du mod√®le
- **T > 1** : Distribution plus "plate" ‚Üí Plus al√©atoire

### Impact pratique

| Temperature | Effet | Cas d'usage |
|-------------|-------|-------------|
| 0.0 - 0.3 | Tr√®s d√©terministe, r√©p√©titif | T√¢ches factuelles, traductions |
| 0.5 - 0.7 | √âquilibr√©, cr√©atif mais coh√©rent | Usage g√©n√©ral, chatbots |
| 0.8 - 1.2 | Cr√©atif, diversifi√© | Brainstorming, fiction |
| > 1.5 | Tr√®s al√©atoire, parfois incoh√©rent | G√©n√©ration artistique |

### Exemple
```python
# D√©terministe
generate(prompt, temperature=0.1)

# Cr√©atif
generate(prompt, temperature=1.0)
```

## üîù 3. `top_k`

**D√©finition** : Ne consid√®re que les `k` tokens les plus probables √† chaque √©tape.

### Comportement

1. Trier les tokens par probabilit√© d√©croissante
2. Garder seulement les `k` premiers
3. Renormaliser les probabilit√©s
4. Sampler parmi ces `k` tokens

### Impact

- **top_k faible (10-20)** : Conservatif, pr√©visible
- **top_k moyen (40-50)** : √âquilibr√©
- **top_k √©lev√© (100+)** : Plus de diversit√©

### Exemple
```python
generate(prompt, do_sample=True, top_k=50)
```

‚ö†Ô∏è **Limitation** : top_k est fixe, peut inclure des tokens tr√®s improbables dans certains contextes.

## üéØ 4. `top_p` (Nucleus Sampling)

**D√©finition** : Sampling dans le "noyau" de probabilit√© cumul√©e `p`.

### Comportement

1. Trier les tokens par probabilit√© d√©croissante
2. Calculer la probabilit√© cumul√©e
3. Garder les tokens jusqu'√† atteindre `p` (ex: 0.9)
4. Sampler parmi ces tokens

### Avantage sur top_k

- **Dynamique** : Adapte le nombre de tokens selon la distribution
- Si le mod√®le est tr√®s s√ªr (1 token √† 95%) ‚Üí peu de tokens
- Si le mod√®le h√©site ‚Üí plus de tokens

### Valeurs recommand√©es

| top_p | Effet |
|-------|-------|
| 0.1-0.5 | Tr√®s conservatif |
| 0.7-0.9 | **Recommand√©** pour la plupart des cas |
| 0.95+ | Maximum de diversit√© |

### Exemple
```python
generate(prompt, do_sample=True, top_p=0.9)
```

üí° **Best practice** : Utiliser `top_p` plut√¥t que `top_k` dans la plupart des cas.

## üé≤ 5. `do_sample`

**D√©finition** : Active/d√©sactive le sampling probabiliste.

### Comportement

- **`do_sample=False`** (d√©faut) : **Greedy decoding**
  - Toujours choisir le token le plus probable
  - Compl√®tement d√©terministe
  - Ignor√© `temperature`, `top_k`, `top_p`

- **`do_sample=True`** : **Sampling**
  - √âchantillonner selon les probabilit√©s
  - Permet la diversit√©
  - N√©cessaire pour utiliser temperature, top_k, top_p

### Exemple
```python
# Greedy (d√©terministe)
generate(prompt, do_sample=False)

# Sampling (probabiliste)
generate(prompt, do_sample=True, temperature=0.8)
```

## üîÑ 6. `num_return_sequences`

**D√©finition** : Nombre de s√©quences diff√©rentes √† g√©n√©rer.

### Comportement

- G√©n√®re plusieurs compl√©tions pour le m√™me prompt
- **N√©cessite `do_sample=True`** pour avoir de la diversit√©

### Cas d'usage

- G√©n√©rer plusieurs options
- S√©lectionner la meilleure
- A/B testing

### Exemple
```python
outputs = generate(
    prompt, 
    do_sample=True,
    num_return_sequences=3,
    temperature=0.8
)
```

## üö´ 7. `repetition_penalty`

**D√©finition** : P√©nalise les tokens d√©j√† g√©n√©r√©s pour √©viter les r√©p√©titions.

### Comportement

- **Valeur > 1.0** : P√©nalise les r√©p√©titions
- **Valeur = 1.0** : Pas de p√©nalit√© (d√©faut)
- **Valeur < 1.0** : Encourage les r√©p√©titions (rare)

### Valeurs recommand√©es

- 1.0 - 1.2 : L√©ger contr√¥le
- 1.2 - 1.5 : Contr√¥le mod√©r√© (recommand√©)
- 1.5+ : Fort contr√¥le (peut devenir artificiel)

### Exemple
```python
generate(prompt, repetition_penalty=1.2)
```

## üéØ 8. `seed` (via transformers.set_seed)

**D√©finition** : Graine al√©atoire pour la reproductibilit√©.

### Comportement

- Fixe les g√©n√©rateurs al√©atoires de PyTorch, numpy, etc.
- Permet de reproduire exactement les m√™mes r√©sultats

### Cas d'usage

- Debug
- Tests automatis√©s
- Comparaisons √©quitables

### Exemple
```python
transformers_set_seed(42)
output = generate(prompt, do_sample=True)
# M√™me r√©sultat √† chaque ex√©cution
```

## üìè 9. Context Window

**D√©finition** : Limite maximale du nombre de tokens (input + output).

### Limites par mod√®le

| Mod√®le | Context Window |
|--------|----------------|
| distilgpt2 | 1024 tokens |
| GPT-2 | 1024 tokens |
| GPT-3 | 4096 tokens |
| GPT-3.5-turbo | 4096 tokens |
| GPT-4 | 8192 / 32K / 128K |
| Claude 2 | 100K tokens |

### Gestion

```python
max_length = model.config.n_positions
input_length = len(tokenizer.encode(prompt))
max_new_tokens = max_length - input_length - safety_margin
```

‚ö†Ô∏è **Attention** : D√©passer la limite ‚Üí Erreur ou troncature

## üìä Tableau R√©capitulatif

| Param√®tre | Valeur par d√©faut | Impact | Quand l'utiliser |
|-----------|-------------------|--------|------------------|
| `max_new_tokens` | 20 | Longueur de sortie | Toujours |
| `temperature` | 1.0 | Cr√©ativit√© | Avec `do_sample=True` |
| `top_k` | 50 | Filtrage des tokens | Alternative √† top_p |
| `top_p` | 1.0 | Filtrage adaptatif | **Recommand√©** avec sampling |
| `do_sample` | False | Active le sampling | Pour diversit√© |
| `num_return_sequences` | 1 | Nombre de sorties | Pour options multiples |
| `repetition_penalty` | 1.0 | Contr√¥le r√©p√©titions | Si texte r√©p√©titif |

### üéØ Configurations Recommand√©es

**1. T√¢ches factuelles / Traduction**
```python
do_sample=False  # Greedy
# OU
do_sample=True
temperature=0.3
top_p=0.9
```

**2. Usage g√©n√©ral / Chatbot**
```python
do_sample=True
temperature=0.7
top_p=0.9
repetition_penalty=1.2
```

**3. Cr√©ativit√© / Fiction**
```python
do_sample=True
temperature=1.0
top_p=0.95
```

---

# üõ†Ô∏è 8. Fonctions Utilitaires

Cr√©ons des fonctions r√©utilisables pour faciliter nos exp√©rimentations.

In [None]:
def set_seed(seed: int = 42):
    """
    Configure la graine al√©atoire pour la reproductibilit√©.
    
    Args:
        seed: Valeur de la graine (d√©faut: 42)
    """
    transformers_set_seed(seed)
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    if torch.cuda.is_available():
        torch.cuda.manual_seed_all(seed)
    print(f"‚úÖ Seed fix√© √† {seed}")

In [None]:
def generate_text(
    prompt: str,
    max_new_tokens: int = 50,
    temperature: float = 1.0,
    top_k: int = 50,
    top_p: float = 0.9,
    do_sample: bool = True,
    num_return_sequences: int = 1,
    repetition_penalty: float = 1.0,
    seed: Optional[int] = None
) -> List[str]:
    """
    G√©n√®re du texte avec le mod√®le charg√©.
    
    Args:
        prompt: Texte d'entr√©e
        max_new_tokens: Nombre maximum de tokens √† g√©n√©rer
        temperature: Contr√¥le la cr√©ativit√© (0.0-2.0)
        top_k: Filtre top-k tokens
        top_p: Nucleus sampling (0.0-1.0)
        do_sample: Active le sampling probabiliste
        num_return_sequences: Nombre de s√©quences √† g√©n√©rer
        repetition_penalty: P√©nalit√© pour les r√©p√©titions
        seed: Graine al√©atoire (optionnel)
    
    Returns:
        Liste des textes g√©n√©r√©s
    """
    if seed is not None:
        set_seed(seed)
    
    # Encoder le prompt
    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
    
    # G√©n√©rer
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_new_tokens,
            temperature=temperature if do_sample else 1.0,
            top_k=top_k if do_sample else None,
            top_p=top_p if do_sample else None,
            do_sample=do_sample,
            num_return_sequences=num_return_sequences,
            repetition_penalty=repetition_penalty,
            pad_token_id=tokenizer.pad_token_id,
        )
    
    # D√©coder
    generated_texts = [
        tokenizer.decode(output, skip_special_tokens=True)
        for output in outputs
    ]
    
    return generated_texts

# Test de la fonction
set_seed(42)
test_prompt = "L'intelligence artificielle est"
result = generate_text(test_prompt, max_new_tokens=20, temperature=0.7)
print(f"\nüìù Prompt: {test_prompt}")
print(f"ü§ñ G√©n√©ration: {result[0]}")

In [None]:
def get_next_token_probs(
    prompt: str,
    top_n: int = 10
) -> pd.DataFrame:
    """
    Calcule les probabilit√©s des prochains tokens.
    
    Args:
        prompt: Texte d'entr√©e
        top_n: Nombre de top tokens √† retourner
    
    Returns:
        DataFrame avec tokens et probabilit√©s
    """
    # Encoder
    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
    
    # Forward pass
    with torch.no_grad():
        outputs = model(**inputs)
    
    # Logits du dernier token
    logits = outputs.logits[0, -1, :]
    
    # Softmax pour obtenir les probabilit√©s
    probs = torch.softmax(logits, dim=-1)
    
    # Top-N
    top_probs, top_indices = torch.topk(probs, top_n)
    
    # Cr√©er DataFrame
    df = pd.DataFrame({
        'Token': [tokenizer.decode([idx]) for idx in top_indices.cpu().numpy()],
        'Token_ID': top_indices.cpu().numpy(),
        'Probabilit√©': top_probs.cpu().numpy(),
        'Probabilit√©_%': (top_probs.cpu().numpy() * 100)
    })
    
    return df

# Test
test_prompt = "Paris est la capitale de la"
probs_df = get_next_token_probs(test_prompt, top_n=10)
print(f"\nüìä Top 10 tokens pour: '{test_prompt}'\n")
print(probs_df.to_string(index=False))

---

# üî¨ 9. Exp√©rimentations Guid√©es

Testons concr√®tement l'impact des param√®tres de g√©n√©ration.

## Exp√©rience 1 : Impact de la Temperature

In [None]:
# Prompt commun
prompt_exp = "L'avenir de l'intelligence artificielle sera"

# Tester diff√©rentes temp√©ratures
temperatures = [0.0, 0.5, 0.7, 1.0, 1.5]
results_temp = {}

print(f"üî¨ Exp√©rience: Impact de la temp√©rature\n")
print(f"üìù Prompt: '{prompt_exp}'\n")
print("=" * 80)

for temp in temperatures:
    # G√©n√©rer 3 s√©quences pour voir la diversit√©
    outputs = generate_text(
        prompt_exp,
        max_new_tokens=30,
        temperature=temp if temp > 0 else 1.0,  # √âviter temp=0 exact
        do_sample=(temp > 0.01),
        num_return_sequences=3 if temp > 0.01 else 1,
        seed=42
    )
    
    results_temp[temp] = outputs
    
    print(f"\nüå°Ô∏è  Temperature = {temp}")
    print("-" * 80)
    for i, output in enumerate(outputs, 1):
        print(f"   {i}. {output}")
    
    # Mesure de diversit√© : nombre de sorties uniques
    unique_outputs = len(set(outputs))
    print(f"   üìä Sorties uniques: {unique_outputs}/{len(outputs)}")

print("\n" + "=" * 80)
print("\nüí° Observations:")
print("- Temperature ‚âà 0 : Tr√®s d√©terministe, toujours la m√™me sortie")
print("- Temperature = 0.7 : Bon √©quilibre entre coh√©rence et diversit√©")
print("- Temperature √©lev√©e : Plus de vari√©t√©, parfois moins coh√©rent")

## Exp√©rience 2 : Visualisation des Probabilit√©s

In [None]:
# Analyser les probabilit√©s avec diff√©rentes temp√©ratures
prompt_prob = "Le capital de France est"

# Obtenir les probabilit√©s de base
df_probs = get_next_token_probs(prompt_prob, top_n=15)

# Cr√©er un bar chart
fig = px.bar(
    df_probs,
    x='Token',
    y='Probabilit√©_%',
    title=f"Distribution des probabilit√©s pour: '{prompt_prob}'",
    labels={'Probabilit√©_%': 'Probabilit√© (%)'},
    color='Probabilit√©_%',
    color_continuous_scale='Viridis'
)

fig.update_layout(
    xaxis_tickangle=-45,
    height=500,
    showlegend=False
)

fig.show()

print("\nüìä Analyse:")
print(f"- Token le plus probable: '{df_probs.iloc[0]['Token']}' ({df_probs.iloc[0]['Probabilit√©_%']:.2f}%)")
print(f"- Entropie: {'Faible' if df_probs.iloc[0]['Probabilit√©_%'] > 50 else '√âlev√©e'}")
print(f"- Le mod√®le est {'tr√®s confiant' if df_probs.iloc[0]['Probabilit√©_%'] > 70 else 'incertain'}")

## Exp√©rience 3 : Comparaison top_k vs top_p

In [None]:
prompt_exp3 = "Dans le futur, les robots pourront"

print(f"üî¨ Exp√©rience: top_k vs top_p\n")
print(f"üìù Prompt: '{prompt_exp3}'\n")
print("=" * 80)

# Test avec top_k
print("\nüîù Avec top_k=10")
outputs_topk = generate_text(
    prompt_exp3,
    max_new_tokens=25,
    do_sample=True,
    top_k=10,
    top_p=1.0,  # D√©sactiver top_p
    temperature=0.8,
    num_return_sequences=3,
    seed=42
)
for i, output in enumerate(outputs_topk, 1):
    print(f"   {i}. {output}")

# Test avec top_p
print("\nüéØ Avec top_p=0.9")
outputs_topp = generate_text(
    prompt_exp3,
    max_new_tokens=25,
    do_sample=True,
    top_k=0,  # D√©sactiver top_k (mettre √† 0 ou tr√®s grand)
    top_p=0.9,
    temperature=0.8,
    num_return_sequences=3,
    seed=42
)
for i, output in enumerate(outputs_topp, 1):
    print(f"   {i}. {output}")

print("\n" + "=" * 80)
print("\nüí° Diff√©rence:")
print("- top_k : Fixe, peut √™tre trop restrictif ou trop permissif")
print("- top_p : Adaptif, s'ajuste selon la confiance du mod√®le")
print("- top_p est g√©n√©ralement pr√©f√©r√© pour un meilleur √©quilibre")

## Exp√©rience 4 : Effet de repetition_penalty

In [None]:
prompt_exp4 = "Les avantages de l'IA sont nombreux. Premi√®rement"

print(f"üî¨ Exp√©rience: Repetition Penalty\n")
print(f"üìù Prompt: '{prompt_exp4}'\n")
print("=" * 80)

# Sans p√©nalit√©
print("\nüìù Sans p√©nalit√© (1.0)")
output_no_penalty = generate_text(
    prompt_exp4,
    max_new_tokens=40,
    do_sample=True,
    temperature=0.8,
    repetition_penalty=1.0,
    seed=42
)[0]
print(f"   {output_no_penalty}")

# Avec p√©nalit√© mod√©r√©e
print("\nüö´ Avec p√©nalit√© mod√©r√©e (1.2)")
output_penalty = generate_text(
    prompt_exp4,
    max_new_tokens=40,
    do_sample=True,
    temperature=0.8,
    repetition_penalty=1.2,
    seed=42
)[0]
print(f"   {output_penalty}")

# Avec forte p√©nalit√©
print("\n‚õî Avec forte p√©nalit√© (1.5)")
output_high_penalty = generate_text(
    prompt_exp4,
    max_new_tokens=40,
    do_sample=True,
    temperature=0.8,
    repetition_penalty=1.5,
    seed=42
)[0]
print(f"   {output_high_penalty}")

print("\n" + "=" * 80)
print("\nüí° Impact:")
print("- P√©nalit√© faible : Peut r√©p√©ter des mots/phrases")
print("- P√©nalit√© mod√©r√©e : Bon √©quilibre, texte naturel")
print("- P√©nalit√© forte : √âvite les r√©p√©titions mais peut √™tre artificiel")

---

# üîÑ 10. Pipeline Complet d'une Requ√™te

Illustrons le **parcours complet** d'un texte dans un LLM, √©tape par √©tape.

In [None]:
# Texte d'exemple
user_text = "L'intelligence artificielle transforme"

print("="*80)
print("üîÑ PIPELINE COMPLET : TEXTE ‚Üí G√âN√âRATION")
print("="*80)

# √âTAPE 1: Texte d'entr√©e
print(f"\n1Ô∏è‚É£  TEXTE UTILISATEUR")
print(f"   üìù Input: '{user_text}'")
print(f"   üìè Longueur: {len(user_text)} caract√®res")

# √âTAPE 2: Tokenization
print(f"\n2Ô∏è‚É£  TOKENIZATION")
tokens = tokenizer.tokenize(user_text)
token_ids = tokenizer.encode(user_text, return_tensors="pt").to(DEVICE)
print(f"   üî§ Tokens: {tokens}")
print(f"   üî¢ IDs: {token_ids.cpu().numpy()[0]}")
print(f"   üìä Nombre de tokens: {len(tokens)}")

# √âTAPE 3: Embeddings
print(f"\n3Ô∏è‚É£  EMBEDDINGS")
with torch.no_grad():
    outputs_full = model(token_ids, output_hidden_states=True)
embeddings_input = outputs_full.hidden_states[0].squeeze().cpu().numpy()
print(f"   üìê Shape: {embeddings_input.shape}")
print(f"   ‚Üí {embeddings_input.shape[0]} tokens")
print(f"   ‚Üí {embeddings_input.shape[1]} dimensions par token")

# √âTAPE 4: Transformer (N couches)
print(f"\n4Ô∏è‚É£  TRANSFORMER ({model.config.n_layer} couches)")
print(f"   üîÑ Passage √† travers {model.config.n_layer} couches")
print(f"   üëÅÔ∏è  Chaque couche avec {model.config.n_head} t√™tes d'attention")
print(f"   üìä Hidden states √† chaque couche")

# √âTAPE 5: Logits
print(f"\n5Ô∏è‚É£  LOGITS (scores bruts)")
logits = outputs_full.logits[0, -1, :]  # Logits du dernier token
print(f"   üìè Shape: {logits.shape}")
print(f"   ‚Üí Un score pour chaque token du vocabulaire ({tokenizer.vocab_size:,})")
print(f"   üìà Min: {logits.min():.2f}, Max: {logits.max():.2f}, Mean: {logits.mean():.2f}")

# √âTAPE 6: Softmax ‚Üí Probabilit√©s
print(f"\n6Ô∏è‚É£  SOFTMAX ‚Üí PROBABILIT√âS")
probs = torch.softmax(logits, dim=-1)
print(f"   üìä Somme des probabilit√©s: {probs.sum():.6f} (‚âà 1.0)")
top5_probs, top5_indices = torch.topk(probs, 5)
print(f"   üèÜ Top 5 tokens:")
for i, (prob, idx) in enumerate(zip(top5_probs, top5_indices), 1):
    token_str = tokenizer.decode([idx.item()])
    print(f"      {i}. '{token_str}' : {prob.item()*100:.2f}%")

# √âTAPE 7: Sampling/D√©codage
print(f"\n7Ô∏è‚É£  SAMPLING / D√âCODAGE")
print(f"   üé≤ S√©lection du prochain token selon les param√®tres")
print(f"   üîÑ R√©p√©tition du processus pour chaque nouveau token")

# √âTAPE 8: G√©n√©ration compl√®te
print(f"\n8Ô∏è‚É£  TEXTE G√âN√âR√â")
generated = generate_text(
    user_text,
    max_new_tokens=15,
    temperature=0.7,
    do_sample=True,
    seed=42
)[0]
print(f"   ‚ú® R√©sultat: '{generated}'")

print("\n" + "="*80)
print("\nüí° Points cl√©s:")
print("- Chaque token g√©n√©r√© devient input pour le suivant")
print("- Le processus est auto-r√©gressif (un token √† la fois)")
print("- Les param√®tres affectent l'√©tape de sampling (√©tape 7)")
print("- Le mod√®le ne 'voit' que les tokens pr√©c√©dents (causal)")

---

# üìà 11. Analyse Quantitative : Perplexit√©

## Qu'est-ce que la Perplexit√© ?

La **perplexit√©** est une m√©trique qui mesure la **qualit√© d'un mod√®le de langage**.

### D√©finition math√©matique

```
Perplexit√© = exp(- (1/N) * Œ£ log P(token_i | contexte))
```

O√π :
- N = nombre de tokens
- P(token_i | contexte) = probabilit√© du token i donn√© le contexte

### Interpr√©tation

- **Perplexit√© faible** : Le mod√®le est confiant, pr√©dit bien
- **Perplexit√© √©lev√©e** : Le mod√®le est incertain

üí° **Intuition** : La perplexit√© repr√©sente le nombre moyen de choix √©quiprobables √† chaque √©tape.

### Valeurs typiques

- GPT-2 (1.5B) : ~20-30 sur des textes standards
- Texte al√©atoire : ~50,000 (taille du vocabulaire)
- Texte tr√®s pr√©visible : ~5-10

In [None]:
def calculate_perplexity(text: str) -> float:
    """
    Calcule la perplexit√© approximative du mod√®le sur un texte.
    
    Args:
        text: Texte √† √©valuer
    
    Returns:
        Perplexit√© (float)
    """
    # Encoder le texte
    inputs = tokenizer(text, return_tensors="pt").to(DEVICE)
    input_ids = inputs['input_ids']
    
    # Forward pass
    with torch.no_grad():
        outputs = model(input_ids, labels=input_ids)
    
    # La loss est d√©j√† la cross-entropy moyenne
    loss = outputs.loss
    
    # Perplexit√© = exp(loss)
    perplexity = torch.exp(loss).item()
    
    return perplexity

# Tests sur diff√©rents textes
textes_test = [
    ("Paris est la capitale de la France.", "Texte factuel simple"),
    ("L'intelligence artificielle transforme radicalement notre soci√©t√© moderne.", "Texte coh√©rent"),
    ("xkzp qwerty asdfgh zxcvbn uiop jklm", "Texte al√©atoire"),
    ("Le le le le le le le le le le", "R√©p√©titions"),
]

print("üìä Calcul de Perplexit√© sur diff√©rents textes\n")
print("="*80)

results_perplexity = []

for text, description in textes_test:
    perplexity = calculate_perplexity(text)
    results_perplexity.append({
        'Description': description,
        'Texte': text[:50] + '...' if len(text) > 50 else text,
        'Perplexit√©': perplexity
    })
    print(f"\nüìù {description}")
    print(f"   Texte: '{text}'")
    print(f"   üìä Perplexit√©: {perplexity:.2f}")

print("\n" + "="*80)

# Cr√©er un DataFrame et visualiser
df_perplexity = pd.DataFrame(results_perplexity)

fig = px.bar(
    df_perplexity,
    x='Description',
    y='Perplexit√©',
    title="Comparaison des Perplexit√©s",
    labels={'Perplexit√©': 'Perplexit√©', 'Description': 'Type de texte'},
    color='Perplexit√©',
    color_continuous_scale='RdYlGn_r'
)

fig.update_layout(showlegend=False, height=500)
fig.show()

print("\nüí° Interpr√©tation:")
print("- Texte naturel et coh√©rent ‚Üí Perplexit√© faible")
print("- Texte al√©atoire ‚Üí Perplexit√© tr√®s √©lev√©e")
print("- R√©p√©titions ‚Üí Perplexit√© faible (trop pr√©visible)")
print("\nüéØ La perplexit√© mesure la 'surprise' du mod√®le face au texte")

---

# ‚ö†Ô∏è 12. Bonnes Pratiques et Limites

## üö® Limites des LLMs

### 1. Hallucinations

Les LLMs peuvent **inventer des informations** qui semblent plausibles mais sont fausses.

**Causes** :
- Le mod√®le g√©n√®re du texte plausible, pas n√©cessairement vrai
- Donn√©es d'entra√Ænement incompl√®tes ou erron√©es
- Manque de connaissance du monde r√©el

**Mitigation** :
- ‚úÖ V√©rifier les faits importants
- ‚úÖ Utiliser RAG (Retrieval Augmented Generation)
- ‚úÖ Demander des sources
- ‚úÖ Temperature plus basse pour t√¢ches factuelles

### 2. Biais

Les LLMs refl√®tent les **biais pr√©sents dans leurs donn√©es d'entra√Ænement**.

**Types de biais** :
- Biais sociaux (genre, race, culture)
- Biais temporels (donn√©es anciennes)
- Biais de repr√©sentation (sur/sous-repr√©sentation)

**Mitigation** :
- ‚úÖ √ätre conscient des biais
- ‚úÖ Tester sur des cas divers
- ‚úÖ Utiliser des garde-fous
- ‚úÖ Mod√©ration humaine

### 3. Context Window Limit√©

**Probl√®me** : Le mod√®le ne peut traiter qu'un nombre limit√© de tokens.

- distilgpt2 : 1024 tokens (~750 mots)
- GPT-4 : 8K-128K tokens

**Solutions** :
- ‚úÖ D√©coupage intelligent du texte
- ‚úÖ R√©sum√©s progressifs
- ‚úÖ Embeddings + recherche s√©mantique

### 4. Pas de Connaissance du Monde R√©el

- ‚ùå Pas d'acc√®s √† Internet
- ‚ùå Pas de mise √† jour en temps r√©el
- ‚ùå Pas de v√©rification des faits

**Solutions** :
- ‚úÖ RAG avec base de connaissances
- ‚úÖ Int√©gration d'APIs externes
- ‚úÖ Fine-tuning sur donn√©es r√©centes

### 5. Co√ªt Computationnel

**Ressources n√©cessaires** :
- M√©moire GPU importante
- Latence (temps de r√©ponse)
- Co√ªt mon√©taire (APIs)

**Optimisations** :
- ‚úÖ Utiliser des mod√®les plus petits quand possible
- ‚úÖ Quantization (r√©duction de pr√©cision)
- ‚úÖ Batching des requ√™tes
- ‚úÖ Caching des r√©sultats

---

## ‚úÖ Bonnes Pratiques

### 1. Prompt Engineering

```python
# ‚ùå Mauvais prompt
"Explique l'IA"

# ‚úÖ Bon prompt
"""Explique l'intelligence artificielle en 3 paragraphes,
en utilisant des analogies simples pour un public non-technique.
Structure: 1) D√©finition, 2) Applications, 3) D√©fis."""
```

### 2. Choix des Param√®tres

**T√¢ches factuelles** :
```python
temperature=0.3
top_p=0.9
do_sample=True
```

**T√¢ches cr√©atives** :
```python
temperature=0.9
top_p=0.95
do_sample=True
```

### 3. Validation et Tests

- ‚úÖ Tester sur des cas limites
- ‚úÖ Mesurer la qualit√© (perplexit√©, coh√©rence)
- ‚úÖ √âvaluation humaine
- ‚úÖ Monitoring en production

### 4. S√©curit√© des Prompts

**Risques** :
- Prompt injection
- Extraction de donn√©es sensibles
- G√©n√©ration de contenu nuisible

**Protection** :
```python
# Validation des inputs
def sanitize_prompt(prompt: str) -> str:
    # Limiter la longueur
    max_length = 1000
    prompt = prompt[:max_length]
    
    # Filtrer les instructions dangereuses
    dangerous_patterns = ["ignore previous", "disregard"]
    # ... filtrage
    
    return prompt
```

### 5. Recommandations pour la Production

#### Infrastructure
- ‚úÖ Load balancing
- ‚úÖ Rate limiting
- ‚úÖ Caching intelligent
- ‚úÖ Monitoring et alertes

#### Qualit√©
- ‚úÖ A/B testing des prompts
- ‚úÖ Logging des g√©n√©rations
- ‚úÖ Feedback utilisateurs
- ‚úÖ Revue manuelle √©chantillonn√©e

#### Co√ªts
- ‚úÖ Optimiser max_tokens
- ‚úÖ Utiliser des mod√®les adapt√©s √† la t√¢che
- ‚úÖ Caching agressif
- ‚úÖ Batch processing quand possible

---

## üéì Pour Aller Plus Loin

### Concepts Avanc√©s

1. **Fine-tuning** : Adapter un mod√®le pr√©-entra√Æn√© √† votre domaine
2. **RAG** : Retrieval Augmented Generation pour donn√©es factuelles
3. **Agents** : LLMs avec outils et planification
4. **Multi-modal** : Mod√®les texte + images

### Ressources

- üìö [HuggingFace Documentation](https://huggingface.co/docs)
- üìÑ [Attention Is All You Need](https://arxiv.org/abs/1706.03762)
- üéì [Stanford CS224N: NLP with Deep Learning](http://web.stanford.edu/class/cs224n/)
- üîß [OpenAI Cookbook](https://github.com/openai/openai-cookbook)

### Outils

- **LangChain** : Framework pour applications LLM
- **LlamaIndex** : Framework pour RAG
- **PEFT** : Parameter-Efficient Fine-Tuning
- **vLLM** : Serving rapide de LLMs

---

## üéâ Conclusion

### Ce que vous avez appris

‚úÖ **Tokens & Tokenization** : Comment les LLMs d√©coupent le texte  
‚úÖ **Embeddings** : Repr√©sentation vectorielle et visualisation  
‚úÖ **Attention** : Le m√©canisme cl√© des Transformers  
‚úÖ **Param√®tres de g√©n√©ration** : Temperature, top_k, top_p, etc.  
‚úÖ **Exp√©rimentation** : Impact pratique des param√®tres  
‚úÖ **Pipeline complet** : Du texte √† la g√©n√©ration  
‚úÖ **Perplexit√©** : M√©trique de qualit√©  
‚úÖ **Bonnes pratiques** : Production et limites  

### Prochaines √âtapes

1. üî¨ **Exp√©rimenter** avec diff√©rents mod√®les (gpt2, gpt2-medium, etc.)
2. üéØ **Tester** vos propres use cases
3. üìö **Approfondir** avec RAG et fine-tuning
4. üöÄ **D√©ployer** en production avec les bonnes pratiques

---

üí° **N'oubliez pas** : Les LLMs sont des outils puissants mais imparfaits. Comprendre leur fonctionnement vous permet de les utiliser efficacement et responsablement.

üôè **Merci d'avoir suivi ce notebook !**