# Pratique LLM Indaba 2025

<img src="https://res.cloudinary.com/take-memories/images/f_auto,dpr_auto,q_auto,w_2000,c_fill,h_1200/gm/hbb8oblj5tozmimydbaz/rwanda-sehenswurdigkeiten" width="60%"/>

© Deep Learning Indaba 2025. Licence Apache 2.0.

<a href="https://colab.research.google.com/github/deep-learning-indaba/indaba-pracs-2025/blob/main/practicals/LLMs/Part_1/LLM_Indaba_Practical_French_version.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Ouvrir dans Colab"/></a>

**Auteurs :** Tejumade Afonja, Qurat Ul Ain (Annie), Jabez Magomere, Abla Hagani, Amel Sellami, Massimo Nicosia, Sebastian Bodenstein.

**Relecteurs :** Ulrich A. Mbou Sob, Siddarth Singh, Sasha Abramowitz, Ruan de Kock.

**Traducteurs** Amel Sellami, Abla Hagani.

**Introduction**

Les grands modèles de langage (LLMs) comme ChatGPT et Gemini ont révolutionné le domaine du traitement automatique du langage naturel, mais comprendre leur fonctionnement interne peut être complexe. Ce cours pratique est conçu pour démystifier les concepts clés derrière ces modèles, en commençant par l’idée fondamentale de l’attention, puis en explorant l’architecture qui alimente les systèmes les plus avancés d’aujourd’hui. Au fil du parcours, vous acquerrez des connaissances pratiques sur la manière dont la langue et la tokenisation influencent le comportement et les coûts des modèles, et vous entraînerez même votre propre petit modèle de langage (SLM).

Tout au long de cette pratique, nous couvrirons les domaines clés suivants :

1. **Chargement et interaction avec les LLMs :** Expérimentez directement avec des modèles pré-entraînés de Hugging Face et comprenez comment générer du texte et contrôler la sortie via différents paramètres.

2. **Explorer les applications concrètes :** Découvrez comment les LLMs sont utilisés dans diverses tâches telles que la génération de code, la réponse aux questions, l’écriture créative, et la réponse aux questions visuelles.
3. **Architecture Transformer :** Plongez dans les éléments constitutifs des LLMs modernes, incluant un rappel rapide de l’architecture Transformer et de ses composants clés comme l’attention automatique (self-attention) et l’attention multi-têtes (multi-head attention).
4. **Tokenisation et embeddings :** Apprenez comment le texte est converti en représentations numériques compréhensibles par les LLMs, et explorez l’impact des différentes stratégies de tokenisation selon les langues.
5. **Entraînement de votre propre LLM :** Implémentez et entraînez un modèle décodeur Transformer simplifié à partir de zéro en utilisant un jeu de données des œuvres de Shakespeare.

6. **Le coût de la langue :** Analysez comment la tokenisation peut affecter le coût d’utilisation des LLMs commerciaux, particulièrement selon les différentes langues.

Cette pratique est adaptée aux personnes ayant un niveau débutant à intermédiaire en apprentissage profond et en traitement du langage naturel. Nous recommandons d’avoir une compréhension de base en algèbre linéaire.

Commençons !

**Sujets :**

Contenu : \[<font color='orange'>Introduction à Hugging Face</font>, <font color='orange'>Interagir avec les LLMs</font>, <font color='orange'>Tokenisation</font>, <font color='orange'>Embeddings</font>, <font color='orange'>Architecture Transformer</font>, <font color='green'>Mécanisme d’Attention</font>, <font color='green'>Entraîner votre propre LLM depuis zéro</font>]

Niveau : <font color='orange'>Débutant</font>, <font color='green'>Intermédiaire</font>

**Objectifs d’apprentissage :**

* Comprendre le concept derrière [l’attention](https://arxiv.org/abs/1706.03762) et pourquoi elle est utilisée.
* Présenter et décrire les blocs fondamentaux de l’[architecture Transformer](https://arxiv.org/abs/1706.03762) ainsi qu’une intuition sur la conception de cette architecture.
* Comparer les tokenizers à travers différentes langues et analyser comment ces différences influencent les coûts monétaires associés.
* Construire et entraîner votre propre LLM.

**Prérequis :**

* Connaissances de base en apprentissage profond.
* Familiarité avec le traitement du langage naturel (NLP).
* Compréhension de base en algèbre linéaire.



**Plan:**

# [Pratique LLM Indaba 2025](#scrollTo=m2s4kN_QPQVe)

>>[Installation et configuration [Débutant]](#scrollTo=Zgn0dW3IH9NQ)

>>>[[Lancez-moi] Installations, Imports et Fonctions utilitaires](#scrollTo=6EqhIg1odqg0)

>>[🤖 Charger un modèle depuis Hugging Face et interagir localement [Débutant]](#scrollTo=ElXJ1BGzH5BJ)

>>>[🎯 Objectif](#scrollTo=8Lrb9vL2uO5A)

>>>>>[🧠 Qu'est-ce que les grands modèles de langage ?](#scrollTo=me-nBsxtGBA1)

>>>>[À propos de HuggingFace](#scrollTo=ltfz9jstGSTJ)

>>>>>[Votre premier modèle de langage](#scrollTo=M1e-FfGzGrr_)

>>>>[Comprendre les paramètres de génération](#scrollTo=5nflrXCXHY6u)

>>>[Température](#scrollTo=5nflrXCXHY6u)

>>>[Top-p (Échantillonnage par noyau)](#scrollTo=5nflrXCXHY6u)

>>>>[Modèles de langage dans des applications réelles](#scrollTo=J5U3YbK_IGel)

>>[🔍 Récapitulatif rapide de l’architecture Transformer [Débutant]](#scrollTo=svfeQO7VIOIu)

>>>[Vue d'ensemble du décodeur Transformer](#scrollTo=brwKNHT0-Hhl)

>>[🧱 Tokenisation [Débutant]](#scrollTo=AtWMaTddww65)

>>>[🎯 Essayez par vous-même : Terrain de jeu du tokenizer](#scrollTo=_Ku_PEI0PF4l)

>>>[Jouez avec le tokenizer Gemma](#scrollTo=p6qNp4IhGP-K)

>>[𓊳 Embeddings [Débutant]](#scrollTo=9YPYutB1TAes)

>>[║ Codages positionnels : pourquoi l’ordre compte [Débutant]](#scrollTo=WNO703V9SBcI)

>>>>>[Fonctions sinus et cosinus : une façon simple d’ajouter des informations de position](#scrollTo=nxkDif_aRGKy)

>>[Les embeddings informent l’attention [Débutant]](#scrollTo=Qkh0KgRPdDf8)

>>[🔍 Attention [Intermédiaire]](#scrollTo=vY02IFQouwjN)

>>>[Entre self-attention et multi-head attention](#scrollTo=_qJdLHPBL1I8)

>>>[Self-Attention](#scrollTo=TUPfggF9L9tE)

>>>[Attention masquée](#scrollTo=yJ4lTjELMj68)

>>>[La bête aux multiples têtes : Multi-Head Attention](#scrollTo=X31b1Pt6MvJ8)

>>>[Attention par produit scalaire mis à l’échelle](#scrollTo=WN0q3iq9SMdn)

>>[À garder à l’esprit :](#scrollTo=nF3tNzT_NGIm)

>>[🏗️ Entraînement de votre propre LLM (Transformers) [Intermédiaire]](#scrollTo=5X4tRtSZxGHg)

>>>[Objectif](#scrollTo=5X4tRtSZxGHg)

>>>[Bloc Transformer [Intermédiaire]](#scrollTo=e71jR6TYRHEP)

>>>>[Réseau Feed Forward (FFN) / Perceptron multicouche (MLP) [Débutant]](#scrollTo=5yAG_MbgRWEs)

>>>>[Bloc Add & Norm [Débutant]](#scrollTo=J2Us0NGFRUPn)

>>>[Construction du décodeur Transformer / LLM [Intermédiaire]](#scrollTo=i0Z_7oRRRqPg)

>>>[Entraînement de votre LLM](#scrollTo=7nsFaXhdSKZG)

>>>>[Objectif d’entraînement [Intermédiaire]](#scrollTo=o6BUm34sSRJH)

>>>>[Modèles d’entraînement [Intermédiaire]](#scrollTo=7Jp_1cbQSnzq)

>>>>[Inspection du LLM entraîné [Débutant]](#scrollTo=qE5N87UWT_uK)

>>[À méditer : combien coûte une conversation avec un LLM dans votre langue ?](#scrollTo=tixtBEtRPZ5n)

>>>[Calculons le coût des tokens](#scrollTo=tixtBEtRPZ5n)

>>>>[💰 Estimations d’exemple :](#scrollTo=tixtBEtRPZ5n)

>>>>[💸 Combien coûte ma langue ? — Tokenisation en code](#scrollTo=QVTduxk4PdYC)

>>>>[🧵 Points clés](#scrollTo=WwCo9941QRo2)

>[Conclusion](#scrollTo=fV3YG7QOZD-B)

>[Retour d’expérience](#scrollTo=o1ndpYE50BpG)


**Avant** de commencer:

Pour cela, vous devrez utiliser un GPU pour accélérer l'entraînement.Pour ce faire, accédez au menu "Runtime" dans Colab, sélectionnez "Modifier le type d'exécution", puis dans le menu contextuel, choisissez "GPU" dans la case "Accelerator matériel".

***Niveau** d'expérience suggéré dans ce sujet:

| Level         | Experience                            |
| --- | --- |
`Débutant`      | C’est la première fois que je découvre ce domaine. |
`Intermédiaire` | J’ai suivi quelques cours ou introductions de base sur ce sujet. |
`Avancé`        | Je travaille dans ce domaine/sujet au quotidien. |


## Installation et configuration [<font color = 'orange'> débutant </font>]

In [None]:
# @title **Chemins à suivre :** Quel est votre niveau d'expérience sur les sujets présentés dans ce carnet ? (Exécuter Cell)
experience = 'beginner' #@param ["beginner", "intermediate", "advanced"]
sections_to_follow=''


if experience == 'beginner': sections_to_follow = '''Nous vous recommandons de ne pas essayer de réaliser toutes les tâches de codage, mais plutôt de parcourir chaque section et de vous assurer d’exécuter chaque cellule afin d’acquérir une compréhension pratique du comportement de ces modèles.'''

elif experience == 'intermediate': sections_to_follow = '''
Nous vous recommandons de parcourir chaque section de ce notebook et d’essayer les tâches de codage marquées comme débutant ou intermédiaire. Si vous bloquez sur le code, demandez de l’aide à un tuteur ou passez à une meilleure utilisation du temps de la pratique.
'''

elif experience == 'advanced': sections_to_follow = '''Nous vous recommandons de parcourir chaque section et d’essayer chaque tâche de codage jusqu’à ce que vous l’obteniez à fonctionner.'''


print(f'D’après votre expérience, {sections_to_follow}.\n Note : ceci est juste une recommandation, n’hésitez pas à explorer le colab comme bon vous semble si vous vous sentez à l’aise !')


### [Exécutez-moi] Installations, importations et fonctions d'assistance

In [None]:
import sys

required_version = (3, 11)
current_version = sys.version_info[:2]

if current_version != required_version:
    print(f"⚠️ Warning: Expected Python {required_version[0]}.{required_version[1]}, but running {current_version[0]}.{current_version[1]}. Some package may not work as expected.")

In [None]:
# Utilisez « uv pip install » pour exploiter le téléchargement/cache parallèle d’uv et réaliser des installations beaucoup plus rapides
!pip install uv

In [None]:
from IPython.display import clear_output  # pour effacer la sortie de la cellule une fois terminé

# Groupés par fonctionnalité :
#  • Seaborn & UMAP             → Tracé de graphiques et réduction de la dimensionnalité
#  • LiveLossPlot               → Visualisation des métriques d'entraînement en temps réel
#  • Accelerate & PEFT          → Accélération matérielle et ajustement fin (fine-tuning) efficace en paramètres
#  • gensim, nltk               → Modélisation thématique et utilitaires NLP
#  • torchvision                → Ensembles de données et transformations pour la vision par ordinateur
#  • ipywidgets                 → Widgets de notebook interactifs
#  • ipdb                       → Débogueur interactif
#  • colorama                   → Formatage de la sortie de la console avec des couleurs
#  • clear_output               → Efface la sortie de la cellule du notebook une fois l'installation terminée
#  • Transformers & Datasets    → Bibliothèques de base pour le NLP
#  • Gemma==3                   → Bundle de tokenizers & modèles (épinglé à la v3 pour la compatibilité)

!uv pip install  \
    seaborn \
    umap-learn \
    livelossplot \
    accelerate \
    peft \
    # gensim \
    nltk \
    # torchvision \
    datasets \
    # ipywidgets \
    ipdb \
    # colorama \
    tf-keras \
    transformers \
    huggingface_hub \
    # numpy==1.22.0

# efface la longue sortie d'installation
clear_output()

In [None]:
# gemma 3 ne fonctionne pas avec uv install, il doit donc être installé séparément
!pip install gemma==3
clear_output()

In [None]:
# Importer les utilitaires système et mathématiques
import os
import sys
import math
import urllib.request
import requests
from huggingface_hub import hf_hub_download
from PIL import Image
from io import BytesIO


# Vérifier les accélérateurs connectés (GPU ou TPU) et configurer en conséquence
if os.environ.get("COLAB_GPU") and int(os.environ["COLAB_GPU"]) > 0:
    print("Un GPU est connecté.")
elif "COLAB_TPU_ADDR" in os.environ and os.environ["COLAB_TPU_ADDR"]:
    print("Un TPU est connecté.")
    import jax.tools.colab_tpu
    jax.tools.colab_tpu.setup_tpu()
else:
    print("Seul un accélérateur CPU est connecté.")

# Éviter que JAX n'alloue de la mémoire GPU
os.environ['XLA_PYTHON_CLIENT_PREALLOCATE'] = "false"

# Importer les bibliothèques pour l'apprentissage profond basé sur JAX
import flax.linen as nn
import jax
import jax.numpy as jnp
from jax import grad, jit, vmap
import optax

# Importer les bibliothèques liées au NLP et aux modèles
import transformers
from transformers import  AutoTokenizer,  AutoModel
from transformers import BlipProcessor, BlipForQuestionAnswering # Pour le traitement d'images.

from gemma import gm

# Importer les bibliothèques de traitement d'images et de traçage de graphiques
from livelossplot import PlotLosses
import matplotlib.pyplot as plt
import  numpy as np
import seaborn as sns

# Importer des utilitaires supplémentaires pour travailler avec du texte et des modèles
import torch
import itertools
import random

# Télécharger une image d'exemple à utiliser dans le notebook
urllib.request.urlretrieve(
    "https://images.unsplash.com/photo-1529778873920-4da4926a72c2?ixlib=rb-1.2.1&ixid=MnwxMjA3fDB8MHxzZWFyY2h8MXx8Y3V0ZSUyMGNhdHxlbnwwfHwwfHw%3D&w=1000&q=80",
    "cat.png",
)

# Importer les bibliothèques pour le prétraitement du NLP et pour travailler avec des modèles pré-entraînés
# import gensim
from nltk.data import find
import nltk
nltk.download("word2vec_sample")
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import pickle
from sklearn.decomposition import PCA

# Importer les outils Hugging Face et les widgets IPython
# import huggingface_hub
# import ipywidgets as widgets
from IPython.display import display, HTML, clear_output
# import colorama

# Configurer Matplotlib pour que la sortie soit au format SVG afin d'obtenir des graphiques de meilleure qualité
%config InlineBackend.figure_format = 'svg'

In [None]:
print("✅ Configuration terminée !")
print(f"🐍 Version de Python : {sys.version}")
print(f"🔥 Version de PyTorch : {torch.__version__}")
print(f"🤗 Version de Transformers : {transformers.__version__}")
print(f"💻 CUDA disponible : {torch.cuda.is_available()}")

In [None]:
# @title [Exécutez-moi] Fonctions d'assistance pour le tracé de graphiques.

def plot_position_encodings(P, max_tokens, d_model):
    """
    Trace la matrice des encodages de position.

    Args:
        P: Matrice d'encodage de position (tableau 2D).
        max_tokens: Nombre maximum de tokens (lignes) à tracer.
        d_model: Dimensionalité du modèle (colonnes) à tracer.
    """

    # Définir la taille du graphique en fonction du nombre de tokens et des dimensions du modèle
    plt.figure(figsize=(20, np.min([8, max_tokens])))

    # Tracer la matrice d'encodage de position avec une carte de couleurs pour une meilleure visualisation
    im = plt.imshow(P, aspect="auto", cmap="Blues_r")

    # Ajouter une barre de couleurs pour indiquer les valeurs d'encodage
    plt.colorbar(im, cmap="blue")

    # Afficher les indices d'embedding comme des graduations si la dimensionnalité est petite
    if d_model <= 64:
        plt.xticks(range(d_model))

    # Afficher les indices de position comme des graduations si le nombre de tokens est petit
    if max_tokens <= 32:
        plt.yticks(range(max_tokens))

    # Étiqueter les axes
    plt.xlabel("Indice de l'embedding")
    plt.ylabel("Indice de la position")

    # Afficher le graphique
    plt.show()

def plot_attention_weight_matrix(weight_matrix, x_ticks, y_ticks):
    """
    Trace une matrice de poids d'attention avec des graduations d'axes personnalisées.

    Args:
        weight_matrix: La matrice de poids d'attention à tracer.
        x_ticks: Étiquettes pour l'axe des x (généralement les tokens de la requête).
        y_ticks: Étiquettes pour l'axe des y (généralement les tokens de la clé).
    """

    # Définir la taille du graphique
    plt.figure(figsize=(15, 7))

    # Tracer la matrice de poids d'attention sous forme de carte de chaleur (heatmap)
    ax = sns.heatmap(weight_matrix, cmap="Blues")

    # Définir les graduations personnalisées sur les axes x et y
    plt.xticks(np.arange(weight_matrix.shape[1]) + 0.5, x_ticks)
    plt.yticks(np.arange(weight_matrix.shape[0]) + 0.5, y_ticks)

    # Étiqueter le graphique
    plt.title("Matrice d'attention")
    plt.xlabel("Score d'attention")

    # Afficher le graphique
    plt.show()


def load_image_from_url(url):
    headers = {
        "User-Agent": "Mozilla/5.0"
    }
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()

        # Vérifier que le contenu est une image
        content_type = response.headers.get("Content-Type", "")
        if not content_type.startswith("image/"):
            raise ValueError(f"Le contenu de l'URL n'est pas une image. Content-Type: {content_type}")

        return Image.open(BytesIO(response.content)).convert("RGB")

    except:
        print(f"Impossible de charger l'image depuis {url}\n ")
        return None

def resize_image(img, new_width=300):
    w, h = img.size
    new_height = int((new_width / w) * h)
    return img.resize((new_width, new_height))

In [None]:
# @title [Exécutez-moi] Fonctions d'assistance pour le traitement de texte.

def get_word2vec_embedding(words: list[str]):
    """
    Récupère les embeddings pour une liste de mots donnée à partir d'un fichier texte de style Word2Vec.

    Le fichier doit commencer par une ligne d'en-tête :
        <taille_vocabulaire> <dimension_vecteur>
    suivie d'un mot + son vecteur par ligne, par exemple :
        faon 0.0891758 0.121832 … 0.0872918

    Args:
        words: Itérable de tokens pour lesquels vous souhaitez des embeddings.

    Returns:
        embeddings: jnp.ndarray de forme (n_found, dimension_vecteur)
        found_words: List[str] des mots (dans le même ordre que les embeddings).
    """
    words_set = set(words)
    found_embeddings = []
    found_words = []
    # Télécharger depuis le Hub
    file_path = hf_hub_download(
        repo_id="AmelSellami/pruned-word2vec",
        filename="pruned.word2vec.txt",
        repo_type="dataset",
    )

    with open(file_path, "r", encoding="utf-8") as f:
        # Lire et analyser l'en-tête
        header = f.readline().strip().split()
        if len(header) != 2:
            raise ValueError(f"En-tête invalide dans {file_path!r}: {header}")
        vocab_size, dim = map(int, header)

        # Balayer chaque ligne pour trouver les mots cibles
        for line in f:
            parts = line.rstrip().split()
            if not parts:
                continue
            token = parts[0]
            if token in words_set:
                # analyser les flottants ; s'attendre à exactement `dim` nombres
                vals = parts[1:]
                if len(vals) != dim:
                    raise ValueError(f"Taille de vecteur inattendue pour {token!r}: reçu {len(vals)} vs {dim}")
                vec = [float(x) for x in vals]
                found_embeddings.append(vec)
                found_words.append(token)
                words_set.remove(token)
                if not words_set:
                    break  # tout trouvé

    embeddings = jnp.array(found_embeddings)
    return embeddings, found_words


def remove_punctuation(text):
    """Fonction qui prend une chaîne de caractères et supprime toute la ponctuation."""
    import re

    text = re.sub(r"[^\w\s]", "", text)
    return text

def print_sample(prompt, sample, model_name="", generation_time=None):

    if prompt in sample:
      sample = sample.split(prompt)[1].rstrip()
    html = f"""
    <div style="font-family:monospace; border:1px solid #ccc; padding:10px">
        <div><b style='color:teal;'>🤖 Modèle:</b> <span>{model_name}</span></div>
        {'<div><b style="color:orange;">⏱️ Temps de génération:</b> ' + f'{generation_time:.2f}s</div>' if generation_time else ''}
        <div><b style='color:green;'>📝 Requête :</b> {prompt}</div>
        <div><b style='color:purple;'>✨ Généré :</b> {sample}</div>
    </div>
    """
    display(HTML(html))


def get_tokenizer(model_name: str):
    """
    Fonction qui prend un nom de modèle et renvoie le tokenizer pour ce modèle.
    """
    if model_name == "gemma3":
        tokenizer = gm.text.Gemma3Tokenizer()
    else:
        tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
    return tokenizer


def tokenize(text: str, model_name: str):
    """
    Fonction qui prend une chaîne de caractères et un tokenizer et renvoie la version tokenisée de la chaîne.
    """
    tokenizer = get_tokenizer(model_name)
    token_ids = tokenizer.encode(text)
    tokens = [tokenizer.decode(t) for t in token_ids]
    if model_name != "gemma3":
        tokens = [token.replace('Ġ', ' ') for token in tokens] # Remplace le préfixe 'Ġ' utilisé par certains tokenizers par un espace
    return tokens, token_ids

## 🤖 Charger un modèle depuis Hugging Face et interagir localement [<font color = 'orange'> débutant </font>]



### 🎯 Objectif

* Apprendre à **charger un modèle depuis Hugging Face** et exécuter une inférence à l’aide d’un LLM

* Charger un modèle léger (par ex. gpt-neo-125m) et le solliciter avec une question simple

* Expérimenter avec différents paramètres de génération


📚 Bienvenue dans le monde des grands modèles de langue!
Nous sommes ravis de vous avoir à bord!🎉 Avant de plonger dans la partie pratique de notre voyage, prenons un détour rapide dans le monde fascinant de [Hugging Face](https://huggingface.co/) - une incroyable plateforme open source pour créer et déployer des modèles de langage à la pointe de la technologie.

##### 🧠 **Quels sont les grands modèles de langue?**

Les modèles de grandes langues (LLMS) sont des systèmes d'IA formés sur de grandes quantités de données de texte pour comprendre et générer du texte de type humain.Ils travaillent en apprenant des modèles dans la langue et en prédisant le mot le plus probable étant donné un certain contexte.

**Concepts** clés:

*   Reconnaissance des modèles: les LLMS analysent des milliards de mots pour comprendre la langue
*   Prédiction du mot de prochain: À la base, ils devinent le mot suivant le plus probable
*   Compréhension du contexte: ils considèrent l'ensemble de l'entrée lors de la réalisation des prédictions


#### **À propos de Huggingface**

<img src="https://www.hugging-face.org/wp-content/uploads/2023/11/hugging-faces.png" alt="Alt Text" width="500">

**Huggingface** est le "Github de l'IA" - une plate-forme qui démocratise l'accès aux modèles d'IA de pointe.Fondée en 2016, ils fournissent:


* [Model Hub](https://huggingface.co/models): des milliers de modèles pré-formés prêts à l'emploi
* [Bibliothèque Transformers](https://huggingface.co/docs/transformateurs): outils faciles à utiliser pour travailler avec des modèles de langue
* [Ensembles de données](https://huggingface.co/datasets): ensembles de données organisés pour la formation et l'évaluation
* [Espaces](https://huggingface.co/spaces): plate-forme pour héberger des démos et des applications ML


Dans ce Colab, nous affichons les promt en <span style="color:green;"><b>vert</b></span> et les échantillons générés par un modèle en <span style="color:purple;"><b>violet</b></span>, comme dans l’exemple ci-dessous :

In [None]:
print_sample(prompt='My fake prompt', sample=' is awesome!')

##### **Votre premier modèle de langage **

**Plongeons** à quel point il est simple de charger et d'interagir avec un modèle de l'Hugging Face!🤗

Pour ce tutoriel, nous avons préconfiguré plusieurs options de modèle pour vous pour expérimenter:

* **ELEUTHERAI / GPT-NEO-125M** - Un modèle léger avec 125 millions de paramètres.C'est rapide et économe en mémoire - grand pour commencer!
* **GPT2 et GPT2-Medium** - Modèles classiques formés par OpenAI, avec des paramètres de 117m et 355 m respectivement.La variante moyenne offre plus de maîtrise et de cohérence.
* **TIIUAE / FALCON-RW-1B** - Un modèle open source plus grand de la famille Falcon, avec 1 milliard de paramètres.
* **Microsoft / PHI-4** - Un modèle de pointe de Microsoft s'est concentré sur la génération de langage de haute qualité avec une empreinte mémoire plus petite.

Vous pouvez changer de modèle en redémarrant le noyau Colab et en mettant à jour la variable `model_name` dans la cellule ci-dessous.

> 💡 **Note :** Les étapes de chargement et d’interaction présentées ici s’appliquent à **tout** modèle Hugging Face qui prend en charge la génération de texte via l’API `pipeline`. N’hésitez pas à explorer au-delà de cette liste !



Note : le modèle `microsoft/phi-4` peut prendre plus d’une demi-heure pour charger tous les fichiers nécessaires. Nous vous recommandons d’utiliser d’autres modèles pendant ce pratique et de vous familiariser avec Phi-4 plus tard, à votre rythme.

Générons du texte :


In [None]:
# Définir le nom du modèle sur 'EleutherAI/gpt-neo-125M' (il peut être modifié via les options du menu déroulant).
model_name = 'gpt2'  # @param ['EleutherAI/gpt-neo-125M', 'gpt2', 'gpt2-medium', 'Qwen/Qwen3-0.6B', 'tiiuae/falcon-rw-1b','microsoft/phi-4']

# Définir la requête pour le modèle de génération de texte.
test_prompt = 'Once upon a time in a magical Kigali'  # @param {type: 'string'}

# Créer un pipeline de génération de texte en utilisant le modèle spécifié.
generator = transformers.pipeline('text-generation', model=model_name)

# Générer du texte à partir de la requête fournie.
# 'do_sample=True' active l'échantillonnage pour introduire de l'aléatoire dans la génération,
# et 'min_length=30' garantit qu'au moins 30 tokens sont générés.
model_output = generator(test_prompt, do_sample=True, min_length=30)

clear_output() # Effacer la sortie pour garder le notebook propre.

# Afficher l'échantillon de texte généré.
print_sample(test_prompt, model_output[0]['generated_text'], model_name=model_name)

**💡tip:** essayez d'exécuter le code ci-dessus avec différentes invites ou avec la même invite plus d'une fois!

**🤔** Discussion: Pourquoi pensez-vous que le texte généré change à chaque fois, même avec la même invite? Écrivez votre réponse dans le champ d'entrée ci-dessous et discutez avec votre voisin.

<Dettots>
<summary> <strong> Réponse </strong> </summary>

Le modèle utilise l'échantillonnage avec le hasard (température> 0) pour générer diverses sorties.
Même avec la même entrée, la nature probabiliste de la génération de texte conduit à des résultats différents.

</fords>

#### **Comprendre les paramètres de génération**

Les paramètres de génération contrôlent comment le modèle produit du texte.Explorons les plus importants:

### Température

Contrôle le caractère aléatoire des prédictions:

- **Faible (0,1 à 0,5):** sorties conservatrices et prévisibles

- **Medium (0,6–1,0):** créativité et cohérence équilibrées

- **Élevé (1,1–2,0):** très créatif mais potentiellement incohérent

### TOP-P (échantillonnage du noyau)
Contrôle la diversité en limitant le vocabulaire considéré:

- **Faible (0,1 à 0,3):** très concentré sur les mots les plus probables
- **High (0.8–1.0):** Considers more word possibilities  


Expérimentons avec ces paramètres:


In [None]:
# @title Choisir le modèle et la requête { run: "auto" }
model_name = "gpt2-medium"  # @param ["gpt2", "gpt2-medium", "EleutherAI/gpt-neo-125M"]
prompt = "Once upon a time in a magical Kigali,"  # @param {type:"string"}
temperature = 1  # @param {type:"slider", min:0.1, max:1.0, step:0.1}
top_p = 0.2  # @param {type:"slider", min:0.1, max:1.0, step:0.1}
max_new_tokens = 64  # @param {type:"slider", min:10, max:256, step:1}
seed = 2  # @param {type:"integer"}


def run_sample(
    model_name,  # Le modèle de langage que nous utiliserons pour générer du texte
    prompt: str,  # La requête textuelle que nous donnerons au modèle pour démarrer la génération
    seed: int | None = None,  # Optionnel : un nombre pour rendre les résultats prévisibles à chaque fois
    temperature: float = 0.6,  # Contrôle le caractère aléatoire de la sortie du modèle ; les valeurs plus basses le rendent plus focalisé
    top_p: float = 0.9,  # Contrôle quelle proportion des mots les plus probables est prise en compte ; les valeurs plus élevées considèrent plus d'options
    max_new_tokens: int = 64,  # Le nombre maximum de mots ou tokens que le modèle ajoutera à la requête
) -> str:
    # Cette fonction génère du texte à partir d'une requête donnée en utilisant un modèle de langage,
    # avec des options pour contrôler l'aléatoire, le nombre de tokens générés et la reproductibilité.

    # Charger le modèle en fonction de la sélection
    if 'gpt2' in model_name:
        tokenizer = transformers.GPT2Tokenizer.from_pretrained(model_name)
        model = transformers.GPT2LMHeadModel.from_pretrained(model_name)
    elif model_name == "EleutherAI/gpt-neo-125M":
        tokenizer = transformers.AutoTokenizer.from_pretrained(model_name)
        model = transformers.AutoModelForCausalLM.from_pretrained(model_name)
    else:
        raise NotImplementedError(f"{model_name} n'est pas encore supporté.")

    clear_output()
    # Déplacer le modèle vers le GPU s'il est disponible
    if torch.cuda.is_available():
        model = model.to("cuda")

    # Aligner le padding du tokenizer
    tokenizer.pad_token_id = tokenizer.eos_token_id

    # Convertir le texte de la requête en tokens que le modèle peut traiter
    inputs = tokenizer(prompt, return_tensors="pt")

    # Extraire les tokens (IDs d'entrée) et le masque d'attention (pour se concentrer sur les parties importantes) des entrées
    input_ids = inputs["input_ids"]
    attention_mask = inputs["attention_mask"]

    # Déplacer les tokens et le masque d'attention sur le même appareil que le modèle (comme un GPU s'il est disponible)
    input_ids = input_ids.to(model.device)
    attention_mask = attention_mask.to(model.device)

    # Définir la manière dont nous voulons que le modèle génère du texte
    generation_config = transformers.GenerationConfig(
        do_sample=True,  # Permettre au modèle d'ajouter de l'aléatoire à sa génération de texte
        temperature=temperature,  # Ajuster le degré d'aléatoire de la sortie ; une valeur plus basse signifie plus de concentration
        top_p=top_p,  # Considérer les mots les plus probables qui constituent les 90 % des possibilités
        pad_token_id=tokenizer.pad_token_id,  # Utiliser l'ID du token qui représente le padding (espace supplémentaire)
        top_k=0,  # Nous ne limitons pas aux top-k mots, donc nous mettons cette valeur à 0
    )

    # Si une graine est fournie, la définir pour que les résultats soient reproductibles (même sortie à chaque fois)
    if seed is not None:
        torch.manual_seed(seed)

    # Générer du texte en utilisant le modèle avec les paramètres que nous avons définis
    generation_output = model.generate(
        input_ids=input_ids,  # Fournir les tokens d'entrée au modèle
        attention_mask=attention_mask,  # Fournir le masque d'attention pour aider le modèle à se concentrer
        return_dict_in_generate=True,  # Demander au modèle de retourner des informations détaillées
        output_scores=True,  # Inclure les scores (niveaux de confiance) pour les tokens générés
        max_new_tokens=max_new_tokens,  # Définir le nombre maximum de tokens à générer
        generation_config=generation_config,  # Appliquer nos paramètres de génération de texte personnalisés
    )

    # S'assurer qu'une seule séquence (sortie) est générée, pour simplifier
    assert len(generation_output.sequences) == 1

    # Obtenir la séquence de tokens générée
    output_sequence = generation_output.sequences[0]

    # Convertir les tokens générés en texte lisible
    output_string = tokenizer.decode(output_sequence)

    # Afficher la requête et la réponse générée
    print_sample(prompt, output_string, model_name=model_name)

    # Retourner la réponse de texte générée
    return output_string

# Exécuter la génération interactive
_ = run_sample(
    model_name=model_name,
    prompt=prompt,
    temperature=temperature,
    top_p=top_p,
    seed=seed,
    max_new_tokens=max_new_tokens
)


🎯 **Essayez ceci :** Expérimentez avec différents prompts et valeurs de température. Quels motifs remarquez-vous ?


#### **Modèles linguistiques dans les applications du monde réel**

Les modèles linguistiques ont de nombreuses applications pratiques.Explorons quelques-uns:

**Génération** de code

In [None]:
code_prompt = 'Write a Python function that calculates the fibonacci sequence:' # @param {type:'string'}
model_name = 'gpt2'  # @param ['gpt2', 'gpt2-medium', 'EleutherAI/gpt-neo-125M']
code_result = run_sample(model_name, code_prompt, temperature=0.3, max_new_tokens=200)
print('💻 Code Generation:')
print(code_result)

**Question** Répondre

In [None]:
qa_prompt = 'What are the main advantages of using version control in software development?' # @param {type:'string'}
model_name = 'gpt2'  # @param ['gpt2', 'gpt2-medium', 'EleutherAI/gpt-neo-125M']
qa_result = run_sample(model_name, qa_prompt, temperature=0.5, max_new_tokens=80)

**Écriture** créative

In [None]:
story_prompt = 'Write the opening paragraph of a science fiction story:' # @param {type:'string'}
model_name = 'EleutherAI/gpt-neo-125M'  # @param ['gpt2', 'gpt2-medium', 'EleutherAI/gpt-neo-125M']
story_result = run_sample(model_name, story_prompt, temperature=0.9, max_new_tokens=100)

**Question** de vision Répondre

La réponse à la question visuelle (VQA) est une tâche d'IA multimodale qui combine la vision informatique et la compréhension du langage naturel.L'objectif est simple mais puissant: étant donné une image et une question de langue naturelle à ce sujet, le modèle doit générer une réponse pertinente et précise.

Dans l'exemple ci-dessous, nous utiliserons un modèle pré-formé de HuggingFace pour montrer comment VQA fonctionne dans la pratique.

> Exécutez à nouveau la cellule si vous rencontrez une erreur.

In [None]:
image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/5/5f/Lake_Naivasha%2C_Kenya_%2832487531978%29.jpg/2880px-Lake_Naivasha%2C_Kenya_%2832487531978%29.jpg" # @param {type:'string'}
image = load_image_from_url(image_url)
display(resize_image(image, new_width=800))

# Poser une question.
question = "What is in the picture?" # @param {type:'string'}

# Charger le modèle et le processeur
model_name = "Salesforce/blip-vqa-base"
processor = BlipProcessor.from_pretrained(model_name)
model = BlipForQuestionAnswering.from_pretrained(model_name)

# Préparer les entrées.
inputs = processor(image, question, return_tensors="pt")

# Exécuter l'inférence.
with torch.no_grad():
    output = model.generate(**inputs)

# Décoder et afficher la réponse.
answer = processor.decode(output[0], skip_special_tokens=True)
clear_output()
display(resize_image(image, new_width=800))
print('')
print_sample(question, answer, model_name=model_name)

**Chatbot**

In [None]:
model = gm.nn.Gemma3_1B()
params = gm.ckpts.load_params(gm.ckpts.CheckpointPath.GEMMA3_1B_IT)

sampler = gm.text.ChatSampler(
    model=model,
    params=params,
    multi_turn=True,
)

user = 'Share one metaphor linking "shadow" and "laughter".' # @param {type:'string'}

turn0 = sampler.chat(user)
print_sample(user, turn0, model_name="Gemma3_1B")

In [None]:
user = 'Expand it in a haiku.' # @param {type:'string'}
turn1 = sampler.chat(user)
print_sample(user, turn1, model_name="Gemma3_1B")


Plutôt cool, non ? 🤩
Aujourd’hui, nous allons aller un peu plus loin — en **entraînant notre propre LLM inspiré de Shakespeare** ! Cette expérience pratique nous aidera à comprendre comment ces modèles fonctionnent réellement **dans les coulisses**.


## 🔍 Architecture du transformateur Récapitulatif rapide [<font color = 'orange'> débutant </font>]



L'architecture du transformateur a été introduite dans l'article intitulé [l'attention est tout ce dont vous avez besoin] (https://proekedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-paper.pdf) par Vaswani et al.Comme le titre de l'article le suggère, une telle architecture se compose essentiellement de mécanismes d'attention ainsi que des couches d'alimentation et des couches linéaires, comme le montre le diagramme ci-dessous.

<img src="https://machinelearningmastery.com/wp-content/uploads/2021/08/attention_research_1.png" width="350" />

Les transformateurs et ses variations sont au cœur des modèles de grande langue et ce n'est pas une exagération de dire que presque tous les modèles de langue sont des architectures basées sur les transformateurs.Comme vous pouvez le voir dans le diagramme, l'architecture du transformateur d'origine se compose de deux parties, une qui reçoit des entrées généralement appelées encodeur et une autre qui reçoit des sorties (c'est-à-dire des cibles) appelée décodeur.En effet, le transformateur a été conçu pour la traduction automatique.

Dans ce tutoriel, nous nous concentrerons uniquement sur la partie décodeur qui est l'architecture qui alimente les modèles de grande langue les plus modernes comme Chatgpt.

### Présentation du décodeur du transformateur

<img src="https://substackcdn.com/image/fetch/$s_!qbpc!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Ff6133c18-bfaf-4578-8c5a-e5ac7809f65b_1632x784.png" width="650" height="400" />


* **Préparation de l’entrée**

  * Texte brut → **Tokenizer** → séquence d’identifiants de tokens
  * Identifiants → **Représentations des tokens** + **Représentations positionnelles** → vecteurs d’entrée

* **Blocs décodeurs empilés** (répétés *N* fois)

  1. **Normalisation de couche**
  2. **Auto-attention multi-tête masquée** (masque causal)

     * La connexion résiduelle ajoute la sortie de l’attention à son entrée
  3. **Normalisation de couche**
  4. **Réseau feed-forward** (MLP)

     * Deux couches linéaires + non-linéarité, appliquées position par position
     * La connexion résiduelle ajoute la sortie du FFN à son entrée

* **Projection de sortie**

  * Vecteurs finaux du décodeur → couche linéaire → logits du vocabulaire → softmax pour les probabilités du token suivant

Commençons notre parcours en comprenant comment les modèles tokenisent le texte.




## 🧱 Tokenisation [<font color = 'orange'> débutant </font>]



Les modèles de langage naturel fonctionnent sur des entrées numériques discrètes, alors que le texte brut est une séquence de caractères. La **tokenisation** est le pont entre le texte lisible par l’humain et les vecteurs d’entrée exploitables par le modèle. De manière générale, la tokenisation :

1. **Divise le texte en unités (« tokens »)**

   * Sépare une chaîne de caractères en mots, sous-mots ou caractères.
2. **Associe chaque token à un identifiant entier**

   * Utilise un vocabulaire fixe pour que chaque token corresponde à un indice unique.
3. **Permet le traitement par lots et la recherche d’embeddings**

   * Convertit des textes de longueur variable en séquences d’identifiants remplies (padded) pouvant être traitées par des réseaux neuronaux.

Un token peut être :

* Un seul caractère (`i`, `n`, `d`, `a`, `b`)
* Un sous-mot (`ind`, `aba`)
* Un mot entier (`indaba`)

Un vocabulaire est la liste fixe des tokens (mots, sous-mots ou caractères) qu’un modèle connaît, chacun étant associé à un identifiant entier unique pour la recherche d’embeddings.







Différents modèles — comme GPT, Gemma, LLaMA, Mistral, et d’autres — utilisent des tokenizers différents, chacun prenant ses propres décisions sur la manière de découper le texte en tokens. La méthode de tokenisation la plus courante dans les LLM est le **Byte Pair Encoding (BPE)**. Si vous êtes curieux de savoir comment cela fonctionne, cette [excellente vidéo](https://www.youtube.com/watch?v=zduSFxRajkE) l’explique très bien.

> L’idée clé derrière la tokenisation est la **granularité** — à quel point un modèle doit-il découper le texte pour comprendre et prédire ce qui vient ensuite ? L’objectif est de trouver un équilibre : découper le texte en morceaux suffisamment petits pour que le modèle puisse bien généraliser, mais pas trop petits au risque d’exploser le nombre de tokens. Un bon tokenizer garde un vocabulaire compact, gère efficacement la diversité des langues et compresse bien le texte, de sorte que moins de tokens sont nécessaires pour représenter le sens — surtout dans des contextes multilingues.

La taille du vocabulaire correspond au nombre de tokens distincts (mots, sous-mots ou symboles) reconnus par le tokenizer d’un modèle.


### **🎯 Essayez vous-même :** Playground du Tokenizer

Passons à la pratique. Visitez l’un des sites suivants :

* [Tiktokenizer Playground (GPT-2)](https://tiktokenizer.vercel.app/?model=gpt2)
* [OpenAI Tokenizer](https://platform.openai.com/tokenizer)

Collez la phrase :
`Welcome to the Indaba LLM tutorial happening in Kigali. Get ready to explore the world of LLMs.`

<!-- 🎯 Maintenant, essayez la même phrase dans une autre langue que vous parlez — yorùbá, kiswahili, français, etc. Notez ce que vous avez observé. -->  

<figure>
  <img src="https://drive.google.com/uc?export=view&id=1XpIVAOk281R7i13IMYQHe0HZZG6tUrjw" alt="TikTokenizer" width="800"/>
  <figcaption><em></em></figcaption>
</figure>


### Jouez avec Gemma Tokenizer

In [None]:
tokenizer = gm.text.Gemma3Tokenizer()
tokenized_prompt = tokenizer.encode('Glad to be at the Indaba!', add_bos=True)
tokenized_prompt

In [None]:
tokenizer.decode([
 122637,
 531,
 577,
 657,
 506,
 1851,
 6525,
 236888,
])

In [None]:
#Tokenisons une langue différente
arabic_tokens=tokenizer.encode('إنه يوم جميل اليوم')
arabic_tokens

In [None]:
print('Arabic prompt got tokenized into the following tokens: \n',
      tokenizer.decode(arabic_tokens[0]), "\n",
        tokenizer.decode(arabic_tokens[1]),  "\n",
        tokenizer.decode(arabic_tokens[2]),  "\n",
        tokenizer.decode(arabic_tokens[3]),  "\n",
        tokenizer.decode(arabic_tokens[4]),  "\n",

      )

## 𓊳 Embeddings [<font color = 'orange'> débutant </font>]


Après la tokenisation, chaque ID de token est associé à un vecteur dense via la **couche d’embedding**. Ces embeddings capturent l’information sémantique des tokens et servent d’entrée pour le reste du modèle.

**Embeddings de tokens**
Une table de correspondance apprise de forme `(taille_du_vocabulaire × d_model)`. Chaque ID de token devient un vecteur de dimension `d_model`.



<figure>
  <img src="https://drive.google.com/uc?export=view&id=1mReprFfL9ezlIRh55Co0yzX3EjiwcHsf" alt="Positional Encoding Vectors" width="800"/>
<Figcaption> <em> </em> </gigcaption>
</ figure>


Dans cette section, nous allons extraire directement les embeddings de tokens appris par le modèle Word2Vec pour un petit ensemble de mots exemples, puis utiliser l'analyse en composantes principales (ACP) pour projeter ces vecteurs de haute dimension en deux dimensions (2D). Enfin, nous tracerons les coordonnées en 2D afin de visualiser comment les tokens sémantiquement liés se regroupent naturellement dans l’espace d’embedding.

L’ACP est une méthode de réduction de dimension qui préserve les relations locales — ainsi, dans le graphique obtenu, vous devriez voir des tokens similaires (comme « chien » vs « chat » ou « roi » vs « reine ») regroupés à proximité.



In [None]:
# 1. Un ensemble de jetons
words = ["king", "queen", "royalty", "food", "apple", "pear", "computers"]
word_embeddings, words = get_word2vec_embedding(words)

# # 4. Appliquer l'ACP pour réduire la dimensionnalité
# `n_components=2` réduit le vecteur n-dimensionnel à 2 dimensions, soit 2 colonnes
# tout en préservant les relations locales.
pca = PCA(n_components=2, random_state=42)
X_2d = pca.fit_transform(word_embeddings)

# 5. Visualiser les plongements 2D
plt.style.use('seaborn-v0_8-whitegrid')
fig, ax = plt.subplots(figsize=(12, 10))
ax.scatter(X_2d[:, 0], X_2d[:, 1], alpha=0)

# Ajoutez des annotations (les mots) à chaque point
for i, txt in enumerate(words):
    ax.annotate(txt, (X_2d[i, 0], X_2d[i, 1]),
                ha='center',
                va='center',
                fontsize=12,
                fontweight='medium')

plt.title('PCA Visualization of Word Embeddings from Word2Vec', fontsize=16)
plt.xlabel('PCA  Component 1', fontsize=12)
plt.ylabel('PCA Component 2', fontsize=12)
plt.grid(True)
plt.show()


L’image APC ci-dessus vous apprend deux choses sur les embeddings :

1. Similarité sémantique = proximité géométrique. Les mots ayant des significations ou contextes d’utilisation similaires se retrouvent proches les uns des autres.

2. Analogies linéaires. Bien que non illustré ici, des décalages vectoriels tels que roi - homme ≈ reine - femme sont possibles.





## ║ Encodages de position: pourquoi l'ordre compte [<font color = 'orange'> débutant </font>]
<! - (10 minutes) ->


**Pourquoi les embeddings positionnels ?**

* Les embeddings de tokens seuls sont invariants par permutation, ce qui signifie qu’ils ne savent pas quel token est venu en premier..
* L’ordre des mots est crucial pour le sens (« Je suis heureux » ≠ « Suis-je heureux »).

**Comment fonctionnent les embeddings positionnels :**

1. **Encodages fixes (sinusoïdaux)**

   * Fonctions pré-calculées de la position (sinus et cosinus à différentes fréquences).
   * Pas de paramètres supplémentaires ; supporte des séquences de longueur arbitraire.
2. **Embeddings positionnels appris**

   * Table de correspondance entraînable de forme `(longueur_max_séquence × d_model)`.
   * Chaque position a son propre vecteur d’embedding appris pendant l’entraînement.

**Combinaison token + position :**

```text
final_embedding[i] = token_embedding[i] + pos_embedding[i]
```




##### **Fonctions sinus et cosinus: un moyen simple d'ajouter des informations de position**

Pour répondre aux propriétés souhaitées évoquées ci-dessus, les auteurs de [*Attention is All You Need*](https://arxiv.org/pdf/1706.03762) proposent une technique simple d’**encodage positionnel**. Cette méthode injecte l’information sur l’ordre des tokens dans les embeddings en appliquant une combinaison de fonctions sinus et cosinus à différentes fréquences.

L’encodage positionnel pour une position donnée `pos`, à l’indice de dimension d’embedding `i`, avec une taille totale d’embedding `d_model`, est défini par :

$$
PE_{\text{pos}, i} =
\begin{cases}
\sin\left(\frac{\text{pos}}{10000^{i / d_{\text{model}}}}\right), & \text{si } i \bmod 2 = 0 \\
\cos\left(\frac{\text{pos}}{10000^{(i - 1) / d_{\text{model}}}}\right), & \text{si } i \bmod 2 = 1
\end{cases}
$$

En supposant un modèle avec une taille d’embedding $d_{\text{model}} = 8$, le vecteur d’encodage positionnel pour la position `pos` devient :

$$
PE_{\text{pos}} =
\begin{bmatrix}
\sin\left(\frac{\text{pos}}{10000^{0 / 8}}\right) \\
\cos\left(\frac{\text{pos}}{10000^{0 / 8}}\right) \\
\sin\left(\frac{\text{pos}}{10000^{2 / 8}}\right) \\
\cos\left(\frac{\text{pos}}{10000^{2 / 8}}\right) \\
\sin\left(\frac{\text{pos}}{10000^{4 / 8}}\right) \\
\cos\left(\frac{\text{pos}}{10000^{4 / 8}}\right) \\
\sin\left(\frac{\text{pos}}{10000^{6 / 8}}\right) \\
\cos\left(\frac{\text{pos}}{10000^{6 / 8}}\right)
\end{bmatrix}
$$

> **Note :** Les indices pairs utilisent le sinus, les indices impairs le cosinus. La division par des puissances de 10000 permet à chaque dimension d’encoder une fréquence différente.

Pour comprendre pourquoi ces encodages fonctionnent en pratique, créons une fonction pour les visualiser et expérimenter avec la `token_sequence_length` et la dimension de l’`embedding` des tokens.


In [None]:
def return_frequency_pe_matrix(token_sequence_length, token_embedding):

  assert token_embedding % 2 == 0, "token_embedding should be divisible by two"

  P = jnp.zeros((token_sequence_length, token_embedding))
  positions = jnp.arange(0, token_sequence_length)[:, jnp.newaxis]

  i = jnp.arange(0, token_embedding, 2)
  frequency_steps = jnp.exp(i * (-math.log(10000.0) / token_embedding))
  frequencies = positions * frequency_steps

  P = P.at[:, 0::2].set(jnp.sin(frequencies))
  P = P.at[:, 1::2].set(jnp.cos(frequencies))

  return P

token_sequence_length = 50 # @param {type: "number"}
token_embedding = 768  # @param {type: "number"}
P = return_frequency_pe_matrix(token_sequence_length, token_embedding)
plot_position_encodings(P, token_sequence_length, token_embedding)

Remarquez comment chaque ligne du graphique, correspondant à une position précise dans la séquence, affiche un motif ondulé distinct à travers les dimensions de l’embedding. Cela signifie que chaque position possède un encodage fixe et unique, ce qui permet au modèle de différencier les tokens selon leur position dans la séquence. Ces encodages ne changent pas d’une exécution à l’autre ; ils sont entièrement déterminés par la formule.

🤔 **Activité de groupe :**

* <font color='orange'>Prenez un moment avec votre voisin pour explorer pourquoi ce motif spécifique apparaît lorsque `token_sequence_length` est réglé à 1000 et que `token_embedding` vaut 768.</font>
* <font color='orange'>Expérimentez avec des valeurs plus petites pour `token_sequence_length` et `token_embedding` afin de mieux comprendre et enrichir votre discussion.</font>
* <font color='orange'>Vous vous demandez pourquoi la constante 10000 est utilisée ? Demandez à votre voisin ce qu’il en pense.</font>
* <font color='orange'>Essayez maintenant de régler `token_sequence_length` à 50 et `token_embedding` à une valeur beaucoup plus grande, comme 10000. Qu’observez-vous ? Avons-nous toujours besoin d’un embedding de token aussi grand ?</font>


## Les embeddings informent l’attention [<font color = 'orange'> débutant </font>]

<! - (10 minutes) ->

Comme nous l’avons appris ci-dessus, les embeddings projettent chaque token dans un espace vectoriel continu où les relations sémantiques se traduisent par une proximité géométrique. Les mécanismes d’attention s’appuient directement sur ces embeddings en calculant des scores de similarité entre les vecteurs de tokens pour déterminer à quel point chaque token doit « prêter attention » aux autres tokens de la séquence. En d’autres termes, les embeddings fournissent les caractéristiques brutes, et l’attention utilise ces caractéristiques pour pondérer et combiner dynamiquement l’information entre les tokens.

Ci-dessous, vous écrirez une fonction qui implémente l’attention par produit scalaire. L’objectif est de calculer un vecteur de contexte, $c_t$, qui résume l’information contenue dans les états cachés ($H$) pertinente pour l’état précédent ($q$).

Cela se fait en trois étapes :

* Calculer les scores d’attention (S) : calculer le produit scalaire du vecteur requête $q$ avec tous les vecteurs clés dans $H$. Cela donne la similarité entre chaque paire de vecteurs. Pour simplifier, nous considérerons que l’embedding de chaque token sert à la fois de clé et de requête.

* Calculer les poids d’attention ($\alpha$) : appliquer une fonction softmax aux scores pour les normaliser en une distribution de probabilité.

* Calculer le vecteur contexte ($c_t$) : calculer la somme pondérée des vecteurs valeurs (ici, $H$) en utilisant les poids d’attention.

Ces étapes sont résumées par les équations suivantes :

$$
\begin{align*}
S &= q \cdot H^T \\
\alpha &= \text{softmax}(S) \\
c_t &= \alpha \cdot H
\end{align*}
$$

Enfin, nous visualiserons les poids d’attention résultants pour un petit ensemble de mots exemples.


In [None]:
def dot_product_attention(hidden_states, previous_state):
    """
    Calculate the dot product between the hidden states and previous states.

    Args:
        hidden_states: A tensor with shape [T_hidden, dm]
        previous_state: A tensor with shape [T_previous, dm]
    """

    # Astuce : Pour calculer les scores d’attention, réfléchissez à l’utilisation du vecteur « previous_state » et de la matrice « hidden_states ». Vous souhaitez déterminer dans quelle mesure chaque élément de « previous_state » doit prêter attention à chaque élément de « hidden_states ». N’oubliez pas qu’en multiplication matricielle, vous pouvez trouver la relation entre deux ensembles de vecteurs en multipliant l’un par la transposée de l’autre.
    # Astuce : Utilisez « jnp.matmul » pour effectuer la multiplication matricielle entre « previous_state » et la transposée de « hidden_states » (`hidden_states.T`).
    scores = ...  # FINISH ME
    # Astuce : Maintenant que vous avez les scores, vous devez les convertir en probabilités.
    # Une fonction softmax est généralement utilisée dans les mécanismes d'attention pour convertir les scores bruts en probabilités
    # dont la somme est égale à 1. Cela aidera à déterminer l'attention à accorder à chaque état caché.
    # Astuce : Utilisez `jax.nn.softmax` pour appliquer la fonction softmax à `scores`.
    w_n = ...  # FINISH ME

    # Multipliez les poids par les états cachés pour obtenir le vecteur de contexte
    # Astuce : utilisez à nouveau `jnp.matmul` pour multiplier les poids d'attention `w_n` par `hidden_states`
    # pour obtenir le vecteur de contexte.
    c_t = jnp.matmul(w_n, hidden_states)

    return w_n, c_t

In [None]:

# @title Exécutez-moi pour tester votre code
key = jax.random.PRNGKey(42)
x = jax.random.normal(key, [2, 2])

try:
  w_n, c_t = dot_product_attention(x, x)

  w_n_correct = jnp.array([[0.9567678, 0.04323225], [0.00121029, 0.99878967]])
  c_t_correct = jnp.array([[0.11144122, 0.95290256], [-1.5571996, -1.5321486]])
  assert jnp.allclose(w_n_correct, w_n), "w_n is not calculated correctly"
  assert jnp.allclose(c_t_correct, c_t), "c_t is not calculated correctly"

  print("It seems correct. Look at the answer below to compare methods.")
except:
  print("It looks like the function isn't fully implemented yet. Try modifying it.")

In [None]:
# lors de la modification de ces mots, notez que si le mot ne se trouve pas dans le
# corpus d'entraînement d'origine, il ne sera pas affiché dans le graphique de la matrice de poids.
# @titre Réponse à la tâche de code (essayez de ne pas jeter un coup d'œil avant d'avoir bien essayé !)
def dot_product_attention(hidden_states, previous_state):
    # Calculer les scores d'attention :
    # Multipliez le vecteur d'état précédent par la transposée de la matrice d'états cachés.
    # Cela nous donne une matrice de scores qui montre à quel point chaque élément de l'état précédent
    # doit prêter attention à chaque élément des états cachés.
    # Le résultat est une matrice de forme [T, N], où :
    # T est le nombre d'éléments dans les états cachés,
    # N est le nombre d'éléments dans l'état précédent.
    scores = jnp.matmul(previous_state, hidden_states.T)

    # Appliquer la fonction softmax aux scores pour les convertir en probabilités.
    # Cela normalise les scores de sorte qu'ils totalisent 1 pour chaque élément,
    # nous permettant de les interpréter comme la quantité d'attention à accorder à chaque état caché.
    w_n = jax.nn.softmax(scores)

    # Calculer le vecteur de contexte (c_t) :
    # Multiplier les poids d'attention (w_n) par les états cachés.
    # Cela combine les états cachés en fonction de la quantité d'attention que chacun mérite,
    # ce qui donne un nouveau vecteur qui représente la somme pondérée des états cachés.
    # La forme résultante est [T, d], où :
    # T est le nombre d'éléments dans l'état précédent,
    # d est la dimension des états cachés.
    c_t = jnp.matmul(w_n, hidden_states)

    # Renvoyer les poids d'attention et le vecteur de contexte.
    return w_n, c_t

In [None]:
words = ["king", "queen", "royalty", "food", "apple", "pear", "computers"]
word_embeddings, words = get_word2vec_embedding(words)
weights, _ = dot_product_attention(word_embeddings, word_embeddings)
plot_attention_weight_matrix(weights, words, words)


En regardant la matrice, on peut voir quels mots ont des significations similaires. Le groupe de mots « royal » présente des scores d’attention plus élevés entre eux que les mots du groupe « nourriture », qui eux aussi s’attachent les uns aux autres. On observe également que le mot « ordinateur » obtient des scores d’attention très faibles avec tous les autres, ce qui montre qu’il est peu lié aux mots des groupes « royal » ou « nourriture ».

Note : Le produit scalaire est seulement l’une des manières d’implémenter la fonction de score dans les mécanismes d’attention. Vous trouverez une liste plus complète dans cet [article de blog](https://lilianweng.github.io/posts/2018-06-24-attention/#summary) de Dr Lilian Weng.



## 🔍 ATTENTION [<FONT COLOR = 'GREEN'> Intermédiaire </font>]

<! - (25 minutes) ->


### Entre l’auto-attention et l’attention multi-tête

L’auto-attention et l’attention multi-tête (MHA) sont des composants fondamentaux de l’architecture des transformeurs. Dans cette section, nous expliquerons en détail l’intuition derrière ces concepts ainsi que leur mise en œuvre. Plus tard, dans la section Transformeurs, vous apprendrez comment ces mécanismes d’attention sont utilisés pour créer un modèle séquence-à-séquence reposant entièrement sur l’attention.

Au fur et à mesure de notre progression, nous représenterons les phrases en les décomposant en mots individuels et en encodant chaque mot à l’aide du modèle word2vec présenté précédemment. Dans la section Transformeurs, nous étudierons plus en détail comment les séquences d’entrée sont transformées en une série de vecteurs.


In [None]:
def embed_sentence(sentence):
    """
    Intègre une phrase en utilisant word2vec ; à des fins d'exemple d'utilisation uniquement.
    """
    # nettoyer la phrase (pas nécessaire si on utilise un tokenizer de LLM approprié)
    sentence = remove_punctuation(sentence)

    # extraire les mots individuels
    words = sentence.split()

    # obtenir l'embedding word2vec pour chaque mot de la phrase
    word_vector_sequence, words = get_word2vec_embedding(words)

    # retourner avec une dimension supplémentaire (utile pour créer des lots plus tard)
    return jnp.expand_dims(word_vector_sequence, axis=0), words

### Auto-attention

Une question simple à propos de cette phrase est : à quoi se réfère le mot « it » ? Même si cela peut sembler facile, il peut être difficile pour un algorithme de l’apprendre. C’est là qu’intervient l’auto-attention, qui peut apprendre une matrice d’attention pour le mot « it », où un poids important est attribué au mot « animal ».

L’auto-attention permet également au modèle d’apprendre à interpréter des mots ayant les mêmes embeddings, comme apple, qui peut désigner une entreprise ou un fruit selon le contexte. Ce mécanisme est très similaire à l’état caché que l’on trouve dans un réseau de neurones récurrent (RNN) (un autre type de réseau de neurones utilisé pour traiter des données textuelles), mais ce processus, comme vous le verrez, permet au modèle de prêter attention à l’ensemble de la séquence en parallèle, ce qui autorise l’utilisation de séquences plus longues.

L’auto-attention repose sur trois concepts :

* Requêtes, clés et valeurs
* Attention par produit scalaire à l’échelle
* Masques

$$
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
$$

<figure>  
  <img src="https://drive.google.com/uc?export=view&id=1VwPK-JVOe_NyY4QwKcaCxp4YGpxVIu1u" alt="Vecteurs d’encodage positionnel" width="800"/>  
  <figcaption><em></em></figcaption>  
</figure>


In [None]:
class SequenceToQKV(nn.Module):
  output_size: int

  @nn.compact
  def __call__(self, X):

    # définir la méthode pour l'initialisation des poids
    initializer = nn.initializers.variance_scaling(scale=0.5, mode="fan_in", distribution="truncated_normal")

    # initialiser trois couches linéaires pour effectuer les transformations QKV.
    # note : cela peut aussi être une seule couche, comment pensez-vous que vous le feriez ?
    q_layer = nn.Dense(self.output_size, kernel_init=initializer)
    k_layer = nn.Dense(self.output_size, kernel_init=initializer)
    v_layer = nn.Dense(self.output_size, kernel_init=initializer)

    # transformer et retourner les matrices
    Q = q_layer(X)
    K = k_layer(X)
    V = v_layer(X)

    return Q, K, V

Mais qu’est-ce que la requête, la clé et la valeur ?

🎯 **Analogie concrète :**
Imaginez que vous êtes dans une bibliothèque, cherchant les informations les plus pertinentes pour répondre à une question.

* Vous avez une question en tête : c’est votre **requête** (query).
* Chaque livre dans la bibliothèque a un titre ou une description : c’est sa **clé** (key).
* À l’intérieur de chaque livre se trouve le contenu réel : c’est la **valeur** (value).

Dans l’auto-attention, chaque mot d’une phrase joue les trois rôles :

* Il crée une requête : « Que suis-je en train de chercher ? »
* Il présente une clé : « Quelle information est contenue en moi ? »
* Il offre une valeur : « Voici ce que je peux apporter. »

En général :

* L’auto-attention est invariante à la permutation (l’ordre peut être réarrangé sans changer le résultat).
* L’auto-attention ne nécessite pas de paramètres. Jusqu’ici, l’interaction entre les mots était guidée par leurs embeddings et les encodages positionnels.
* On s’attend à ce que les valeurs le long de la diagonale (de la matrice) soient les plus élevées.
* Si on ne souhaite pas que certaines positions interagissent, on peut toujours fixer leurs valeurs à $-\infty$.

**Conclusion :** L’auto-attention permet au modèle de relier les mots entre eux.


Maintenant que nous avons nos matrices `query`, `key` et `value`, il est temps de calculer la matrice d’attention. Rappelez-vous que dans tous les mécanismes d’attention, il faut d’abord calculer un score pour chaque vecteur de la séquence, puis utiliser ces scores pour créer un nouveau vecteur de contexte. Dans l’auto-attention, le calcul des scores se fait via le produit scalaire à échelle (scaled dot product attention), puis les scores normalisés sont utilisés comme poids pour sommer les vecteurs valeurs et ainsi créer le vecteur de contexte.

$$
\operatorname{Attention}(Q, K, V) = \operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_k}}\right) V
$$

où les scores d’attention sont calculés par

$$
\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_k}}\right)
$$

puis ces scores sont multipliés par $V$ pour obtenir le vecteur de contexte.

Ce qui se passe ici est similaire à ce que nous avons vu avec l’attention par produit scalaire dans la section précédente, mais appliqué à la séquence elle-même. Pour chaque élément de la séquence, on calcule la matrice des poids d’attention entre $q_i$ et $K$. Ensuite, on multiplie $V$ par chaque poids et on somme finalement tous les vecteurs pondérés $v_{\text{weighted}}$ pour obtenir une nouvelle représentation pour $q_i$. Ainsi, on atténue les vecteurs moins pertinents et on renforce ceux importants dans la séquence lorsque notre attention est portée sur $q_1$.

Le produit $QK^\top$ est divisé par la racine carrée de la dimension des vecteurs, $\sqrt{d_k}$, afin d’assurer une meilleure stabilité des gradients lors de l’entraînement.


In [None]:
def scaled_dot_product_attention(query, key, value):
    """
    Formule pour retourner l'attention par produit scalaire à l'échelle étant donné les matrices QKV.
    """
    d_k = key.shape[-1]

    # obtenir les scores bruts (logits) en effectuant le produit scalaire des requêtes et des clés
    logits = jnp.matmul(query, jnp.swapaxes(key, -2, -1))

    # mettre les scores bruts à l'échelle et appliquer la fonction softmax pour obtenir les scores/poids d'attention
    scaled_logits = logits / jnp.sqrt(d_k)
    attention_weights = jax.nn.softmax(scaled_logits, axis=-1)

    # multiplier les poids par la matrice de valeur pour obtenir la sortie
    output = jnp.matmul(attention_weights, value)

    return output, attention_weights

Voyons maintenant l’attention par produit scalaire à échelle en action. Nous prendrons une phrase, encoderons chaque mot avec word2vec, puis observerons à quoi ressemblent les poids finaux de l’auto-attention.

Nous n’utiliserons pas les couches de projection linéaire nécessaires pour entraîner ces matrices. Pour simplifier, nous allons poser $X = Q = V = K$.


In [None]:
# définir une phrase
sentence = "I drink coke, but eat steak"

# intégrer et créer des matrices QKV
word_embeddings, words = embed_sentence(sentence)
Q = K = V = word_embeddings

# calculer les poids et tracer
outputs, attention_weights = scaled_dot_product_attention(Q, K, V)

# tracer les mots et les poids d'attention entre eux
words = remove_punctuation(sentence).split()
print(attention_weights[0].shape, len(words))
plot_attention_weight_matrix(attention_weights[0], words, words)

Gardez à l’esprit que nous n’avons pas encore entraîné notre matrice d’attention. Cependant, en utilisant les vecteurs word2vec comme séquence, on peut déjà observer que l’attention par produit scalaire à échelle est capable de focaliser sur le mot « eat » lorsque la requête est « steak », et que la requête « drink » prête plus d’attention à « coke » et « eat ».

Plus de ressources :

[Attention avec Q, K, V (vidéo)](https://www.youtube.com/watch?v=k-5QMalS8bQ&list=PLmZlBIcArwhPHmHzyM_cZJQ8_v5paQJTV&index=7)


### Attention masquée

L’attention masquée est une technique utilisée dans les mécanismes d’attention — en particulier dans les transformeurs — pour empêcher un modèle de « regarder vers l’avant » quand ce n’est pas autorisé.

📚 **Intuition : comme lire sans spoilers**
Imaginez que vous lisez un roman policier chapitre par chapitre. Vous voulez deviner qui est le coupable sans sauter à la fin. L’attention masquée fonctionne de la même façon :

« À la position $t$, le modèle n’a le droit de prêter attention qu’aux tokens à la position $t$ ou avant, pas après. »

🕵️‍♂️ **Pourquoi utiliser l’attention masquée ?**

1. 🧱 **Remplissage (padding) dans les séquences de longueurs inégales**
   Lorsque l’on regroupe en batch des séquences (phrases ou séries temporelles) de longueurs différentes, on complète généralement les plus courtes avec des tokens de padding pour que toutes aient la même taille. Mais ces tokens de padding ne contiennent aucune information réelle.

❗ Si on ne les masque pas, le modèle pourrait les considérer comme du contenu pertinent, ce qui perturberait l’apprentissage.

2. 🔒 **Empêcher le regard vers l’avenir dans les modèles décodeurs**
   Dans les modèles générateurs de séquences (comme GPT), on les entraîne en utilisant la phrase entière en sortie. Mais lors de la génération réelle, le modèle ne doit voir que les tokens passés et présents, pas ceux du futur.

🧠 Imaginez écrire une histoire mot par mot. Vous ne devriez pas pouvoir lire la suite avant d’avoir écrit le mot suivant !

<img src="https://windmissing.github.io/NLP-important-papers/AIAYN/assets/5.png" alt="schéma attention masquée" width="200"/>


In [None]:
# exemple de construction d'un masque pour des tokens de taille 32
# le masque garantit que les positions ne portent attention qu'aux positions précédentes dans l'entrée (masque causal)
# nous l'utiliserons plus tard pour insérer des valeurs -inf dans les scores bruts
mask = jnp.tril(jnp.ones((32, 32)))

# tracer
sns.heatmap(mask, cmap="Blues")
plt.title("Exemple de masque qui peut être appliqué");

Permet désormais d'adapter notre fonction d'attention du produit DOT à mise à l'échelle pour implémenter l'attention masquée.

In [None]:
def scaled_dot_product_attention(query, key, value, mask=None):
    """
    Attention par produit scalaire à l'échelle avec un masque causal (seulement autorisé à porter attention aux positions précédentes)
    """
    d_k = key.shape[-1]
    T_k = key.shape[-2]
    T_q = query.shape[-2]

    # obtenir les logits à l'échelle en utilisant le produit scalaire comme avant
    logits = jnp.matmul(query, jnp.swapaxes(key, -2, -1))
    scaled_logits = logits / jnp.sqrt(d_k)

    # ajouter le masque optionnel où les valeurs le long du masque sont fixées à -inf
    if mask is not None:
        scaled_logits = jnp.where(mask[:T_q, :T_k], scaled_logits, -jnp.inf)

    # calculer les poids d'attention via softmax
    attention_weights = jax.nn.softmax(scaled_logits, axis=-1)

    # additionner avec les valeurs pour obtenir la sortie
    output = jnp.matmul(attention_weights, value)

    return output, attention_weightsftmax(scaled_logits, axis=-1)

    # sum with the values to get the output
    output = jnp.matmul(attention_weights, value)

    return output, attention_weights

### La bête aux multiples têtes : l’attention multi-tête

Nous avons parlé du mécanisme d’auto-attention dans la section précédente. Comment l’attention multi-tête se rapporte-t-elle à ce mécanisme d’auto-attention (attention par produit scalaire à échelle) ?

<figure>  
  <img src="https://drive.google.com/uc?export=view&id=1e0C2tC29XylPRVfwXo_-NLzisQbLIdxl" alt="Vecteurs d’encodage positionnel" width="800"/>  
  <figcaption><em></em></figcaption>  
</figure>  

L’auto-attention multi-tête est une variante de l’auto-attention utilisée dans le modèle Transformer. Elle consiste à exécuter plusieurs calculs d’attention en parallèle, chacun se focalisant sur différentes relations et aspects de la séquence d’entrée.

Au lieu de calculer l’attention une seule fois, le mécanisme MHA applique plusieurs fois en parallèle l’attention par produit scalaire à échelle. Selon l’article *Attention is All You Need*, « l’attention multi-tête permet au modèle de porter simultanément attention à l’information provenant de différents sous-espaces de représentation à différentes positions. Avec une seule tête d’attention, la moyenne inhibe cela. »

L’attention multi-tête peut être vue comme une stratégie similaire à l’empilement de noyaux de convolution dans une couche CNN (Convolution Neural Network). Cela permet aux noyaux de se concentrer et d’apprendre différentes caractéristiques et règles, ce qui explique pourquoi plusieurs têtes d’attention fonctionnent aussi bien.

<figure>  
  <img src="https://drive.google.com/uc?export=view&id=1ulHkifKMzFSHl7-pJnUpc5VP-H2FssED" alt="Schéma attention multi-tête" width="1300" height="700"/>  
  <figcaption><em></em></figcaption>  
</figure>


Ou plus précisément quelque chose comme ceci: une pile d'attention du produit à point à l'échelle


<figure>
  <img src="https://drive.google.com/uc?export=view&id=1lfMZAgs6bR5_0blSB95SAPuX1TNpNaCC" alt="Positional Encoding Vectors" width="500"/>
<Figcaption> <em> </em> </gigcaption>
</ figure>



Voyons maintenant comment implémenter l’attention multi-tête. En termes simples, l’attention multi-tête revient à exécuter plusieurs fois en parallèle le processus d’attention, en utilisant différentes copies des matrices $Q$, $K$ et $V$ pour chaque « tête ». Cela permet au modèle de se concentrer simultanément sur différentes parties de l’entrée.

Si vous souhaitez en savoir plus, consultez [cet article de blog de Sebastian Raschka](https://magazine.sebastianraschka.com/p/understanding-and-coding-self-attention) qui offre une explication détaillée.


### Attention par produit scalaire à échelle

In [None]:
class MultiHeadAttention(nn.Module):
    num_heads: int  # Nombre de têtes d'attention
    d_m: int  # Dimension des embeddings du modèle

    def setup(self):
        # Initialiser le module de transformation séquence-vers-QKV
        self.sequence_to_qkv = SequenceToQKV(self.d_m)

        # Définir l'initialiseur pour les poids de la couche linéaire de sortie
        initializer = nn.initializers.variance_scaling(
            scale=0.5, mode="fan_in", distribution="truncated_normal"
        )

        # Initialiser la couche de projection de sortie Wo (utilisée après l'attention)
        self.Wo = nn.Dense(self.d_m, kernel_init=initializer)

    def __call__(self, X=None, Q=None, K=None, V=None, mask=None, return_weights=False):
        # Si Q, K, ou V ne sont pas fournis, utiliser l'entrée X pour les générer
        if None in [Q, K, V]:
            assert not X is None, "X doit être fourni si Q, K, ou V ne le sont pas"

            # Générer les matrices Q, K et V à partir de l'entrée X
            Q, K, V = self.sequence_to_qkv(X)

        # Extraire la taille du lot (B), la longueur de la séquence (T) et la taille de l'embedding (d_m)
        B, T, d_m = K.shape

        # Calculer la taille de l'embedding de chaque tête d'attention (d_m / num_heads)
        head_size = d_m // self.num_heads

        # Remodeler Q, K, V pour avoir des dimensions séparées pour les têtes
        # B, T, d_m -> B, T, num_heads, head_size -> B, num_heads, T, head_size
        q_heads = Q.reshape(B, T, self.num_heads, head_size).swapaxes(1, 2)
        k_heads = K.reshape(B, T, self.num_heads, head_size).swapaxes(1, 2)
        v_heads = V.reshape(B, T, self.num_heads, head_size).swapaxes(1, 2)

        # Appliquer l'attention par produit scalaire à l'échelle à chaque tête
        attention, attention_weights = scaled_dot_product_attention(
            q_heads, k_heads, v_heads, mask
        )

        # Remodeler la sortie de l'attention pour revenir à ses dimensions d'origine
        # (B, num_heads, T, head_size) -> (B, T, num_heads, head_size) -> (B, T, d_m)
        attention = attention.swapaxes(1, 2).reshape(B, T, d_m)

        # Appliquer la transformation linéaire de sortie Wo à la sortie de l'attention
        X_new = self.Wo(attention)

        # Si return_weights est vrai, retourner à la fois la sortie transformée et les poids d'attention
        if return_weights:
            return X_new, attention_weights
        else:
            # Sinon, retourner seulement la sortie transformée
            return X_new


## Que garder à l'esprit:

🔍 Attention:

* Capture des dépendances à longue portée.

* Permet la parallélisation (contrairement aux RNN).

* L'attention est autochtone, sauf combinaison avec le codage positionnel.


💡 Masque d'attention:

* Masque causal (look-ahead): assure un comportement autorégressif (par exemple, le jeton T ne voit que des jetons ≤ t).

* Masque de rembourrage: empêche l'attention aux positions rembourrées sans signification.

* Implémenté en masquant les logits d'attention avant Softmax en utilisant $-\\infty$ (infinity).

✨ Attention multiples

* Ne vous contentez pas de regarder dans un sens - regardez plusieurs modèles à la fois

* Aide à capturer plusieurs types de dépendances (par exemple, syntaxe, sémantique).

## 🏗️ Entraînement de votre propre LLM (Transformers) \[<font color='green'>Intermédiaire</font>]

<!-- (30 minutes)-->

### Objectifs

* Charger un jeu de données et entraîner un LLM
* Visualiser les encodages positionnels \[<font color='orange'>Débutant</font>]
* Implémenter :

  * Encodages positionnels
  * Bloc FFN
  * Normalisation de couche (Layer norm)
  * Bloc décodeur
  * LLM complet \[<font color='green'>Intermédiaire</font>]
* Définir la fonction de perte
* Charger le jeu de données d’entraînement
* Écrire le script d’entraînement
* Effectuer une inférence avec le modèle entraîné \[<font color='orange'>Débutant</font>]


### Bloc de transformateur <Font Color = 'Green'> Intermédiaire </font>

Tout comme un Multi Layer perceptron MLP (un réseau de neurones simple qui traite les données d’entrée à travers plusieurs couches) ou un Convolution Neural Network CNN (un type de réseau de neurones particulièrement efficace pour reconnaître des motifs dans les images grâce à des couches de convolution). Transformeurs sont composés d’une pile de blocs de transformeurs. Dans cette section, nous allons construire chacun des composants nécessaires à la création d’un de ces blocs de transformeur.



#### Network Feed Award Network (FFN) / Multicouche Perceptron (MLP) <FONT COLOR = 'ORANGE'> débutant </font>


<div style = "Display: flex; align-items: Centre; justify-content: Centre; écart: 40px;">
  <img src="https://drive.google.com/uc?export=view&id=1gyHqjfJUg_BLoFhAH6_KqsKxOQWvYtvD" alt="Feed Forward Neural Network" width="300"/>
  <img src="https://drive.google.com/uc?export=view&id=1H1pVFxJiSpM_Ozj1eKWNdcFQ5Hn5XsZz" alt="Drawing" width="260"/>
</div>



Dans le modèle original, ces blocs consistent en un simple MLP (Perceptron Multi-Couches) à 2 couches utilisant la fonction d’activation ReLU. Cependant, la fonction GeLU (Gaussian Error Linear Unit) est devenue très populaire, et nous l’utiliserons tout au long de ce pratique. La formule ci-dessous représente le réseau de neurones feedforward (FFN) avec activation GeLU. Dans ce réseau, l’entrée $x$ est d’abord passée à travers deux couches linéaires avec les poids $W_1$ et $W_2$, suivies des biais $b_1$ et $b_2$. La fonction d’activation ReLU, souvent représentée par la fonction $\max$, est ici remplacée par la fonction GeLU.

$$
\operatorname{FFN}(x) = \max \left(0, x W_1 + b_1 \right) W_2 + b_2
$$

On peut interpréter ce bloc comme traitant ce que le bloc d’attention multi-tête a produit, puis projetant ces nouvelles représentations de tokens dans un espace que le bloc suivant pourra exploiter plus efficacement. Généralement, la première couche est très large, environ 2 à 8 fois la taille des représentations de tokens. Cette architecture facilite la parallélisation des calculs pour une couche unique plus large pendant l’entraînement, plutôt que de paralléliser un bloc feedforward composé de plusieurs couches. Cela permet d’ajouter plus de complexité tout en gardant un entraînement et une inférence optimisés.


In [None]:
# @title Implémentation du code pour un réseau de neurones à propagation avant (Exécutez-moi !)

class FeedForwardBlock(nn.Module):
    """
    Un MLP à 2 couches qui élargit puis réduit l'entrée.

    Args:
      widening_factor [optionnel, défaut=4]: La taille de la couche cachée sera d_model * widening_factor.
    """
    # widening_factor contrôle à quel point la dimension d'entrée est étendue dans la première couche.
    widening_factor: int = 4

    # init_scale contrôle le facteur de mise à l'échelle pour l'initialisation des poids.
    init_scale: float = 0.25

    @nn.compact
    def __call__(self, x):
        # Obtenir la taille de la dernière dimension de l'entrée (taille de l'embedding).
        d_m = x.shape[-1]

        # Calculer la taille de la première couche en multipliant la taille de l'embedding par le facteur d'élargissement.
        layer1_size = self.widening_factor * d_m

        # Initialiser les poids pour les deux couches en utilisant un initialiseur de mise à l'échelle de variance.
        initializer = nn.initializers.variance_scaling(
            scale=self.init_scale, mode='fan_in', distribution='truncated_normal',
        )

        # Définir la première couche dense, qui étend la taille de l'entrée.
        layer1 = nn.Dense(layer1_size, kernel_init=initializer)

        # Définir la deuxième couche dense, qui réduit la taille pour revenir à la dimension d'origine.
        layer2 = nn.Dense(d_m, kernel_init=initializer)

        # Appliquer la première couche dense suivie d'une fonction d'activation GELU.
        x = jax.nn.gelu(layer1(x))

        # Appliquer la deuxième couche dense pour projeter les données vers leur dimension d'origine.
        x = layer2(x)

        # Retourner la sortie finale.
        return x

#### Bloc Add and Norm (Addition et Normalisation) <Font Color = 'Orange'> Débutant </font>

<div style = "Display: flex; align-items: Centre; justify-content: Centre; écart: 40px;">
  <img src="https://drive.google.com/uc?export=view&id=1lj8pqO6ttjbcTRUEW1rbtRlueiLPxoSr" alt="Feed Forward Neural Network" width="300"/>
  <img src="https://jalammar.github.io/images/t/transformer_resideual_layer_norm_2.png" alt="Drawing" width="400"/>
</div>


Pour permettre aux transformeurs d’aller plus en profondeur, les connexions résiduelles sont cruciales car elles facilitent la circulation des gradients dans le réseau. Pour la normalisation, on utilise la **normalisation de couche** (layer norm). Celle-ci normalise chaque vecteur de token indépendamment dans le batch. Il a été observé que normaliser ces vecteurs améliore la convergence et la stabilité des transformeurs.

La normalisation de couche comporte deux paramètres apprenables, `scale` et `bias`, qui rescalent la valeur normalisée. Pour chaque token d’entrée dans un batch, on calcule la moyenne $\mu_i$ et la variance $\sigma_i^2$. Puis on normalise le token par :

$$
\hat{x}_i = \frac{x_i - \mu_i}{\sqrt{\sigma_i^2 + \varepsilon}}
$$

Ensuite, $\hat{x}$ est rescalé avec le `scale` appris $\gamma$ et le `bias` $\beta$ selon :

$$
y_i = \gamma \hat{x}_i + \beta = \mathrm{LN}_{\gamma, \beta}(x_i)
$$

Ainsi, notre bloc **Add & Norm** peut se représenter par :

$$
\mathrm{LN}(x + f(x))
$$

où $f(x)$ est soit un bloc MLP soit un bloc MHA (Multi-Head Attention).

Pour implémenter ce bloc Add & Norm, on définit un module Flax qui prend en entrée les données originales et les données traitées, les additionne, puis applique `flax.linen.nn.LayerNorm` sur la dernière dimension pour normaliser le résultat. Cela permet de stabiliser l’entraînement en standardisant la représentation sommée.


In [None]:
# @title Implémentation du code pour le bloc Ajouter et Normaliser (Exécutez-moi !)

class AddNorm(nn.Module):
    """Un bloc qui implémente l'opération 'Ajouter et Normaliser'"""

    @nn.compact
    def __call__(self, x, processed_x):
        # Étape 1 : Ajouter l'entrée originale (x) à l'entrée traitée (processed_x).
        added = x + processed_x

        # Étape 2 : Appliquer la normalisation de couche (LayerNorm) au résultat de l'addition.
        # - LayerNorm aide à stabiliser et à améliorer le processus d'entraînement en normalisant la sortie.
        # - reduction_axes=-1 indique que la normalisation est appliquée sur la dernière dimension (typiquement la dimension de l'embedding).
        # - use_scale=True et use_bias=True permettent à la couche d'apprendre des paramètres de mise à l'échelle et de biais pour un ajustement fin supplémentaire.
        normalised = nn.LayerNorm(reduction_axes=-1, use_scale=True, use_bias=True)

        # Retourner le résultat normalisé.
        return normalised(added)

### Construire le décodeur de transformateur / llm <font color = 'vert'> intermédiaire </font>

<img src="https://drive.google.com/uc?export=view&id=1MubUcshJTHCqOPTRHixLhrYYLXX9vP_h" alt="drawing" width="260"/>

La majeure partie du travail préparatoire est faite. Nous avons construit le bloc d’encodage positionnel, le bloc MHA, le bloc feed-forward et le bloc add\&norm.

La seule partie restante est de passer les entrées à chaque bloc décodeur en appliquant le bloc MHA masqué (masked MHA) présent dans les blocs décodeurs.

**Tâche de code :** Implémentez un module FLAX qui réalise la structure suivante pour le bloc décodeur :

$$
\text{FFN} \big( \mathrm{Norm}(\mathrm{MHA}(\mathrm{Norm}(X))) \big)
$$

Autrement dit, coder un module FLAX qui applique dans cet ordre :

1. Normalisation sur l’entrée $X$
2. Attention multi-tête masquée (Masked MHA)
3. Addition et normalisation
4. Réseau feed-forward (FFN)
5. Addition et normalisation finale




In [None]:
#@title Implémentation du bloc décodeur

class DecoderBlock(nn.Module):
    """
    Bloc décodeur de transformateur.

    Args:
        num_heads: Le nombre de têtes d'attention dans le bloc d'attention multi-tête (MHA).
        d_m: La taille des embeddings de token.
        widening_factor: Le facteur par lequel la taille de la couche cachée est étendue dans le MLP.
    """

    num_heads: int
    d_m: int
    widening_factor: int = 4

    def setup(self):
        # Initialiser le bloc d'attention multi-tête (MHA)
        self.mha = MultiHeadAttention(self.num_heads, self.d_m)

        # Initialiser les blocs AddNorm pour les connexions résiduelles et la normalisation
        self.add_norm1 = AddNorm()  # Premier bloc AddNorm après MHA
        self.add_norm2 = AddNorm()  # Deuxième bloc AddNorm après le MLP

        # Initialiser le bloc FeedForward (MLP) qui traite les données après l'attention
        self.MLP = FeedForwardBlock(widening_factor=self.widening_factor)

    def __call__(self, X, mask=None, return_att_weight=True):
        """
        Passe avant à travers le DecoderBlock.

        Args:
            X: Lot de tokens d'entrée alimentés dans le décodeur, de forme [B, T_decoder, d_m]
            mask [optionnel, défaut=None]: Masque pour contrôler les positions que l'attention est autorisée à prendre en compte, de forme [T_decoder, T_decoder].
            return_att_weight [optionnel, défaut=True]: Si True, retourne les poids d'attention avec la sortie.

        Returns:
            Si return_att_weight est True, retourne un tuple (X, attention_weights_1).
            Sinon, retourne les représentations de token traitées X.
        """

        # Appliquer l'attention multi-tête (Multi-Head Attention) aux tokens d'entrée (X) avec un masquage optionnel
        attention, attention_weights_1 = self.mha(X, mask=mask, return_weights=True)

        # Appliquer le premier bloc AddNorm (ajoute l'entrée originale X et normalise)
        X = self.add_norm1(X, attention)

        # Passer le résultat à travers le bloc FeedForward (MLP) pour traiter davantage les données
        projection = self.MLP(X)

        # Appliquer le deuxième bloc AddNorm (ajoute l'entrée de l'étape précédente et normalise)
        X = self.add_norm2(X, projection)

        # Retourner la sortie finale X, et optionnellement les poids d'attention
        return (X, attention_weights_1) if return_att_weight else X

Ensuite, nous allons tout assembler, en ajoutant les encodages de position ainsi que l'empilement de plusieurs blocs de transformateurs et l'ajout de notre couche de prédiction.

In [None]:
class LLM(nn.Module):
    """
    Modèle de transformateur composé de plusieurs couches de blocs décodeurs.

    Args:
        num_heads: Nombre de têtes d'attention dans chaque bloc d'attention multi-tête (MHA).
        num_layers: Nombre de blocs décodeurs dans le modèle.
        d_m: Dimensionnalité des embeddings de token.
        vocab_size: Taille du vocabulaire (nombre de tokens uniques).
        widening_factor: Facteur pour lequel la taille de la couche cachée est étendue dans le MLP.
    """
    num_heads: int
    num_layers: int
    d_m: int
    vocab_size: int
    widening_factor: int = 4

    def setup(self):
        # Initialiser une liste de blocs décodeurs, un pour chaque couche du modèle
        self.blocks = [
            DecoderBlock(self.num_heads, self.d_m, self.widening_factor)
            for _ in range(self.num_layers)
        ]

        # Initialiser une couche d'embedding pour convertir les IDs de token en embeddings de token
        self.embedding = nn.Embed(num_embeddings=self.vocab_size, features=self.d_m)

        # Initialiser une couche dense pour prédire le prochain token de la séquence
        self.pred_layer = nn.Dense(self.vocab_size)

    def __call__(self, X, mask=None, return_att_weights=False):
        """
        Passe avant à travers le modèle LLM.

        Args:
            X: Lot d'IDs de token d'entrée, de forme [B, T_decoder] où B est la taille du lot et T_decoder est la longueur de la séquence.
            mask [optionnel, défaut=None]: Masque pour contrôler les positions sur lesquelles l'attention peut se concentrer, de forme [T_decoder, T_decoder].
            return_att_weights [optionnel, défaut=False]: Si True, retourne les poids d'attention.

        Returns:
            logits: Les probabilités prédites pour chaque token du vocabulaire.
            Si return_att_weights est True, retourne également les poids d'attention.
        """

        # Convertir les IDs de token en embeddings (forme [B, T_decoder, d_m])
        X = self.embedding(X)

        # Obtenir la longueur de la séquence de l'entrée
        sequence_len = X.shape[-2]

        # Générer des encodages de position et les ajouter aux embeddings de token
        positions = return_frequency_pe_matrix(sequence_len, self.d_m)
        X = X + positions

        # Initialiser une liste pour stocker les poids d'attention si nécessaire
        if return_att_weights:
            att_weights = []

        # Passer les embeddings à travers chaque bloc décodeur séquentiellement
        for block in self.blocks:
            out = block(X, mask, return_att_weights)
            if return_att_weights:
                # Si les poids d'attention sont retournés, décompresser la sortie
                X = out[0]
                att_weights.append(out[1])
            else:
                # Sinon, mettre à jour l'entrée pour le prochain bloc
                X = out

        # Appliquer une couche dense suivie d'un log softmax pour obtenir les logits (probabilités de token prédites)
        logits = nn.log_softmax(self.pred_layer(X))

        # Retourner les logits, et optionnellement, les poids d'attention
        return logits if not return_att_weights else (logits, jnp.array(att_weights).swapaxes(0, 1))

Si tout est correct, si nous exécutons le code ci-dessous, tout devrait s'exécuter sans aucun problème.

In [None]:
# Définir les dimensions du modèle et les formes des entrées
batch_size = 18
sequence_length = 32
embedding_dim = 16
num_decoder_layers = 8
vocab_size = 25670

# Initialiser le modèle de langage
llm = LLM(
    num_heads=1,
    num_layers=1,
    d_m=embedding_dim,
    vocab_size=vocab_size,
    widening_factor=4
)

# Créer un masque d'attention triangulaire inférieur pour un décodage causal
causal_mask = jnp.tril(np.ones((sequence_length, sequence_length)))

# Générer des IDs de token d'entrée aléatoires
rng_key = jax.random.PRNGKey(42)
input_token_ids = jax.random.randint(rng_key, [batch_size, sequence_length], 0, vocab_size)

# Initialiser les paramètres du modèle
model_params = llm.init(rng_key, input_token_ids, mask=causal_mask)

# Exécuter le modèle et extraire les logits et les poids d'attention du décodeur
logits, decoder_attention_weights = llm.apply(
    model_params,
    input_token_ids,
    mask=causal_mask,
    return_att_weights=True,
)

En tant que vérification finale de la santé mentale, nous pouvons confirmer que nos poids d'attention fonctionnent correctement.Comme le montre la figure ci-dessous, les poids d'attention du décodeur ne se concentrent que sur les jetons précédents, comme prévu.

In [None]:
fig, ax = plt.subplots(1, 1, figsize=(10, 5))
plt.suptitle("LLM attention weights")
sns.heatmap(decoder_attention_weights[0, 0, 0, ...], ax=ax, cmap="Blues")
fig.show()

### Entraînement de votre LLM


#### Objectif de formation [<Font Color = 'Green'> Intermédiaire </font>]


Une phrase n’est rien d’autre qu’une suite de mots. Un LLM vise à prédire le mot suivant en tenant compte du contexte actuel, c’est-à-dire des mots qui l’ont précédé.

Voici l’idée principale :

Pour calculer la probabilité qu’une phrase complète « mot1, mot2, ..., dernier mot » apparaisse dans un contexte donné $c$, on décompose la phrase en mots individuels et on considère la probabilité de chaque mot sachant les mots qui le précèdent. Ces probabilités individuelles sont ensuite multipliées entre elles :

$$
\text{Probabilité de la phrase} = \text{Probabilité de mot}_1 \times \text{Probabilité de mot}_2 \times \ldots \times \text{Probabilité du dernier mot}
$$

Cette méthode revient à construire un récit morceau par morceau en se basant sur ce qui a été raconté avant.

Mathématiquement, cela s’exprime par la vraisemblance (probabilité) d’une séquence de mots $y_1, y_2, \ldots, y_n$ dans un contexte donné $c$, calculée en multipliant les probabilités de chaque mot $y_t$ conditionnées aux mots précédents $(y_{<t})$ et au contexte $c$ :

$$
P(y_1, y_2, \ldots, y_n \mid c) = \prod_{t=1}^{n} P(y_t \mid y_{<t}, c)
$$

Ici, $y_{<t}$ désigne la séquence $y_1, y_2, \ldots, y_{t-1}$, tandis que $c$ représente le contexte.

C’est analogue à assembler un puzzle où la pièce suivante est placée en fonction de celles déjà posées.

---

Gardez à l’esprit que lors de l’entraînement d’un transformeur, on ne travaille pas avec des mots mais avec des tokens. Pendant le processus d’entraînement, les paramètres du modèle sont ajustés en calculant la perte d’entropie croisée entre le token prédit et le token correct, puis en effectuant la rétropropagation. La perte au temps $t$ est calculée ainsi :

$$
\text{Loss}_t = - \sum_{w \in V} y_t \log(\hat{y}_t)
$$

où $w \in V$ correspond à chaque mot $w$ dans le vocabulaire $V$.

Ici, $y_t$ est le token réel au temps $t$, et $\hat{y}_t$ est le token prédit par le modèle au même instant. La perte sur toute la phrase est ensuite calculée comme :

$$
\text{Loss}_{\text{phrase}} = \frac{1}{n} \sum_{t=1}^n \text{Loss}_t
$$

avec $n$ la longueur de la séquence.

Ce processus itératif affine progressivement les capacités prédictives du modèle.

---

**Tâche de code :** Implémentez la fonction de perte d’entropie croisée (cross-entropy loss) ci-dessous.


In [None]:
def sequence_loss_fn(logits, targets):
  '''
  Compute the cross-entropy loss between predicted token ID and true ID.

  Args:
    logits: An array of shape [batch_size, sequence_length, vocab_size]
    targets: The targets we are trying to predict

  Returns:
    loss: A scalar value representing the mean batch loss
  '''

  target_labels = jax.nn.one_hot(targets, VOCAB_SIZE)
  assert logits.shape == target_labels.shape

  mask = jnp.greater(targets, 0)

# Astuce : Calculez la perte d'entropie croisée en appliquant d'abord `jax.nn.log_softmax(logits)`
# pour obtenir les probabilités logarithmiques de chaque classe. Multipliez ensuite ces probabilités logarithmiques
# par `target_labels` pour vous concentrer sur la probabilité de la classe concernée. Additionnez ce résultat
# le long du dernier axe pour obtenir la perte pour chaque jeton. Enfin, appliquez le masque à la perte,
# additionnez les pertes masquées et normalisez par le nombre de jetons non remplis.
  loss = ...# FINISH ME

  return loss

In [None]:
# @title Exécutez-moi pour tester votre code
VOCAB_SIZE = 25670
targets = jnp.array([[0, 2, 0]])
key = jax.random.PRNGKey(42)
X = jax.random.normal(key, [1, 3, VOCAB_SIZE])
loss = sequence_loss_fn(X, targets)
real_loss = jnp.array(10.966118)

try:
  jnp.allclose(real_loss, loss)
  print("It seems correct. Look at the answer below to compare methods.")
except:
  print("Not returning the correct value")

In [None]:
# @title Réponse à la tâche de code (Essayez avant de regarder !)
def sequence_loss_fn(logits, targets):
    """Compute the sequence loss between predicted logits and target labels.
       (Calcule la perte de séquence entre les logits prédits et les étiquettes cibles.)
    """

    # Convertir les indices cibles en vecteurs one-hot.
    # Chaque étiquette cible est convertie en un vecteur one-hot de taille VOCAB_SIZE.
    target_labels = jax.nn.one_hot(targets, VOCAB_SIZE)

    # S'assurer que la forme des logits correspond à celle des cibles encodées en one-hot.
    # C'est important car nous devons calculer la perte sur des dimensions correspondantes.
    assert logits.shape == target_labels.shape

    # Créer un masque qui ignore les tokens de remplissage lors du calcul de la perte.
    # Le masque est Vrai (1) lorsque la valeur cible est supérieure à 0, et Faux (0) sinon.
    mask = jnp.greater(targets, 0)

    # Calculer la perte par entropie croisée pour chaque token.
    # L'entropie croisée est calculée comme la probabilité logarithmique négative de la classe correcte.
    # jax.nn.log_softmax(logits) nous donne les probabilités logarithmiques de chaque classe.
    # On multiplie par les target_labels pour sélectionner la probabilité logarithmique de la classe correcte.
    loss = -jnp.sum(target_labels * jax.nn.log_softmax(logits), axis=-1)

    # Appliquer le masque à la perte pour ignorer les positions de remplissage et sommer les pertes.
    # On normalise ensuite la perte totale par le nombre de tokens non-remplis.
    loss = jnp.sum(loss * mask) / jnp.sum(mask)

    return loss


#### Modèles d'entraînement [<font color = 'vert'> intermédiaire </font>]

Dans la section suivante, nous définissons tous les processus nécessaires pour former le modèle en utilisant l'objectif décrit ci-dessus.Une grande partie de cela est maintenant le travail requis pour faire une formation en utilisant le lin.

Ci-dessous, nous rassemblons l'ensemble de données et nous allons nous entraîner, qui est l'ensemble de données Shakespeare de Karpathy.Il n'est pas si important de comprendre ce code, donc soit exécuter la cellule pour charger les données, soit afficher le code si vous voulez le comprendre.


In [None]:
# @title Créer un jeu de données Shakespeare et un itérateur (optionnel, mais exécutez la cellule)

# Astuce pour éviter les erreurs lors du téléchargement de tinyshakespeare.
import locale
locale.getpreferredencoding = lambda: "UTF-8"

!wget https://raw.githubusercontent.com/karpathy/char-rnn/master/data/tinyshakespeare/input.txt -O input.txt

class WordBasedAsciiDatasetForLLM:
    """In-memory dataset of a single-file ASCII dataset for language-like model.
       (Jeu de données en mémoire d’un fichier ASCII unique pour un modèle de type langage.)
    """

    def __init__(self, path: str, batch_size: int, sequence_length: int):
        """Load a single-file ASCII dataset in memory.
           (Charger un jeu de données ASCII dans la mémoire.)
        """
        self._batch_size = batch_size

        with open(path, "r") as f:
            corpus = f.read()

        # Tokeniser en divisant le texte en mots
        words = corpus.split()
        self.vocab_size = len(set(words))  # Nombre de mots uniques

        # Créer une correspondance entre les mots et des identifiants uniques
        self.word_to_id = {word: i for i, word in enumerate(set(words))}

        # Stocker la correspondance inverse des identifiants vers les mots
        self.id_to_word = {i: word for word, i in self.word_to_id.items()}

        # Convertir les mots du corpus en leurs identifiants correspondants
        corpus = np.array([self.word_to_id[word] for word in words]).astype(np.int32)

        crop_len = sequence_length + 1
        num_batches, ragged = divmod(corpus.size, batch_size * crop_len)
        if ragged:
            corpus = corpus[:-ragged]
        corpus = corpus.reshape([-1, crop_len])

        if num_batches < 10:
            raise ValueError(
                f"Only {num_batches} batches; consider a shorter "
                "sequence or a smaller batch."
            )
            # Seulement {num_batches} lots; envisagez une séquence plus courte
            # ou une taille de lot plus petite.

        self._ds = WordBasedAsciiDatasetForLLM._infinite_shuffle(
            corpus, batch_size * 10
        )

    def __iter__(self):
        return self

    def __next__(self):
        """Yield next mini-batch.
           (Produire le mini-lot suivant.)
        """
        batch = [next(self._ds) for _ in range(self._batch_size)]
        batch = np.stack(batch)
        # Créer les paires observation/cible pour le modèle de langage.
        return dict(
            input=batch[:, :-1], target=batch[:, 1:]
        )

    def ids_to_words(self, ids):
        """Convert a sequence of word IDs to words.
           (Convertir une séquence d'identifiants de mots en mots.)
        """
        return [self.id_to_word[id] for id in ids]

    @staticmethod
    def _infinite_shuffle(iterable, buffer_size):
        """Infinitely repeat and shuffle data from iterable.
           (Répéter et mélanger indéfiniment les données provenant d'un itérable.)
        """
        ds = itertools.cycle(iterable)
        buf = [next(ds) for _ in range(buffer_size)]
        random.shuffle(buf)
        while True:
            item = next(ds)
            idx = random.randint(0, buffer_size - 1)  # Inclusif.
            result, buf[idx] = buf[idx], item
            yield result


Permet maintenant de voir comment nos données sont structurées pour la formation

In [None]:
# Échantillonner et visualiser les données
batch_size = 2
seq_length = 32
train_dataset = WordBasedAsciiDatasetForLLM("input.txt", batch_size, seq_length)

batch = next(train_dataset)

for obs, target in zip(batch["input"], batch["target"]):
    print("-" * 10, "Input", "-" * 11)
    print("TEXT:", ' '.join(train_dataset.ids_to_words(obs)))
    print("ASCII:", obs)
    print("-" * 10, "Target", "-" * 10)
    print("TEXT:", ' '.join(train_dataset.ids_to_words(target)))
    print("ASCII:", target)

print(f"\n Total vocabulary size: {train_dataset.vocab_size}")

VOCAB_SIZE = train_dataset.vocab_size

Ensuite, entraînons notre LLM et voyons comment elle fonctionne dans la production de texte shakespearien.Tout d'abord, nous définirons ce qui se passe pour chaque étape de formation.

In [None]:
import functools

@functools.partial(jax.jit, static_argnums=(3, 4))
def train_step(params, optimizer_state, batch, apply_fn, update_fn):
    """
    Effectue une seule étape d'entraînement.

    Args:
        params: Les paramètres actuels du modèle.
        optimizer_state: L'état actuel de l'optimiseur.
        batch: Un dictionnaire contenant les données d'entrée et les étiquettes cibles pour le lot.
        apply_fn: La fonction utilisée pour appliquer le modèle aux entrées.
        update_fn: La fonction utilisée pour mettre à jour les paramètres du modèle en fonction des gradients.

    Returns:
        Les paramètres mis à jour, l'état de l'optimiseur mis à jour, et la perte calculée pour le lot.
    """

    def loss_fn(params):
        # Obtenir la longueur de la séquence (T) à partir des données d'entrée.
        T = batch['input'].shape[1]

        # Appliquer le modèle aux données d'entrée, en utilisant un masque triangulaire inférieur pour imposer la causalité.
        # jnp.tril(np.ones((T, T))) crée une matrice triangulaire inférieure de uns.
        logits = apply_fn(params, batch['input'], jnp.tril(np.ones((T, T))))

        # Calculer la perte entre les logits prédits et les étiquettes cibles.
        loss = sequence_loss_fn(logits, batch['target'])

        return loss

    # Calculer la perte et ses gradients par rapport aux paramètres.
    loss, gradients = jax.value_and_grad(loss_fn)(params)

    # Mettre à jour l'état de l'optimiseur et calculer les mises à jour des paramètres en fonction des gradients.
    updates, optimizer_state = update_fn(gradients, optimizer_state)

    # Appliquer les mises à jour aux paramètres.
    params = optax.apply_updates(params, updates)

    # Retourner les paramètres mis à jour, l'état de l'optimiseur et la perte pour le lot.
    return params, optimizer_state, loss

Ensuite, nous initialisons notre optimiseur et notre modèle.N'hésitez pas à jouer avec les hyperparamètres pendant la pratique.

In [None]:
# Définir tous les hyperparamètres
d_model = 128            # Dimension des embeddings de token (d_m)
num_heads = 4            # Nombre de têtes d'attention dans l'attention multi-tête
num_layers = 1           # Nombre de blocs décodeurs dans le modèle
widening_factor = 2      # Facteur pour élargir la taille de la couche cachée dans le MLP
LR = 2e-3                # Taux d'apprentissage pour l'optimiseur
batch_size = 32          # Nombre d'échantillons par lot d'entraînement
seq_length = 64          # Longueur de chaque séquence d'entrée (nombre de tokens)

# Configurer les données d'entraînement
train_dataset = WordBasedAsciiDatasetForLLM("input.txt", batch_size, seq_length)
vocab_size = train_dataset.vocab_size  # Obtenir la taille du vocabulaire à partir de l'ensemble de données
batch = next(train_dataset)            # Obtenir le premier lot de données d'entrée

# Définir la clé du générateur de nombres aléatoires pour l'initialisation du modèle
rng = jax.random.PRNGKey(42)

# Initialiser le modèle LLM avec les hyperparamètres spécifiés
llm = LLM(num_heads=num_heads, num_layers=num_layers, d_m=d_model, vocab_size=vocab_size, widening_factor=widening_factor)

# Créer un masque causal pour s'assurer que le modèle ne porte attention qu'aux tokens précédents
mask = jnp.tril(np.ones((batch['input'].shape[1], batch['input'].shape[1])))

# Initialiser les paramètres du modèle en utilisant le premier lot de données d'entrée et le masque
params = llm.init(rng, batch['input'], mask)

# Configurer l'optimiseur en utilisant l'algorithme d'optimisation Adam avec le taux d'apprentissage spécifié
optimizer = optax.adam(LR, b1=0.9, b2=0.99)
optimizer_state = optimizer.init(params)  # Initialiser l'état de l'optimiseur avec les paramètres du modèle

Maintenant, nous nous entraînons!Cela prendra quelques minutes .. Pendant qu'il s'entraîne, avez-vous encore salué votre voisin?

In [None]:
plotlosses = PlotLosses()

MAX_STEPS = 3500
LOG_EVERY = 32
losses = []
VOCAB_SIZE = 25670

# Boucle d'entraînement
for step in range(MAX_STEPS):
    batch = next(train_dataset)
    params, optimizer_state, loss = train_step(
        params, optimizer_state, batch, llm.apply, optimizer.update)
    losses.append(loss)
    if step % LOG_EVERY == 0:
        loss_ = jnp.array(losses).mean()
        plotlosses.update(
            {
                "loss": loss_,
            }
        )
        plotlosses.send()
        losses = []

#### Inspectant le LLM Entrainé [<font color = 'orange'> débutant </font>]


**Rappel :** n’oubliez pas d’exécuter tout le code présenté jusqu’à présent dans cette section avant de lancer les cellules ci-dessous !

Générons maintenant du texte et voyons les performances de notre modèle. NE PAS ARRÊTER LA CELLULE UNE FOIS QU’ELLE EST EN COURS D’EXÉCUTION, CELA POURRAIT FAIRE PLANTER LA SESSION.


In [None]:
import functools

@functools.partial(jax.jit, static_argnums=(2, ))
def generate_prediction(params, input, apply_fn):
  logits = apply_fn(params, input)
  argmax_out = jnp.argmax(logits, axis=-1)
  return argmax_out[0][-1].astype(int)

def generate_random_shakespeare(llm, params, id_2_word, word_2_id):
    '''
    Obtenir la sortie du modèle
    '''

    prompt = "Love"
    print(prompt, end="")
    tokens = prompt.split()

    # prédire et ajouter
    for i in range(15):
      input = jnp.array([[word_2_id[t] for t in tokens]]).astype(int)
      prediction = generate_prediction(params, input, llm.apply)
      prediction = id_2_word[int(prediction)]
      tokens.append(prediction)
      print(" "+prediction, end="")

    return " ".join(tokens)

id_2_word = train_dataset.id_to_word
word_2_id = train_dataset.word_to_id

generated_shakespeare = generate_random_shakespeare(llm, params, id_2_word, word_2_id)

Enfin, nous avons implémenté tout ce qui précède en sélectionnant l’ID du token avec la probabilité maximale d’être correct. C’est ce qu’on appelle le décodage glouton (greedy decoding), car on ne prend que le token le plus probable. Cela a bien fonctionné dans ce cas, mais dans certaines situations, cette approche peut entraîner une dégradation des performances, notamment lorsqu’on cherche à générer un texte réaliste.

D’autres méthodes existent pour l’échantillonnage depuis le décodeur, parmi lesquelles l’algorithme bien connu appelé recherche par faisceau (beam search). Nous fournissons ci-dessous des ressources pour ceux qui souhaitent en apprendre davantage.

[Décodage glouton (Greedy Decoding)](https://www.youtube.com/watch?v=DW5C3eqAFQM&list=PLmZlBIcArwhPHmHzyM_cZJQ8_v5paQJTV&index=4)

[Recherche par faisceau (Beam Search)](https://www.youtube.com/watch?v=uG3xoYNo3HM&list=PLmZlBIcArwhPHmHzyM_cZJQ8_v5paQJTV&index=5)


## Matière à réflexion : Quel est le coût lorsque vous discutez avec un LLM dans votre langue ?

Avant de clore ce chapitre sur les Transformers, nous souhaitons vous inviter à réfléchir à ceci : quel est le coût lorsque vous échangez avec un LLM dans votre langue ?

Le coût d’interaction avec un modèle de langage dépend du nombre de tokens dans votre message. En effet, les LLM facturent à la token, pas au mot, à la phrase ou au caractère.

Par exemple :

* **GPT-4.0-turbo** (en date de juin 2025) [coûte](https://openai.com/api/pricing/) **2 \$ pour 1 million de tokens** en entrée.
* **Gemma 2.5 Pro** (via l’API Gemini, juin 2025) [coûte](https://ai.google.dev/gemini-api/docs/pricing) **1,25 \$ pour 1 million de tokens**.

Comme chaque modèle utilise une méthode de tokenisation différente, ils décomposent les langues différemment. Cela peut entraîner des coûts plus élevés pour certaines langues, même lorsque la phrase signifie exactement la même chose.

### Calculons le coût des tokens

Si le coût est de **2 \$ pour 1 million de tokens**, voici comment le coût évolue :

$$
\text{Coût} = \text{Nombre de tokens} \times \left(\frac{2}{1{,}000{,}000}\right)
$$

#### 💰 Estimations exemples :

| Nombre de tokens | Calcul                                      | Coût (USD)     |
| ---------------- | ------------------------------------------- | -------------- |
| 10 tokens        | \$10 \times \frac{2}{1{,}000{,}000}\$       | **0,00002 \$** |
| 100 tokens       | \$100 \times \frac{2}{1{,}000{,}000}\$      | **0,0002 \$**  |
| 1 000 tokens     | \$1000 \times \frac{2}{1{,}000{,}000}\$     | **0,002 \$**   |
| 10 000 tokens    | \$10{,}000 \times \frac{2}{1{,}000{,}000}\$ | **0,02 \$**    |

Imaginez maintenant que vous générez ou traitez des millions de requêtes dans une langue locale qui se tokenise de manière inefficace. Cela pourrait signifier dépenser plus pour dire la même chose, simplement parce que votre langue ne s’adapte pas bien au tokenizer utilisé par le modèle de langage.

<figure>
  <img src="https://drive.google.com/uc?export=view&id=1m0mCSEEuBxNzb8pJfMANqsvikRorBubE" alt="ChatGPT Pricing" width="800"/>
  <figcaption><em></em></figcaption>
</figure>


#### 💸 Combien coûte ma LLM ? — Tokenisation en code

**Configuration :**
Nous allons tester comment différents modèles tokenisent la même phrase dans plusieurs langues, en utilisant :

* **GPT-2** (tokenizer général pour l’anglais)
* **Gemma** (tokenizer multilingue)
* Un **tokenizer spécifique à une langue**

Commençons par **GPT-2**.

> Pour tous les modèles comparés ci-dessous, nous utiliserons le coût du token GPT-4.1 comme base de comparaison.


In [None]:
def token_cost(tokens: list, model_name: str):
    """
    Fonction qui prend une liste de tokens et retourne le coût du token pour le modèle donné.
    """
    # coût par token pour Gemma 2.5 Pro https://ai.google.dev/gemini-api/docs/pricing
    # pour l'instant, supposer que tous les tokenizers coûtent la même chose
    cost_per_token = 2/1000000  # coût par token pour GPT4.1

    return len(tokens) * cost_per_token  # Gemma3 utilise un coût fixe par token

In [None]:
model_name = "gpt2"  #@param ["gpt2", "gpt2-medium", "EleutherAI/gpt-neo-125M"]
tokenizer = get_tokenizer(model_name)  # Tokenizer par défaut, peut être changé au besoin
sentence = "This is a sample sentence for tokenization." #@param {type:"string"}
tokens, token_ids = tokenize(sentence, model_name)
print("Phrase :", sentence)
print("Tokens :",  tokens)
print("IDs des tokens :", token_ids)
print("Nombre de tokens :", len(tokens))
print("Coût du token :", token_cost(tokens, model_name))

Next,
- Essayez une même phrase dans une langue différente, par exemple Swahili ou Yoruba
- Observer et enregistrer le nombre de jetons


In [None]:
sentences = {"English": "Welcome to the Indaba LLM tutorial happening in Kigali. Get ready to explore the world of LLMs.",
             "German": "Willkommen zum Indaba LLM Tutorial in Kigali. Macht euch bereit die Welt von LLMs zu erkunden.",
             "French": "Bienvenue au tutoriel Indaba sur les LLM qui se déroule à Kigali. Préparez-vous à explorer le monde des LLM.",
             "Lithuania": "Sveiki atvykę į Indaba LLM (Didžiųjų Kalbinių Modelių) mokymus vykstančius Kigalyje. Pasiruoškite tyrinėti LLM pasaulį.",
             "Yoruba": "Kaabọ si ikẹkọ Indaba LLM ti n ṣẹlẹ ni Kigali. Ṣetan lati ṣawari agbaye ti LLMs.",
             "Swahili": "Karibu kwenye mafunzo ya Indaba LLM yanayofanyika Kigali. Jitayarishe kuchunguza ulimwengu wa LLM.",
             "Arabic":  ".مرحبًا بكم في ورشة عمل  حول النماذج اللغوية الكبيرة التي تُقام في كيغالي. استعدوا لاستكشاف عالم النماذج اللغوية الكبيرة",  # The arabic sentence is not a 1-1 translation
             "Kinyarwanda": "Murakaza neza mu isomo rya Indaba LLM riri kubera i Kigali. Mwitegure kuvumbura isi ya za LLM."
            }

In [None]:
model_name = "gpt2"   #@param ["gpt2", "gpt2-medium", "EleutherAI/gpt-neo-125M"]
for language, sentence in sentences.items():
    # Pour chaque langue, tokeniser la phrase et afficher les résultats
    tokens, token_ids = tokenize(sentence, model_name)
    print(f"Langue : {language}, Modèle : {model_name}")
    print("-" * 50)  # Séparateur pour plus de clarté
    print("Phrase :", sentence)
    print("Tokens :", tokens)
    print("IDs des tokens :", token_ids)
    print("Nombre de tokens :", len(tokens))
    print("Coût du token (mis à l'échelle par 1000000) :", f'${token_cost(tokens, model_name) * 1000000:0.1f}')
    print("-" * 50)  # Séparateur pour plus de clarté

Avez-vous remarqué comment GPT-2 segmente le texte arabe caractère par caractère, souvent octet par octet, au lieu de saisir des unités significatives ? C’est parce que GPT-2 a été principalement entraîné sur des données en anglais et n’a pas été optimisé pour gérer l’arabe. Bien qu’il soit possible de tokenizer l’arabe avec le tokenizer de GPT-2, cela conduit généralement à un nombre de tokens bien plus élevé comparé au même contenu en anglais — ce qui implique également un coût plus élevé.


Essayons le tokenizer [Gemma 3](https://developers.googleblog.com/en/introducing-gemma3/#:~:text=Gemma%203%20uses%20a%20new,TPUs%20using%20the%20JAX%20Framework.). Il s’agit d’un nouveau tokenizer multilingue conçu pour prendre en charge plus de 140 langues.

> Nous utiliserons le coût du token GPT-4.1 comme base de comparaison.


In [None]:
model_name = "gemma3"
for language, sentence in sentences.items():
    # Pour chaque langue, tokeniser la phrase et afficher les résultats
    tokens, token_ids = tokenize(sentence, model_name)
    print(f"Langue : {language}, Modèle : {model_name}")
    print("-" * 50)  # Séparateur pour plus de clarté
    print("Phrase :", sentence)
    print("Tokens :", tokens)
    print("IDs des tokens :", token_ids)
    print("Nombre de tokens :", len(tokens))
    print("Coût du token (mis à l'échelle par 1000000) :", f'${token_cost(tokens, model_name) * 1000000:0.1f}')
    print("-" * 50)  # Séparateur pour plus de clarté

Qu’en est-il de l’utilisation d’un tokenizer spécifique à une langue ? Par exemple, essayez `asafaya/bert-base-arabic` sur un texte en arabe — il est conçu pour gérer bien mieux la structure et les nuances de la langue que les tokenizers généralistes. Remarquez comment le nombre de tokens — et donc le coût — diminue considérablement lorsque vous utilisez un tokenizer spécifiquement adapté à l’arabe ?

> Nous utiliserons le coût du token GPT-4.1 comme base de comparaison.


In [None]:
model_name = "asafaya/bert-base-arabic"
language = "Arabic"
sentence = sentences[language]  # Obtenir la phrase en arabe du dictionnaire
tokens, token_ids = tokenize(sentence, model_name)
clear_output()
print(f"Langue : {language}, Modèle : {model_name}")
print("-" * 50)  # Séparateur pour plus de clarté
print("Phrase :", sentence)
print("Tokens :", tokens)
print("IDs des tokens :", token_ids)
print("Nombre de tokens :", len(tokens))
print("Coût du token (mis à l'échelle par 1000000) :", f'${token_cost(tokens, model_name) * 1000000:0.1f}')
print("-" * 50)  # Séparateur pour plus de clarté


model_name = "gemma3"
language = "Arabic"
sentence = sentences[language]  # Obtenir la phrase en arabe du dictionnaire
tokens, token_ids = tokenize(sentence, model_name)
print(f"Langue : {language}, Modèle : {model_name}")
print("-" * 50)  # Séparateur pour plus de clarté
print("Phrase :", sentence)
print("Tokens :", tokens)
print("IDs des tokens :", token_ids)
print("Nombre de tokens :", len(tokens))
print("Coût du token (mis à l'échelle par 1000000) :", f'${token_cost(tokens, model_name) * 1000000:0.1f}')
print("-" * 50)  # Séparateur pour plus de clarté


model_name = "gpt2"
language = "Arabic"
sentence = sentences[language]  # Obtenir la phrase en arabe du dictionnaire
tokens, token_ids = tokenize(sentence, model_name)
print(f"Langue : {language}, Modèle : {model_name}")
print("-" * 50)  # Séparateur pour plus de clarté
print("Phrase :", sentence)
print("Tokens :", tokens)
print("IDs des tokens :", token_ids)
print("Nombre de tokens :", len(tokens))
print("Coût du token (mis à l'échelle par 1000000) :", f'${token_cost(tokens, model_name) * 1000000:0.1f}')
print("-" * 50)  # Séparateur pour plus de clarté

In [None]:
# Définir les modèles que vous voulez comparer
models = ["asafaya/bert-base-arabic", "gemma3", "gpt2"]
costs = []
language = "Arabic"  # Langue à utiliser pour la comparaison des coûts
# Calculer le coût du token pour chaque modèle en utilisant le dictionnaire des phrases
for model in models:
    total_cost = 0
    tokens, _ = tokenize(sentences[language], model)
    total_cost = token_cost(tokens, model)
    costs.append(total_cost * 1000000)  # Mettre à l'échelle par 1 million pour l'affichage

# Créer le graphique à barres
plt.figure(figsize=(5, 4))
plt.bar(models, costs, color='k')
plt.xlabel('Modèle')
plt.ylabel('Coût mis à l\'échelle (USD)')
plt.title(f'Comparaison des coûts des modèles pour la langue {language}')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

#### 🧵 Points clés

* **Soyez conscient de la manière dont les LLM représentent votre langue**, surtout si vous utilisez des API commerciales. La façon dont votre texte est tokenisé impacte directement le coût.
* Si vous entraînez votre propre LLM, **portez une attention particulière à la tokenisation**. Vous pourriez vouloir **adapter le tokenizer à votre langue** pour réduire le nombre de tokens et rendre la représentation plus compacte et efficace.
* Des travaux récents de **Cohere** explorent la création d’un [**tokenizer universel**](https://arxiv.org/pdf/2506.10766) qui fonctionne bien pour plusieurs langues. Ce type de recherche cherche à niveler les inégalités.
* À consulter également :

  * 📄 *[Do All Languages Cost the Same? Tokenization in the Era of Commercial Language Models](https://aclanthology.org/2023.emnlp-main.614.pdf)*
  * 📄 *[Language Model Tokenizers Introduce Unfairness Between Languages](https://arxiv.org/pdf/2305.154255)*

Ces études ont montré dès le départ que les tokenizers introduisent une **injustice structurelle**, en particulier pour les langues peu dotées en ressources. Pour cette raison, plusieurs fournisseurs commerciaux de LLM ont depuis commencé à entraîner des **tokenizers plus représentatifs** afin de réduire les disparités de coût entre langues.

En résumé : **La tokenisation n’est pas qu’un détail technique, c’est une question d’accès linguistique.**


Voici la traduction en français de ta conclusion :

---

# **Conclusion**

**Résumé :**

Vous avez maintenant acquis les bases essentielles du fonctionnement d’un Large Language Model (LLM), depuis les mécanismes d’attention jusqu’à l’entraînement de votre propre modèle ! Ces outils puissants ont le potentiel de transformer de nombreuses tâches. Cependant, comme pour tout modèle de deep learning, leur magie réside dans la capacité à les appliquer aux bons problèmes avec les bonnes données.

Prêt·e à passer au niveau supérieur ? Plongez-vous dans le fine-tuning de vos propres LLMs pour libérer encore plus de potentiel ! Je recommande vivement d’explorer le practical de l’année dernière sur les méthodes de fine-tuning efficaces en paramètres pour une vue complète des techniques avancées. Le voyage ne s’arrête pas ici — il y a tellement plus à découvrir !

Le monde des LLMs est à votre portée — lancez-vous et créez quelque chose d’incroyable ! 🌟🚀

---

**Prochaines étapes :**
[**Fine-tuning efficace en paramètres des grands modèles de langage**](https://colab.research.google.com/drive/1_QGpdDOlKSiEyV2E1NsMQBhSqspFOs64?usp=sharing)

---

**Références :** Pour plus de ressources, consultez les liens référencés dans les différentes sections de ce colab.

* [Article "Attention is all you need"](https://arxiv.org/abs/1706.03762)
* [Qu’est-ce que les modèles Transformer et comment fonctionnent-ils ?](https://www.youtube.com/watch?v=qaWMOYf4ri8)
* [Clés, requêtes, et valeurs : la mécanique céleste de l’attention](https://www.youtube.com/watch?v=RFdb2rKAqFw)
* [Vidéos supplémentaires sur les Transformers](https://www.youtube.com/playlist?list=PLmZlBIcArwhOPR2s-FIR7WoqNaBML233s)
* [LLMs pour tous DLI2023](https://colab.research.google.com/github/deep-learning-indaba/indaba-pracs-2023/blob/main/practicals/large_language_models.ipynb)
* [Fondations des LLM DLI2024](https://github.com/deep-learning-indaba/indaba-pracs-2024/blob/main/practicals/Foundations_of_LLMs/foundations_of_llms_practical.ipynb)

Pour découvrir d’autres practicals du Deep Learning Indaba, rendez-vous [ici](https://github.com/deep-learning-indaba/indaba-pracs-2025).

---


## Avis

Merci de remplir ce formulaire, c’est une partie très importante des travaux pratiques. Vos retours nous aideront à **améliorer les sessions et compteront également pour le prix à la fin des sessions!**

In [None]:
# @title Générer un formulaire de commentaires. (Exécuter la cellule)
from IPython.display import HTML

HTML(
    """
<iframe
	src="https://forms.gle/AJr8t3mzXV2WRgHy6",
  width="80%"
	height="1200px" >
	Loading...
</iframe>
"""
)

<img src="https://baobab.deeplearningindaba.com/static/media/indaba-logo-dark.d5a6196d.png" width="50%" />