# **TP LLM : Large Language Models**

## **Introduction**

Les **LLMs (Large Language Models)** ont r√©volutionn√© le domaine de l'Intelligence Artificielle en permettant de r√©aliser des t√¢ches jusqu'ici consid√©r√©es complexes : chatbots, traduction automatique, r√©sum√© de textes, g√©n√©ration de code...

D√©mocratis√©s par **OpenAI** en novembre 2022 avec **ChatGPT**, les LLMs sont rapidement devenus des enjeux strat√©giques et √©conomiques pour les entreprises. Aujourd'hui, rares sont les domaines qui ont √©chapp√© √† leur influence.

IA g√©n√©rative, ChatGPT, LLM... le lexique associ√© √† ces technologies est dense et opaque. Le tableau suivant vise √† clarifier ces concepts en les comparant aux composants d'un v√©hicule, afin de mieux comprendre leur r√¥le et leur fonctionnement au sein d'une application d'IA g√©n√©rative.

**Composants d'une application d'IA g√©n√©rative :**

| Composant | Analogie v√©hicule | R√¥le | Exemples |
|--|--|--|--|
| LLM | Moteur | Le c≈ìur du syst√®me, c‚Äôest ce qui fait tourner l'application | GPT-4o / Mistral Large / Claude 3.7 Sonnet / DeepSeek R1 |
| Interface utilisateur (UI) | Carrosserie | Ce que l‚Äôutilisateur voit et utilise pour interagir avec le LLM. | ChatGPT / Le Chat / Perplexity |
| Outils | Options | Permettent d‚Äôenrichir les capacit√©s de base | Recherche web / Ex√©cution de code / Analyse de documents |

L'objectif de ce TP est d'explorer et de comprendre le fonctionnement des moteurs d'applications d'IA g√©n√©rative, les **LLMs**, afin de mieux appr√©hender leurs enjeux et leurs limites.

**Plan du TP :**
1. Choix et chargement du LLM
2. Exploration du fonctionnement du LLM
3. Comment transformer un LLM en un assistant ?




## **0. Installations, imports et d√©finition de fonctions**

### Imports et param√®tres

In [None]:
import os
import torch
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
from sklearn.decomposition import PCA
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, TextStreamer, logging



# Set device and corresponding data type
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
DTYPE = torch.float16 if DEVICE=="cuda" else torch.float32

# Disable torch gradient tracking
torch.set_grad_enabled(False)

# Hide warnings
os.environ["TRANSFORMERS_VERBOSITY"] = "error"
os.environ["TRANSFORMERS_NO_ADVISORY_WARNINGS"] = "1"
logging.set_verbosity_error()

### Cl√©s d'API

In [None]:
# Set Hugging Face token
os.environ["HF_TOKEN"] = "" # ask for your token !

### D√©finition des fonctions

In [None]:
def plot_token_embeddings(token_ids: list[int]) -> None:
    """
    Plots 2D representations of token embeddings for a given list of token IDs.

    Args:
        model_name (str): Name of the Hugging Face model to load.
        token_ids (list): List of token IDs for which embeddings are extracted.
    """
    # Extract embeddings
    with torch.no_grad():
        embeddings = model.get_input_embeddings()(torch.tensor(token_ids).to(DEVICE))

    # Reduce dimensions to 2D using PCA
    pca = PCA(n_components=2)
    embeddings_2d = pca.fit_transform(embeddings.cpu().detach().float().numpy())

    # Plot the embeddings with vectors
    plt.figure()
    plt.axhline(0, color='gray', linestyle='--', linewidth=0.5)  # Add horizontal line at y=0
    plt.axvline(0, color='gray', linestyle='--', linewidth=0.5)  # Add vertical line at x=0

    for i, token_id in enumerate(token_ids):
        x, y = embeddings_2d[i]
        plt.quiver(0, 0, x, y,
                  angles='xy', scale_units='xy', scale=1,
                  color='blue', alpha=0.5)
        plt.scatter(x, y, color='red', zorder=3)
        plt.text(x, y, tokenizer.decode([token_id]),
                fontsize=12, ha='left', va='bottom')

    plt.title(f"2D Token Embeddings for {model_name}")
    plt.xlabel("PCA Dimension 1")
    plt.ylabel("PCA Dimension 2")
    plt.grid()
    plt.show()

## **1. Choix et chargement du LLM**



En pratique, un LLM se compose de deux fichiers :
- Un fichier de code permettant d'ex√©cuter le mod√®le, compos√©s de quelques centaines de lignes (~1 Mo)
- Un fichier contenant les param√®tres (poids) du mod√®le. Les plus petits mod√®les sont compos√©s de quelques milliards de param√®tres (1-10 Go) et les plus grands peuvent en poss√©der plusieurs centaines de milliards (+1 To)

Voici, pour quelques mod√®les populaires, le nombre de param√®tres ainsi que la taille du fichier associ√© :

| **LLM**               | **Nombre de param√®tres** | **Taille du fichier**  |
|--------------------------|--------------------------|------------------------|
| Mistral-7B               | 7 milliards              | 14 Go                  |
| Meta-Llama-3-70B         | 70 milliards             | 140 Go                 |
| GPT-3.5 (ChatGPT 2022)   | 175 milliards            | 350 Go                 |
| DeepSeek-R1              | 685 milliards            | 1370 Go                |

Certaines entreprises publient leurs LLMs en open-source (Meta, Mistral, DeepSeek...), ce qui permet de les t√©l√©charger et de les ex√©cuter sur un PC pour les plus petits ou un serveur pour les plus gros. Les autres (OpenAI, Google, Claude...) ne donnent pas acc√®s √† leurs mod√®les rendant toute utilisation *on-premise* impossible.

### **1.1 D√©couverte d'Hugging Face ü§ó**

[Hugging Face ü§ó](https://huggingface.co/) est une plate-forme permettant le partage de mod√®les, de code et de donn√©es dans le domaine du **NLP (Natural Language Processing)**, et plus marginalement dans d'autres domaines de l'intelligence artificielle (vision par ordinateur, apprentissage par renforcement). Le site permet √† n'importe qui (du simple utilisateur aux grandes entreprises comme **Meta** ou **Mistral**) de partager son travail pour qu'il soit utilisable par la communaut√©.

Pour explorer les mod√®les disponibles, rendez-vous dans l'onglet [models](https://huggingface.co/models).

Pour ce TP, nous allons utiliser un "petit" LLM : [Llama-3.2-1B](https://huggingface.co/meta-llama/Llama-3.2-1B), d√©velopp√© par **Meta**.

Il est compos√© de 1,24 milliards de param√®tres et p√®se 2,47 Go.



### **1.2 Chargement du mod√®le et de son tokenizer**

Nous utilisons la librairie python [transformers](https://github.com/huggingface/transformers) d√©velopp√©e par Hugging Face qui permet de charger et d'utiliser facilement les mod√®les disponibles sur la plateforme.

In [None]:
model_name = "meta-llama/Llama-3.2-1B"

In [None]:
tokenizer = AutoTokenizer.from_pretrained(model_name)

In [None]:
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=DTYPE,
    device_map=DEVICE,
    trust_remote_code=True,
)

In [None]:
# Put model into inference mode
model.eval()

## **2. Exploration du fonctionnement du LLM**

Les LLMs font partie d'une cat√©gorie d'algorithmes nomm√©s **mod√®les de langage** et dont l'objectif fondamental et de pr√©dire le mot suivant √† partir d'une s√©quence de mots.

Dans cette section, nous allons explorer comment un LLM fonctionne pour pr√©dire le mot suivant. Dans la section suivante, nous expliquerons comment, √† partir d'un mod√®le qui pr√©dit le mot suivant, il est possible de simuler un assistant type ChatGPT.

Le fonctionnement du LLM peut √™tre divis√© en 3 √©tapes :
- tokenizer : d√©coupe le texte brut en une s√©quence de token lisible par le LLM
- embedding : transforme chaque token en un vecteur num√©rique qui capture la s√©mantique du token
- r√©seau de neurones : g√©n√®re le token suivant



### **2.1 Tokenizer**

Le tokenizer est un algorithme s√©par√© du LLM. Chaque LLM poss√®de son propose tokenizer. Son objectif est de transformer le texte brut en une s√©rie de tokens que le LLM peut comprendre et traiter. Le tokenizer poss√®de un nombre fini de tokens que l'on appelle le **vocabulaire** du LLM.

In [None]:
# Show LLM vocabulary size
print(f"Vocabulary size: {tokenizer.vocab_size}")

In [None]:
# Define a prompt
prompt = "RTE est le gestionnaire du r√©seau de transport d'√©lectricit√©."

# Try tokenizer functions
tokenized = tokenizer.tokenize(prompt)
encoded = tokenizer.encode(prompt, add_special_tokens=False)

# Check differences between each function
print(f"Tokenized : {[tokenizer.decode(token) for token in encoded]}")
print(f"Encoded : {encoded}")

---

**Question**

Rendez-vous sur [tiktokenizer/Meta-Llama-3-8B](https://tiktokenizer.vercel.app/?model=meta-llama%2FMeta-Llama-3-8B) pour essayer le tokenizer de mani√®re plus interactive.

Essayez √©galement le tokenizer d'un LLM √† l'√©tat de l'art, par exemple celui du mod√®le `GPT-4o` d'OpenAI :  [tiktokenizer/o200k_base](https://tiktokenizer.vercel.app/?model=o200k_base).

Que remarquez-vous ? Quelles cons√©quences ?

---

### **2.2 Embedding**

Les ordinateurs ne pouvant effectuer des op√©rations que sur des nombres, il est n√©cessaire de convertir chaque token en chiffres. Dans les LLMs, cette conversion se fait √† l'aide des **embeddings**, des vecteurs num√©riques qui repr√©sentent la s√©mantique du token : deux tokens qui ont un sens proche sont repr√©sent√©s par des vecteurs num√©riques similiares.

La premi√®re couche du LLM est une simple table de correspondance qui associe √† chaque token un embedding.

In [None]:
# Print LLM embedding layer shape
model.get_input_embeddings()

In [None]:
# Define a list of waords
word_list = "cat dog green blue house room"

# Plot tokens embeddings in a reduce 2D space
prompt_tokens_ids = list(set(tokenizer.encode(word_list, add_special_tokens=False)))
plot_token_embeddings(prompt_tokens_ids)

---

**Question**

Ajoutez des mots √† la liste et observez le comportement.

Quelles limites anticipez-vous avec cette mani√®re de repr√©senter les mots ? Quel va √™tre le r√¥le du r√©seau de neurones qui vient apr√®s ?

---

### **2.3 R√©seau de neurones**

L'essentiel des param√®tres du LLM sont contenus dans le r√©seau de neurones.

Ce r√©seau de neurone peut-√™tre vu comme un simple classifieur. A partir d'une liste de tokens en entr√©e, il retourne en sortie la probabilit√© pour chaque token de son vocabulaire d'√™tre le suivant.



In [None]:
# Define a prompt and temperature
prompt = "The capital of Australia is"

# Tokenize prompt
inputs = tokenizer.encode(prompt, return_tensors="pt").to(DEVICE)

# Make a forward pass
output = model.forward(input_ids=inputs, use_cache=False)['logits'].squeeze()[-1]

# Show results shape
print(f"Output: {output}")
print(f"Output length: {len(output)}")

In [None]:
# Define temperature
temperature = 0.5

# Transform model output to probability distribution using softmax
output_softmax = torch.nn.functional.softmax(output/temperature, dim=0)

# Filter top_k tokens
top_k = 10
top_k_indices = torch.topk(output_softmax, top_k).indices
top_k_probabilities = output_softmax[top_k_indices].cpu().detach().float().numpy()
top_k_tokens = [tokenizer.decode([token_id]) for token_id in top_k_indices]

# Barplot
px.bar(x=top_k_tokens, y=top_k_probabilities, labels={"x": "token", "y": "probability"}, title=prompt+"...")

---

**Question**

Un param√®tre important est le param√®tre `temperature` lors de l'op√©ration softmax.

Modifiez ce param√®tre entre 0 et 1 et observez la distribution de sortie.

Quelle influence ce param√®tre aura-t-il sur le texte g√©n√©r√© par le LLM ?

---

### **2.4 Pipeline de g√©n√©ration**

Pour g√©n√©rer du texte, il suffit de r√©p√©ter le processus suivant :
- faire une pr√©diction avec le mod√®le
- √©chantillonner la sortie pour s√©lectionner un token
- ajouter ce token √† la s√©quence de tokens d'entr√©e

In [None]:
# Streamer to print token on the fly
streamer = TextStreamer(tokenizer, skip_special_tokens=True)

# Generation pipeline to chain model predictions
generator = pipeline("text-generation", model=model, tokenizer=tokenizer, streamer=streamer)

In [None]:
# Define prompt
prompt = "The capital of Australia is"

# Generate text continuation
prediction = generator(
    prompt,
    do_sample=True,
    temperature=0.5,
    max_new_tokens=30
)

---

**Question**

Modifiez le param√®tre temp√©rature et observez le texte g√©n√©r√©.

Dans quels cas utiliser une temp√©rature √©lev√©e ? Dans quels cas utiliser une temp√©rature faible ?

---

### **2.5 Limites de taille m√©moire**

La taille du prompt impact directement la quantit√© de m√©moire n√©cessaire pour g√©n√©rer des tokens.

*La cellule suivante ne fonctionne que si le LLM est charg√© sur GPU.*

In [None]:
def measure_memory(token_count: int) -> int:
    """
    Returns total GPU memory used for processing `token_count` tokens.
    """
    torch.cuda.empty_cache()
    torch.cuda.reset_peak_memory_stats()

    dummy_token_id = tokenizer.encode("the")[0]
    input_ids = torch.tensor([[dummy_token_id] * token_count], device="cuda")

    with torch.no_grad():
        _ = model(input_ids)

    return torch.cuda.max_memory_allocated() / 1024**2

# Set list of tokens to process
token_counts = [2**i for i in range(0, 14)]
baseline = measure_memory(1)

# Compute overheads
overheads = []
for n in token_counts:
    mem = measure_memory(n)
    overheads.append(mem - baseline)
    print(f"{n} tokens ‚Üí overhead: {mem - baseline:.2f} MB")

# Plot graph
plt.plot(token_counts, overheads, marker="o")
plt.title("Memory Overhead vs Token Count")
plt.xlabel("Number of Tokens")
plt.ylabel("Overhead Memory (MB)")
plt.grid(True)
plt.show()

## **3. Comment transformer un LLM en un assistant ?**

Un LLM n'est qu'un moteur √† g√©n√©rer du texte. Ce n'est pas encore un assistant qui r√©pond √† nos questions ! Dans l'exemple suivant, observez comme le LLM continue notre s√©quence de tokens par un texte probable (un message sur un blog) sans r√©pondre √† la question.

In [None]:
# Define prompt
prompt = "How to remove an item from a list in python?"

# Generate text continuation
prediction = generator(
    prompt,
    do_sample=False,
    temperature=None,
    top_p=None,
    max_new_tokens=30
)

Pour transformer un LLM en assistant, il faut utiliser deux astuces qui vont permettre de mieux contr√¥ler le texte g√©n√©r√©.

### 3.1 Chat prompt template

Nous voulons int√©ragir avec le LLM sous la forme d'une conversation dans laquelle il r√©pond aux questions que l'on pose. L'astuce consiste √† modifier la structure de notre prompt pour faire comprendre au LLM qu'il se trouve dans une conversation et qu'il joue le r√¥le de l'assistant.

In [None]:
prompt = """
USER:
    In python, how to compute the number of items in a list?
ASSISTANT:
    You can use the following function: `len(my_list)`.
USER:
    How to remove an item from a list in python?
ASSISTANT:
"""

# Generate text continuation
output = generator(
    prompt,
    do_sample=False,
    temperature=None,
    top_p=None,
    max_new_tokens=40
)

Le LLM comprend qu'apr√®s le token `ASSISTANT` se trouve une r√©ponse √† la question pos√©e apr√®s le token `USER`.

### 3.2 Arr√™ter la g√©n√©ration √† la fin de la r√©ponse

Pour que le LLM s'arr√™te √† la fin de la r√©ponse `ASSISTANT`, on peut ajouter un token `FIN` pour signifier la fin d'un message puis arr√™ter la g√©n√©ration lorsque ce token est g√©n√©r√©.

In [None]:
prompt = """
USER:
    In python, how to compute the number of items in a list?
FIN
ASSISTANT:
    You can use the following function: `len(my_list)`.
FIN
USER:
    How to remove an item from a list in python?
FIN
ASSISTANT:
"""

# Generate text continuation
output = generator(
    prompt,
    do_sample=False,
    temperature=None,
    top_p=None,
    max_new_tokens=30,
    tokenizer=tokenizer,
    stop_strings="FIN" # stop generation when this token is sampled
)

---

**Question**

Selon vous, comment est g√©r√©e la m√©moire de la conversation ?

Qu'est-ce que cela implique en terme de temps de calcul / co√ªts ?

---