# Introduction √† Transformer-lens

## Configuration

Ce fragment sert √† configurer Plotly pour que ses graphiques interactifs puissent s‚Äôafficher correctement dans l‚Äôenvironnement d‚Äôex√©cution actuel (VSCode, Jupyter Notebook, etc.).

* import plotly.io as pio : on importe le module qui g√®re les param√®tres d‚Äôentr√©e/sortie de Plotly.
* pio.renderers.default = "notebook_connected" : Plotly peut utiliser plusieurs ¬´ moteurs de rendu ¬ª (par exemple browser, colab, notebook_connected, etc.) selon l‚Äôendroit o√π tourne le code. Ici on force l‚Äôutilisation de notebook_connected, qui est adapt√© aux notebooks locaux (Jupyter/VSCode) et permet d‚Äôafficher les graphiques directement dans la cellule.
* print(...) : on affiche quel renderer est activ√©, histoire de v√©rifier que la configuration est bien appliqu√©e.

En r√©sum√©, ce code √©vite les probl√®mes fr√©quents d‚Äôaffichage (par exemple un graphique qui ne s‚Äôouvre pas, ou qui tente de s‚Äôouvrir dans un navigateur externe) en fixant explicitement le moteur de rendu appropri√© √† l‚Äôenvironnement.

In [1]:
# Plotly needs a different renderer for VSCode/Notebooks vs Colab argh
import plotly.io as pio
pio.renderers.default = "notebook_connected"
print(f"Using renderer: {pio.renderers.default}")

Using renderer: notebook_connected


Ce bout de code utilise circuitsvis, une petite librairie de visualisation interactive souvent employ√©e avec TransformerLens.

* import circuitsvis as cv : on importe la librairie.
* cv.examples.hello("Nils") : appelle une fonction d‚Äôexemple int√©gr√©e. C‚Äôest juste une demo de test qui affiche une petite visualisation interactive (sous forme d‚ÄôHTML/Javascript), par exemple une bo√Æte avec ‚ÄúHello Nils üëã‚Äù.

En pratique :

* Dans un notebook Jupyter/VSCode, la sortie appara√Æt directement sous la cellule.
* Dans Colab, √ßa peut n√©cessiter d‚Äôinstaller circuitsvis[colab] et d‚Äôactiver le mode Colab renderer (cv.notebook.init()).

C‚Äôest donc simplement un ‚Äúhello world‚Äù graphique fourni par circuitsvis pour v√©rifier que l‚Äôint√©gration HTML fonctionne.

In [3]:
import circuitsvis as cv
cv.examples.hello("Artificialis")

Ce bloc est un pr√©ambule classique : on rassemble toutes les librairies dont on aura besoin pour manipuler des tenseurs, d√©finir des r√©seaux, visualiser et √©crire du code plus lisible.

* PyTorch : sert √† cr√©er et entra√Æner des mod√®les de deep learning.
* torch.nn contient les briques de r√©seaux de neurones (layers, fonctions d‚Äôactivation, etc.).
* einops simplifie les r√©arrangements de tenseurs avec une syntaxe lisible (rearrange, reduce, etc.).
* fancy_einsum est une version plus expressive de torch.einsum, avec des noms de dimensions explicites ‚Üí facilite la lecture et √©vite les erreurs d‚Äôindices.
* tqdm affiche des barres de progression (l‚Äôalias auto choisit le meilleur backend selon l‚Äôenvironnement : notebook, terminal, etc.).
* plotly.express : cr√©ation rapide de graphiques interactifs (scatter, heatmap, etc.).
* jaxtyping : permet d‚Äôannoter les types de tenseurs (Float[Tensor, "batch d_model"], par ex.) pour mieux documenter et v√©rifier le code.
* partial : utilitaire Python qui fixe certains arguments d‚Äôune fonction pour cr√©er une variante simplifi√©e.

In [4]:
# Import stuff
import torch
import torch.nn as nn
import einops
from fancy_einsum import einsum
import tqdm.auto as tqdm
import plotly.express as px

from jaxtyping import Float, Int
from functools import partial

from typing import Optional, Any

import numpy as np

In [5]:
# import transformer_lens
import transformer_lens.utils as utils
from transformer_lens.hook_points import (
    HookPoint,
)  # Hooking utilities
from transformer_lens import HookedTransformer, FactoredMatrix

In [6]:
torch.set_grad_enabled(False)

torch.autograd.grad_mode.set_grad_enabled(mode=False)

In [7]:
def imshow(
        tensor: Float[np.ndarray, "height width"],  # Matrice 2D (ex: heatmap)
        renderer: Optional[str] = None,             # Nom du renderer Plotly (ex: "notebook_connected")
        xaxis: str = "",                            # Label axe X
        yaxis: str = "",                            # Label axe Y
        **kwargs: Any                               # Options suppl√©mentaires pass√©es √† px.imshow
) -> None:
    """
    Affiche un tenseur 2D sous forme d'image (heatmap) avec Plotly.

    Args:
        tensor: tableau 2D (PyTorch/JAX/NumPy) repr√©sentant des valeurs √† colorer.
        renderer: moteur d'affichage Plotly (None = valeur par d√©faut).
        xaxis: √©tiquette de l'axe X.
        yaxis: √©tiquette de l'axe Y.
        **kwargs: options suppl√©mentaires (ex: title="Mon Graphique").
    """
    px.imshow(
        utils.to_numpy(tensor),
        color_continuous_midpoint=0.0,
        color_continuous_scale="RdBu",
        labels={"x":xaxis, "y":yaxis},
        **kwargs
    ).show(renderer)
# end imshow

def line(
        tensor: Float[np.ndarray, "n"],              # Vecteur 1D (courbe)
        renderer: Optional[str] = None,
        xaxis: str = "",
        yaxis: str = "",
        **kwargs: Any
) -> None:
    """
    Affiche un tenseur 1D sous forme de courbe.

    Args:
        tensor: tableau 1D (ex: √©volution d'une valeur au cours du temps).
        renderer: moteur d'affichage Plotly.
        xaxis: √©tiquette de l'axe X.
        yaxis: √©tiquette de l'axe Y.
        **kwargs: options suppl√©mentaires pour px.line.
    """
    px.line(
        utils.to_numpy(tensor),
        labels={"x":xaxis, "y":yaxis},
        **kwargs
    ).show(renderer)
# end line

def scatter(
        x: Float[np.ndarray, "n"],                   # Coordonn√©es X (1D)
        y: Float[np.ndarray, "n"],                   # Coordonn√©es Y (1D)
        xaxis: str = "",
        yaxis: str = "",
        caxis: str = "",                             # L√©gende pour la couleur
        renderer: Optional[str] = None,
        **kwargs: Any
) -> None:
    """
    Affiche un nuage de points (scatter plot).

    Args:
        x: tableau 1D pour les abscisses.
        y: tableau 1D pour les ordonn√©es.
        xaxis: √©tiquette de l'axe X.
        yaxis: √©tiquette de l'axe Y.
        caxis: nom de la l√©gende associ√©e √† la couleur.
        renderer: moteur d'affichage Plotly.
        **kwargs: options suppl√©mentaires pour px.scatter (ex: color=...).
    """
    x = utils.to_numpy(x)
    y = utils.to_numpy(y)
    px.scatter(
        y=y,
        x=x,
        labels={"x":xaxis, "y":yaxis, "color":caxis},
        **kwargs
    ).show(renderer)
# end scatter

## Introduction

Ceci est un notebook de d√©monstration pour [TransformerLens](https://github.com/TransformerLensOrg/TransformerLens), **une biblioth√®que que j‚Äôai ([Neel Nanda](https://neelnanda.io)) √©crite pour faire de l‚Äô[interpr√©tabilit√© m√©canistique](https://distill.pub/2020/circuits/zoom-in/) de mod√®les de langage de type GPT-2.**

L‚Äôobjectif de l‚Äôinterpr√©tabilit√© m√©canistique est de prendre un mod√®le entra√Æn√© et de r√©tro-concevoir les algorithmes que le mod√®le a appris durant son entra√Ænement √† partir de ses poids. Le fait est qu‚Äôaujourd‚Äôhui, nous avons des programmes capables de parler anglais √† un niveau humain (GPT-3, PaLM, etc.), mais nous n‚Äôavons aucune id√©e de leur fonctionnement ni de comment en √©crire un nous-m√™mes. Cela me choque profond√©ment, et je veux r√©soudre ce probl√®me ! L‚Äôinterpr√©tabilit√© m√©canistique est un domaine encore tr√®s jeune et tr√®s r√©duit, avec *beaucoup* de probl√®mes ouverts ‚Äî si vous voulez contribuer, essayez-en un ! **Si vous voulez vous former, consultez [mon guide pour d√©buter](https://neelnanda.io/getting-started), et si vous voulez plonger directement dans un probl√®me ouvert, regardez ma s√©rie [200 probl√®mes concrets ouverts en interpr√©tabilit√© m√©canistique](https://neelnanda.io/concrete-open-problems).**

J‚Äôai √©crit cette biblioth√®que parce qu‚Äôapr√®s avoir quitt√© l‚Äô√©quipe d‚Äôinterpr√©tabilit√© d‚ÄôAnthropic et commenc√© √† faire de la recherche ind√©pendante, j‚Äôai √©t√© extr√™mement frustr√© par l‚Äô√©tat des outils open source. Il existe beaucoup d‚Äôinfrastructures excellentes comme HuggingFace et DeepSpeed pour *utiliser* ou *entra√Æner* des mod√®les, mais tr√®s peu pour explorer leurs entrailles et r√©tro-concevoir leur fonctionnement. **Cette biblioth√®que cherche √† combler ce manque**, et √† rendre l‚Äôacc√®s au domaine facile, m√™me si l‚Äôon ne travaille pas dans une organisation industrielle dot√©e d‚Äôune vraie infrastructure ! Les fonctionnalit√©s principales se sont beaucoup inspir√©es de l‚Äô[excellent outil Garcon d‚ÄôAnthropic](https://transformer-circuits.pub/2021/garcon/index.html). Merci √† Nelson Elhage et Chris Olah d‚Äôavoir construit Garcon et de m‚Äôavoir montr√© la valeur d‚Äôune bonne infrastructure pour acc√©l√©rer la recherche exploratoire !

Le principe de conception central que j‚Äôai suivi est de favoriser l‚Äôanalyse exploratoire : l‚Äôun des aspects les plus amusants de l‚Äôinterpr√©tabilit√© m√©canistique, compar√©e au machine learning classique, est la boucle de r√©troaction extr√™mement courte ! L‚Äôobjectif de cette biblioth√®que est de r√©duire au maximum l‚Äô√©cart entre avoir une id√©e d‚Äôexp√©rience et en voir les r√©sultats, afin que **la recherche ressemble √† un jeu** et permette d‚Äôentrer dans un √©tat de flux. Ce notebook montre comment la biblioth√®que fonctionne et comment l‚Äôutiliser, mais si vous voulez voir √† quel point elle est adapt√©e √† la recherche exploratoire, regardez [mon notebook d‚Äôanalyse sur l‚ÄôIndirect Objection Identification](https://neelnanda.io/exploratory-analysis-demo) ou [mon enregistrement de moi-m√™me en train de faire de la recherche](https://www.youtube.com/watch?v=yo4QvDn-vsU) !


## Chargement et ex√©cution des mod√®les

TransformerLens est fourni avec plus de 40 mod√®les open source de type GPT. Vous pouvez en charger n‚Äôimporte lequel avec la commande `HookedTransformer.from_pretrained(MODEL_NAME)`.

Dans ce notebook de d√©monstration, nous allons utiliser **GPT-2 Small**, un mod√®le de 80 millions de param√®tres. Pour les autres mod√®les disponibles, r√©f√©rez-vous √† la section *Available Models*.

On commence par r√©cup√©rer le device utilis√© pour le calcul.

In [8]:
device = utils.get_device()

On charge ensuite un mod√®le pr√©-entra√Æn√© depuis HuggingFace.

In [9]:
# NBVAL_IGNORE_OUTPUT
model = HookedTransformer.from_pretrained("gpt2-small", device=device)

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

`torch_dtype` is deprecated! Use `dtype` instead!


model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Loaded pretrained model gpt2-small into HookedTransformer


Pour tester le mod√®le, calculons la *loss* sur ce texte !
Les mod√®les peuvent √™tre ex√©cut√©s soit sur une **cha√Æne de caract√®res**, soit sur un **tenseur de tokens** (forme : `[batch, position]`, uniquement des entiers).

Les types de sortie possibles sont :

* `"logits"` ‚Äî tenseur de forme `[batch, position, d_vocab]` (valeurs flottantes) ;
* `"loss"` ‚Äî la *cross-entropy loss* lors de la pr√©diction du prochain token ;
* `"both"` ‚Äî un tuple `(logits, loss)` ;
* `None` ‚Äî ex√©cuter le mod√®le sans calculer les logits (plus rapide si l‚Äôon ne veut que les activations interm√©diaires).


In [13]:
model_description_text = """## Loading Models

HookedTransformer comes loaded with >40 open source GPT-style models. You can load any of them in with `HookedTransformer.from_pretrained(MODEL_NAME)`. See my explainer for documentation of all supported models, and this table for hyper-parameters and the name used to load them. Each model is loaded into the consistent HookedTransformer architecture, designed to be clean, consistent and interpretability-friendly.

For this demo notebook we'll look at GPT-2 Small, an 80M parameter model. To try the model the model out, let's find the loss on this paragraph!

For this demo notebook we'll look at GPT-2 Small, an 80M parameter model. To try the model the model out, let's find the loss on this paragraph!"""
logits, loss = model(model_description_text, return_type="both")
print("Model loss:", loss)
print("Model logits:", logits.size())

Model loss: tensor(3.3063, device='cuda:0')
Model logits: torch.Size([1, 178, 50257])


On transforme les logits en probabilit√©s (probabilit√©s d'√™tre le prochain token pour chaque entr√©e du vocabulaire). Puis on d√©termine quel est le plus probable gr√¢ce √† argmax.

In [22]:
import torch.nn.functional as F
probs = F.softmax(logits, dim=-1)
torch.argmax(probs[0, -1])

tensor(1114, device='cuda:0')

## Mettre en cache toutes les activations

La premi√®re op√©ration de base en interpr√©tabilit√© m√©canistique consiste √† **ouvrir la bo√Æte noire du mod√®le** et √† examiner toutes ses activations internes. On peut le faire avec `logits, cache = model.run_with_cache(tokens)`. Testons cela sur la premi√®re ligne du r√©sum√© de l‚Äôarticle GPT-2.

#### √Ä propos de `remove_batch_dim`

Toutes les activations √† l‚Äôint√©rieur du mod√®le commencent par une dimension de batch. Ici, comme on ne passe qu‚Äôun seul batch, cette dimension vaut toujours 1 et peut √™tre p√©nible √† manipuler ; en passant l‚Äôargument `remove_batch_dim=True`, on la supprime. L‚Äôinstruction `gpt2_cache_no_batch_dim = gpt2_cache.remove_batch_dim()` aurait eu le m√™me effet.


On commence par d√©finir le texte qu'on va donner √† GPT-2.

In [23]:
gpt2_text = "Natural language processing tasks, such as question answering, machine translation, reading comprehension, and summarization, are typically approached with supervised learning on task specific datasets."

On transforme ce texte en token, c'est √† dire en ID (int) qui indique la place du token dans le vocabulaire.
Cette liste d'ID a une taille de (1, 32). Pour 1 batch, et 32 tokens.

In [27]:
gpt2_tokens = model.to_tokens(gpt2_text)

torch.Size([1, 32])

On donne les tokens √† GPT-2 mais on garde en cache les activations. On r√©cup√®re les pr√©dictions (gpt2_logits) et le cache (gpt2_cache).

In [None]:
gpt2_logits, gpt2_cache = model.run_with_cache(gpt2_tokens, remove_batch_dim=True)

gpt2_logits a une taille de (1, 32, 50257). Un batch, 32 tokens, et 50257 la taille du vocabulaire. gpt2_cache est lui un objet [ActivationCache](https://transformerlensorg.github.io/TransformerLens/generated/code/transformer_lens.ActivationCache.html).

## Visualiser les pattern d'attention

Visualisons le **pattern d‚Äôattention** de toutes les t√™tes de la couche 0, en utilisant la biblioth√®que [CircuitsVis d‚ÄôAlan Cooney](https://github.com/alan-cooney/CircuitsVis) (bas√©e sur la [biblioth√®que PySvelte d‚ÄôAnthropic](https://github.com/anthropics/PySvelte)).

Nous examinons le pattern d‚Äôattention dans `gpt2_cache`, un objet `ActivationCache`, en donnant le nom de l‚Äôactivation suivi de l‚Äôindice de couche (ici, l‚Äôactivation s‚Äôappelle `"attn"` et l‚Äôindice de couche est `0`). Sa forme est `[head_index, destination_position, source_position]`. Nous utilisons la m√©thode `model.to_str_tokens` pour convertir le texte en une liste de tokens (cha√Ænes de caract√®res), puisqu‚Äôil existe un poids d‚Äôattention entre chaque paire de tokens.

Cette visualisation est **interactive** ! Passez la souris sur un token ou une t√™te, et cliquez pour verrouiller. La grille en haut √† gauche et, pour chaque t√™te, repr√©sente le pattern d‚Äôattention sous forme de matrice ¬´ position de destination √ó position source ¬ª. Elle est **triangulaire inf√©rieure** parce que GPT-2 utilise une **attention causale** : l‚Äôattention ne peut regarder que vers le pass√©, donc l‚Äôinformation ne peut circuler que vers l‚Äôavant dans le r√©seau.

Consultez la section *ActivationCache* pour en savoir plus sur ce que `gpt2_cache` permet de faire.

In [35]:
# Couche 0 de GPT-2
attention_pattern = gpt2_cache["pattern", 0, "attn"]
gpt2_str_tokens = model.to_str_tokens(gpt2_text)

`attention_pattern` fait (12, 32, 32), pour 12 t√™te d'attention, 32 tokens d'origine, 32 tokens de destination. `gpt2_str_tokens` est une liste de string qui sont les tokens de la cha√Æne `gpt2_text`.

In [36]:
print("Layer 0 Head Attention Patterns:")
cv.attention.attention_patterns(tokens=gpt2_str_tokens, attention=attention_pattern)

Layer 0 Head Attention Patterns:


Dans ce cas, nous ne voulions que les patterns d‚Äôattention de la couche 0, mais nous stockons les activations internes provenant de tous les endroits du mod√®le. C‚Äôest pratique d‚Äôavoir acc√®s √† toutes les activations, mais cela peut devenir tr√®s co√ªteux en m√©moire pour des mod√®les plus grands, des batchs plus volumineux ou des s√©quences plus longues.

De plus, nous n‚Äôavons pas besoin d‚Äôex√©cuter l‚Äôentier du passage avant (full forward pass) dans le mod√®le pour r√©cup√©rer les patterns d‚Äôattention de la couche 0. La cellule suivante ne collectera que les patterns d‚Äôattention de la couche 0 et arr√™tera la passe avant √† la couche 1, ce qui r√©duit fortement l‚Äôempreinte m√©moire et le calcul n√©cessaires.

In [38]:
# Nom du hook
attn_hook_name = "blocks.0.attn.hook_pattern"

# Layer correspondant
attn_layer = 0

# On garde en cache jusqu'√† la couche < 1, et on garde seulement le hook.
_, gpt2_attn_cache = model.run_with_cache(gpt2_tokens, remove_batch_dim=True, stop_at_layer=attn_layer + 1, names_filter=[attn_hook_name])

# R√©cup√®re les cartes d'attention
gpt2_attn = gpt2_attn_cache[attn_hook_name]
assert torch.equal(gpt2_attn, attention_pattern)

## Hooks: Intervening on Activations

L‚Äôun des grands avantages de l‚Äôinterpr√©tation des r√©seaux de neurones est que nous avons un **contr√¥le total** sur notre syst√®me. D‚Äôun point de vue computationnel, nous savons exactement quelles op√©rations ont lieu √† l‚Äôint√©rieur (m√™me si nous ne savons pas toujours ce qu‚Äôelles signifient !). Et nous pouvons effectuer des modifications pr√©cises et cibl√©es, puis observer comment le comportement du mod√®le et ses activations internes changent. C‚Äôest un outil extr√™mement puissant, car il permet par exemple de mettre en place des contre-factuels rigoureux et des interventions causales pour comprendre facilement le comportement du mod√®le.

En cons√©quence, la possibilit√© de faire cela constitue une op√©ration **centrale**, et c‚Äôest l‚Äôune des principales fonctionnalit√©s offertes par **TransformerLens** ! La cl√© ici est le concept de **hook points**. Chaque activation √† l‚Äôint√©rieur du transformeur est entour√©e d‚Äôun hook point, qui permet de la modifier ou d‚Äôintervenir dessus.

Nous proc√©dons en ajoutant une **fonction hook** √† cette activation. La fonction hook prend en entr√©e `current_activation_value, hook_point` et retourne `new_activation_value`. Lors de l‚Äôex√©cution du mod√®le, l‚Äôactivation est calcul√©e normalement, puis la fonction hook est appliqu√©e pour produire une valeur de remplacement, qui est ins√©r√©e √† la place de l‚Äôactivation. La fonction hook peut √™tre n‚Äôimporte quelle fonction Python, tant qu‚Äôelle retourne un tenseur de la bonne forme.

#### Lien avec les hooks PyTorch

Les [hooks PyTorch](https://blog.paperspace.com/pytorch-hooks-gradient-clipping-debugging/) sont une fonctionnalit√© tr√®s utile mais souvent m√©connue‚Ä¶ et parfois assez bancale. Ils permettent d‚Äôagir sur une couche et de modifier son entr√©e ou sa sortie, ou encore le gradient lors de l‚Äôautodiff√©rentiation. La diff√©rence essentielle est que les **hook points** agissent sur les *activations* et non sur les couches. Cela signifie que l‚Äôon peut intervenir √† l‚Äôint√©rieur d‚Äôune couche, directement sur chaque activation, sans se soucier de la structure pr√©cise des couches du transformeur. Et il est imm√©diatement clair de quelle mani√®re l‚Äôeffet du hook s‚Äôapplique. Cette approche a √©t√© directement inspir√©e par l‚Äôusage des *ProbePoints* dans [Garcon](https://transformer-circuits.pub/2021/garcon/index.html).

Ils s‚Äôaccompagnent aussi de plusieurs am√©liorations pratiques, comme la m√©thode `model.reset_hooks()` qui permet de supprimer tous les hooks, ou encore des m√©thodes utilitaires pour ajouter temporairement des hooks le temps d‚Äôun seul passage avant (*forward pass*). Avec les hooks PyTorch standards, il est *extr√™mement* facile de se tirer une balle dans le pied !


Comme exemple de base, **ablons** (mettons √† z√©ro) la t√™te 7 de la couche 0 sur le texte ci-dessus.

On d√©finit une fonction `head_ablation_hook`. Elle prend le tenseur de valeurs (value) pour la couche d‚Äôattention 0, met √† z√©ro la composante o√π `head_index == 7`, puis la renvoie (Note : on renvoie par convention, mais comme on modifie l‚Äôactivation *in place*, ce n‚Äôest pas strictement *n√©cessaire*).

On utilise ensuite le helper `run_with_hooks` pour ex√©cuter le mod√®le et ajouter *temporairement* ce hook uniquement pour ce passage. On fournit le hook sous forme de tuple : le nom de l‚Äôactivation (qui est aussi le nom du hook point ‚Äî r√©cup√©rable avec `utils.get_act_name`) et la fonction hook.


In [39]:
layer_to_ablate = 0
head_index_to_ablate = 8

# We define a head ablation hook
# The type annotations are NOT necessary, they're just a useful guide to the reader
def head_ablation_hook(
    value: Float[torch.Tensor, "batch pos head_index d_head"],
    hook: HookPoint
) -> Float[torch.Tensor, "batch pos head_index d_head"]:
    """
    Define an ablation hook.
    """
    # Value est de taille (1 batch, 33 tokens ?, 12 t√™tes, 64 ?)
    value[:, :, head_index_to_ablate, :] = 0.
    return value
# end head_ablation_hook

# Tourne le mod√®le sans hook
original_loss = model(gpt2_tokens, return_type="loss")

# Tourne le mod√®le avec le hook
ablated_loss = model.run_with_hooks(
    gpt2_tokens,
    return_type="loss",
    fwd_hooks=[
        (
            utils.get_act_name("v", layer_to_ablate),
            head_ablation_hook
        )
    ]
)

# Affiche
print(f"Original Loss: {original_loss.item():.3f}")
print(f"Ablated Loss: {ablated_loss.item():.3f}")

Original Loss: 3.624
Ablated Loss: 4.983


**Attention :** Les hooks sont un **√©tat global** ‚Äî ils sont ajout√©s au mod√®le et y restent tant qu‚Äôon ne les a pas retir√©s. La fonction `run_with_hooks` essaie d‚Äôabstraire cela en les traitant comme un √©tat local, en supprimant tous les hooks √† la fin de l‚Äôex√©cution. Mais on peut facilement se tirer une balle dans le pied si, par exemple, une erreur survient dans l‚Äôun des hooks et que la fonction ne termine jamais.

Si vous commencez √† rencontrer des bugs, essayez `model.reset_hooks()` pour tout nettoyer. Par ailleurs, si vous **ajoutez volontairement vos propres hooks** que vous souhaitez conserver, vous pouvez le faire avec `add_perma_hook` sur le *HookPoint* concern√©.

### *Activation Patching* sur la t√¢che d‚ÄôIdentification de l‚ÄôObjet Indirect

Pour un exemple un peu plus √©labor√©, utilisons des hooks pour appliquer le **[activation patching](https://dynalist.io/d/n2ZWtnoYHrU1s4vnFSAQ519J#z=qeWBvs-R-taFfcCq-S_hgMqx)** sur la t√¢che **[Indirect Object Identification](https://dynalist.io/d/n2ZWtnoYHrU1s4vnFSAQ519J#z=iWsV3s5Kdd2ca3zNgXr5UPHa)** (IOI).

La t√¢che IOI consiste √† reconna√Ætre que, dans une phrase comme ¬´ After John and Mary went to the store, Mary gave a bottle of milk to ¬ª, la suite correcte est ¬´ John ¬ª plut√¥t que ¬´ Mary ¬ª (c‚Äôest-√†-dire identifier l‚Äôobjet indirect). Redwood Research a publi√© [un excellent article √©tudiant le circuit sous-jacent dans GPT-2 Small](https://arxiv.org/abs/2211.00593).

L‚Äô**activation patching** est une technique issue de l‚Äô[excellent papier ROME de Kevin Meng et David Bau](https://rome.baulab.info/). L‚Äôobjectif est d‚Äôidentifier quelles activations du mod√®le sont importantes pour accomplir une t√¢che. Pour cela, on pr√©pare un **prompt propre (clean)** et un **prompt corrompu (corrupted)** ainsi qu‚Äôune **m√©trique** de performance. On choisit ensuite une activation pr√©cise du mod√®le, on ex√©cute le mod√®le sur le prompt corrompu, puis on *intervient* sur cette activation en la **rempla√ßant** par sa valeur obtenue lorsque le mod√®le est ex√©cut√© sur le prompt propre. On applique alors la m√©trique et on mesure dans quelle mesure ce ¬´ patch ¬ª restaure la performance du prompt propre.
(Voir [une d√©monstration plus d√©taill√©e de l‚Äôactivation patching ici](https://colab.research.google.com/github/TransformerLensOrg/TransformerLens/blob/main/demos/Exploratory_Analysis_Demo.ipynb).)


Ici, notre **prompt propre** est :
¬´ After John and Mary went to the store, **Mary** gave a bottle of milk to ¬ª et notre **prompt corrompu** est :
¬´ After John and Mary went to the store, **John** gave a bottle of milk to ¬ª

Notre m√©trique est la diff√©rence entre le logit correct (*John*) et le logit incorrect (*Mary*) sur le dernier token.

On observe que la diff√©rence de logit est nettement positive pour le prompt propre, et nettement n√©gative pour le prompt corrompu, ce qui montre que le mod√®le est bel et bien capable de r√©aliser la t√¢che !

In [40]:
# Prompts clean et corrompus
clean_prompt = "After John and Mary went to the store, Mary gave a bottle of milk to"
corrupted_prompt = "After John and Mary went to the store, John gave a bottle of milk to"

# Transforme les prompts en token
clean_tokens = model.to_tokens(clean_prompt)
corrupted_tokens = model.to_tokens(corrupted_prompt)

# La m√©trique d'erreur
def logits_to_logit_diff(
        logits,
        correct_answer=" John",
        incorrect_answer=" Mary"
):
    # model.to_single_token maps a string value of a single token to the token index for that token
    # If the string is not a single token, it raises an error.
    correct_index = model.to_single_token(correct_answer)
    incorrect_index = model.to_single_token(incorrect_answer)
    return logits[0, -1, correct_index] - logits[0, -1, incorrect_index]
# end logits_to_logit_diff

# On fait tourner le mod√®le avec le prompt clean pour garder les activations.
clean_logits, clean_cache = model.run_with_cache(clean_tokens)
clean_logit_diff = logits_to_logit_diff(clean_logits)
print(f"Clean logit difference: {clean_logit_diff.item():.3f}")

# On a pas besoin de garder les activations sur ce coup.
corrupted_logits = model(corrupted_tokens)
corrupted_logit_diff = logits_to_logit_diff(corrupted_logits)
print(f"Corrupted logit difference: {corrupted_logit_diff.item():.3f}")

Clean logit difference: 4.276
Corrupted logit difference: -2.738


Nous allons maintenant d√©finir la fonction de *hook* pour faire de l‚Äô**activation patching**. Ici, nous allons **patcher le flux r√©siduel** (*residual stream*) au **d√©but d‚Äôune couche donn√©e** et √† **une position donn√©e**. Cela nous permettra de mesurer dans quelle mesure le mod√®le utilise le flux r√©siduel, √† cette couche et √† cette position, pour repr√©senter l‚Äôinformation cl√© de la t√¢che.

Comme nous voulons it√©rer sur **toutes les couches** et **toutes les positions**, nous √©crivons le hook de fa√ßon √† accepter un param√®tre `position`. Les fonctions de hook doivent avoir la signature d‚Äôentr√©e `(activation, hook)`, mais on peut utiliser `functools.partial` pour fixer √† l‚Äôavance le param√®tre `position` avant de passer la fonction √† `run_with_hooks`.


In [41]:
# On d√©finit un hook pour patcher le residual.
# On choisit d'agir sur le r√©sidual au d√©but de la couche, donc resid_pre.
def residual_stream_patching_hook(
    resid_pre: Float[torch.Tensor, "batch pos d_model"],
    hook: HookPoint,
    position: int
) -> Float[torch.Tensor, "batch pos d_model"]:
    """
    To document.
    """
    # Each HookPoint has a name attribute giving the name of the hook.
    clean_resid_pre = clean_cache[hook.name]
    resid_pre[:, position, :] = clean_resid_pre[:, position, :]
    return resid_pre
# end residual_stream_patching_hook

# On cr√©e un tensor pour garder les r√©sultats de chaque patch.
# On le met sur le device pour √©viter des probl√®mes GPU/CPU.
num_positions = len(clean_tokens[0])
ioi_patching_result = torch.zeros((model.cfg.n_layers, num_positions), device=model.cfg.device)

# Pour chaque couche
for layer in tqdm.tqdm(range(model.cfg.n_layers)):
    # Pour chaque position
    for position in range(num_positions):
        # Use functools.partial to create a temporary hook function with the position fixed
        temp_hook_fn = partial(residual_stream_patching_hook, position=position)
        # Run the model with the patching hook
        patched_logits = model.run_with_hooks(corrupted_tokens, fwd_hooks=[
            (utils.get_act_name("resid_pre", layer), temp_hook_fn)
        ])
        # Calculate the logit difference
        patched_logit_diff = logits_to_logit_diff(patched_logits).detach()
        # Store the result, normalizing by the clean and corrupted logit difference so it's between 0 and 1 (ish)
        ioi_patching_result[layer, position] = (patched_logit_diff - corrupted_logit_diff)/(clean_logit_diff - corrupted_logit_diff)
    # end for position
# end for layer

  0%|          | 0/12 [00:00<?, ?it/s]

Nous pouvons maintenant visualiser les r√©sultats et constater que ce calcul est extr√™mement localis√© dans le mod√®le. Au d√©part, c‚Äôest le token du deuxi√®me sujet (Mary) qui importe (logiquement, puisque c‚Äôest le seul token qui diff√®re). Toute l‚Äôinformation pertinente reste concentr√©e √† cet endroit, jusqu‚Äô√† ce que des t√™tes dans les couches 7 et 8 transf√®rent cette information vers le dernier token, o√π elle est utilis√©e pour pr√©dire l‚Äôobjet indirect.

(Remarque ‚Äì les t√™tes sont bien en couches 7 et 8, et non en 8 et 9, car nous avons patch√© le flux r√©siduel au d√©but de chaque couche.)

In [42]:
# Add the index to the end of the label, because plotly doesn't like duplicate labels
token_labels = [f"{token}_{index}" for index, token in enumerate(model.to_str_tokens(clean_tokens))]
imshow(
    ioi_patching_result,
    x=token_labels,
    xaxis="Position",
    yaxis="Layer",
    title="Normalized Logit Difference After Patching Residual Stream on the IOI Task"
)

## Hooks : acc√©der aux activations

Les hooks peuvent aussi servir simplement √† **acc√©der** √† une activation ‚Äî c‚Äôest-√†-dire ex√©cuter une fonction utilisant la valeur de cette activation, *sans* la modifier. Pour cela, il suffit que le hook **ne retourne rien** et qu‚Äôil n‚Äô√©dite pas l‚Äôactivation en place.

C‚Äôest utile par exemple pour extraire des activations dans le cadre d‚Äôune t√¢che donn√©e, ou pour effectuer un calcul long sur de nombreux inputs, comme chercher le texte qui active le plus un neurone sp√©cifique.
*(Remarque ‚Äì tout ce que l‚Äôon peut faire ainsi *pourrait* aussi √™tre fait avec `run_with_cache` suivi d‚Äôun post-traitement, mais ce flux de travail peut √™tre plus intuitif et plus √©conome en m√©moire.)*

Pour illustrer cela, examinons les **[induction heads](https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html)** dans GPT-2 Small.

Les circuits d‚Äôinduction sont des circuits tr√®s importants dans les mod√®les de langage g√©n√©ratifs : ils servent √† d√©tecter et √† prolonger des sous-s√©quences r√©p√©t√©es. Ils sont constitu√©s de deux t√™tes situ√©es dans des couches distinctes qui se combinent :

* une **t√™te ‚Äúprevious token‚Äù** qui regarde toujours le token pr√©c√©dent,
* une **t√™te d‚Äôinduction** qui regarde le token *suivant* une occurrence ant√©rieure du token courant.

Pourquoi est-ce important ? Prenons l‚Äôexemple d‚Äôun mod√®le qui doit pr√©dire le token suivant dans un article de presse parlant de Michael Jordan. Le token `" Michael"`, en g√©n√©ral, peut √™tre suivi de nombreux noms de famille. Mais une t√™te d‚Äôinduction va chercher, √† partir de cette occurrence de `" Michael"`, le token situ√© juste apr√®s les occurrences pr√©c√©dentes de `" Michael"`, c‚Äôest-√†-dire `" Jordan"`, et peut pr√©dire avec assurance que c‚Äôest ce qui suivra.

Un fait int√©ressant concernant les t√™tes d‚Äôinduction est qu‚Äôelles se **g√©n√©ralisent** √† n‚Äôimporte quelle s√©quence de tokens r√©p√©t√©s. On peut le voir en g√©n√©rant des s√©quences de 50 tokens al√©atoires, r√©p√©t√©es deux fois, puis en tra√ßant la perte moyenne de pr√©diction du token suivant en fonction de la position. On constate que le mod√®le passe de tr√®s mauvais √† tr√®s performant **au point m√©dian de la s√©quence**.


In [43]:
batch_size = 10
seq_len = 50
size = (batch_size, seq_len)

# Entr√©e al√©atoire
input_tensor = torch.randint(1000, 10000, size)

# Sur le device
random_tokens = input_tensor.to(model.cfg.device)

# ???
repeated_tokens = einops.repeat(random_tokens, "batch seq_len -> batch (2 seq_len)")

# Donne √ßa au mod√®le
repeated_logits = model(repeated_tokens)

# Calcul le loss
correct_log_probs = model.loss_fn(repeated_logits, repeated_tokens, per_token=True)

# ???
loss_by_position = einops.reduce(correct_log_probs, "batch position -> position", "mean")

# ???
line(
    loss_by_position,
    xaxis="Position",
    yaxis="Loss",
    title="Loss by position on random repeated tokens"
)

Les t√™tes d‚Äôinduction vont pr√™ter attention depuis la **deuxi√®me occurrence** de chaque token vers le token qui suit sa **premi√®re occurrence**, c‚Äôest-√†-dire le token situ√© `50 - 1 == 49` positions en arri√®re. Ainsi, en observant l‚Äô**attention moyenne port√©e 49 tokens en arri√®re**, nous pouvons identifier les t√™tes d‚Äôinduction ! D√©finissons un hook pour faire cela.

* On attache le hook √† l‚Äôactivation du **pattern d‚Äôattention**. Il y a un grand tenseur de pattern par couche, empilant toutes les t√™tes, donc on doit manipuler le tenseur pour obtenir un score par t√™te.
* Les fonctions de hook peuvent acc√©der √† l‚Äô√©tat global, donc on cr√©e un grand tenseur pour stocker le score d‚Äôinduction de chaque t√™te, et on ajoute simplement le score de chaque t√™te √† la bonne position dans ce tenseur.
* Pour obtenir une fonction de hook unique qui fonctionne pour chaque couche, on utilise la m√©thode `hook.layer()` afin de r√©cup√©rer l‚Äôindice de la couche (en interne, cela est inf√©r√© √† partir des noms des hook points).
* Comme on veut attacher cela √† **tous** les hook points de pattern d‚Äôattention, plut√¥t que de donner une cha√Æne de nom d‚Äôactivation, on fournit cette fois un **name filter**. C‚Äôest une fonction bool√©enne appliqu√©e aux noms des hook points, et le hook sera ajout√© √† tous ceux pour lesquels la fonction renvoie vrai.
  * `run_with_hooks` permet d‚Äôentrer une liste de paires `(act_name, hook_function)` √† ajouter d‚Äôun coup, donc on aurait aussi pu le faire en donnant une liste avec un hook sp√©cifique pour chaque couche.


In [42]:
# We make a tensor to store the induction score for each head. We put it on the model's device to avoid needing to move things between the GPU and CPU, which can be slow.
induction_score_store = torch.zeros((model.cfg.n_layers, model.cfg.n_heads), device=model.cfg.device)
def induction_score_hook(
    pattern: Float[torch.Tensor, "batch head_index dest_pos source_pos"],
    hook: HookPoint,
):
    # We take the diagonal of attention paid from each destination position to source positions seq_len-1 tokens back
    # (This only has entries for tokens with index>=seq_len)
    induction_stripe = pattern.diagonal(dim1=-2, dim2=-1, offset=1-seq_len)
    # Get an average score per head
    induction_score = einops.reduce(induction_stripe, "batch head_index position -> head_index", "mean")
    # Store the result.
    induction_score_store[hook.layer(), :] = induction_score

# We make a boolean filter on activation names, that's true only on attention pattern names.
pattern_hook_names_filter = lambda name: name.endswith("pattern")

model.run_with_hooks(
    repeated_tokens,
    return_type=None, # For efficiency, we don't need to calculate the logits
    fwd_hooks=[(
        pattern_hook_names_filter,
        induction_score_hook
    )]
)

imshow(induction_score_store, xaxis="Head", yaxis="Layer", title="Induction Score by Head")

La t√™te 5 de la couche 5 obtient un score extr√™mement √©lev√© avec cette mesure. On peut alors fournir au mod√®le une s√©quence al√©atoire plus courte, r√©p√©t√©e deux fois, visualiser son pattern d‚Äôattention et l‚Äôobserver directement ‚Äî y compris la fameuse **¬´ bande d‚Äôinduction ¬ª** √† `seq_len - 1` tokens en arri√®re.

Cette fois, nous pla√ßons un hook sur l‚Äôactivation du **pattern d‚Äôattention** afin de visualiser le pattern de la t√™te concern√©e.


In [44]:
induction_head_layer = 5
induction_head_index = 5
size = (1, 20)
input_tensor = torch.randint(1000, 10000, size)

single_random_sequence = input_tensor.to(model.cfg.device)
repeated_random_sequence = einops.repeat(single_random_sequence, "batch seq_len -> batch (2 seq_len)")
def visualize_pattern_hook(
    pattern: Float[torch.Tensor, "batch head_index dest_pos source_pos"],
    hook: HookPoint,
):
    display(
        cv.attention.attention_patterns(
            tokens=model.to_str_tokens(repeated_random_sequence),
            attention=pattern[0, induction_head_index, :, :][None, :, :] # Add a dummy axis, as CircuitsVis expects 3D patterns.
        )
    )

model.run_with_hooks(
    repeated_random_sequence,
    return_type=None,
    fwd_hooks=[(
        utils.get_act_name("pattern", induction_head_layer),
        visualize_pattern_hook
    )]
)

## Mod√®les disponibles

TransformerLens est fourni avec plus de 40 mod√®les open source disponibles, qui peuvent tous √™tre charg√©s dans une architecture relativement uniforme simplement en changeant le nom dans `from_pretrained`. Les mod√®les open source disponibles sont [document√©s ici](https://dynalist.io/d/n2ZWtnoYHrU1s4vnFSAQ519J#z=jHj79Pj58cgJKdq4t-ygK-4h), et un ensemble de mod√®les ¬´ adapt√©s √† l‚Äôinterpr√©tabilit√© ¬ª que j‚Äôai entra√Æn√©s sont [document√©s ici](https://dynalist.io/d/n2ZWtnoYHrU1s4vnFSAQ519J#z=NCJ6zH_Okw_mUYAwGnMKsj2m). Cet ensemble inclut de petits mod√®les jouets (de une √† quatre couches) ainsi qu‚Äôune s√©rie de [mod√®les SoLU](https://dynalist.io/d/n2ZWtnoYHrU1s4vnFSAQ519J#z=FZ5W6GGcy6OitPEaO733JLqf) allant jusqu‚Äô√† GPT-2 Medium (300 M de param√®tres). Vous pouvez consulter [un tableau des alias officiels et des hyperparam√®tres des mod√®les disponibles ici](https://github.com/TransformerLensOrg/TransformerLens/blob/main/transformer_lens/model_properties_table.md).

**Remarque :** TransformerLens ne prend actuellement pas en charge les mod√®les multi-GPU (n√©cessaires par exemple pour les mod√®les au-dessus de \~7B param√®tres), mais cette fonctionnalit√© arrivera bient√¥t !

Concr√®tement, cela signifie qu‚Äôon peut relancer presque imm√©diatement la m√™me analyse sur un autre mod√®le en ne changeant que son nom. Pour le voir, chargeons **DistilGPT-2** (une version distill√©e de GPT-2, avec deux fois moins de couches) et recopions le code ci-dessus pour observer les **t√™tes d‚Äôinduction** dans ce mod√®le.

In [45]:
# NBVAL_IGNORE_OUTPUT
distilgpt2 = HookedTransformer.from_pretrained("distilgpt2", device=device)

config.json:   0%|          | 0.00/762 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/353M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Loaded pretrained model distilgpt2 into HookedTransformer


In [46]:
# We make a tensor to store the induction score for each head. We put it on the model's device to avoid needing to move things between the GPU and CPU, which can be slow.
distilgpt2_induction_score_store = torch.zeros((distilgpt2.cfg.n_layers, distilgpt2.cfg.n_heads), device=distilgpt2.cfg.device)

def induction_score_hook(
    pattern: Float[torch.Tensor, "batch head_index dest_pos source_pos"],
    hook: HookPoint,
):
    """
    To document.
    """
    # We take the diagonal of attention paid from each destination position to source positions seq_len-1 tokens back
    # (This only has entries for tokens with index>=seq_len)
    induction_stripe = pattern.diagonal(dim1=-2, dim2=-1, offset=1-seq_len)
    # Get an average score per head
    induction_score = einops.reduce(induction_stripe, "batch head_index position -> head_index", "mean")
    # Store the result.
    distilgpt2_induction_score_store[hook.layer(), :] = induction_score
# end induction_score_hook

# We make a boolean filter on activation names, that's true only on attention pattern names.
pattern_hook_names_filter = lambda name: name.endswith("pattern")

distilgpt2.run_with_hooks(
    repeated_tokens,
    return_type=None, # For efficiency, we don't need to calculate the logits
    fwd_hooks=[(
        pattern_hook_names_filter,
        induction_score_hook
    )]
)

imshow(
    distilgpt2_induction_score_store,
    xaxis="Head",
    yaxis="Layer",
    title="Induction Score by Head in Distil GPT-2"
)

### Aper√ßu des mod√®les open source importants pr√©sents dans la biblioth√®que

* **GPT-2** ‚Äì les mod√®les g√©n√©ratifs pr√©-entra√Æn√©s classiques d‚ÄôOpenAI
  * Tailles : Small (85 M), Medium (300 M), Large (700 M) et XL (1,5 B).
  * Entra√Æn√©s sur \~22 milliards de tokens de texte issu d‚Äôinternet. ([R√©plication open source](https://huggingface.co/datasets/openwebtext))
* **GPT-Neo** ‚Äì la r√©plication de GPT-2 par Eleuther
  * Tailles : 125 M, 1,3 B, 2,7 B
  * Entra√Æn√©s sur \~300 milliards de tokens du [Pile](https://pile.eleuther.ai/), un large jeu de donn√©es divers incluant du code (et des contenus atypiques).
* **[OPT](https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/)** ‚Äì la s√©rie de mod√®les open source de Meta AI
  * Entra√Æn√©s sur 180 milliards de tokens de textes vari√©s.
  * Tailles : 125 M, 1,3 B, 2,7 B, 6,7 B, 13 B, 30 B, 66 B
* **GPT-J** ‚Äì mod√®le de 6 B param√®tres d‚ÄôEleuther, entra√Æn√© sur le Pile
* **GPT-NeoX** ‚Äì mod√®le de 20 B param√®tres d‚ÄôEleuther, entra√Æn√© sur le Pile
* **StableLM** ‚Äì mod√®les de Stability AI (3 B et 7 B), avec et sans fine-tuning ‚Äúchat‚Äù et ‚Äúinstruction‚Äù
* **Mod√®les Stanford CRFM** ‚Äì r√©plications de GPT-2 Small et GPT-2 Medium, entra√Æn√©es avec 5 seeds diff√©rents.
  * √Ä noter : 600 checkpoints ont √©t√© sauvegard√©s durant l‚Äôentra√Ænement de chaque mod√®le, et ils sont disponibles dans la biblioth√®que, par ex. avec `HookedTransformer.from_pretrained("stanford-gpt2-small-a", checkpoint_index=265)`.
* **BERT** ‚Äì le transformer encodeur bidirectionnel de Google.
  * Taille Base (108 M), entra√Æn√© sur Wikipedia anglais et BooksCorpus.

### Aper√ßu de quelques mod√®les ¬´ interpr√©tabilit√©-friendly ¬ª que j‚Äôai entra√Æn√©s et inclus

(N‚Äôh√©sitez pas √† [me contacter](mailto:neelnanda27@gmail.com) si vous voulez plus de d√©tails sur l‚Äôun de ces mod√®les.)

Chacun de ces mod√®les a environ **200 checkpoints** sauvegard√©s durant l‚Äôentra√Ænement, qui peuvent √©galement √™tre charg√©s depuis TransformerLens gr√¢ce √† l‚Äôargument `checkpoint_index` de `from_pretrained`.

√Ä noter que tous les mod√®les sont entra√Æn√©s avec un **token de d√©but de s√©quence (BOS)**, et risquent de ne pas fonctionner correctement si on ne leur en fournit pas !

* **Toy Models** : Inspir√©s par [A Mathematical Framework](https://transformer-circuits.pub/2021/framework/index.html), j‚Äôai entra√Æn√© 12 tr√®s petits mod√®les de langage, de 1 √† 4 couches et chacun de largeur 512. Je pense que les interpr√©ter est beaucoup plus accessible que pour les grands mod√®les, et qu‚Äôils servent √† la fois de bonne pratique et de terrain d‚Äôexp√©rimentation pour d√©couvrir des motifs et circuits qui se g√©n√©ralisent √† des mod√®les bien plus grands (comme les *induction heads*) :
  * Mod√®les *Attention-Only* (sans MLP) : attn-only-1l, attn-only-2l, attn-only-3l, attn-only-4l
  * Mod√®les *GELU* (avec MLP et activation GELU standard) : gelu-1l, gelu-2l, gelu-3l, gelu-4l
  * Mod√®les *SoLU* (avec MLP et [l‚Äôactivation SoLU d‚ÄôAnthropic](https://transformer-circuits.pub/2022/solu/index.html), con√ßue pour rendre les neurones MLP plus interpr√©tables) : solu-1l, solu-2l, solu-3l, solu-4l
  * Tous ces mod√®les sont entra√Æn√©s sur 22 milliards de tokens, compos√©s √† 80 % de C4 (web text) et 20 % de code Python.
  * Les mod√®les ayant le m√™me nombre de couches ont √©t√© entra√Æn√©s avec la m√™me initialisation de poids et le m√™me ordre de donn√©es, afin de comparer directement l‚Äôeffet des fonctions d‚Äôactivation.
* **Mod√®les SoLU** : Un scan de mod√®les plus grands, entra√Æn√©s avec l‚Äôactivation SoLU d‚ÄôAnthropic, dans l‚Äôid√©e de rendre les MLP plus interpr√©tables.
  * Un scan jusqu‚Äô√† la taille GPT-2 Medium, entra√Æn√© sur 30 milliards de tokens du m√™me dataset que les *toy models* (80 % C4, 20 % code Python) :
    * solu-6l (40 M), solu-8l (100 M), solu-10l (200 M), solu-12l (340 M)
  * Un scan plus ancien, √©galement jusqu‚Äô√† GPT-2 Medium, mais entra√Æn√© sur 15 milliards de tokens du [Pile](https://pile.eleuther.ai/) :
    * solu-1l-pile (13 M), solu-2l-pile (13 M), solu-4l-pile (13 M), solu-6l-pile (40 M), solu-8l-pile (100 M), solu-10l-pile (200 M), solu-12l-pile (340 M)

