# Introduction

Pourquoi MoR est une petite révolution ?
Imaginez un modèle de langage qui combine l’efficacité mémoire
des architectures à partage de paramètres (comme ALBERT) avec l’intelligence
computationnelle du calcul adaptatif (comme Mixture-of-Depths) :
c’est exactement ce que propose Mixture-of-Recursions (MoR).
Au lieu d’utiliser des couches distinctes, MoR réutilise un même bloc
de calcul de manière récursive, tandis qu’un routeur léger décide
dynamiquement pour chaque mot s’il doit « sortir » rapidement ou "réfléchir"
plus longtemps en passant par des recursions supplémentaires. Résultat ?
Une réduction simultanée de la taille du modèle (-50% de paramètres),
du temps de calcul (meilleur débit d’inférence) et de la mémoire cache,
sans sacrifier la performance --- ouvrant la voie à des LLMs à la fois agiles,
économiques et puissants. Une avancée architecturale majeure qui mérite
d’être explorée dans les moindres détails !

Les LLMs sont puissants, mais gourmands en mémoire et en calcul.
Et si on pouvait créer un modèle à la fois compact et intelligent,
capable de concentrer ses efforts sur les mots qui en valent vraiment
la peine ?

C'est la réponse à cette question qui a donné naissance
à la **Mixture-of-Recursions (MoR)**. une nouvelle architecture
qui permet à un modèle de langage d'allouer intelligemment son « effort
de calcul » de manière adaptive, token par token. Imaginez une usine
de traitement où les produits simples sont expédiés rapidement
après une étape, tandis que les produits complexes passent
par plusieurs stations de contrôle pour un travail approfondi.
MoR opère de la même façon : en réutilisant un même groupe de couches
de neurones de manière recursive, et en utilisant un mécanisme de décision
légère pour déterminer quels mots méritent plus de « réflexion ».
Cette méthode unifie pour la première fois les gains en efficacité
mémoire (moins de paramètres) et en efficacité computationnelle
(moins de calculs superflus), sans compromettre les performances.

Dans ce didacticiel, nous commencerons par un rappel des concepts
fondamentaux nécessaires à la compréhension. Ensuite, nous définirons
précisément le problème qui se pose. Puis, nous détaillerons
le fonctionnement de la solution proposée par MoR pour résoudre le problème,
Nous illustrerons cette solution par des exemples concrets
et une implémentation simplifiée en Python.
Nous discuterons ensuite des apports majeurs et des limites de cette solution,
et proposerons des pistes d'amélioration futures,
et enfin conclure sur la portée de ce travail.

# Connaissances de Base Nécessaires

Pour comprendre ce papier, il faut se familiariser avec quelques concepts
clés des modèles de type Transformers.

## Architecture Transformer de base (Vaswani et al., 2017)

Un transformer est un modèle de réseau de neurones qui utilise
des **mécanismes d'attention** pour traiter des séquences de données
(comme du texte). Il est composé de couches (layers)
empilées les unes sur les autres. Chaque couche a une **auto-attention**
et un réseau **feed-forward**.

In [2]:
import os

print(os.cpu_count())

8
