<a href="https://colab.research.google.com/github/nicolashernandez/MdL-2024-2025/blob/main/model_parameters.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exercice : Nombre de paramètres d'un modèle

En lisant les papiers sources et éventuellement en jetant un oeil aux implémentations, êtes-vous à même de vérifier que le nombre de paramètres de BERT_BASE [1] est de 110 millions de paramètres et que GPT-2 [2] est bien de 1,5 milliards de paramètres ?

* [1] https://github.com/google-research/bert et Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
* [2] https://github.com/openai/gpt-2 et https://openai.com/index/gpt-2-1-5b-release/

Le code suivant initie un modèle BERT implémenté en PyTorch et interfacé par la bibliothèque `transformers` de huggingface.

In [None]:
from transformers import BertTokenizer, BertModel
bert_model = BertModel.from_pretrained("bert-base-uncased")

Un affichage du modèle via l'instruction `print` permet d'expliciter ses composants, leurs combinaisons ainsi que la `shape` (taille) des tenseurs.


In [None]:
print (model)

## Question 1 : taille du modèle BERT

**TODO** Calculer la taille du modèle en appliquant les principes suivants
* le nombre de paramètre d'une couche linéaire est égal au produit de $features_{in} * features_{out} + param_{bias}$ où $param_{bias}$ correspond à features_{out} si `bias=True`
* sommer le nombre de paramètres des couches adjacentes
* multiplier le nombre de paramètres par le facteur de combinaison quand les couches sont déclarées en liste

Garder la trace du total de nombre de paramètres par composant. Vous pouvez utiliser un [tableur](https://lite.framacalc.org) pour ce faire.


L'instruction `summary` du package [torch-summary](https://pypi.org/project/torch-summary/) résume un modèle PyTorch donné en parammètre. Les informations du résumé inclut:
1. Layer names,
2. input/output shapes,
3. kernel shape,
4. number of parameters,
5. number of operations (Mult-Adds)


In [None]:
!pip install torch-summary

In [None]:
from torchsummary import summary

summary(model)

**TODO** Obtenez-vous la même chose ? Sinon dans quelle couche observez-vous des différences ?

## Question 2 : taille de GPT2 ?

**TODO** A vous de jouer.


# La loi "empirique" de Chinchilla

La loi de Chinchilla observée dabs [Training Compute-Optimal Large Language Models (Hoffmann et al. 2022)](https://arxiv.org/abs/2203.15556) recommande d'utiliser 20 fois plus de tokens d'entraînement que le nombre de paramètres du modèle construit.


## Question : les modèles actuels

Quelle est la tendance des modèles actuels ?

La "Table 3" de la communication [A Comprehensive Overview of Large Language Models (Naveed et al, 2024)](https://arxiv.org/abs/2307.06435) indique le nombre de paramètres (*No. of Params*) et le nombre de tokens d'entraînement utilisés (*Data/Tokens*) pour de nombreux modèles récents.

**TODO** Calculer le nombre de tokens d'entraînement théorique requis selon la loi pour les modèles les plus récents à savoir LLaMA-3.1, Snowflake Arctic, Nemotron-4 340B et DeepSeek-v2. En comparant avec le nombre de tokens réels utilisés, observez-vous une tendance chez les modèles récents ?



| Name             | Nu. of parameters | Chinchilla's pretraining tokens | Real pretraining tokens |
|------------------|-------------------|---------------------------------|-------------------------|
| LLaMA-3.1        |                   |                                 |                         |
| Snowflake Arctic |                   |                                 |                         |
| Nemotron-4 340B  |                   |                                 |                         |
| DeepSeek-v2      |                   |                                 |                         |
