# Pretraining a RoBERTa Model from Scratch



## Training a tokenizer and pretraining a transformer

Dans ce guide, nous allons entra√Æner un mod√®le de transformateur nomm√© KantaiBERT en utilisant les blocs de construction fournis par Hugging Face pour les mod√®les de type BERT. Nous avons couvert la th√©orie des √©l√©ments constitutifs du mod√®le que nous avons utilis√© pr√©c√©dement.

Nous d√©crirons KantaiBERT en nous appuyant sur les connaissances acquises dans les guides pr√©c√©dents

KantaiBERT est un mod√®le de type Robustly Optimized BERT Pretraining Approach (RoBERTa) bas√© sur l'architecture de BERT. 


Les mod√®les BERT initiaux √©taient sous-form√©s. RoBERTa augmente les performances des transformateurs de pr√©-apprentissage pour les t√¢ches en aval. RoBERTa a am√©lior√© la m√©canique du processus de pr√©-formation. Par exemple, il n'utilise pas la tokenisation WordPiece mais descend √† l'encodageByte Pair Encoding (BPE)

Dans ce guide, KantaiBERT, comme BERT, sera form√© √† l'aide de la mod√©lisation du langage masqu√©. KantaiBERT sera form√© comme un petit mod√®le avec 6 couches, 12 t√™tes et 84 095 008 param√®tres. Il peut sembler que 84 millions de param√®tres repr√©sentent un grand nombre de param√®tres. 

Cependant, les param√®tres sont r√©partis sur 6 couches et 12 t√™tes, ce qui le rend relativement petit. Un petit mod√®le rendra l'exp√©rience de pr√©-entra√Ænement fluide afin que chaque √©tape puisse √™tre visualis√©e en temps r√©el sans attendre des heures pour voir un r√©sultat


KantaiBERT est un mod√®le de type DistilBERT car il a la m√™me architecture de 6 couches et 12 t√™tes. DistilBERT est une version distill√©e de BERT. Nous savons que les grands mod√®les offrent d'excellentes performances. Mais que faire si vous souhaitez ex√©cuter un mod√®le sur un smartphone ? La miniaturisation a √©t√© la cl√© de l'√©volution technologique. 

Les transformateurs devront suivre le m√™me chemin lors de la mise en ≈ìuvre. L'approche Hugging Face utilisant une version distill√©e de BERT est donc un bon pas en avant. La distillation, ou d'autres m√©thodes de ce type √† l'avenir, est un moyen intelligent de tirer le meilleur parti de la pr√©formation et de la rendre efcace pour les besoins de nombreuses t√¢ches en aval.

KantaiBERT impl√©mentera un tokenizer byte-level byte-pair encoding comme celui utilis√© par GPT-2. Les jetons sp√©ciaux seront ceux utilis√©s par RoBERTa.


Il n'y a pas d'ID de type de jeton pour indiquer √† quelle partie d'un segment un jeton fait partie. Les segments seront s√©par√©s avec le jeton de s√©paration \</s>.

KantaiBERT utilisera un ensemble de donn√©es personnalis√©, formera un tokenizer, formera le mod√®le de transformateur, l'enregistrera et l'ex√©cutera avec un exemple de mod√©lisation de langage masqu√©.

Commen√ßons √† construire un transformateur de z√©ro.

## √âtape 1 : Chargement de l'ensemble de donn√©es 

Les ensembles de donn√©es pr√™ts √† l'emploi offrent un moyen objectif d'entra√Æner et de comparer les transformateurs. 
 
 Le but de ce guide est de comprendre le processus d'apprentissage d'un transformateur avec des cellules de bloc-notes qui pourrait √™tre ex√©cut√© en temps r√©el sans avoir √† attendre des heures pour obtenir un r√©sultat.

 
J'ai choisi d'utiliser les ≈ìuvres d'Emmanuel Kant (1724-1804), le philosophe allemand, qui fut l'incarnation du si√®cle des Lumi√®res. L'id√©e est d'introduire une logique humaine et un raisonnement pr√©-entra√Æn√© pour les t√¢ches de raisonnement en aval.


Project Gutenberg, https://www.gutenberg.org, propose une large gamme de livres √©lectroniques gratuits qui peuvent √™tre t√©l√©charg√©s au format texte. 

Vous pouvez utiliser d'autres livres si vous souhaitez cr√©er vos propres ensembles de donn√©es personnalis√©s bas√©s sur des livres. J'ai compil√© les trois livres suivants d'Immanuel Kant dans un fichier texte nomm√© kant.txt :


* he Critique of Pure Reason
* The Critique of Practical Reason
* Fundamental Principles of the Metaphysic of Morals

kant.txt fournit un petit ensemble de donn√©es d'entra√Ænement pour entra√Æner le mod√®le de transformateur de ce guide. 

Le r√©sultat obtenu reste exp√©rimental. Pour un projet r√©el.

L'ensemble de donn√©es est t√©l√©charg√© automatiquement depuis GitHub :

vous pouvez utiliser curl pour le r√©cup√©rer depuis GitHub

In [2]:
!curl -L https://raw.githubusercontent.com/PacktPublishing/Transformers-for-Natural-Language-Processing/master/Chapter03/kant.txt --output "kant.txt"

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 10.7M  100 10.7M    0     0  20.5M      0 --:--:-- --:--:-- --:--:-- 20.4M


## Step 2: Installation Hugging Face transformersWe 

Nous devrons installer des transformateurs et des tokenizers Hugging Face, mais nous n'aurons pas besoin de TensorFlow dans cette instance de la VM Google Colab

In [1]:
!pip install git+https://github.com/huggingface/transformers
!pip list | grep -E 'transformers|tokenizers'

Collecting git+https://github.com/huggingface/transformers
  Cloning https://github.com/huggingface/transformers to /tmp/pip-req-build-wnwaxpi1
  Running command git clone -q https://github.com/huggingface/transformers /tmp/pip-req-build-wnwaxpi1
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
    Preparing wheel metadata ... [?25l[?25hdone
Collecting sacremoses
  Downloading sacremoses-0.0.46-py3-none-any.whl (895 kB)
[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 895 kB 5.3 MB/s 
Collecting tokenizers<0.11,>=0.10.1
  Downloading tokenizers-0.10.3-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (3.3 MB)
[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 3.3 MB 31.5 MB/s 
Collecting pyyaml>=5.1
  Downloading PyYAML-6.0-cp37-cp37m-manylinux_2_5_x86_64.manylinu

## √âtape 3 : Formation d'un tokenizer

Dans cette section, le programme n'utilise pas de tokenizer pr√©-entra√Æn√©. Par exemple, un tokenizer GPT-2 pr√©-entra√Æn√© pourrait √™tre utilis√©. Cependant, le processus de formation de ce chapitre comprend la formation d'un tokenizer √† partir de z√©ro. ByteLevelBPETokenizer() de Hugging Face sera form√© √† l'aide de kant.txt. 

Un tokenizer au niveau de l'octet divisera une cha√Æne ou un mot en une sous-cha√Æne ou un sous-mot. Il y a deux avantages principaux parmi tant d'autres

* Le tokenizer peut diviser les mots en composants minimaux. Ensuite, il fusionnera ces petits composants en d'autres statistiquement int√©ressants. Par exemple, "smaller" et smallest" peuvent devenir "small", "er" et "est".

Le tokenizer peut aller plus loin, et on pourrait obtenir ¬´ sm ¬ª et ¬´ all ¬ª, par exemple. Dans tous les cas, les mots sont d√©compos√©s en jetons de sous-mots et en unit√©s plus petites de parties de sous-mots telles que "sm" et "all" au lieu de simplement "small".

* Les morceaux de cha√Ænes class√©s comme un jeton inconnu, utilisant l'encodage de niveau WorkPiece, dispara√Ætront pratiquement.


Dans ce mod√®le, nous allons entra√Æner le tokenizer avec les param√®tres suivants :

* files=paths est le chemin d'acc√®s √† l'ensemble de donn√©es.
* vocab_size=52_000 est la taille de la longueur du mod√®le de notre tokenizer‚Ä¢
* min_fr√©quence=2 est le seuil de fr√©quence minimum.
* special_tokens=[] est une liste de jetons sp√©ciaux


Dans ce cas, la liste des jetons sp√©ciaux est :
* \<s> : un jeton de d√©but
* \<pad> : un jeton de remplissage
* \</s> : un jeton de fin
* \<unk> : un jeton inconnu
* \<mask> : le jeton de masque pour la mod√©lisation du langage


In [3]:
from pathlib import Path

from tokenizers import ByteLevelBPETokenizer

paths = [str(x) for x in Path(".").glob("**/*.txt")]

# Initialize a tokenizer
tokenizer = ByteLevelBPETokenizer()

# Customize training
tokenizer.train(files=paths, vocab_size=52_000, min_frequency=2, special_tokens=[
    "<s>",
    "<pad>",
    "</s>",
    "<unk>",
    "<mask>",
])


## √©tape 4 : enregistrer les fichiers sur le disque Le tokenizer g√©n√©rera deux fichiers une fois entra√Æn√©s : 
*  merges.txt, qui contient les sous-cha√Ænes fusionn√©es 
* vocab.json, qui contient les index des sous-cha√Ænes tokenis√©es 

Le programme cr√©e d'abord le r√©pertoire KantaiBERT puis enregistre les deux fichiers :

In [4]:
import os

token_dir = '/content/KantaiBERT'

if not os.path.exists(token_dir):
  os.makedirs(token_dir)

tokenizer.save_model('KantaiBERT')

['KantaiBERT/vocab.json', 'KantaiBERT/merges.txt']

## √âtape 5 : Chargement des fichiers de tokenizer entra√Æn√©s

Nous aurions pu charger des fichiers de tokenizer pr√©-entra√Æn√©s. Cependant, nous avons form√© notre propre tokenizer et sommes maintenant pr√™ts √† charger les fichiers :

In [5]:
from tokenizers.implementations import ByteLevelBPETokenizer
from tokenizers.processors import BertProcessing

tokenizer = ByteLevelBPETokenizer(    
    "./KantaiBERT/vocab.json",    
    "./KantaiBERT/merges.txt",
    )


Le tokenizer peut encoder une s√©quence

In [6]:
tokenizer.encode("The Critique of Pure Reason.").tokens

['The', 'ƒ†Critique', 'ƒ†of', 'ƒ†Pure', 'ƒ†Reason', '.']

On peut aussi demander √† voir le nombre de jetons dans cette s√©quence :

In [7]:
tokenizer.encode("The Critique of Pure Reason.")

Encoding(num_tokens=6, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])

Le tokenizer traite maintenant les jetons pour s'adapter √† la variante du mod√®le BERT utilis√©e dans ce bloc-notes. Le post-processeur ajoutera un jeton de d√©but et de fin, par exemple

In [8]:
tokenizer._tokenizer.post_processor = BertProcessing(    
    ("</s>", tokenizer.token_to_id("</s>")),    
    ("<s>", tokenizer.token_to_id("<s>")),
    )

In [9]:
tokenizer.enable_truncation(max_length=512)

Codons une s√©quence post-trait√©e

In [10]:
tokenizer.encode("The Critique of Pure Reason.")

Encoding(num_tokens=8, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])


Si nous voulons voir ce qui a √©t√© ajout√©, nous pouvons demander au tokenizer d'encoder la s√©quence post-trait√©e en ex√©cutant la cellule suivante

In [11]:
tokenizer.encode("The Critique of Pure Reason.").tokens

['<s>', 'The', 'ƒ†Critique', 'ƒ†of', 'ƒ†Pure', 'ƒ†Reason', '.', '</s>']

## √âtape 6 : V√©rification des contraintes de ressources : GPU et CUDA

KantaiBERT fonctionne √† une vitesse optimale avec une unit√© de traitement graphique (GPU). Nous ex√©cuterons d'abord une commande pour voir si une carte GPU NVIDIA est pr√©sente :

In [12]:
!nvidia-smi

Mon Nov  8 10:10:10 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 495.44       Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla K80           Off  | 00000000:00:04.0 Off |                    0 |
| N/A   44C    P8    30W / 149W |      0MiB / 11441MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [13]:
import torch

torch.cuda.is_available()

True

## √âtape 7 : D√©finition de la configuration du mod√®le

Nous pr√©formons un mod√®le de transformateur de type RoBERTa utilisant le m√™me nombre de couches et de t√™tes qu'un transformateur DistilBERT. Le mod√®le aura une taille de vocabulaire d√©finie sur 52 000, 12 t√™tes d'attention et 6 couches

In [14]:
from transformers import RobertaConfig

config = RobertaConfig(
    vocab_size=52_000,
    max_position_embeddings=514,
    num_attention_heads=12,
    num_hidden_layers=6,
    type_vocab_size=1,
)



Nous allons explorer la configuration plus en d√©tail √† l'√©tape 9 : Initialiser un mod√®le √† partir de z√©ro. Commen√ßons par recr√©er le tokenizer dans notre mod√®le.

##  √âtape 8 : Recharger le tokenizer dans les transformateurs

Nous sommes maintenant pr√™ts √† charger notre tokenizer form√©, qui est notre tokenizer pr√©-entra√Æn√© dans RobertaTokenizer.from_pretained():


In [15]:
from transformers import RobertaTokenizer
 
tokenizer = RobertaTokenizer.from_pretrained( "./KantaiBERT", max_length=512)
 

file ./KantaiBERT/config.json not found


Maintenant que nous avons charg√© notre tokenizer form√©, initialisons un mod√®le RoBERTa √† partir de z√©ro

## √âtape 9 : Initialisation d'un mod√®le √† partir de z√©ro

Dans cette section, nous allons initialiser un mod√®le √† partir de z√©ro et examiner la taille du mod√®le. Le programme importe d'abord un mod√®le masqu√© RoBERTa pour la mod√©lisation du langage.

In [16]:
from transformers import RobertaForMaskedLM

model = RobertaForMaskedLM(config=config)

## √âtape 10 : Construire l'ensemble de donn√©es 

Le programme va maintenant charger l'ensemble de donn√©es ligne par ligne pour l'apprentissage par lots avec block_size=128 limitant la longueur d'un exemple :

In [17]:
from transformers import LineByLineTextDataset

dataset = LineByLineTextDataset(
    tokenizer=tokenizer,
    file_path="./kant.txt",
    block_size=128,
)



## √âtape 11 : D√©finir un assembleur de donn√©es

Nous devons ex√©cuter un assembleur de donn√©es avant d'initialiser le formateur.

 Un collecteur de donn√©es pr√©l√®vera des √©chantillons de l'ensemble de donn√©es et les rassemblera en lots. 
 
 Les r√©sultats sont des objets de type dictionnaire. Nous pr√©parons un processus d'√©chantillonnage par lots pour la mod√©lisation du langage masqu√© (MLM) en d√©finissant mlm=True.
 
 Nous avons √©galement d√©fini le nombre de jetons masqu√©s pour entra√Æner mlm_probability=0.15. 
 
 Cela d√©terminera le pourcentage de jetons masqu√©s pendant le processus de pr√©-entra√Ænement. Nous initialisons maintenant data_collator avec notre tokenizer, MLM activ√© et la proportion de jetons masqu√©s d√©finie sur 0,15

In [18]:
from transformers import DataCollatorForLanguageModeling

data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer, mlm=True, mlm_probability=0.15
)

## √âtape 12 : Initialisation du formateur 

Les √©tapes pr√©c√©dentes ont pr√©par√© les informations n√©cessaires √† l'initialisation du formateur. 

L'ensemble de donn√©es a √©t√© tokenis√© et charg√©. Notre mod√®le est construit. Le collecteur de donn√©es a √©t√© cr√©√©. Le programme peut maintenant initialiser le formateur. √Ä des fins √©ducatives, le programme entra√Æne le mod√®le rapidement. Le nombre d'√©poques est limit√© √† un. Le GPU est pratique car nous pouvons partager les lots et multi-traiter les t√¢ches de formation

In [19]:
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./EsperBERTo",
    overwrite_output_dir=True,
    num_train_epochs=1,
    per_gpu_train_batch_size=64,
    save_steps=10_000,
    save_total_limit=2,
    prediction_loss_only=True,
)

trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=dataset,
)

## √âtape 13 : Pr√©formation du mod√®le 

Tout est pr√™t. Le formateur est lanc√© avec une ligne de code :

In [20]:
trainer.train()

Using deprecated `--per_gpu_train_batch_size` argument which will be removed in a future version. Using `--per_device_train_batch_size` is preferred.
Using deprecated `--per_gpu_train_batch_size` argument which will be removed in a future version. Using `--per_device_train_batch_size` is preferred.
***** Running training *****
  Num examples = 170964
  Num Epochs = 1
  Instantaneous batch size per device = 8
  Total train batch size (w. parallel, distributed & accumulation) = 64
  Gradient Accumulation steps = 1
  Total optimization steps = 2672
Using deprecated `--per_gpu_train_batch_size` argument which will be removed in a future version. Using `--per_device_train_batch_size` is preferred.


Step,Training Loss
500,6.6066
1000,5.7115
1500,5.2264
2000,4.9785
2500,4.8244




Training completed. Do not forget to share your model on huggingface.co/models =)




TrainOutput(global_step=2672, training_loss=5.425474223976364, metrics={'train_runtime': 1178.5633, 'train_samples_per_second': 145.061, 'train_steps_per_second': 2.267, 'total_flos': 873620128952064.0, 'train_loss': 5.425474223976364, 'epoch': 1.0})

## √âtape 14 : Sauvegarder le mod√®le final (+tokenizer + config) sur le disque

Nous allons maintenant sauvegarder le mod√®le et la configuration

In [21]:
trainer.save_model("./KantaiBERT")

Saving model checkpoint to ./KantaiBERT
Configuration saved in ./KantaiBERT/config.json
Model weights saved in ./KantaiBERT/pytorch_model.bin


## √âtape 15 : Mod√©lisation du langage avec FillMaskPipeline

Nous allons maintenant importer une t√¢che de masque de remplissage de mod√©lisation du langage. Nous utiliserons notre mod√®le entra√Æn√© et notre tokenizer entra√Æn√© pour effectuer une mod√©lisation de langage masqu√©

In [22]:
from transformers import pipeline

fill_mask = pipeline(    
    "fill-mask",    
    model="./KantaiBERT",    
    tokenizer="./KantaiBERT"
    )

loading configuration file ./KantaiBERT/config.json
Model config RobertaConfig {
  "architectures": [
    "RobertaForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "bos_token_id": 0,
  "classifier_dropout": null,
  "eos_token_id": 2,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 514,
  "model_type": "roberta",
  "num_attention_heads": 12,
  "num_hidden_layers": 6,
  "pad_token_id": 1,
  "position_embedding_type": "absolute",
  "torch_dtype": "float32",
  "transformers_version": "4.13.0.dev0",
  "type_vocab_size": 1,
  "use_cache": true,
  "vocab_size": 52000
}

loading configuration file ./KantaiBERT/config.json
Model config RobertaConfig {
  "architectures": [
    "RobertaForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "bos_token_id": 0,
  "classifier_dropout": null,
  "eos_token_id": 2,
  "hidden_act": "gelu",
  "hidden_dr

In [23]:
fill_mask("Human thinking involves human <mask>.")

[{'score': 0.04041118547320366,
  'sequence': 'Human thinking involves human reason.',
  'token': 393,
  'token_str': ' reason'},
 {'score': 0.014237454161047935,
  'sequence': 'Human thinking involves human experience.',
  'token': 531,
  'token_str': ' experience'},
 {'score': 0.009888945147395134,
  'sequence': 'Human thinking involves human conceptions.',
  'token': 605,
  'token_str': ' conceptions'},
 {'score': 0.009337211959064007,
  'sequence': 'Human thinking involves human it.',
  'token': 306,
  'token_str': ' it'},
 {'score': 0.007209516130387783,
  'sequence': 'Human thinking involves human time.',
  'token': 526,
  'token_str': ' time'}]