BERT (Bidirectional Encoder Representations from Transformers) est un modèle de traitement automatique du langage naturel pré-entraîné qui apprend des représentations contextualisées des mots en s'entraînant sur de grandes quantités de données textuelles. Il est basé sur une architecture de réseau neuronal profond appelée le modèle Transformer.

### Processus de pré-entraînement :

#### 1. Modèle de Langue Masqué (MLM) :
Dans cette tâche, BERT apprend à prédire les mots manquants dans une phrase. Voici comment cela fonctionne :

1. **Masquage des Tokens** : Environ 15 % des mots du texte d'entrée sont remplacés de manière aléatoire par un jeton spécial `[MASK]`. Certains autres mots peuvent être remplacés par un autre mot aléatoire pour rendre le modèle plus robuste.

2. **Objectif de Prédiction** : Le modèle doit alors prédire les mots originaux qui ont été masqués en utilisant le contexte fourni par les mots environnants.

   Par exemple, si la phrase originale était : "Le renard brun rapide saute par-dessus le chien paresseux."

   Après masquage : "Le renard brun [MASK] saute par-dessus le [MASK] chien."

   La tâche du modèle est de prédire les mots masqués.

#### 2. Prédiction de la Prochaine Phrase (NSP) :
Cette tâche aide BERT à comprendre la relation entre deux phrases. Voici comment cela fonctionne :

1. **Appariement des Phrases** : Des paires de phrases sont extraites des données d'entraînement. La moitié du temps, ces paires sont construites de manière à ce qu'elles apparaissent dans le texte original en séquence, tandis que l'autre moitié est sélectionnée de manière aléatoire.

2. **Objectif de Classification** : BERT est ensuite entraîné à prédire si la seconde phrase d'une paire est susceptible de suivre la première.

   Par exemple, étant donné la paire : "Un chat est assis sur le tapis." et "Il pleut dehors.", BERT est entraîné à prédire que la seconde phrase suit la première.

### Processus d'Entraînement :

BERT est entraîné sur un grand corpus de texte, généralement composé d'une combinaison de textes disponibles publiquement sur Internet et de textes spécifiques à un domaine particulier. Le processus d'entraînement consiste à exécuter de manière itérative les tâches de pré-entraînement sur cet ensemble de données pour un nombre fixe d'étapes ou jusqu'à ce que certains critères de convergence soient atteints.

<img src="https://production-media.paperswithcode.com/methods/new_BERT_Overall.jpg" alt="alternative_text_here">

In [None]:
!pip install transformers


Collecting transformers
  Downloading transformers-4.35.0-py3-none-any.whl (7.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.9/7.9 MB[0m [31m28.4 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.16.4 (from transformers)
  Downloading huggingface_hub-0.18.0-py3-none-any.whl (301 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m302.0/302.0 kB[0m [31m38.6 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers<0.15,>=0.14 (from transformers)
  Downloading tokenizers-0.14.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.8/3.8 MB[0m [31m81.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting safetensors>=0.3.1 (from transformers)
  Downloading safetensors-0.4.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m68.8 MB/s[0m eta [36m0:00:00[0m
Col

La différence entre les versions en majuscules (cased) et en minuscules (uncased) de BERT (Bidirectional Encoder Representations from Transformers) réside dans la façon dont le texte est traité en ce qui concerne la capitalisation :

1. **BERT en majuscules (cased)** :
   - Dans la version en majuscules, le modèle conserve la capitalisation d'origine du texte d'entrée. Cela signifie que les lettres majuscules sont préservées, et le modèle peut faire la distinction entre les mots en minuscules et en majuscules.
   - Par exemple, "Bonjour" et "bonjour" seraient traités comme des jetons distincts.

2. **BERT en minuscules (uncased)** :
   - Dans la version en minuscules, tout le texte est converti en minuscules. Cela signifie que le modèle traite "bonjour", "Bonjour" et "BONJOUR" comme le même jeton.
   - La version en minuscules est souvent utilisée pour réduire la complexité du modèle et améliorer la généralisation, car il n'a pas besoin d'apprendre des modèles spécifiques à la casse.

Le choix entre les deux dépend de la tâche spécifique et de l'ensemble de données avec lesquels vous travaillez :

- Si votre tâche nécessite de faire la distinction entre les mots en majuscules et en minuscules (par exemple, la reconnaissance d'entités nommées), ou si la capitalisation porte une information sémantique importante, vous préférerez peut-être utiliser la version en majuscules.

- Si la sensibilité à la casse n'est pas cruciale pour votre tâche, ou si vous souhaitez économiser des ressources computationnelles et de la mémoire, vous pourriez opter pour la version en minuscules.

Il est à noter que les deux versions de BERT sont pré-entraînées sur de vastes corpus et peuvent être affinées pour diverses tâches de traitement automatique du langage naturel. Le choix entre les versions en majuscules et en minuscules dépend des exigences spécifiques de la tâche sur laquelle vous travaillez.

In [None]:
import torch
from transformers import BertTokenizer, BertModel, BertForMaskedLM, RobertaForMaskedLM, RobertaTokenizer
import numpy as np

# from: https://huggingface.co/transformers/quickstart.html#bert-example
cased_model=True
bert_model = 'bert-large-cased' if cased_model else 'bert-large-uncased'
tokenizer = BertTokenizer.from_pretrained(bert_model)
model = BertForMaskedLM.from_pretrained(bert_model)
model.eval()

Downloading (…)okenizer_config.json:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/762 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

Some weights of the model checkpoint at bert-large-cased were not used when initializing BertForMaskedLM: ['cls.seq_relationship.bias', 'cls.seq_relationship.weight', 'bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


BertForMaskedLM(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(28996, 1024, padding_idx=0)
      (position_embeddings): Embedding(512, 1024)
      (token_type_embeddings): Embedding(2, 1024)
      (LayerNorm): LayerNorm((1024,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-23): 24 x BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=1024, out_features=1024, bias=True)
              (key): Linear(in_features=1024, out_features=1024, bias=True)
              (value): Linear(in_features=1024, out_features=1024, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=1024, out_features=1024, bias=True)
              (LayerNorm): LayerNorm((1024,), eps=1e-12, 

L'entrée de BERT (Bidirectional Encoder Representations from Transformers) est préparée dans un format spécifique pour faciliter l'entraînement et l'inférence du modèle. Cela implique plusieurs étapes :

1. **Tokenisation** :
   - Le texte d'entrée est divisé en tokens individuels. Un token peut être un mot ou un sous-mot (par exemple, "courir" peut être divisé en "cour" et "##ir").
   - Chaque token reçoit un identifiant unique en entier à partir du vocabulaire du modèle.

2. **Tokens Spéciaux** :
   - BERT requiert deux tokens spéciaux pour indiquer le début et la fin d'une phrase :
     - `[CLS]` (signifiant "classification") est ajouté au début de l'entrée pour représenter le début de la séquence.
     - `[SEP]` (signifiant "séparateur") est utilisé pour séparer les différentes phrases dans une entrée multi-phrase.

3. **Remplissage et Troncature** :
   - BERT fonctionne sur des séquences de longueur fixe, donc les entrées doivent avoir une longueur constante. Si un texte est trop long, il peut être tronqué. S'il est trop court, il peut être complété avec un token spécial (généralement `[PAD]`) pour atteindre la longueur désirée.

4. **Identifiants de Segment** :
   - Pour les tâches impliquant plusieurs phrases, comme la tâche de Prédiction de la Prochaine Phrase (NSP) dans la pré-entraînement de BERT, chaque token reçoit un identifiant de segment pour indiquer à quelle phrase il appartient.

5. **Tâche du Modèle de Langue Masqué (MLM)** (Optionnelle pour le fine-tuning) :
   - Pour les tâches impliquant l'objectif MLM, certains des tokens sont masqués avec un token spécial `[MASK]`. Le modèle est ensuite entraîné à prédire les mots masqués en se basant sur le contexte fourni par les mots environnants.

6. **Conversion en Identifiants d'Entrée** :
   - Les tokens, y compris les tokens spéciaux, sont mappés sur leurs identifiants en entier correspondants à partir du vocabulaire du modèle. La séquence résultante d'identifiants forme l'entrée du modèle.

7. **Masques d'Attention** :
   - BERT utilise des mécanismes d'auto-attention. Un masque d'attention est créé pour indiquer quels tokens sont de véritables entrées et lesquels sont des tokens de remplissage. Cela permet au modèle d'ignorer les tokens de remplissage lors du traitement.

8. **Incorporation de Position** :
   - Les transformateurs comme BERT ne comprennent pas intrinsèquement l'ordre des tokens dans une séquence. Des incorporations de position sont ajoutées pour représenter la position relative ou absolue de chaque token dans la séquence d'entrée.

L'entrée finale de BERT est un ensemble de tenseurs (tableaux de nombres) représentant les identifiants de token, les identifiants de segment (le cas échéant), les masques d'attention et les incorporations de position.

Par exemple, l'entrée pour BERT pourrait ressembler à ceci (simplifié à des fins d'illustration) :

```
Identifiants d'Entrée : [CLS] token_1 token_2 ... token_n [SEP] tokens_de_remplissage ...
Identifiants de Segment : 0 0 ... 0 0 0 ... 0 0 1 1 ... 1 1 ...
Masque d'Attention : 1 1 ... 1 1 0 ... 0 0 1 1 ... 1 1 ...
Incorporations de Position : pos_1 pos_2 ... pos_n pos_remplissage ...
```

Ces représentations sont ensuite introduites dans le modèle BERT pour le traitement et la prédiction.

In [None]:
probes = ['one time two equal [MASK]','Mount Everest is located in [MASK]','eight divided by nine equal [MASK]','i leave my keys in the [MASK]', 'its raining hard outside, i need an [MASK]', 'the car is out of  [MASK] , i need to [MASK] it']

numb_predictions_displayed=5
for probe in probes:

  text = f'[CLS] {probe}  . [SEP]'
  tokenized_text = tokenizer.tokenize(text)
  #print(f'TEXT: {text}')
  #print(f'TOKENIZED TEXT: {tokenized_text}')
  masked_index = [i for i, x in enumerate(tokenized_text) if x == '[MASK]']


  indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
  segments_ids = [0]*len(tokenized_text)
  #print(indexed_tokens)
  tokens_tensor = torch.tensor([indexed_tokens])
  segments_tensors = torch.tensor([segments_ids])


  with torch.no_grad():
        outputs = model(tokens_tensor, token_type_ids=segments_tensors) # bs x seq_len x V
        predictions = outputs[0][0][masked_index]
  #print(predictions.shape)
  #print(f'{probe}→ ')

  for idx_u,u in enumerate(masked_index):

    predicted_ids = torch.argsort(predictions[idx_u], descending=True)[:numb_predictions_displayed]
    predicted_tokens = tokenizer.convert_ids_to_tokens(list(predicted_ids))
    #print(predicted_tokens)
    indexed_tokens[u]=predicted_ids[0]
  print('Phrase proposée: ', tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(indexed_tokens)[1:-1]))

Phrase proposée:  one time two equal points .
Phrase proposée:  Mount Everest is located in Nepal .
Phrase proposée:  eight divided by nine equal parts .
Phrase proposée:  i leave my keys in the ignition .
Phrase proposée:  its raining hard outside , i need an umbrella .
Phrase proposée:  the car is out of gas , i need to fix it .
