# Bert

BERT, qui signifie Bidirectional Encoder Representations from Transformers, est un modèle de traitement du langage naturel développé par Google. Il est conçu pour pré-entraîner des représentations profondes en prenant en compte le contexte bidirectionnel complet d’un mot (c’est-à-dire, les mots à gauche et à droite).

## Détails techniques de BERT

BERT est basé sur l’architecture des Transformers. Les Transformers sont des modèles qui utilisent des mécanismes d’attention pour comprendre le contexte d’un mot dans une phrase.


Contrairement aux modèles précédents qui analysaient les phrases de gauche à droite ou de droite à gauche, BERT est bidirectionnel. Cela signifie qu’il examine le contexte des mots avant et après un mot donné. Cela permet à BERT de comprendre le contexte et l’intention derrière les mots d’une manière plus précise.


BERT est pré-entraîné sur un grand corpus de texte (Wikipedia et BooksCorpus) en utilisant deux tâches : la prédiction du masque de langue et la prédiction de la phrase suivante.

### Mecanisme d'attention

Le mécanisme d’attention est une partie clé des modèles Transformer. Il permet au modèle de se concentrer sur différentes parties d’une phrase lorsqu’il génère une représentation pour un mot spécifique. En termes simples, l’attention est un score qui détermine à quel point chaque mot dans une phrase est pertinent pour chaque autre mot. Il est calculé en utilisant les produits scalaires des vecteurs d’embedding des mots, qui sont ensuite passés par une fonction softmax pour obtenir des valeurs de probabilité.

### Transformer

Un Transformer est un type de modèle de traitement du langage naturel qui a été introduit dans le papier “Attention is All You Need” par Vaswani et al. en 2017. Il a été conçu pour résoudre le problème des séquences longues dans les modèles de réseau de neurones récurrents (RNN) et pour améliorer la vitesse d’entraînement.

Il est composé des elements suivants:


*Mécanisme d’attention*: Explication juste au dessus

*Encodage positionnel* : Les Transformers utilisent un encodage positionnel pour tenir compte de l’ordre des mots dans une phrase. Cela permet au modèle de distinguer les phrases qui ont les mêmes mots mais dans un ordre différent.


*Architecture d’encodeur-décodeur* : Les Transformers sont composés d’un encodeur qui transforme une phrase d’entrée en une représentation intermédiaire, et d’un décodeur qui génère une phrase de sortie à partir de cette représentation.

*Parallélisation* : Contrairement aux RNN qui traitent les mots de manière séquentielle, les Transformers peuvent traiter tous les mots d’une phrase en parallèle, ce qui permet d’accélérer l’entraînement.


### Prédiction du masque de langue (Masked Language Model, MLM)

C’est l’une des deux tâches d’entraînement utilisées pour pré-entraîner BERT. Dans MLM, environ 15% des mots d’une phrase sont masqués (c’est-à-dire, remplacés par un token spécial [MASK]), et le modèle doit prédire ces mots masqués en se basant sur le contexte fourni par les mots non masqués. Cela permet au modèle d’apprendre une représentation riche du langage qui tient compte du contexte des mots.


### Prédiction de la phrase suivante (Next Sentence Prediction, NSP) 

C’est la deuxième tâche d’entraînement utilisée pour pré-entraîner BERT. Dans NSP, le modèle reçoit deux phrases et doit prédire si la deuxième phrase est la suite logique de la première. Cela aide le modèle à comprendre les relations entre les phrases, ce qui est crucial pour de nombreuses tâches de traitement du langage naturel.

## Exemple

In [1]:
import torch
from transformers import BertTokenizer, BertModel

# Étape 2: Initialisation du tokenizer et du modèle
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# Étape 3: Préparation de l'entrée
text = "Hello, my dog is cute"
encoded_input = tokenizer(text, return_tensors='pt')

# Étape 4: Passage de l'entrée dans le modèle
output = model(**encoded_input)

# Étape 5: Utilisation de la sortie
# contient les représentations vectorielles de chaque mot dans la phrase d’entrée. 
# Chaque mot est représenté par un vecteur de 768 dimensions (pour BERT-base)
# Ce vecteur capture le contexte du mot dans la phrase.
last_hidden_states = output.last_hidden_state



  from .autonotebook import tqdm as notebook_tqdm


tensor([[[-0.1144,  0.1937,  0.1250,  ..., -0.3827,  0.2107,  0.5407],
         [ 0.5308,  0.3207,  0.3665,  ..., -0.0036,  0.7579,  0.0388],
         [-0.4877,  0.8849,  0.4256,  ..., -0.6976,  0.4458,  0.1231],
         ...,
         [-0.7003, -0.1815,  0.3297,  ..., -0.4838,  0.0680,  0.8901],
         [-1.0355, -0.2567, -0.0317,  ...,  0.3197,  0.3999,  0.1795],
         [ 0.6080,  0.2610, -0.3131,  ...,  0.0311, -0.6283, -0.1994]]],
       grad_fn=<NativeLayerNormBackward0>)

## Quand utiliser BERT?

BERT peut être utilisé pour une variété de tâches de traitement du langage naturel, y compris mais sans s’y limiter:

*Classification de texte*: Par exemple, catégoriser les articles de blog par sujet.
Reconnaissance d’entités nommées: Par exemple, identifier les noms de personnes, les lieux ou les organisations dans un texte.



*Chatbot*: Par exemple, créer un système qui répond aux questions posées en langage naturel.



*Analyse des sentiments*: Par exemple, comprendre si un commentaire sur un produit est positif ou négatif.



BERT est particulièrement utile lorsque vous avez besoin de comprendre le contexte d’un mot dans une phrase ou lorsque vous travaillez avec un grand corpus de texte non structuré. Cependant, il est important de noter que BERT est un modèle assez complexe et nécessite beaucoup de ressources de calcul, donc il peut ne pas être le meilleur choix pour toutes les situations.