source of all code fragments: https://github.com/jessevig/bertviz

La multi-tête d'attention est un mécanisme utilisé dans des modèles tels que BERT (Bidirectional Encoder Representations from Transformers) pour traiter les données d'entrée en se concentrant simultanément sur différentes parties de la séquence d'entrée. C'est un composant clé de l'architecture Transformer, permettant au modèle de se focaliser sur différentes positions ou représentations de la séquence d'entrée de manière indépendante.

Dans le contexte de BERT, voici un aperçu de la multi-tête d'attention :

1. **Attention à une seule tête :**
   - Les mécanismes d'attention traditionnels calculent l'importance des différentes parties d'une séquence par rapport à un vecteur de contexte spécifique. Cependant, cette approche peut ne pas capturer efficacement les relations complexes.

2. **Multi-tête d'attention :**
   - La multi-tête d'attention étend ce concept en utilisant plusieurs ensembles de poids d'attention (têtes) pour capturer différentes relations entre les mots dans la séquence d'entrée.
   - BERT utilise plusieurs têtes d'attention pour effectuer des calculs d'attention en parallèle.
   - Chaque tête d'attention a sa propre série de poids/matrices appris, ce qui permet au modèle de se concentrer simultanément sur différentes parties de la séquence d'entrée et de capturer des motifs et des relations diversifiés.

3. **Interprétation des poids d'attention :**
   - Les poids d'attention indiquent l'importance ou la pertinence de chaque mot/token dans la séquence d'entrée par rapport aux autres mots.
   - Dans la multi-tête d'attention de BERT, vous pouvez interpréter les poids d'attention pour comprendre quelles parties de la séquence d'entrée sont plus cruciales pour prédire le mot suivant ou pour donner un sens à l'ensemble de la séquence.
   - Les techniques de visualisation peuvent aider à comprendre quels mots ou tokens ont des poids d'attention plus élevés par rapport aux autres. Des heatmap ou des représentations graphiques similaires montrent à quel point chaque mot prête attention à chaque autre mot dans la séquence.

L'interprétation des poids d'attention dans BERT peut fournir des informations sur la manière dont le modèle traite et comprend les relations entre différents mots de la séquence d'entrée. Il est important de noter que l'interprétation des poids d'attention peut varier et ne se traduit pas toujours directement par des motifs compréhensibles par les humains, surtout dans des modèles ou des contextes plus complexes.

L'analyse des poids d'attention peut aider à déboguer, à comprendre le comportement du modèle et à fournir des informations sur les parties de la séquence d'entrée sur lesquelles le modèle se concentre lors de différentes tâches, telles que la compréhension du langage, la traduction ou la génération de texte.

# BertViz
La bibliothèque "BertViz" est un package Python conçu spécifiquement pour visualiser l'attention dans BERT (Bidirectional Encoder Representations from Transformers) et des modèles similaires basés sur des transformers. Elle offre des outils de visualisation pour interpréter et analyser les modèles d'attention au sein du modèle.

Voici quelques aspects clés de la bibliothèque BertViz :

1. **Visualisation de l'Attention :** BertViz se concentre principalement sur la fourniture de visualisations pour les mécanismes d'attention au sein de BERT. Elle permet aux utilisateurs de voir et d'analyser les poids ou scores d'attention, montrant quels mots ou tokens dans la séquence d'entrée sont davantage considérés par le modèle.

2. **Interprétabilité :** La bibliothèque aide à comprendre comment le modèle traite les informations en visualisant les têtes d'attention, illustrant les parties de la séquence d'entrée auxquelles le modèle prête attention lors de différentes tâches, telles que la classification de texte, la compréhension du langage ou la génération de texte.

3. **Heatmaps et Graphiques :** BertViz utilise souvent des heatmaps ou des graphiques pour afficher les poids d'attention entre différents tokens de la séquence d'entrée. Ces représentations visuelles peuvent aider les chercheurs et les praticiens à comprendre comment le modèle traite les informations de manière hiérarchique et quelles relations il privilégie.

4. **Analyse du Modèle :** Elle facilite l'analyse et le débogage des modèles BERT, offrant une manière plus intuitive de comprendre comment le mécanisme d'attention fonctionne et quelles parties de la séquence d'entrée contribuent de manière plus significative aux décisions du modèle.

5. **Compatibilité :** La bibliothèque BertViz est généralement compatible avec d'autres bibliothèques Python utilisées dans le traitement du langage naturel (NLP) et l'apprentissage en profondeur, telles que TensorFlow ou PyTorch, ce qui facilite son intégration avec les flux de travail existants.

Veuillez noter que les fonctionnalités spécifiques, les mises à jour ou les changements de la bibliothèque BertViz ont peut-être eu lieu après ma dernière mise à jour en janvier 2022. C'est un outil qui aide à visualiser les mécanismes d'attention dans les modèles basés sur les transformers, en particulier BERT, et qui aide les chercheurs et les praticiens à comprendre le fonctionnement interne de ces modèles pour une meilleure interprétation et analyse.

In [None]:
! pip install bertviz


In [5]:
from bertviz import model_view, head_view
from transformers import AutoTokenizer, AutoModel, utils
import torch
utils.logging.set_verbosity_error()  # Suppress standard warnings

In [None]:
CLS A SEP B SEP.

In [None]:
model_version = 'bert-base-uncased'
sentence_a = "the rabbit quickly hopped"
sentence_b = "The turtle slowly crawled"

model = AutoModel.from_pretrained(model_version, output_attentions=True)
tokenizer = AutoTokenizer.from_pretrained(model_version)
inputs = tokenizer.encode_plus(sentence_a, sentence_b, return_tensors='pt')


In [None]:
input_ids = inputs['input_ids']
token_type_ids = inputs['token_type_ids'] # token type id is 0 for Sentence A and 1 for Sentence B
attention = model(input_ids, token_type_ids=token_type_ids)[-1]

In [None]:
sentence_b_start = token_type_ids[0].tolist().index(1) # Sentence B starts at first index of token type id 1
token_ids = input_ids[0].tolist() # Batch index 0
tokens = tokenizer.convert_ids_to_tokens(token_ids)

In [11]:
len(attention),attention[0].shape

(12, torch.Size([1, 12, 11, 11]))

In [13]:
head_view(attention, tokens)

<IPython.core.display.Javascript object>

In [12]:
model_view(attention, tokens, sentence_b_start)

<IPython.core.display.Javascript object>