In [None]:
! pip install transformers

batch_encode_plus est une méthode pratique pour encoder une liste de textes pour de nombreuses tâches de traitement du langage naturel. Cependant, il n'est pas toujours nécessaire de l'utiliser.

batch_encode_plus est une fonction fournie par la bibliothèque Hugging Face Transformers qui permet de convertir une liste de textes en entrées pour un modèle de langage pré-entraîné, tels que BERT ou RoBERTa. Cette fonction est utile pour traiter plusieurs textes en même temps, de manière efficace.

Voici les principaux arguments de la fonction batch_encode_plus :

**texts**: une liste de chaînes de caractères représentant les textes d'entrée à encoder.

**tokenizer**: un objet Tokenizer qui sera utilisé pour encoder les textes. Ce peut être n'importe quel objet Tokenizer, tel que BertTokenizer ou RobertaTokenizer.

**padding**: un booléen indiquant si le résultat doit être rembourré pour avoir la même longueur.

**truncation**: un booléen indiquant si les textes doivent être tronqués pour avoir la même longueur maximale.

**max_length**: la longueur maximale des entrées, après rembourrage ou troncature. Les entrées plus longues que cette longueur maximale seront tronquées, tandis 

que les entrées plus courtes seront rembourrées.
La fonction batch_encode_plus retourne un dictionnaire contenant les entrées encodées pour chaque texte en entrée. Les clés de ce dictionnaire sont input_ids, attention_mask, et éventuellement token_type_ids pour les modèles qui les utilisent.

En résumé, batch_encode_plus est une fonction pratique pour encoder plusieurs textes en entrée à la fois, en utilisant un objet Tokenizer pour les transformer en entrées pour un modèle de langage pré-entraîné.

Exemple d'utilisation de batch_encode_plus avec le tokenizer de BERT pour encoder une liste de textes : 

In [None]:
from transformers import BertTokenizer

# Création d'un objet Tokenizer de BERT
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Liste de textes à encoder
texts = ['Bonjour, comment vas-tu ?', 'Je vais bien, merci pour demander.']

# Encodage des textes avec batch_encode_plus
encoded_texts = tokenizer.batch_encode_plus(
    texts,             # Liste de textes à encoder
    padding=True,      # Rembourrage pour avoir la même longueur
    truncation=True,   # Troncature pour avoir la même longueur maximale
    max_length=32      # Longueur maximale des entrées
)

# Affichage des entrées encodées pour chaque texte
print(encoded_texts)


{'input_ids': [[101, 14753, 23099, 2099, 1010, 7615, 12436, 2015, 1011, 10722, 1029, 102, 0], [101, 15333, 12436, 2483, 29316, 1010, 21442, 6895, 10364, 5157, 2121, 1012, 102]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}


Noter que Le 0 entre ( 102, 0], [101,) est ajouté pour remplir la fin de la séquence qui a été tronquée. Il indique que la fin de la séquence a été atteinte et que les éléments suivants sont vides. Cela se produit car l'argument padding est défini sur True dans la méthode batch_encode_plus, ce qui ajoute du padding à la fin des séquences pour qu'elles aient toutes la même longueur. Dans ce cas, la longueur maximale est définie à 32, donc la séquence la plus courte est remplie de padding pour atteindre cette longueur maximale. Le 0 est le token d'ID correspondant au padding pour le tokenizer BERT. 

Dans cet exemple, nous créons un objet Tokenizer de BERT en utilisant from_pretrained. Ensuite, nous définissons une liste de textes à encoder. Nous passons cette liste de textes à batch_encode_plus avec les paramètres padding=True, truncation=True, et max_length=32. Cela permettra de rembourrer ou de tronquer les textes pour avoir une longueur maximale de 32.

Le résultat de batch_encode_plus est stocké dans la variable encoded_texts, qui est un dictionnaire contenant les entrées encodées pour chaque texte en entrée. Chaque clé du dictionnaire (input_ids, attention_mask, et éventuellement token_type_ids) correspond à un tableau numpy contenant les entrées encodées pour chaque texte. Les formes de ces tableaux numpy dépendent du nombre de textes en entrée et de la longueur maximale fixée.

Le nombre de paramètres pour la méthode batch_encode_plus dépendra de la tâche spécifique que vous essayez de résoudre et des exigences de votre modèle de langage pré-entraîné.

Par exemple, si vous effectuez une tâche de classification de texte, vous pourriez avoir besoin de renvoyer des tenseurs supplémentaires en plus des identifiants d'entrée encodés, tels que des masques d'attention (return_attention_mask) et des identifiants de type de jeton (return_token_type_ids). Ces informations peuvent aider le modèle à mieux comprendre la structure du texte et à effectuer la classification avec plus de précision.

D'un autre côté, si vous effectuez simplement une tâche de traitement de texte, comme la génération de texte ou l'extraction de texte, vous pourriez avoir besoin de moins d'informations supplémentaires. Dans ce cas, vous pouvez simplement encoder les textes avec les arguments padding, truncation, et max_length, comme nous l'avons vu dans l'exemple précédent.

En fin de compte, le nombre de paramètres pour la méthode batch_encode_plus dépendra des spécifications de votre tâche et de votre modèle, ainsi que des informations supplémentaires dont vous avez besoin pour effectuer l'encodage.

**Exemple 1 : Question-réponse**

In [None]:
import tensorflow as tf
from transformers import AutoTokenizer

# Charger le tokenizer
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased-distilled-squad")

# Exemple de texte et de question pour la tâche de question-réponse
context = "Le chat est un animal. La mer est bleue. Les roses sont rouges."
question = "Quelles sont les couleurs des roses ?"

# Encodage du texte et de la question avec le tokenizer
encoded_inputs = tokenizer.batch_encode_plus(
    [(context, question)],          # Tuple contenant le contexte et la question
    padding="max_length",           # Rembourrage pour avoir la même longueur
    truncation="only_second",       # Troncature de la question uniquement
    max_length=128,                 # Longueur maximale des entrées
    return_tensors="tf"             # Retourne des tenseurs TensorFlow
)

# Affichage des entrées encodées pour la tâche de question-réponse
print("Encoded inputs for question-answering:")
print(encoded_inputs)


Dans cet exemple, nous avons chargé le tokenizer pour le modèle DistilBERT et encodé un exemple de texte et de question pour la tâche de question-réponse. Les entrées sont encodées avec batch_encode_plus en spécifiant les options pour le rembourrage, la troncature et la longueur maximale des entrées, ainsi que le retour de tenseurs TensorFlow. Nous utilisons également un tuple avec le contexte et la question pour spécifier les textes à encoder.

Notez que cet exemple n'utilise pas de modèle pour effectuer la tâche de question-réponse, il s'agit uniquement d'un exemple d'encodage des entrées. Pour effectuer la tâche de question-réponse, il est nécessaire d'utiliser un modèle approprié, tel que TFAutoModelForQuestionAnswering dans le cas de TensorFlow.

In [None]:
from transformers import AutoTokenizer

# Chargement du tokenizer pour le modèle BERT
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Liste de textes à encoder
texts = ["Le chat est un animal.", "La mer est bleue.", "Les roses sont rouges."]

# Encodage des textes avec le tokenizer
encoded_texts = tokenizer.batch_encode_plus(
    texts,             # Liste de textes à encoder
    padding=True,      # Rembourrage pour avoir la même longueur
    truncation=True,   # Troncature pour avoir la même longueur maximale
    max_length=32      # Longueur maximale des entrées
)

# Affichage des textes encodés
print("Encoded texts :")
print(encoded_texts)


**Exemple 2 : Résumé automatique**

In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# Chargement du modèle de Résumé automatique T5
tokenizer = AutoTokenizer.from_pretrained("t5-small")
model = AutoModelForSeq2SeqLM.from_pretrained("t5-small")

# Texte à résumer
text = "DistilBERT is a lightweight natural language processing model that can be used for text classification, text extraction, and question answering. It has been pre-trained on the SQuAD dataset and fine-tuned on the MRPC dataset."

# Encodage du texte avec batch_encode_plus
encoded = tokenizer.batch_encode_plus(
    [text],              # Texte à encoder
    padding=True,        # Rembourrage pour avoir la même longueur
    truncation=True,     # Troncature pour avoir la même longueur maximale
    max_length=128,      # Longueur maximale des entrées
    return_attention_mask=True,# Renvoyer des masques d'attention
    return_tensors="pt"  # Renvoyer des tenseurs PyTorch
)

# Résumé de l'entrée encodée
outputs = model.generate(
    **encoded,           # Entrée encodée à résumer
    max_length=32,       # Longueur maximale du résumé
    early_stopping=True, # Arrêter la génération lorsque le modèle a fini de produire des résumés cohérents
    num_beams=2,         # Utiliser le décodage avec beam search avec 2 faisceaux
    length_penalty=2.0,  # Appliquer une pénalité de longueur pour favoriser les résumés plus courts
    no_repeat_ngram_size=3,# Empêcher la génération de trigrammes en double dans le résumé
    num_return_sequences=1 # Nombre de résumés à renvoyer
)

# Conversion du résumé en texte
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)

# Affichage du résumé
print("Résumé :", summary)


Dans cet exemple, nous utilisons batch_encode_plus pour encoder un texte pour la tâche de Résumé automatique avec un modèle T5 pré-entraîné. Nous passons le texte à batch_encode_plus avec les paramètres padding=True, truncation=True, max_length=128, return_attention_mask=True, et return_tensors="pt". Le résultat de batch_encode_plus est stocké dans la variable encoded, qui est un dictionnaire contenant l'entrée encodée pour le texte en tant que tenseur PyTorch.

Ensuite, nous passons cette entrée encodée à notre modèle T5 en utilisant la méthode generate(**encoded) avec **encoded pour passer les arguments d'encodage en tant qu'arguments nommés. Nous spécifions les paramètres de génération de résumé tels que max_length=32, early_stopping=True, num_beams=2, length_penalty=2.0, no_repeat_ngram_size=3, et num_return_sequences=1. Le résultat de generate est stocké dans la variable outputs, qui contient le résumé généré sous forme d'encodage de token.

**Exemple 3 : Traduction**

In [None]:

!pip install sentencepiece

In [None]:
!pip install sacremoses 

In [None]:
import tensorflow as tf
from transformers import AutoTokenizer

# Charger le tokenizer
tokenizer = AutoTokenizer.from_pretrained("facebook/wmt19-en-de")

# Exemple de texte à traduire
text = "The cat is sleeping on the sofa."

# Encodage du texte avec le tokenizer pour la traduction en français
encoded_inputs = tokenizer.batch_encode_plus(
    [text],                        # Liste contenant le texte à traduire
    padding="max_length",          # Rembourrage pour avoir la même longueur
    truncation=True,               # Troncature pour avoir la même longueur maximale
    max_length=128,                # Longueur maximale des entrées
    return_tensors="tf",           # Retourne des tenseurs TensorFlow
    src_lang="en",                 # Langue source (anglais)
    tgt_lang="fr"                  # Langue cible (français)
)

# Affichage du texte encodé pour la traduction
print("Encoded input for translation:")
print(encoded_inputs)


In [None]:
import tensorflow as tf
from transformers import AutoTokenizer, TFAutoModelForSeq2SeqLM

# Charger le modèle et le tokenizer
tokenizer = AutoTokenizer.from_pretrained("facebook/wmt19-en-de")
model = TFAutoModelForSeq2SeqLM.from_pretrained("opus-mt-en-de")

# Encoder les phrases en français
inputs = tokenizer.batch_encode_plus(
    ["Bonjour, comment allez-vous?", "Comment vous appelez-vous?", "Où habitez-vous?"],
    padding="max_length",
    truncation=True,
    max_length=128,
    return_attention_mask=True,
    return_tensors="tf"
)

# Faire la traduction
outputs = model.generate(
    input_ids=inputs["input_ids"],
    attention_mask=inputs["attention_mask"],
    max_length=128,
    num_beams=4,
    early_stopping=True
)

# Décodez les traductions en anglais
translations = [tokenizer.decode(output, skip_special_tokens=True) for output in outputs]

# Afficher les traductions
print(translations)


Dans cet exemple, nous utilisons batch_encode_plus pour encoder une seule phrase en anglais pour la traduction en français avec un modèle T5 pré-entraîné. Nous passons la phrase d'entrée à batch_encode_plus avec les paramètres padding=True, truncation=True, max_length=128, return_attention_mask=True, et return_tensors="pt". Le résultat de batch_encode_plus est stocké dans la variable encoded, qui est un dictionnaire contenant l'entrée encodée pour la phrase d'entrée en tant que tenseur PyTorch.

Ensuite, nous passons cette entrée encodée à notre modèle T5 en utilisant la méthode generate() avec différents paramètres pour obtenir la traduction. Enfin, nous utilisons la méthode decode(outputs[0], skip_special_tokens=True) pour convertir le tenseur de la traduction en français en une chaîne de caractères Python, que nous affichons.

**Exemple 4 : NER**

In [None]:
import tensorflow as tf
from transformers import AutoTokenizer,TFAutoModelForTokenClassification

# Charger le tokenizer
tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-large-cased-finetuned-conll03-english")

# Encoder les phrases en entrée
encoded_texts = tokenizer.batch_encode_plus(
    [
        "European authorities fined Google a record $5.1 billion on Wednesday.",
        "Steve Jobs was the CEO of Apple Corp.",
        "Elon Musk is the founder of Tesla.",
    ],
    padding=True,
    truncation=True,
    max_length=128,
    return_attention_mask=True,
    return_token_type_ids=False,
    return_offsets_mapping=True,
    return_special_tokens_mask=False,
    return_overflowing_tokens=False,
    return_length=False,
)

# Convertir les encodages en tenseurs TensorFlow
input_ids = tf.constant(encoded_texts["input_ids"])
attention_mask = tf.constant(encoded_texts["attention_mask"])
offsets = tf.constant(encoded_texts["offset_mapping"])

# Charger le modèle NER
model = TFAutoModelForTokenClassification.from_pretrained("dbmdz/bert-large-cased-finetuned-conll03-english")

# Faire la prédiction de NER
outputs = model(input_ids, attention_mask=attention_mask)

# Extraire les prédictions pour les entités nommées
predictions = tf.argmax(outputs.logits, axis=-1)

# Décoder les prédictions en entités nommées
decoded_predictions = []
for i, offsets_for_text in enumerate(offsets):
    decoded = []
    for j, offset in enumerate(offsets_for_text):
        if offset[0] == 0 and j != 0:
            decoded.append("|")
        decoded.append(tokenizer.convert_ids_to_tokens([predictions[i][j].numpy()])[0])
    decoded_predictions.append("".join(decoded))

# Afficher les prédictions en entités nommées
print(decoded_predictions)


Dans cet exemple, nous utilisons batch_encode_plus pour encoder une liste de phrases d'entrée pour l'extraction d'entités nommées avec un modèle de classification d'entités nommées NER de BERT pré-entraîné sur le corpus CoNLL-2003 en anglais. Nous passons la liste de phrases d'entrée à batch_encode_plus avec les paramètres padding=True, truncation=True, max_length=128, return_attention_mask=True, return_token_type_ids=False, return_offsets_mapping=True, et return_tensors="pt".

Le résultat de batch_encode_plus est stocké dans la variable encoded_texts, qui est un dictionnaire contenant les entrées encodées pour chaque phrase d'entrée en tant que tenseurs PyTorch. Ensuite, nous passons ces entrées encodées à notre modèle NER de BERT en utilisant la méthode __call__ (model(**encoded_texts)), ce qui renvoie un tenseur contenant les prédictions de notre modèle.