# Le modèle T5

 le modèle T5 (Text-To-Text Transfer Transformer) est un type d'architecture de réseau neuronal basé sur des transformers développé par Google AI. Il a été introduit dans un article de recherche intitulé "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" en 2019.


 <img src="https://drive.google.com/uc?export=view&id=1-1tPmR0H0TWNeVciSFgeb1F1V2tZIrZ2">

L'idée clé derrière T5 est de formuler diverses tâches de traitement du langage naturel (NLP) sous forme de problèmes texte-vers-texte. Contrairement aux modèles précédents conçus pour des tâches spécifiques (comme la traduction de langues, la résumé de texte, etc.), T5 a été créé avec un cadre unifié où toutes les tâches NLP sont présentées sous un format "texte-vers-texte".

Au lieu d'avoir différentes architectures pour des tâches telles que la traduction, la résumé, la réponse à des questions, etc., T5 aborde ces tâches de manière similaire : en convertissant du texte d'entrée en texte de sortie. Cela simplifie la conception du modèle et lui permet de gérer une large gamme de tâches en affinant les données spécifiques à chaque tâche.

T5 fonctionne à l'aide de l'architecture transformer, qui inclut des mécanismes d'auto-attention pour capturer les relations entre différents mots dans une phrase ou une séquence de texte. Il se compose d'une structure encodeur-décodeur où le texte d'entrée est transformé en une représentation vectorielle continue de longueur fixe, puis décodé dans le format de sortie souhaité.

Un des avantages de T5 est sa capacité à atteindre des performances de pointe sur plusieurs benchmarks de NLP en affinant le modèle sur des ensembles de données spécifiques à différentes tâches. Son approche texte-vers-texte offre un cadre flexible et généralisable pour diverses tâches de compréhension du langage.

T5 a été influent en démontrant l'efficacité du transfert d'apprentissage dans le traitement du langage naturel et a inspiré de nouvelles recherches pour créer des modèles plus polyvalents et efficaces pour la compréhension et la génération de langage humain.

## Variantes du modèle T5
Les  différentes variantes du modèle T5 sont:

1. **T5-Small (Petit T5)** : La version T5-Small est une version plus légère du modèle T5, avec moins de paramètres et donc une capacité de traitement réduite par rapport aux versions plus grandes. Elle est adaptée pour des tâches de traitement du langage moins complexes ou pour des ressources informatiques limitées.

2. **T5-Base (T5 de base)** : T5-Base est une version intermédiaire du modèle T5, offrant un équilibre entre la taille et les performances. Elle est utilisée pour des tâches de traitement du langage naturel variées et est plus puissante que T5-Small, mais moins que les versions plus grandes.

3. **T5-Large (Grand T5)** : Le modèle T5-Large est une version plus grande et plus puissante de T5, avec un plus grand nombre de paramètres. Il est capable de traiter des tâches de traitement du langage plus complexes et de capturer des nuances plus fines dans les données textuelles.

4. **T5-3B** : T5-3B est une version encore plus grande que T5-Large, avec un nombre encore plus élevé de paramètres. Elle est conçue pour gérer des tâches de traitement du langage naturel très exigeantes nécessitant une énorme capacité de calcul.

5. **T5-11B** : T5-11B est la version la plus grande et la plus puissante de T5, avec un nombre massif de paramètres. Elle est destinée à des travaux de recherche avancés ou à des cas d'utilisation nécessitant une énorme capacité de traitement.

Ces différentes variantes du modèle T5 sont conçues pour répondre à différents besoins en termes de capacité de traitement, de taille du modèle et de complexité des tâches de traitement du langage naturel. Elles offrent des options adaptées à divers scénarios d'utilisation et de ressources disponibles.

In [1]:
#!pip install transformers

In [2]:
#!pip install sentencepiece

In [3]:
import torch
import json
from transformers import T5Tokenizer, T5ForConditionalGeneration, T5Config

model = T5ForConditionalGeneration.from_pretrained('t5-large')
tokenizer = T5Tokenizer.from_pretrained('t5-large')
device = torch.device('cpu')

For now, this behavior is kept to avoid breaking backwards compatibility when padding/encoding with `truncation is True`.
- Be aware that you SHOULD NOT rely on t5-large automatically truncating your input to 512 when padding/encoding.
- If you want to encode/pad to sequences longer than 512 you can either instantiate this tokenizer with `model_max_length` or pass `max_length` when encoding/padding.
You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thouroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


# Traduction anglais vers français

La traduction linguistique est la tâche PNL dans laquelle un modèle, à partir d'un texte dans une langue, produit une version traduite du même texte dans une autre langue.

Le modèle T5 a été formé sur l'ensemble de données C4, qui contient les langues suivantes : anglais, allemand, français et roumain.

Grâce à T5, nous pouvons traduire entre ces langues.
Ci-dessous, nous allons traduire de l’anglais vers le français. Pour la traduction, nous devons ajouter le préfixe **translate English to French:**  à la séquence d'entrée.


In [4]:
# Example text for translation
english_text = "Hello, how are you?"

input_text = "translate English to French: " + english_text
input_ids = tokenizer.encode(input_text, return_tensors="pt")

# Generate translation
outputs = model.generate(input_ids=input_ids, max_length=200, num_return_sequences=1, early_stopping=True)

# Decode the generated output
translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)



In [5]:
print("English:", english_text)
print("French:", translated_text)

English: Hello, how are you?
French: Bonjour, comment êtes-vous?


#Résumé du texte


La synthèse de texte est la tâche PNL dans laquelle un modèle, à partir d'une longue séquence de texte, produit une version résumée de l'entrée.


Pour résumer, nous devons ajouter le préfixe **summarize : ** à la séquence d'entrée.

In [6]:
text="""
The United States Declaration of Independence was the first Etext
released by Project Gutenberg, early in 1971.  The title was stored
in an emailed instruction set which required a tape or diskpack be
hand mounted for retrieval.  The diskpack was the size of a large
cake in a cake carrier, cost $1500, and contained 5 megabytes, of
which this file took 1-2%.  Two tape backups were kept plus one on
paper tape.  The 10,000 files we hope to have online by the end of
2001 should take about 1-2% of a comparably priced drive in 2001.
"""

In [8]:
preprocess_text = text.strip().replace("\n","")
t5_prepared_Text = "summarize: "+preprocess_text

tokenized_text = tokenizer.encode(t5_prepared_Text, return_tensors="pt").to(device)

summary_ids = model.generate(tokenized_text,
                                      num_beams=4,
                                      no_repeat_ngram_size=2,
                                      min_length=30,
                                      max_length=50,
                                      early_stopping=True)

output = tokenizer.decode(summary_ids[0], skip_special_tokens=True)


In [10]:

print ("\n\nSummarized text: \n",output)




Summarized text: 
 the united states declaration of independence was the first etext published by project gutenberg, early in 1971. the 10,000 files we hope to have online by the end of2001 should take about 1-2% of a comparably priced drive in 2001.


# Implication textuelle

L'implication textuelle est une tâche de PNL dans laquelle un modèle reçoit deux phrases, l'une étant la prémisse et l'autre l'hypothèse. Sur la base de ces deux phrases, le résultat est classé en trois classes : implication, contradiction et neutre.

Pour l'implication textuelle, nous devons ajouter « mnli prémisse : » et « hypothèse : » aux paires de phrases.


In [11]:
entailment_premise = ("I love One Piece.")
entailment_hypothesis = ("My feelings towards One Piece is filled with love")
input_ids = tokenizer("mnli premise: "+entailment_premise+" hypothesis: "+entailment_hypothesis, return_tensors="pt").input_ids
entailment_ids = model.generate(input_ids)
entailment = tokenizer.decode(entailment_ids[0],skip_special_tokens=True)
print(entailment)




entailment


# Acceptabilité linguistique

L'acceptabilité linguistique est une tâche de PNL dans laquelle un modèle, à l'aide d'une invite de texte, vérifie si la phrase est grammaticalement correcte.

Pour l'acceptabilité linguistique, nous devons ajouter « phrase cola : » à la phrase. COLA est l'ensemble de données qui contient des phrases mappées selon leur acceptabilité.

"

In [15]:
sentence = ("Luffy is a great pirate.")
input_ids = tokenizer("cola sentence: "+ sentence, return_tensors="pt").input_ids
sentence_ids = model.generate(input_ids)
sentence = tokenizer.decode(sentence_ids[0],skip_special_tokens=True)
print(sentence)


acceptable


# Similitude des phrases

La similarité de phrases est une tâche de PNL dans laquelle un modèle, étant donné deux paires de phrases, évaluerait leur similarité sur une échelle de 1 à 5. La sortie est considérée comme une valeur de chaîne et est incrémentée de 0,2. Cela signifie que nous pouvons considérer cela comme une tâche de classification de texte avec 21 classes : 1.0, 1.2,… 5.0.

Pour la similarité des phrases, nous devons ajouter « phrase stsb 1 : » et « phrase 2 : » aux paires de phrases.

In [16]:
stsb_sentence_1 = ("Luffy was fighting in the war.")
stsb_sentence_2 = ("Luffy's fighting style is comical.")
input_ids = tokenizer("stsb sentence 1: "+stsb_sentence_1+" sentence 2: "+stsb_sentence_2, return_tensors="pt").input_ids
stsb_ids = model.generate(input_ids)
stsb = tokenizer.decode(stsb_ids[0],skip_special_tokens=True)
print(stsb)


2.4
