L'utilisation d'un modèle Hugging Face de traduction français-anglais pré-entraîné :**


**Objectif :** L'objectif de ce notebook est de démontrer comment utiliser un modèle Hugging Face pré-entraîné pour traduire du texte du français vers l'anglais.


Bien sûr, voici les étapes traduites en français :

**Étapes :**

1. **Mise en place de l'environnement :**
   - Créez un environnement Python et installez les bibliothèques nécessaires :
     ```bash
     pip install transformers
     ```

2. **Chargement du Modèle Pré-entraîné :**
   - Importez les bibliothèques nécessaires et chargez le modèle de traduction français-anglais pré-entraîné.
   ```python
   from transformers import MarianMTModel, MarianTokenizer
   
   nom_du_modele = "Helsinki-NLP/opus-mt-fr-en"
   modele = MarianMTModel.from_pretrained(nom_du_modele)
   tokenizer = MarianTokenizer.from_pretrained(nom_du_modele)
   ```

3. **Tokenisation du Texte d'Entrée :**
   - Tokenisez le texte d'entrée dans un format adapté pour le modèle.
   ```python
   texte_dentree = "Votre texte ici."  # Remplacez par votre propre texte
   entrees = tokenizer(texte_dentree, return_tensors="pt")
   ```

4. **Traduction du Texte :**
   - Utilisez le modèle pré-entraîné pour traduire le texte du français vers l'anglais.
   ```python
   with torch.no_grad():
       resultats = modele(**entrees)
   
   texte_traduit = tokenizer.decode(resultats.logits[0], skip_special_tokens=True)
   ```

5. **Affichage des Résultats :**
   - Affichez le texte traduit.
   ```python
   print(f"Texte d'Entrée (Français) : {texte_dentree}")
   print(f"Texte Traduit (Anglais) : {texte_traduit}")
   ```

6. **Exécution du Laboratoire :**
   - Exécutez le code pour effectuer la traduction. Assurez-vous d'avoir une connexion internet active pour télécharger le modèle et les dépendances.

7. **Interprétation :**
   - Observez et analysez la sortie traduite. Vérifiez la précision et la fluidité de la traduction.

**Remarque :**
- Vous pouvez remplacer la variable `nom_du_modele` par d'autres modèles pré-entraînés disponibles sur le hub de modèles Hugging Face pour différentes paires de langues ou variations.
- Assurez-vous d'avoir une connexion internet lors de la première exécution du script pour télécharger le modèle et le tokeniseur.


In [None]:

#!pip install transformers

In [1]:
#!pip install sentencepiece



DEPRECATION: Loading egg at c:\users\nmadali\appdata\local\anaconda3\lib\site-packages\pyasn1_modules-0.3.0-py3.11.egg is deprecated. pip 23.3 will enforce this behaviour change. A possible replacement is to use pip for package installation..


In [None]:
import torch
from transformers import MarianMTModel, MarianTokenizer

nom_du_modele = "Helsinki-NLP/opus-mt-fr-en"
modele = MarianMTModel.from_pretrained(nom_du_modele)
tokenizer = MarianTokenizer.from_pretrained(nom_du_modele)






**Qu'est-ce que la classe MarianMTModel :**

`MarianMTModel` est une classe fournie par la bibliothèque `transformers` de Hugging Face. Elle fait partie de la famille de modèles MarianMT (Multilingual Translation), conçus pour les tâches de traduction automatique multilingue, vous permettant de traduire du texte entre diverses paires de langues.

Le modèle `MarianMTModel` est basé sur le système de traduction automatique neuronal Marian développé par l'Université d'Édimbourg et l'Université de Tartu. Il est particulièrement reconnu pour son efficacité et son efficacité dans le traitement des tâches de traduction multilingue.

Voici un bref aperçu de `MarianMTModel` :

- **Architecture :** Il est généralement basé sur l'architecture transformer, similaire aux modèles tels que BERT, GPT, etc. Plus précisément, il utilise des variantes de l'architecture transformer adaptées aux tâches de traduction automatique.

- **Pré-entraînement :** Le modèle est généralement pré-entraîné sur un grand corpus de données texte multilingues, ce qui lui permet de comprendre et de générer des traductions pour diverses paires de langues.

- **Ajustement fin :** Bien que vous puissiez effectuer un ajustement fin de ces modèles sur des tâches de traduction spécifiques, ils sont souvent utilisés tels quels en raison de leur efficacité dans le traitement de plusieurs langues.

- **Agnostique de la langue :** Une des caractéristiques clés des modèles MarianMT est leur capacité à gérer plusieurs langues sans avoir besoin de modèles spécifiques à chaque langue. Cela les rend particulièrement utiles pour les tâches impliquant la traduction entre des langues qui n'ont peut-être pas de modèles pré-entraînés dédiés disponibles.

- **Hub de Modèles Hugging Face :** Le modèle est disponible sur le Hub de Modèles Hugging Face, qui propose un référentiel de modèles pré-entraînés pouvant être facilement utilisés dans diverses tâches de traitement du langage naturel.

En pratique, vous pouvez utiliser `MarianMTModel` ainsi que son tokeniseur correspondant (généralement `MarianTokenizer`) pour effectuer des tâches de traduction multilingue. C'est un outil puissant pour les tâches impliquant la traduction entre différentes langues, et il est largement utilisé dans la recherche et le développement de systèmes de traduction automatique.


In [None]:
texte_dentree = ["Quelle heure est-il ?", 'Il fait très froid' ] # Remplacez par votre propre texte
entrees = tokenizer(texte_dentree, return_tensors="pt", padding=True)


In [None]:
tokenizer.tokenize(texte_dentree[0]), tokenizer.tokenize(texte_dentree[1])

(['▁Quelle', '▁heure', '▁est', '-', 'il', '▁?'],
 ['▁Il', '▁fait', '▁très', '▁froid'])

In [None]:
print(entrees)

{'input_ids': tensor([[ 4717,  4352,    43,    21,   107,    99,     0],
        [  104,   148,   366, 10135,     0, 59513, 59513]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 0, 0]])}


In [30]:
tokenizer.convert_ids_to_tokens([ 59513])

['▁Quelle', '▁heure', '▁est', '-', 'il', '▁?', '</s>']

In [None]:
with torch.no_grad():
    resultats = modele.generate(**entrees)

print(resultats.shape,' ',resultats)
for i in range(len(texte_dentree)):
  texte_traduit = tokenizer.decode(resultats[i], skip_special_tokens=True)
  print(texte_dentree[i],'--->',texte_traduit)

torch.Size([2, 8])   tensor([[59513,   430,   195,    32,    61,    54,     0, 59513],
        [59513,   138,     6,     9,   420,  6793,     3,     0]])
Quelle heure est-il ? ---> What time is it?
Il fait très froid ---> It's very cold.
