#  Que peuvent faire les *transformers* ?

Installez la biblioth√®que ü§ó *Transformers* pour ex√©cuter ce *notebook*.

L'outil le plus basique de la biblioth√®que ü§ó *Transformers* est la fonction `pipeline()`. Elle relie un mod√®le avec ses √©tapes de pr√©-traitement et de post-traitement, permettant d'entrer n'importe quel texte et d'obtenir une r√©ponse compr√©hensible :

In [9]:
%pip install "transformers[torch]"

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
You should consider upgrading via the '/Users/ashnaahmad/Documents/GitHub/course/.env/bin/python -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [10]:
from transformers import pipeline

In [11]:
classifier = pipeline("sentiment-analysis")
classifier(
    "I've been waiting for a HuggingFace course my whole life."
)  # J'ai attendu un cours d'HuggingFace toute ma vie.

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'POSITIVE', 'score': 0.9598049521446228}]

classifier = pipeline("application")
classifier("sentence", "sentence") to run multiple sentences through the application

Par d√©faut, ce pipeline s√©lectionne un mod√®le pr√©-entra√Æn√© qui a √©t√© sp√©cifiquement entra√Æn√© pour l'analyse de sentiment en anglais. Le mod√®le est t√©l√©charg√© et mis en cache lorsque vous cr√©ez l'objet `classifier`. Si vous r√©ex√©cutez la commande, c'est le mod√®le mis en cache qui sera utilis√© et il n'y a pas besoin de t√©l√©charger le mod√®le √† nouveau.

Il y a trois √©tapes principales lorsque vous passez du texte √† un pipeline :

1. le texte est pr√©trait√© pour qu'il ait un format compr√©hensible par le mod√®le,
2. les donn√©es pr√©trait√©es sont pass√©es au mod√®le,
3. les pr√©dictions du mod√®le sont post-trait√©es de sorte que vous puissiez les comprendre.


Voici une liste non-exhaustive des [pipelines disponibles](https://huggingface.co/transformers/main_classes/pipelines.html) :

- `feature-extraction` (pour obtenir la repr√©sentation vectorielle d'un texte)
- `fill-mask`
- `ner` (*named entity recognition* ou reconnaissance d'entit√©s nomm√©es en fran√ßais)
- `question-answering`
- `sentiment-analysis`
- `summarization`
- `text-generation`
- `translation`
- `zero-shot-classification`

Regardons de plus pr√®s certains d'entre eux !

### Analyse de sentiments

i guess a particular model as well as a particular application is also a parameter of pipeline (see below). also when using a specific model, make sure it uses the right framework (pt/tf)

In [12]:
classifier = pipeline("sentiment-analysis")
classifier("I've been waiting for a HuggingFace course my whole life.")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'POSITIVE', 'score': 0.9598049521446228}]

In [14]:
classifier = pipeline("sentiment-analysis", model="philschmid/pt-tblard-tf-allocine")
classifier("J'ai attendu un cours d'HuggingFace toute ma vie.") 

Downloading (‚Ä¶)lve/main/config.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 896/896 [00:00<00:00, 90.8kB/s]
Downloading (‚Ä¶)"pytorch_model.bin";: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 443M/443M [00:34<00:00, 13.0MB/s] 
Downloading (‚Ä¶)okenizer_config.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 631/631 [00:00<00:00, 52.3kB/s]
Downloading (‚Ä¶)ncepiece.bpe.model";: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 811k/811k [00:00<00:00, 1.91MB/s]
Downloading (‚Ä¶)/main/tokenizer.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1.40M/1.40M [00:02<00:00, 468kB/s]
Downloading (‚Ä¶)cial_tokens_map.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 210/210 [00:00<00:00, 51.5kB/s]


[{'label': 'NEGATIVE', 'score': 0.8035174608230591}]

Int√©ressant ! On observe que le r√©sultat est n√©gatif l√† o√π pour la version en anglais le r√©sultat est positif.

In [None]:
classifier(
    ["J'ai attendu un cours d'HuggingFace toute ma vie.", 
     "Je d√©teste tellement √ßa !"]
) # pour classifier plusieurs phrases

La phrase "J'ai attendu un cours d'HuggingFace toute ma vie." qui √©tait pr√©cedemment n√©gative devient √† pr√©sent positive.

### Z√©ro shot classification

Nous allons commencer par nous attaquer √† une t√¢che plus difficile o√π nous devons classer des textes qui n'ont pas √©t√© annot√©s. C'est un sc√©nario tr√®s r√©pandu dans les projets r√©els car l'annotation de textes est g√©n√©ralement longue et n√©cessite parfois une expertise dans un domaine. Pour ce cas d'usage, le pipeline `zero-shot-classification` est tr√®s puissant : il vous permet de **sp√©cifier les labels** √† utiliser pour la classification, de sorte que **vous n'ayez pas √† vous soucier des labels du mod√®le pr√©-entra√Æn√©**. Nous avons d√©j√† vu comment le mod√®le peut classer un texte comme positif ou n√©gatif en utilisant ces deux labels mais **il peut √©galement classer le texte en utilisant n'importe quel autre ensemble de labels que vous souhaitez.**

In [15]:
classifier = pipeline("zero-shot-classification", model="BaptisteDoyen/camembert-base-xnli") # set model
classifier(
    "C'est un cours sur la biblioth√®que Transformers",
    candidate_labels=["√©ducation", "politique", "affaires"], # set custom models for classification, which will be assigned based on training (learned association of words with labels)
)

Downloading (‚Ä¶)lve/main/config.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 882/882 [00:00<00:00, 86.2kB/s]
Downloading (‚Ä¶)"pytorch_model.bin";: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 443M/443M [00:07<00:00, 60.7MB/s] 
Downloading (‚Ä¶)okenizer_config.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 433/433 [00:00<00:00, 88.5kB/s]
Downloading (‚Ä¶)ncepiece.bpe.model";: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 811k/811k [00:00<00:00, 8.59MB/s]
Downloading (‚Ä¶)cial_tokens_map.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 299/299 [00:00<00:00, 196kB/s]


{'sequence': "C'est un cours sur la biblioth√®que Transformers",
 'labels': ['√©ducation', 'affaires', 'politique'],
 'scores': [0.8710299134254456, 0.09802455455064774, 0.030945533886551857]}

### G√©n√©ration de texte

Maintenant, nous allons voir comment utiliser un pipeline pour g√©n√©rer du texte. L'id√©e principale ici est que vous fournissez seulement un extrait de texte qui **va √™tre compl√©t√© par du texte g√©n√©r√© automatiquement** par le mod√®le. Cette fonction est similaire √† la fonction de texte pr√©dictif que l'on trouve sur de nombreux t√©l√©phones portables. La g√©n√©ration de texte implique de l'al√©atoire, donc il est normal que vous n'obteniez pas les m√™mes r√©sultats que ceux pr√©sent√©s ci-dessous.

Vous pouvez am√©liorer votre recherche de mod√®le (model=) en cliquant sur les *filtres* de langue et choisir un mod√®le qui g√©n√®re du texte dans une autre langue. Le *Hub* contient √©galement des *checkpoints* pour des mod√®les multilingues qui supportent plusieurs langues.

Une fois que vous avez choisi un mod√®le, vous verrez que vous pouvez tester son fonctionnement en ligne directement. Cela vous permet de tester rapidement les capacit√©s du mod√®le avant de le t√©l√©charger.

Tous les mod√®les peuvent √™tre test√© directement depuis votre navigateur en utilisant l'API d'inf√©rence qui est disponible sur le site [Hugging Face](https://huggingface.co/). Vous pouvez jouer avec le mod√®le directement sur sa page en entrant du texte personnalis√© et en regardant le mod√®le traiter les donn√©es d'entr√©e.

In [None]:
generator = pipeline("text-generation", model="asi/gpt-fr-cased-small")
generator("# Dans ce cours, nous vous enseignerons comment")

In [None]:
generator = pipeline("text-generation", model="asi/gpt-fr-cased-small")
generator(
    "# Dans ce cours, nous vous enseignerons comment",
    max_length=30,  #parameters
    num_return_sequences=1,
)

### Remplacement des mots masqu√©s

L'argument `top_k` permet de contr√¥ler le nombre de possibilit√©s que vous souhaitez afficher. Notez que dans ce cas, le mod√®le **remplace le mot sp√©cial `<mask>`**, qui est souvent appel√© un **mot masqu√©**. D'autres mod√®les permettant de remplacer les mots manquants peuvent avoir des mots masqu√©s diff√©rents, donc il est toujours bon de v√©rifier le mot masqu√© appropri√© lorsque vous comparez d'autres mod√®les. Une fa√ßon de le v√©rifier est de regarder le mot masqu√© utilis√© dans l'outil de test de la page du mod√®le.

In [16]:
unmasker = pipeline("fill-mask", model="camembert-base")
unmasker(" Ce cours vous apprendra tout sur les mod√®les <mask>.", top_k=2)

Downloading (‚Ä¶)lve/main/config.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 508/508 [00:00<00:00, 48.5kB/s]
Downloading (‚Ä¶)"pytorch_model.bin";: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 445M/445M [00:06<00:00, 69.5MB/s] 
Downloading (‚Ä¶)tencepiece.bpe.model: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 811k/811k [00:01<00:00, 638kB/s]
Downloading (‚Ä¶)/main/tokenizer.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1.40M/1.40M [00:00<00:00, 1.48MB/s]


[{'score': 0.107318215072155,
  'token': 15328,
  'token_str': 'automobiles',
  'sequence': 'Ce cours vous apprendra tout sur les mod√®les automobiles.'},
 {'score': 0.07520466297864914,
  'token': 4007,
  'token_str': '√©lectriques',
  'sequence': 'Ce cours vous apprendra tout sur les mod√®les √©lectriques.'}]

### Reconnaissance d'entit√©s nomm√©es

In [None]:
ner = pipeline("ner", model="Jean-Baptiste/camembert-ner", grouped_entities=True)
ner("Je m'appelle Sylvain et je travaille √† Hugging Face √† Brooklyn.")

Nous pouvons voir que le mod√®le a correctement identifi√© Sylvain comme une personne (PER), Hugging Face comme une organisation (ORG) et Brooklyn comme un lieu (LOC).

Il est possible d'utiliser l'option `grouped_entities=True` lors de la cr√©ation du pipeline pour **regrouper les parties du texte qui correspondent √† la m√™me entit√© : ici le mod√®le √† correctement regroup√© `Hugging` et `Face` comme une seule organisation**, m√™me si le nom comporte plusieurs mots. En effet, comme nous allons voir dans le prochain chapitre, la pr√©traitement du texte s√©pare parfois certains mots en plus petites parties. Par exemple, `Sylvain` est s√©par√© en quatre morceaux : `S`, `##yl`, `##va`, et `##in`. Dans l'√©tape de post-traitement, le pipeline a r√©ussi √† regrouper ces morceaux.

### R√©ponse √† des questions

In [None]:
question_answerer = pipeline("question-answering", model="etalab-ia/camembert-base-squadFR-fquad-piaf")
question_answerer(
    question="O√π est-ce que je travaille ?",
    context="Je m'appelle Sylvain et je travaille √† Hugging Face √† Brooklyn.",
)

###  R√©sum√©

In [None]:
summarizer = pipeline("summarization", model="moussaKam/barthez-orangesum-abstract")
summarizer(
    """
    L'Am√©rique a chang√© de fa√ßon spectaculaire au cours des derni√®res ann√©es. Non seulement le nombre de 
    dipl√¥m√©s dans les disciplines traditionnelles de l'ing√©nierie telles que le g√©nie m√©canique, civil, 
    l'√©lectricit√©, la chimie et l'a√©ronautique a diminu√©, mais dans la plupart 
    des grandes universit√©s am√©ricaines, les programmes d'√©tudes d'ing√©nierie se concentrent d√©sormais sur 
    et encouragent largement l'√©tude des sciences de l'ing√©nieur. Par cons√©quent, il y a 
    de moins en moins d'offres dans les sujets d'ing√©nierie traitant de l'infrastructure, 
    l'environnement et les questions connexes, et une plus grande concentration sur les sujets de haute 
    technologie, qui soutiennent en grande partie des d√©veloppements scientifiques de plus en plus 
    complexes. Si cette derni√®re est importante, elle ne doit pas se faire au d√©triment
    de l'ing√©nierie plus traditionnelle.

    Les √©conomies en d√©veloppement rapide telles que la Chine et l'Inde, ainsi que d'autres 
    pays industrialis√©s d'Europe et d'Asie, continuent d'encourager et de promouvoir
    l'enseignement de l'ing√©nierie. La Chine et l'Inde, respectivement, dipl√¥ment 
    six et huit fois plus d'ing√©nieurs traditionnels que les √âtats-Unis. 
    Les autres pays industriels maintiennent au minimum leur production, tandis que l'Am√©rique 
    souffre d'une baisse de plus en plus importante du nombre de dipl√¥m√©s en ing√©nierie
    et un manque d'ing√©nieurs bien form√©s.
"""
)

###  Traduction

In [None]:
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-en-fr")
translator("This course is produced by Hugging Face.")