# Hugging Face Transformers 
Adapt√© de : cours NLP dispens√© √† Stanforfd et Hugging Face (Cours NLP)

Ce notebook pr√©sente la biblioth√®que Python Hugging Face Transformers et quelques mod√®les courants que vous pouvez utiliser pour en tirer parti. Elle est particuli√®rement utile pour utiliser ou affiner des mod√®les de transformateurs pr√©-entra√Æn√©s pour vos projets.

Hugging Face fournit un acc√®s aux mod√®les (√† la fois le code qui les impl√©mente et leurs poids pr√©-entra√Æn√©s (checkpoints), y compris les derniers LLMs comme Llama3, DBRX, etc), aux tokenizers sp√©cifiques aux mod√®les, ainsi qu'aux pipelines pour les t√¢ches courantes de NLP, et aux ensembles de donn√©es et m√©triques dans un paquetage s√©par√© `datasets`. 
Il existe des impl√©mentations en PyTorch, Tensorflow et Flax (mais nous utiliserons ici les versions PyTorch !).

Nous allons passer en revue quelques cas d'utilisation :
* Partie 1: Que peuvent faire les tansformers: Quelques Pipelines (end-to-end)(pr√™t √† l'emploi - **off-the-shelf**) pour r√©aliser diff√©rentes t√¢ches
* Partie 2 : Exploitation des transformers : vue d'ensemble des tokenizers et des mod√®les
* Partie 3 : Finetuning - pour votre propre t√¢che. Nous utiliserons un exemple de classification de sentiments.

Voici des ressources suppl√©mentaires introduisant la biblioth√®que qui ont √©t√© utilis√©es pour r√©aliser ce tutoriel :

* [Hugging Face Docs] (https://huggingface.co/docs/transformers/index)
  * Documentation claire
  * Tutoriels, visites guid√©es et carnets d'exemples
  * Liste des mod√®les disponibles
* [Hugging Face Course](https://huggingface.co/course/) (Plusieurs langues) 
* [Hugging Face Examples](https://github.com/huggingface/transformers/tree/main/examples/pytorch) Vous pouvez trouver des structures de code tr√®s similaires pour des t√¢ches/mod√®les en aval tr√®s diff√©rents en utilisant Huggingface.


#  Partie I- Pipelines : que peuvent faire les *transformers* ?

ü§ó  proposent plusieurs pipelines, des mod√®les pr√©-entrain√©es pour r√©aliser des t√¢ches sp√©cifiques: analyse de sentiment, r√©sum√©, quesion r√©ponse, NER, traduction.
(https://huggingface.co/docs/transformers/main_classes/pipelines)


Installez la biblioth√®que ü§ó *Transformers* pour ex√©cuter ce *notebook*.


In [None]:
!pip install transformers -q
#!pip install transformers [sentencepiece] # pTransformers avec les d√©pendances pour SentencePiece.


In [None]:
#!pip install tf-keras

### Les pipelines :
L‚Äôoutil le plus basique de la biblioth√®que ü§ó Transformers est la fonction pipeline(). Elle relie un mod√®le avec ses √©tapes de pr√©-traitement et de post-traitement, permettant d‚Äôentrer n‚Äôimporte quel texte et d‚Äôobtenir une r√©ponse compr√©hensible :
<img src="./images/pipline.jpg"  style="width:550px;height:150px;" >

In [None]:
from transformers import pipeline

### 1 Exemple de pipeline : Analyse de sentiments

In [None]:
classifier = pipeline("sentiment-analysis")
classifier("I've been waiting for a HuggingFace course my whole life.")

In [None]:
# Cr√©ation de la pipeline
classifier = pipeline("sentiment-analysis")

# Inspection du mod√®le utilis√© par d√©faut
print("Mod√®le utilis√© : par d√©faut", classifier.model.name_or_path)


In [None]:
import webbrowser
from transformers import pipeline

model_name = pipeline("sentiment-analysis").model.name_or_path
webbrowser.open(f"https://huggingface.co/{model_name}")


In [None]:
classifier = pipeline("sentiment-analysis", model="tblard/tf-allocine")
classifier("J'ai attendu un cours d'HuggingFace toute ma vie.") 

Int√©ressant ! On observe que le r√©sultat est n√©gatif l√† o√π pour la version en anglais le r√©sultat est positif.

#### On peut fournir plusieurs textes

In [None]:
classifier(
    ["J'ai attendu un cours d'HuggingFace toute ma vie.", 
     "Je d√©teste tellement √ßa !"]
) # pour classifier plusieurs phrases

#### Voici une liste non-exhaustive des pipelines disponibles :

- feature-extraction (pour obtenir la repr√©sentation vectorielle d‚Äôun texte)
- fill-mask
- ner (named entity recognition ou reconnaissance d‚Äôentit√©s nomm√©es en fran√ßais)
- question-answering
- sentiment-analysis
- summarization
- text-generation
- translation
- zero-shot-classification

### 2.  Classification
#### Z√©ro shot classification
Classer des textes qui n‚Äôont pas √©t√© annot√©s. 

In [None]:
classifier = pipeline("zero-shot-classification")
classifier(
    "C'est un cours sur la biblioth√®que Transformers",
    candidate_labels=["√©ducation", "politique", "affaires"],
)

### 3.  G√©n√©ration de textes

In [None]:
generator = pipeline("text-generation", model="asi/gpt-fr-cased-small")
generator("# Dans ce cours, nous vous enseignerons comment")

In [None]:
# version en anglais
enerator = pipeline("text-generation")
generator("In this course, we will teach you how to")

In [None]:
# model="distilgpt2", ou un autre mod√®le pour les textes en anglais
#model="asi/gpt-fr-cased-small" pour des yextes en fran√ßais (exemple pris √† ttre indicatif)
generator = pipeline("text-generation",model="distilgpt2" )
generator(
    "In this course, we will teach you how to",
    max_length=30,
    num_return_sequences=1,
)

### 4. Remplacement des mots masqu√©s

In [None]:
#exemple de mod√®les
#model="camembert-base" pour le francais
unmasker = pipeline("fill-mask")
unmasker("This course will teach you all about <mask> models.", top_k=2)

### 5. Reconnaissance d'entit√©s nomm√©es

In [None]:
#mod√®les
# pour le rancais : model="Jean-Baptiste/camembert-ner"
ner = pipeline("ner", grouped_entities=True)
ner("My name is Sylvain and I work at Hugging Face in Brooklyn.")
#ner("Je m'appelle Sylvain et je travaille √† Hugging Face √† Brooklyn.")

### 6. R√©ponse √† des questions

In [None]:
#Mod√®le pour le fran√ßais
#model="etalab-ia/camembert-base-squadFR-fquad-piaf"
question_answerer = pipeline("question-answering")
question_answerer(
    question="Where do I work?",
    context="My name is Sylvain and I work at Hugging Face in Brooklyn",
)

In [None]:

# Inspection du mod√®le utilis√© par d√©faut
print("Mod√®le utilis√© :", question_answerer.model.name_or_path)


### 7. R√©sum√©

In [None]:
summarizer = pipeline("summarization", model="moussaKam/barthez-orangesum-abstract")
summarizer(
    """
    L'Am√©rique a chang√© de fa√ßon spectaculaire au cours des derni√®res ann√©es. Non seulement le nombre de 
    dipl√¥m√©s dans les disciplines traditionnelles de l'ing√©nierie telles que le g√©nie m√©canique, civil, 
    l'√©lectricit√©, la chimie et l'a√©ronautique a diminu√©, mais dans la plupart 
    des grandes universit√©s am√©ricaines, les programmes d'√©tudes d'ing√©nierie se concentrent d√©sormais sur 
    et encouragent largement l'√©tude des sciences de l'ing√©nieur. Par cons√©quent, il y a 
    de moins en moins d'offres dans les sujets d'ing√©nierie traitant de l'infrastructure, 
    l'environnement et les questions connexes, et une plus grande concentration sur les sujets de haute 
    technologie, qui soutiennent en grande partie des d√©veloppements scientifiques de plus en plus 
    complexes. Si cette derni√®re est importante, elle ne doit pas se faire au d√©triment
    de l'ing√©nierie plus traditionnelle.

    Les √©conomies en d√©veloppement rapide telles que la Chine et l'Inde, ainsi que d'autres 
    pays industrialis√©s d'Europe et d'Asie, continuent d'encourager et de promouvoir
    l'enseignement de l'ing√©nierie. La Chine et l'Inde, respectivement, dipl√¥ment 
    six et huit fois plus d'ing√©nieurs traditionnels que les √âtats-Unis. 
    Les autres pays industriels maintiennent au minimum leur production, tandis que l'Am√©rique 
    souffre d'une baisse de plus en plus importante du nombre de dipl√¥m√©s en ing√©nierie
    et un manque d'ing√©nieurs bien form√©s.
"""
)

### 9. Traduction

In [None]:
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-en-fr")
translator("This course is produced by Hugging Face.")

### 10. Pipleone avec choix de la t√¢che et du mod√®le

In [None]:
from transformers import pipeline

mon_pipeline = pipeline(
    task="nom_de_la_t√¢che",
    model="nom_du_mod√®le",
    tokenizer="nom_du_tokenizer",  # optionnel si identique au mod√®le
)


In [None]:
from transformers import pipeline

classifier = pipeline(
    task="sentiment-analysis",
    model="nlptown/bert-base-multilingual-uncased-sentiment"
)

resultats = classifier("Ce film est excellent !")
print(resultats)


| T√¢che (`task`)            | Description                                      |
|--------------------------|--------------------------------------------------|
| `sentiment-analysis`     | Classification de texte (binaire ou multi-classes) |
| `text-classification`    | Synonyme g√©n√©rique de `sentiment-analysis`       |
| `translation`            | Traduction automatique                           |
| `summarization`          | R√©sum√© automatique de texte                      |
| `question-answering`     | R√©ponse √† une question sur un contexte donn√©     |
| `text-generation`        | G√©n√©ration de texte (type GPT)                   |
| `fill-mask`              | Pr√©diction de mot masqu√© (type BERT)            |
| `ner`                    | Reconnaissance d'entit√©s nomm√©es (Named Entity Recognition) |
| `zero-shot-classification` | Classification sans fine-tuning sp√©cifique
