# Partie II : Mod√®le (sch√©ma) commun d'utilisation des Hugging Face Transformers

Ce Notebook montre un sch√©ma "classique d'utilisation des Transformers, en utilisant l'exemple de l'analyse de sentiment.

Tout d'abord, trouvez un mod√®le sur [the hub] (https://huggingface.co/models). Tout le monde peut t√©l√©charger son mod√®le pour que d'autres personnes puissent l'utiliser. 

Ensuite, deux objets doivent √™tre initialis√©s - un **tokenizer** et un **model**

* Le tokenizer convertit les cha√Ænes de caract√®res en listes d'identifiants de vocabulaire dont le mod√®le a besoin.
* Le mod√®le prend les identifiants de vocabulaire et produit une pr√©diction.

Installez la biblioth√®que ü§ó *Transformers* pour ex√©cuter ce *notebook*.

In [None]:
!pip install transformers
#[sentencepiece]

## 0. Rappel pipelines 
Dans la premi√®re partie de ce Notebook nous avons utilis√© un pipeline end-to-end (une ligne de code).
Ce pipeline est en fait compos√© de trois √©tapes (voir ci dessous)

In [None]:
# end-to-end pipeline.

from transformers import pipeline

classifier = pipeline("sentiment-analysis", model="tblard/tf-allocine")
classifier(
    ["J'ai attendu un cours d'HuggingFace toute ma vie.",
     "Je d√©teste tellement √ßa !"]
)

## 1. Sch√©ma commun utilisation Hugging Face

Ce pipeline regroupe trois √©tapes : le pr√©traitement (le **`tokenizer`**), le passage des entr√©es dans le **`mod√®le`** et le **`post-traitement`**.
<figure>
    <img src="./images/full_nlp_pipeline.svg"  style="width:6000px;height:250px;" >
</figure>

###  Etape 1 : Pr√©traitement - Tokenizer
Les transformers ne peuvent pas traiter directement le texte brut, donc la premi√®re √©tape de notre pipeline est de convertir les entr√©es textuelles en identifiants (id) afin que le mod√®le puisse les comprendre. Pour ce faire, nous utilisons un tokenizer, qui sera responsable de :
- diviser l‚Äôentr√©e en mots, sous-mots, ou symboles (comme la ponctuation) qui sont appel√©s tokens,
- associer chaque token √† un nombre entier,
- ajouter des entr√©es suppl√©mentaires qui peuvent √™tre utiles au mod√®le (`padding`).

Key features:
- Supports different tokenization techniques like Byte-Pair Encoding (BPE), WordPiece,
and SentencePiece.
- Tokenization happens quickly with parallelization support.
- Handles special tokens like [CLS], [SEP], and padding/truncation automatically.
- Easily load pre-trained tokenizers with AutoTokenizer

In [None]:
from transformers import AutoTokenizer

#checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
checkpoint = "distilbert/distilbert-base-cased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

In [None]:
raw_inputs = [
    "I've been waiting for a HuggingFace course my whole life.",
    # J'ai attendu un cours de HuggingFace toute ma vie.
    "I hate this so much!",  # Je d√©teste tellement √ßa !
]
inputs = tokenizer(raw_inputs, padding=True, truncation=True, return_tensors="pt")
print(inputs)

On peut appelerles tokenizers de diff√©rentes mani√®res. 
Soit en pr√©cisant le nom du mod√®le pr√©-entrain√©, par exemple `BertTokenizer`, soit en utilisant la classe `AutoTokenizer` qui r√©cup√®re la classe de `tokenizer` appropri√©e dans la biblioth√®que bas√©e sur le nom du checkpoint.


In [None]:
from transformers import BertTokenizer, DistilBertTokenizer
tokenizer = BertTokenizer.from_pretrained("bert-base-cased")
tokenizer = DistilBertTokenizer.from_pretrained("distilbert/distilbert-base-cased")  
tokenizer=AutoTokenizer.from_pretrained("gpt2")
    
print (tokenizer)

In [None]:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
print (tokenizer)

In [None]:
#tokens_inputs=tokenizer("Using a Transformer network is simple")

tokens_inputs=tokenizer("Using a Transformer network is simple",return_tensors="pt")

print("Vanilla Tokenization")
print(tokens_inputs)
print()

# Two ways to access:
print(tokens_inputs.input_ids)
print(tokens_inputs["input_ids"])

La classe `tokenizer ()` peut √™tre utilis√©e directement, elle s'occupe d'ffectuer toues les op√©raions n√©cessaires pour la construction d'une entr√©e ad√©quate au tranformer. Mais, on peut aussi d√©clider les diff√©rentes op√©rations.  

| M√©thode                                       | Retourne                                       | Sp√©cificit√©s                                                           |       
|----------------------------------------------|-----------------------------------------------|------------------------------------------------------------------------|
| `tokenizer(text)`                            | `Dict` (`input_ids`, `attention_mask`, ...)   | Ajoute les **tokens sp√©ciaux** ; supporte `return_tensors="pt"`        |
| `tokenizer.encode(text)`                     | `List[int]` (IDs des tokens)                  | Peut ajouter les tokens sp√©ciaux (`add_special_tokens=True`)          | 
| `tokenizer.encode_plus(text)`                | `Dict` comme `tokenizer(text)`                | Permet `text_pair`, padding, truncation                              | 
| `tokenizer.batch_encode_plus([text1, ...])`  | `List[Dict]`                                  | Pour plusieurs textes (batch), avec padding et autres options         | 
| `tokenizer.tokenize(text)`                   | `List[str]` (tokens lisibles)                 | Affiche les sous-mots BPE / SentencePiece                             | 
| `tokenizer.convert_tokens_to_ids(tokens)`    | `List[int]`                                   | Convertit tokens ‚Üí IDs                                                | 
| `tokenizer.convert_ids_to_tokens(ids)`       | `List[str]`                                   | Convertit IDs ‚Üí tokens lisibles                                       | 
| `tokenizer.decode(ids)`                      | `str` (texte lisible)                         | Recompose le texte complet depuis les IDs                             | 



In [None]:
inputs_str="Using a Transformer network is simple"
print("List tokens ID :", tokenizer.encode(inputs_str))
print("List tokens complets:", tokenizer.encode_plus(inputs_str))

tokens=tokenizer.tokenize(inputs_str)
print("List tokens  :", tokens)

token_ids=tokenizer.convert_tokens_to_ids(tokens)
print("Liste  des tokens Ids :",token_ids)

print("Id to tokens :", tokenizer.convert_ids_to_tokens(token_ids))
print("Id to texte originel :", tokenizer.decode(token_ids))

### Traiter plusieurs s√©quences de longueurs diff√©rentes

In [None]:
# On peut faire passer plusieurs s√©quences. 
#si on souhaite r√©cup√©rer un tenseur on doit utiliser un pading 
#pour que les vecteurs de chaque s√©quence (texte) ait la m√™me dimension.
# teste avec et sans padding ?

# Si tokenizer de GPT2 :  Set a padding token (use the EOS token for GPT-2)
#tokenizer.pad_token = tokenizer.eos_token

model_inputs = tokenizer(["Hugging Face Transformers is great!",
                         "The quick brown fox jumps over the lazy dog.",
                         "Then the dog got up and ran away because she didn't like foxes.",
                         ],
                         return_tensors="pt", #tf : si tensorflow, ou np: Numpy
                         padding=True,
                         truncation=True
                        )
print(f"Pad token: {tokenizer.pad_token} | Pad token id: {tokenizer.pad_token_id}")
print("Padding:")
print(model_inputs)


### Etape 2 : Passage au mod√®le- Choix du mod√®le de Transformer
Il existe de nombreuses architectures diff√©rentes disponibles dans la biblioth√®que ü§ó Transformers, chacune √©tant con√ßue pour prendre en charge d‚Äôune t√¢che sp√©cifique. En voici une liste non exhaustive :

- *Model (r√©cup√©rer les √©tats cach√©s : mod√®le de base)
- *ForCausalLM
- *ForMaskedLM
- *ForMultipleChoice
- *ForQuestionAnswering
- *ForSequenceClassification
- *ForTokenClassification
- et autres ü§ó
  
 `*` peut √™tre  `Auto` (par exemple `AutoModel`),  ou un mod√®le sp√©cifique (e.g. `Distil`Bert)

Il existe 3 classes de mod√®les 
- Encoders (e.g. BERT)
- Decoders (e.g. GPT2)
- Encoder-Decoder  (e.g. BART or T5)
  
Nous pouvons t√©l√©charger notre mod√®le pr√©-entra√Æn√© de la m√™me mani√®re que nous l‚Äôavons fait avec notre tokenizer. Transformers fournit une classe AutoModel qui poss√®de √©galement une m√©thode from_pretrained().

Attention, les `*Model' sont des mod√®les de base sans post-training (finetuning). Les autres mod√®les de type `ForSequenceClassification`, '`For...` PEUVENT AVOIR ETE Fietun√© Mais ce n'est pas toujours le cas. 

| Classe de mod√®le                          | Exemple(s) de mod√®le                                | Fine-tun√© ? | T√¢che cibl√©e                          |
|-------------------------------------------|-----------------------------------------------------|-------------|----------------------------------------|
| `AutoModel`                               | `bert-base-uncased`, `roberta-base`                  | Non      | Repr√©sentation de texte (pr√©-entra√Ænement) |
| `AutoModelForCausalLM`                    | `gpt2`, `llama-7b-hf`                                |  Non      | Mod√®le g√©n√©ratif (langage auto-r√©gressif) |
| `AutoModelForMaskedLM`                    | `bert-base-uncased`, `distilbert-base-uncased`       |  Non      | Pr√©diction de tokens masqu√©s (MLM)     |
| `AutoModelForSequenceClassification`      | `distilbert-base-uncased-finetuned-sst-2-english`     | Oui      | Classification de texte                |
| `AutoModelForTokenClassification`         | `dbmdz/bert-large-cased-finetuned-conll03-english`    | Oui      | Reconnaissance d'entit√©s nomm√©es (NER) |
| `AutoModelForQuestionAnswering`           | `distilbert-base-uncased-distilled-squad`              | Oui      | Question Answering (Q&A)               |
| `AutoModelForMultipleChoice`              | `bert-base-uncased`                                    |  Non\*    | Doit √™tre fine-tun√© manuellement       |
| `AutoModelForNextSentencePrediction`      | `bert-base-uncased`                                     | Non      | T√¢che de pr√©-entra√Ænement NSP          |



In [126]:
from transformers import AutoModelForSequenceClassification, DistilBertForSequenceClassification, DistilBertModel

print('Loading base model')
checkpoint='distilbert-base-cased'
#checkpoint = "bert-base-uncased"

input_str = "Using a Transformer network is simpled"
# le mod√®le de base sans aucune t√¢che 
#base_model = DistilBertModel.from_pretrained(checkpoint)
# Mod√®les pr√©par√©e pour la t√¢che de classification mais pas finetun√©e
print("Loading classification model from base model's checkpoint")
#model = DistilBertForSequenceClassification.from_pretrained(checkpoint)


model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

print(model.config.num_labels)


Loading base model
Loading classification model from base model's checkpoint


Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert-base-cased and are newly initialized: ['classifier.bias', 'classifier.weight', 'pre_classifier.bias', 'pre_classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


2


In [131]:
print(model.parameters)
print("Number of parameters :", model.num_parameters() / 1_000_000)

<bound method Module.parameters of DistilBertForSequenceClassification(
  (distilbert): DistilBertModel(
    (embeddings): Embeddings(
      (word_embeddings): Embedding(28996, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (transformer): Transformer(
      (layer): ModuleList(
        (0-5): 6 x TransformerBlock(
          (attention): MultiHeadSelfAttention(
            (dropout): Dropout(p=0.1, inplace=False)
            (q_lin): Linear(in_features=768, out_features=768, bias=True)
            (k_lin): Linear(in_features=768, out_features=768, bias=True)
            (v_lin): Linear(in_features=768, out_features=768, bias=True)
            (out_lin): Linear(in_features=768, out_features=768, bias=True)
          )
          (sa_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
          (ffn): FFN(
            (dropou

In [None]:
from transformers import AutoConfig

config = AutoConfig.from_pretrained(checkpoint)
print(config)


In [None]:
from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained(checkpoint)  
model = AutoModel.from_pretrained(checkpoint)

input_str = "Using a Transformer network is simpled"

# Tokenize input string
inputs = tokenizer(input_str, return_tensors="pt")

# Pass to model
outputs = model(**inputs)

# Check output shape # Ecriture pytorch
print(outputs.last_hidden_state.shape)


Vous pouvez acc√©der aux √©l√©ments par attributs (comme nous l‚Äôavons fait), par cl√© (outputs["last_hidden_state"]), ou m√™me par l‚Äôindex si vous savez exactement o√π se trouve la chose que vous cherchez (outputs[0]).

In [None]:
outputs["last_hidden_state"]

#### Choix d'un mod√®le finetun√© 

In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

text = "I love Hugging Face!"

inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)

# Supprimer token_type_ids (non support√© par DistilBERT)
#inputs.pop("token_type_ids", None)

# Appel du mod√®le
outputs = model(**inputs)

# Acc√®s aux logits
print(outputs.logits)


In [None]:
# dans le cas
print(outputs.logits.shape)

### Post-traitement de la sortie

In [None]:
print(outputs.logits)

In [None]:
import torch

predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
print(predictions)

Maintenant nous pouvons voir que le mod√®le a pr√©dit [0.0402, 0.9598] . Ce sont des scores de probabilit√© reconnaissables.

Pour obtenir les √©tiquettes correspondant √† chaque position, nous pouvons inspecter l‚Äôattribut id2label de la configuration du mod√®le (plus de d√©tails dans la section suivante) :

In [None]:
model.config.id2label

### G√©n√©ration de textes

In [125]:
from transformers import AutoTokenizer, AutoModelForCausalLM
checkpoint="gpt2"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)  
model = AutoModelForCausalLM.from_pretrained(checkpoint)

input_str = "Using a Transformer network is simpled"

# Tokenize input string
inputs = tokenizer(input_str, return_tensors="pt")

# Pass to model
#outputs = model.generate(inputs.input_ids,max_length=10)

outputs =model.generate(
    inputs.input_ids,
    max_length=20,
    pad_token_id=tokenizer.eos_token_id,   
    attention_mask=inputs.attention_mask   
)

# Decode
print(tokenizer.decode(outputs[0], skip_special_tokens=True))


Using a Transformer network is simpled by the fact that the network is connected to the network.
