# Derri√®re le pipeline (PyTorch)

Installez la biblioth√®que ü§ó *Transformers* pour ex√©cuter ce *notebook*.

In [2]:
%pip install "transformers[sentencepiece]"
%pip install torch

You should consider upgrading via the '/Users/ashnaahmad/Documents/GitHub/course/.env/bin/python -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.
You should consider upgrading via the '/Users/ashnaahmad/Documents/GitHub/course/.env/bin/python -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [None]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis", model="tblard/tf-allocine")
classifier(
    ["J'ai attendu un cours d'HuggingFace toute ma vie.",
     "Je d√©teste tellement √ßa !"]
)

Comme nous l'avons vu dans le [chapitre 1](/course/fr/chapter1), ce pipeline regroupe trois √©tapes : le pr√©traitement, le passage des entr√©es dans le mod√®le et le post-traitement.

Pour ce faire, nous utilisons un *tokenizer*, qui sera responsable de :
- **diviser l'entr√©e en mots, sous-mots, ou symboles** (comme la ponctuation) qui sont appel√©s *tokens*,
- **associer chaque *token* √† un nombre entier**,
- **ajouter des entr√©es suppl√©mentaires** qui peuvent √™tre utiles au mod√®le.

Tout ce pr√©traitement doit √™tre effectu√© exactement de la m√™me mani√®re que celui appliqu√© lors du pr√©-entra√Ænement du mod√®le. **Nous devons donc d'abord t√©l√©charger ces informations depuis le [*Hub*](https://huggingface.co/models). Pour ce faire, nous utilisons la classe `AutoTokenizer` et sa m√©thode `from_pretrained()`**. En utilisant le nom du *checkpoint* de notre mod√®le, elle va automatiquement **r√©cup√©rer les donn√©es associ√©es au *tokenizer* du mod√®le** et les mettre en cache (afin qu'elles ne soient t√©l√©charg√©es que la premi√®re fois que vous ex√©cutez le code ci-dessous).



In [3]:
from transformers import AutoTokenizer

checkpoint = "tblard/tf-allocine" # pre-traitement, effectu√© du m√™me mani√®re que le pre-entra√Ænement du mod√®le
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

# **Checkpoints** : ce sont les **poids qui seront charg√©s** dans une architecture donn√©e.

  from .autonotebook import tqdm as notebook_tqdm
Downloading (‚Ä¶)okenizer_config.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2.00/2.00 [00:00<00:00, 245B/s]
Downloading (‚Ä¶)tencepiece.bpe.model: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 811k/811k [00:00<00:00, 1.04MB/s]
Downloading (‚Ä¶)cial_tokens_map.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 210/210 [00:00<00:00, 41.6kB/s]


Une fois que nous avons le *tokenizer* nous pouvons lui passer directement nos phrases et obtenir un dictionnaire pr√™t √† √™tre donn√© √† notre mod√®le ! La seule chose qui reste √† faire est de convertir en tenseurs la liste des identifiants d'entr√©e.

Vous pouvez utiliser ü§ó *Transformers* sans avoir √† vous soucier du *framework* utilis√© comme *backend*. Il peut s'agir de PyTorch, de TensorFlow ou de Flax pour certains mod√®les. Cependant, **les *transformers* n'acceptent que les *tenseurs* en entr√©e.** Si c'est la premi√®re fois que vous entendez parler de tenseurs, vous pouvez les consid√©rer comme des tableaux NumPy. Un tableau NumPy peut √™tre un scalaire (0D), un vecteur (1D), une matrice (2D), ou avoir davantage de dimensions. Les tenseurs des autres *frameworks* d'apprentissage machine se comportent de mani√®re similaire et sont g√©n√©ralement aussi simples √† instancier que les tableaux NumPy.

Pour sp√©cifier le type de tenseurs que nous voulons r√©cup√©rer (PyTorch, TensorFlow, ou simplement NumPy), nous utilisons l'argument `return_tensors` :

In [4]:
raw_inputs = [
    "J'ai attendu un cours d'HuggingFace toute ma vie.",
    "Je d√©teste tellement √ßa !",
]
inputs = tokenizer(raw_inputs, padding=True, truncation=True, return_tensors="pt")
print(inputs)

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


{'input_ids': tensor([[    5,   121,    11,    73,  4903,    23,   307,    18,    11, 10312,
         20841,   449,  5702,   194,   155,   157,     9,     6],
        [    5,   100,  8645,  1217,   136,    83,     6,     1,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])}


La sortie elle-m√™me est un dictionnaire contenant deux cl√©s : `input_ids` et `attention_mask`. `input_ids` contient deux lignes d'entiers (une pour chaque phrase) qui sont les identifiants uniques des *tokens* dans chaque phrase. Nous expliquerons ce qu'est l'`attention_mask` plus tard dans ce chapitre. 

Nous pouvons **t√©l√©charger notre mod√®le pr√©-entra√Æn√©** de la m√™me mani√®re que nous l'avons fait avec notre *tokenizer*. ü§ó *Transformers* fournit une classe `AutoModel` qui poss√®de √©galement une m√©thode `from_pretrained()` :

Dans cet extrait de code, **nous avons t√©l√©charg√© le m√™me *checkpoint*** que nous avons utilis√© dans notre pipeline auparavant (il devrait en fait avoir d√©j√† √©t√© mis en cache) et instanci√© un mod√®le avec lui.

# **Checkpoints** : ce sont les **poids qui seront charg√©s** dans une architecture donn√©e.

Cette architecture ne contient que **le module de *transformer* de base** : **√©tant donn√© certaines entr√©es, il produit ce que nous appellerons des *√©tats cach√©s***, √©galement connus sous le nom de *caract√©ristiques*. 
Pour chaque entr√©e du mod√®le, nous r√©cup√©rons un vecteur en grande dimension repr√©sentant la **compr√©hension contextuelle de cette entr√©e par le *transformer***.

Si cela ne fait pas sens, ne vous inqui√©tez pas. Nous expliquons tout plus tard.

Bien que ces √©tats cach√©s puissent √™tre utiles en eux-m√™mes, ils sont g√©n√©ralement **les entr√©es d'une autre partie du mod√®le, connue sous le nom de *t√™te***. Dans le [chapitre 1](/course/fr/chapter1), les diff√©rentes t√¢ches auraient pu √™tre **r√©alis√©es avec la m√™me architecture mais en ayant chacune d'elles une t√™te diff√©rente.**

(repeat cell for a reminder of what's going on in the cell below)

Tout ce pr√©traitement doit √™tre effectu√© exactement de la m√™me mani√®re que celui appliqu√© lors du pr√©-entra√Ænement du mod√®le. **Nous devons donc d'abord t√©l√©charger ces informations depuis le [*Hub*](https://huggingface.co/models). Pour ce faire, nous utilisons la classe `AutoTokenizer` et sa m√©thode `from_pretrained()`**. En utilisant le nom du *checkpoint* de notre mod√®le, elle va automatiquement **r√©cup√©rer les donn√©es associ√©es au *tokenizer* du mod√®le** et les mettre en cache (afin qu'elles ne soient t√©l√©charg√©es que la premi√®re fois que vous ex√©cutez le code ci-dessous).


In [7]:
from transformers import AutoModel

checkpoint = "philschmid/pt-tblard-tf-allocine"
model = AutoModel.from_pretrained(checkpoint, from_tf=True)

OSError: philschmid/pt-tblard-tf-allocine does not appear to have a file named pytorch_model.bin, tf_model.h5, model.ckpt or flax_model.msgpack.

Dans cet extrait de code (ci-dessus), nous avons t√©l√©charg√© le m√™me *checkpoint* que nous avons utilis√© dans notre pipeline auparavant (il devrait en fait avoir d√©j√† √©t√© mis en cache) et instanci√© un mod√®le avec lui.

Cette architecture ne contient que le module de *transformer* de base : √©tant donn√© certaines entr√©es, il produit ce que nous appellerons des *√©tats cach√©s*, √©galement connus sous le nom de *caract√©ristiques*. 
Pour chaque entr√©e du mod√®le, nous r√©cup√©rons un vecteur en grande dimension repr√©sentant la **compr√©hension contextuelle de cette entr√©e par le *transformer***. (ahhhhh)

Si cela ne fait pas sens, ne vous inqui√©tez pas. Nous expliquons tout plus tard.

**les √©tats cach√©s (qui correspondent √† un certain ensemble de valeurs d'entr√©e) - sont repr√©sent√©s par un vecteur et repr√©sentent la comprehension contextuelle du mod√®le. cette comprehension se compose normalement d'entr√©es qui se trouvent ailleurs dans le mod√®le. cet ensemble d'entr√©es constitue la t√™te du mod√®le. chaque t√™te peut correspondre √† une r√©alisation d'une t√¢che diff√©rente avec l'architecture.**

Bien que ces √©tats cach√©s puissent √™tre utiles en eux-m√™mes, ils sont g√©n√©ralement les entr√©es d'une autre partie du mod√®le, connue sous le nom de *t√™te*. Dans le [chapitre 1](/course/fr/chapter1), les diff√©rentes t√¢ches auraient pu √™tre r√©alis√©es avec la m√™me architecture mais en ayant chacune d'elles une t√™te diff√©rente.

**Le vecteur produit en sortie par le *transformer* est g√©n√©ralement de grande dimension**. Il a g√©n√©ralement trois dimensions :

- **la taille du lot** : le **nombre de s√©quences trait√©es √† la fois** (2 dans notre exemple),
- **la longueur de la s√©quence** : la longueur de la repr√©sentation num√©rique de la s√©quence (16 dans notre exemple),
- **la taille cach√©e** : la **dimension du vecteur** de **chaque entr√©e** du mod√®le.

On dit qu'il est de ¬´ grande dimension ¬ª en raison de la derni√®re valeur. La taille cach√©e peut √™tre tr√®s grande (g√©n√©ralement 768 pour les petits mod√®les et pour les grands mod√®les cela peut atteindre 3072 voire plus).

**Nous pouvons le constater** si nous alimentons notre mod√®le avec les entr√©es que nous avons pr√©trait√©es :

In [None]:
outputs = model(**inputs)
print(outputs.last_hidden_state.shape)
# prints torch.size() object
# you can access elements of the output via index or attribute/key as in a dictionary

model input -> transformer (embeddings, layers) -> hidden states (contextual understanding) -> head -> model output

Les t√™tes des mod√®les **prennent en entr√©e le vecteur de grande dimension des √©tats cach√©s** et le projettent sur une autre dimension. Elles sont g√©n√©ralement compos√©es d'une ou de quelques **couches lin√©aires** :


**La sortie du *transformer* est envoy√©e directement √† la t√™te du mod√®le pour √™tre trait√©e.**
Dans ce diagramme, le mod√®le est repr√©sent√© par sa couche d‚Äôench√¢ssement et les couches suivantes. **La couche d‚Äôench√¢ssement convertit chaque identifiant d'entr√©e dans l'entr√©e tokenis√©e en un vecteur qui repr√©sente le *token* associ√©**. Les couches suivantes manipulent ces vecteurs en utilisant le m√©canisme d'attention pour produire la repr√©sentation finale des phrases.

les t√™tes sont adapt√©s aux t√¢ches - comme le premier param√®tre de la fonction pipeline

tant pis les t√™tes sont import√©es

Il existe de nombreuses architectures diff√©rentes disponibles dans la biblioth√®que ü§ó *Transformers*, chacune √©tant con√ßue autour de la prise en charge d'une t√¢che sp√©cifique. En voici une liste non exhaustive :
- `*Model` (r√©cup√©rer les √©tats cach√©s)
- `*ForCausalLM`
- `*ForMaskedLM`
- `*ForMultipleChoice`
- `*ForQuestionAnswering`
- `*ForSequenceClassification`
- `*ForTokenClassification`
- et autres ü§ó

Pour notre exemple, nous avons besoin d'un mod√®le avec une t√™te de classification de s√©quence (pour pouvoir classer les phrases comme positives ou n√©gatives). Donc, nous n'utilisons pas r√©ellement la classe `AutoModel` mais plut√¥t `AutoModelForSequenceClassification` :

In [None]:
from transformers import AutoModelForSequenceClassification

checkpoint = "tblard/tf-allocine"
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, from_tf=True)
outputs = model(**inputs)

Maintenant, si nous examinons la forme de nos entr√©es, la dimensionnalit√© est beaucoup plus faible. La t√™te du mod√®le prend en entr√©e les vecteurs de grande dimension que nous avons vus pr√©c√©demment et elle produit des vecteurs contenant deux valeurs (une par √©tiquette) :

In [None]:
print(outputs.logits.shape)

Comme nous n'avons que deux phrases et deux √©tiquettes, le r√©sultat que nous obtenons est de forme 2 x 2

## Post-traitement de la sortie

Les valeurs que nous obtenons en sortie de notre mod√®le n'ont pas n√©cessairement de sens en elles-m√™mes. Jetons-y un coup d‚Äô≈ìil  :

In [None]:
print(outputs.logits)

Notre mod√®le a pr√©dit `[-1.5607, 1.6123]` pour la premi√®re phrase et `[ 4.1692, -3.3464]` pour la seconde. **Ce ne sont pas des probabilit√©s mais des *logits*, les scores bruts, non normalis√©s, produits par la derni√®re couche du mod√®le**. Pour √™tre convertis en probabilit√©s, **ils doivent passer par une couche [SoftMax](https://fr.wikipedia.org/wiki/Fonction_softmax)** (tous les mod√®les de la biblioth√®que ü§ó *Transformers* sortent les logits car **la fonction de perte de l'entra√Ænement fusionne g√©n√©ralement la derni√®re fonction d'activation, comme la SoftMax, avec la fonction de perte r√©elle, comme l'entropie crois√©e**) :

In [None]:
import torch

predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
print(predictions)

Maintenant nous pouvons voir que le mod√®le a pr√©dit `[0.0402, 0.9598]` pour la premi√®re phrase et `[0.9995, 0.0005]` pour la seconde. Ce sont des scores de probabilit√© reconnaissables.

Pour obtenir les √©tiquettes correspondant √† chaque position, **nous pouvons inspecter l'attribut `id2label` de la configuration du mod√®le** (plus de d√©tails dans la section suivante)

In [None]:
model.config.id2label


Nous pouvons maintenant conclure que le mod√®le a pr√©dit ce qui suit :
 
- premi√®re phrase : NEGATIVE: 0.0402, POSITIVE: 0.9598
- deuxi√®me phrase : NEGATIVE: 0.9995, POSITIVE: 0.0005

Nous avons reproduit avec succ√®s les trois √©tapes du pipeline : pr√©traitement avec les *tokenizers*, passage des entr√©es dans le mod√®le et post-traitement ! Prenons maintenant le temps de nous plonger plus profond√©ment dans chacune de ces √©tapes.