# Handling multiple sequences (PyTorch)

Install the Transformers, Datasets, and Evaluate libraries to run this notebook.

In [None]:
!pip install datasets evaluate transformers[sentencepiece]

In [None]:
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequence = "I've been waiting for a HuggingFace course my whole life."

tokens = tokenizer.tokenize(sequence)
ids = tokenizer.convert_tokens_to_ids(tokens)
input_ids = torch.tensor(ids)
# This line will fail.
model(input_ids)

IndexError: Dimension out of range (expected to be in range of [-1, 0], but got 1)

In [None]:
tokenized_inputs = tokenizer(sequence, return_tensors="pt")
print(tokenized_inputs["input_ids"])

tensor([[  101,  1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172,
          2607,  2026,  2878,  2166,  1012,   102]])

Pourquoi cela a √©chou√© ? Nous avons suivi les √©tapes du pipeline de la section 2.

Le probl√®me est que nous avons envoy√© une seule s√©quence au mod√®le, alors que les mod√®les de l‚ÄôAPI ü§ó *Transformers* attendent plusieurs phrases par d√©faut. Ici, nous avons essay√© de faire ce que le *tokenizer* fait en coulisses lorsque nous l'avons appliqu√© √† une `s√©quence`. Cependant si vous regardez de pr√®s, vous verrez qu'il n'a pas seulement converti la liste des identifiants d'entr√©e en un tenseur mais aussi ajout√© une dimension par-dessus (hence dimension = 1 and indexerror)

Essayons √† nouveau en ajoutant une nouvelle dimension :

In [None]:
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequence = "I've been waiting for a HuggingFace course my whole life."

tokens = tokenizer.tokenize(sequence)
ids = tokenizer.convert_tokens_to_ids(tokens)

input_ids = torch.tensor([ids])
print("Input IDs:", input_ids)

output = model(input_ids)
print("Logits:", output.logits)

Input IDs: [[ 1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172,  2607, 2026,  2878,  2166,  1012]]
Logits: [[-2.7276,  2.8789]]

Le ¬´ *batching* ¬ª est l'acte d'envoyer plusieurs phrases √† travers le mod√®le, toutes en m√™me temps. Si vous n'avez qu'une seule phrase, vous pouvez simplement construire un batch avec une seule s√©quence : 

In [None]:
batched_ids = [
    [200, 200, 200],
    [200, 200]
]

Utiliser des *batchs* permet au mod√®le de fonctionner lorsque vous lui donnez plusieurs s√©quences. Utiliser plusieurs s√©quences est aussi simple que de construire un batch avec une seule s√©quence. Il y a cependant un deuxi√®me probl√®me. Lorsque vous essayez de regrouper deux phrases (ou plus), elles peuvent √™tre de longueurs diff√©rentes. Si vous avez d√©j√† travaill√© avec des tenseurs, vous savez qu'ils doivent √™tre de forme rectangulaire. Vous ne pourrez donc pas convertir directement la liste des identifiants d'entr√©e en un tenseur. Pour contourner ce probl√®me, nous avons l'habitude de *rembourrer*/*remplir* (le *padding* en anglais) les entr√©es.

Le *padding* permet de s'assurer que toutes nos phrases ont la m√™me longueur en ajoutant un mot sp√©cial appel√© *padding token* aux phrases ayant moins de valeurs.

In [None]:
padding_id = 100

batched_ids = [
    [200, 200, 200],
    [200, 200, padding_id],
]

L'identifiant du jeton de *padding* peut √™tre trouv√© dans `tokenizer.pad_token_id`. Utilisons-le et envoyons nos deux phrases √† travers le mod√®le premi√®rement individuellement puis en √©tant mises dans un m√™me batch :

In [None]:
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequence1_ids = [[200, 200, 200]]
sequence2_ids = [[200, 200]]
batched_ids = [
    [200, 200, 200],
    [200, 200, tokenizer.pad_token_id],
]

print(model(torch.tensor(sequence1_ids)).logits)
print(model(torch.tensor(sequence2_ids)).logits)
print(model(torch.tensor(batched_ids)).logits)

tensor([[ 1.5694, -1.3895]], grad_fn=<AddmmBackward>)
tensor([[ 0.5803, -0.4125]], grad_fn=<AddmmBackward>)
tensor([[ 1.5694, -1.3895],
        [ 1.3373, -1.2163]], grad_fn=<AddmmBackward>)

In [None]:
batched_ids = [
    [200, 200, 200],
    [200, 200, tokenizer.pad_token_id],
]

attention_mask = [
    [1, 1, 1],
    [1, 1, 0],
]

outputs = model(torch.tensor(batched_ids), attention_mask=torch.tensor(attention_mask))
print(outputs.logits)

tensor([[ 1.5694, -1.3895],
        [ 0.5803, -0.4125]], grad_fn=<AddmmBackward>)

In [None]:
sequence = sequence[:max_sequence_length]