# Fast tokenizers in the QA pipeline (PyTorch)

Installez les biblioth√®ques ü§ó *Transformers* et ü§ó *Datasets* pour ex√©cuter ce *notebook*.

In [None]:
!pip install datasets transformers[sentencepiece]

In [None]:
from transformers import pipeline

question_answerer = pipeline("question-answering", model="etalab-ia/camembert-base-squadFR-fquad-piaf")
context = """
ü§ó Transformers s'appuie sur les trois biblioth√®ques d'apprentissage profond les plus populaires (Jax, PyTorch et TensorFlow) avec une int√©gration transparente entre elles.
C'est simple d'entra√Æner vos mod√®les avec l'une avant de les charger pour l'inf√©rence avec l'autre.
"""
question = "Quelles biblioth√®ques d'apprentissage profond derri√®re ü§ó Transformers ?"
question_answerer(question=question, context=context)

In [None]:
long_context = """
ü§ó Transformers : l'√©tat de l'art du NLP

ü§ó Transformers fournit des milliers de mod√®les pr√©-entra√Æn√©s pour effectuer des t√¢ches sur des textes telles que la classification, 
l'extraction d'informations, la r√©ponse √† des questions, le r√©sum√© de textes, la traduction, la g√©n√©ration de texte et plus encore dans plus de 100 langues.
Son objectif est de rendre le traitement automatique des langues de pointe plus facile √† utiliser pour tout le monde.

ü§ó Transformers fournit des API permettant de t√©l√©charger et d'utiliser rapidement ces mod√®les pr√©-entra√Æn√©s sur un texte donn√©, de les affiner sur vos propres ensembles de donn√©es et de les partager avec la communaut√© sur notre site Web.
puis de les partager avec la communaut√© sur notre hub de mod√®les. En m√™me temps, chaque module python d√©finissant une architecture est enti√®rement autonome et peut √™tre modifi√© pour permettre des exp√©riences de recherche rapides.
peut √™tre modifi√© pour permettre des exp√©riences de recherche rapides.

Pourquoi devrais-je utiliser des transformateurs ?

1. Des mod√®les de pointe faciles √† utiliser :
  - Haute performance sur les t√¢ches NLU et NLG.
  - Faible barri√®re √† l'entr√©e pour les √©ducateurs et les praticiens.
  - Peu d'abstractions pour l'utilisateur avec seulement trois classes √† apprendre.
  - Une API unifi√©e pour utiliser tous nos mod√®les pr√©-entra√Æn√©s.
  - Des co√ªts de calcul plus faibles, une empreinte carbone r√©duite :

2. Les chercheurs peuvent partager les mod√®les form√©s au lieu de toujours les reformer.
  - Les praticiens peuvent r√©duire le temps de calcul et les co√ªts de production.
  - Des dizaines d'architectures avec plus de 10 000 mod√®les pr√©-form√©s, certains dans plus de 100 langues.

3. Choisissez le cadre appropri√© pour chaque √©tape de la vie d'un mod√®le :
  - Entra√Ænez des mod√®les de pointe en 3 lignes de code.
  - D√©placez un seul mod√®le entre les frameworks TF2.0/PyTorch √† volont√©.
  - Choisissez de mani√®re transparente le bon framework pour l'entra√Ænement, l'√©valuation et la production.

4. Adaptez facilement un mod√®le ou un exemple √† vos besoins :
  - Nous fournissons des exemples pour chaque architecture afin de reproduire les r√©sultats publi√©s par ses auteurs originaux.
  - Les √©l√©ments internes des mod√®les sont expos√©s de mani√®re aussi coh√©rente que possible.
  - Les fichiers de mod√®les peuvent √™tre utilis√©s ind√©pendamment de la biblioth√®que pour des exp√©riences rapides.

ü§ó Transformers s'appuie sur les trois biblioth√®ques d'apprentissage profond les plus populaires (Jax, PyTorch et TensorFlow) avec une int√©gration parfaite
entre elles. Il est simple d'entra√Æner vos mod√®les avec l'une avant de les charger pour l'inf√©rence avec l'autre.
"""
question_answerer(question=question, context=long_context)

In [None]:
from transformers import AutoTokenizer, AutoModelForQuestionAnswering

model_checkpoint = "etalab-ia/camembert-base-squadFR-fquad-piaf"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = AutoModelForQuestionAnswering.from_pretrained(model_checkpoint)

inputs = tokenizer(question, context, return_tensors="pt")
outputs = model(**inputs)

In [None]:
start_logits = outputs.start_logits
end_logits = outputs.end_logits
print(start_logits.shape, end_logits.shape)

In [None]:
import torch

sequence_ids = inputs.sequence_ids()
# Masque tout sauf les tokens du contexte
mask = [i != 1 for i in sequence_ids]
# D√©masque le token [CLS]
mask[0] = False
mask = torch.tensor(mask)[None]

start_logits[mask] = -10000
end_logits[mask] = -10000

In [None]:
start_probabilities = torch.nn.functional.softmax(start_logits, dim=-1)[0]
end_probabilities = torch.nn.functional.softmax(end_logits, dim=-1)[0]

In [None]:
scores = start_probabilities[:, None] * end_probabilities[None, :]

In [None]:
scores = torch.triu(scores)

In [None]:
max_index = scores.argmax().item()
start_index = max_index // scores.shape[1]
end_index = max_index % scores.shape[1]
print(scores[start_index, end_index])

In [None]:
inputs_with_offsets = tokenizer(question, context, return_offsets_mapping=True)
offsets = inputs_with_offsets["offset_mapping"]

start_char, _ = offsets[start_index]
_, end_char = offsets[end_index]
answer = context[start_char:end_char]

In [None]:
result = {
    "answer": answer,
    "start": start_char,
    "end": end_char,
    "score": scores[start_index, end_index],
}
print(result)

In [None]:
inputs = tokenizer(question, long_context)
print(len(inputs["input_ids"]))

In [None]:
inputs = tokenizer(question, long_context, max_length=384, truncation="only_second")
print(tokenizer.decode(inputs["input_ids"]))

In [None]:
sentence = "Cette phrase n'est pas trop longue mais nous allons la diviser quand m√™me."
inputs = tokenizer(
    sentence, truncation=True, return_overflowing_tokens=True, max_length=6, stride=2
)

for ids in inputs["input_ids"]:
    print(tokenizer.decode(ids))

In [None]:
print(inputs.keys())

In [None]:
print(inputs["overflow_to_sample_mapping"])

In [None]:
sentences = [
    "Cette phrase n'est pas trop longue mais on va quand m√™me la diviser.",
    "Cette phrase est plus courte mais sera quand m√™me divis√©e.",
]
inputs = tokenizer(
    sentences, truncation=True, return_overflowing_tokens=True, max_length=6, stride=2
)

print(inputs["overflow_to_sample_mapping"])

In [None]:
inputs = tokenizer(
    question,
    long_context,
    stride=128,
    max_length=384,
    padding="longest",
    truncation="only_second",
    return_overflowing_tokens=True,
    return_offsets_mapping=True,
)

In [None]:
_ = inputs.pop("overflow_to_sample_mapping")
offsets = inputs.pop("offset_mapping")

inputs = inputs.convert_to_tensors("pt")
print(inputs["input_ids"].shape)

In [None]:
outputs = model(**inputs)

start_logits = outputs.start_logits
end_logits = outputs.end_logits
print(start_logits.shape, end_logits.shape)

In [None]:
sequence_ids = inputs.sequence_ids()
# Masque tout sauf les tokens du contexte.
mask = [i != 1 for i in sequence_ids]
# D√©masquer le token [CLS]
mask[0] = False
# Masquer tous les tokens [PAD]
mask = torch.logical_or(torch.tensor(mask)[None], (inputs["attention_mask"] == 0))

start_logits[mask] = -10000
end_logits[mask] = -10000

In [None]:
start_probabilities = torch.nn.functional.softmax(start_logits, dim=-1)
end_probabilities = torch.nn.functional.softmax(end_logits, dim=-1)

In [None]:
candidates = []
for start_probs, end_probs in zip(start_probabilities, end_probabilities):
    scores = start_probs[:, None] * end_probs[None, :]
    idx = torch.triu(scores).argmax().item()

    start_idx = idx // scores.shape[0]
    end_idx = idx % scores.shape[0]
    score = scores[start_idx, end_idx].item()
    candidates.append((start_idx, end_idx, score))

print(candidates)

In [None]:
for candidate, offset in zip(candidates, offsets):
    start_token, end_token, score = candidate
    start_char, _ = offset[start_token]
    _, end_char = offset[end_token]
    answer = long_context[start_char:end_char]
    result = {"answer": answer, "start": start_char, "end": end_char, "score": score}
    print(result)