## Install transformer

In [1]:
! pip install transformers==4.28.0 datasets accelerate


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers==4.28.0
  Downloading transformers-4.28.0-py3-none-any.whl (7.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.0/7.0 MB[0m [31m60.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting datasets
  Downloading datasets-2.12.0-py3-none-any.whl (474 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m474.6/474.6 kB[0m [31m46.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting accelerate
  Downloading accelerate-0.19.0-py3-none-any.whl (219 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m219.1/219.1 kB[0m [31m28.1 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.11.0 (from transformers==4.28.0)
  Downloading huggingface_hub-0.15.1-py3-none-any.whl (236 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m236.8/236.8 kB[0m [31m25.5 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.

## Import libraries

In [2]:
from datasets import load_dataset, load_metric, ClassLabel, Sequence
import random
import pandas as pd
import numpy as np
from IPython.display import display, HTML
import torch

import transformers
from transformers import AutoTokenizer, TrainingArguments, Trainer, default_data_collator
from transformers import AutoModelForQuestionAnswering, T5Tokenizer

import collections
from tqdm.auto import tqdm


## load dataset

In [3]:
train_data, validate_data = load_dataset("squad_v1_pt", split='train[:12%]'), load_dataset('squad_v1_pt', split='validation[:50%]')

Downloading builder script:   0%|          | 0.00/4.51k [00:00<?, ?B/s]

Downloading metadata:   0%|          | 0.00/2.19k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/6.88k [00:00<?, ?B/s]

Downloading and preparing dataset squad_v1_pt/default to /root/.cache/huggingface/datasets/squad_v1_pt/default/1.1.0/65162e0fbe44f19a4d2ad9f5f507d2e965e74249fc3239dc78b4e3bd93bab7c4...


Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/8.57M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/1.11M [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split:   0%|          | 0/87599 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/10570 [00:00<?, ? examples/s]

Dataset squad_v1_pt downloaded and prepared to /root/.cache/huggingface/datasets/squad_v1_pt/default/1.1.0/65162e0fbe44f19a4d2ad9f5f507d2e965e74249fc3239dc78b4e3bd93bab7c4. Subsequent calls will reuse this data.




In [4]:
train_data

Dataset({
    features: ['id', 'title', 'context', 'question', 'answers'],
    num_rows: 10512
})

In [5]:
validate_data

Dataset({
    features: ['id', 'title', 'context', 'question', 'answers'],
    num_rows: 5285
})

In [6]:
train_data[0]

{'id': '5733be284776f41900661182',
 'title': 'University_of_Notre_Dame',
 'context': 'Arquitetonicamente, a escola tem um caráter católico. No topo da cúpula de ouro do edifício principal é uma estátua de ouro da Virgem Maria. Imediatamente em frente ao edifício principal e de frente para ele, é uma estátua de cobre de Cristo com os braços erguidos com a lenda &quot;Venite Ad Me Omnes&quot;. Ao lado do edifício principal é a Basílica do Sagrado Coração. Imediatamente atrás da basílica é a Gruta, um lugar mariano de oração e reflexão. É uma réplica da gruta em Lourdes, na França, onde a Virgem Maria supostamente apareceu a Santa Bernadette Soubirous em 1858. No final da unidade principal (e em uma linha direta que liga através de 3 estátuas e da Cúpula de Ouro), é um estátua de pedra simples e moderna de Maria.',
 'question': 'A quem a Virgem Maria supostamente apareceu em 1858 em Lourdes, na França?',
 'answers': {'text': ['Saint Bernadette Soubirous'], 'answer_start': [0]}}

## fine-tune the task

In [7]:
sciq_2 = False
model_checkpoint = "distilbert-base-uncased"
batch_size = 16

## just to see how dataset look like

In [8]:
def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))

In [9]:
show_random_elements(train_data)

Unnamed: 0,id,title,context,question,answers
0,56bed1243aeaaa14008c94b5,Beyoncé,"Beyoncé trabalhou com Tommy Hilfiger para as fragrâncias True Star (cantando uma versão cover de &quot;Wishing on a Star&quot;) e True Star Gold; ela também promoveu a fragrância Diamonds da Emporio Armani em 2007. Beyoncé lançou sua primeira fragrância oficial, Heat em 2010. O comercial, que apresentava a música de 1956 &quot;Fever&quot;, foi exibido depois do vazamento de água no Reino Unido, começando com uma imagem de Beyoncé parece estar deitada nua em um quarto. Em fevereiro de 2011, Beyoncé lançou sua segunda fragrância, Heat Rush. A terceira fragrância da Beyoncé, Pulse, foi lançada em setembro de 2011. Em 2013, foi lançada a versão de Calor da edição da edição limitada de Heat da Sra. Carter. As seis edições da Heat são a linha de fragrâncias mais vendidas do mundo, com vendas de mais de US $ 400 milhões.",Primeira fragrância de Beyonce tinha o nome?,"{'text': ['Calor'], 'answer_start': [652]}"
1,56d1cc5ae7d4791d009021cd,Buddhism,"No budismo theravada não pode haver salvação divina ou perdão para o carma de alguém, já que é um processo puramente impessoal que é parte da composição do universo. [Carece de fontes?] No Budismo Mahayana, os textos de certos sutras Mahayana (como o Sutra de Lótus, o Aṅgulimālīya Sūtra e o Mahāyāna Mahāparinirvāṇa Sūtra) afirmam que a recitação ou apenas a audição de seus textos podem eliminar grandes quantidades de carma negativo. Algumas formas de budismo (por exemplo, Vajrayana) consideram a recitação dos mantras como um meio de eliminar o carma negativo anterior. O professor japonês da Terra Pura, Genshin, ensinou que Amitābha tem o poder de destruir o karma que, de outra forma, uniria alguém ao saṃsāra.",Alguns mantras são usados para cortar o tipo de karma?,"{'text': ['negativo'], 'answer_start': [427]}"
2,56dee1f8c65bf219000b3dca,Canadian_Armed_Forces,"Nos anos 50, o recrutamento de mulheres estava aberto a papéis em medicina, comunicação, logística e administração. Os papéis das mulheres na CAF começaram a se expandir em 1971, depois que o Departamento revisou as recomendações da Comissão Real sobre o Status da Mulher, quando elevou o teto de 1.500 mulheres, e gradualmente expandiu as oportunidades de emprego para o setor não governamental. áreas tradicionais - motoristas e mecânicos de veículos, mecânicos de aeronaves, controladores de tráfego aéreo, policiais militares e bombeiros. O Departamento analisou ainda mais as políticas de pessoal em 1978 e 1985, depois que o Parlamento aprovou a Lei Canadense de Direitos Humanos e a Carta Canadense de Direitos e Liberdades. Como resultado dessas revisões, o Departamento mudou suas políticas para permitir que as mulheres servissem no mar em navios de reabastecimento e em um concurso de mergulho, com os batalhões de serviço do exército, em pelotões de polícia militar e unidades de ambulância e na maioria dos esquadrões aéreos.",Por que as mulheres foram finalmente autorizadas a servir no mar na CAF?,"{'text': ['o departamento mudou suas políticas'], 'answer_start': [0]}"
3,56cf469eaab44d1400b88f00,Spectre_(2015_film),"Em março de 2013, Mendes disse que não voltaria para dirigir o próximo filme da série, então conhecido como Bond 24; Mais tarde, ele se retratou e anunciou que voltaria, pois achou o roteiro e os planos para o futuro a longo prazo da franquia atraente. Ao dirigir Skyfall e Spectre, Mendes tornou-se o primeiro diretor a supervisionar dois filmes consecutivos de Bond desde que John Glen dirigiu The Living Daylights e License to Kill em 1987 e 1989. O escritor John Logan da Skyfall retomou seu papel de roteirista, colaborando com Neal Purvis e Robert Wade. , que retornou para seu sexto filme de James Bond [N4] O escritor Jez Butterworth também trabalhou no roteiro, ao lado de Mendes e Craig. Dennis Gassner retornou como designer de produção do filme, enquanto o diretor de fotografia Hoyte van Hoytema substituiu Roger Deakins. Em julho de 2015, Mendes observou que a equipe combinada da Specter era mais de mil, o que a tornou uma produção maior do que a Skyfall. Craig está listado como co-produtor.",Neal Purvis e Robert Wade trabalharam em quantos filmes de Bond?,"{'text': ['seis'], 'answer_start': [0]}"
4,56d1170417492d1400aab8fd,New_York_City,"O sistema de trânsito rápido da Staten Island Railway atende exclusivamente a Staten Island, operando 24 horas por dia. A Autoridade Portuária Trans-Hudson (trem PATH) liga Midtown e Lower Manhattan ao nordeste de New Jersey, principalmente Hoboken, Jersey City e Newark. Como o metrô de Nova York, o PATH opera 24 horas por dia; ou seja, três dos seis sistemas de trânsito rápido no mundo que operam em horários de 24 horas são total ou parcialmente em Nova York (os outros são uma parte do Chicago &#39;L&#39;, o PATCO Speedline servindo Filadélfia e o Metrô de Copenhague).",Qual sistema de transporte rápido de 24 horas está na Filadélfia?,"{'text': ['PATCO Speedline'], 'answer_start': [515]}"
5,56cd8d2462d2951400fa66d7,Sino-Tibetan_relations_during_the_Ming_dynasty,"Tsai escreve que logo após a visita de Deshin Shekpa, o imperador Yongle ordenou a construção de uma estrada e de postos de comércio nos trechos superiores dos rios Yangzi e Mekong, a fim de facilitar o comércio com o Tibete em chá, cavalos e sal. A rota comercial passou por Sichuan e atravessou o condado de Shangri-La, em Yunnan. Wang e Nyima afirmam que esse &quot;comércio relacionado aos tributos&quot; dos Ming trocando chá chinês por cavalos tibetanos - enquanto concedem aos emissários tibetanos e comerciantes tibetanos permissão explícita para negociar com comerciantes chineses Han - &quot;promoveu o governo da corte dinastia Ming sobre o Tibete&quot;. . Rossabi e Sperling observam que esse comércio de cavalos tibetanos para o chá chinês existia muito antes do Ming. Peter C. Perdue diz que Wang Anshi (1021-1086), percebendo que a China não poderia produzir corcéis militares suficientes, também tinha como objetivo obter cavalos da Ásia Central em troca de chá chinês. Os chineses precisavam de cavalos não apenas para a cavalaria, mas também como animais de tração para os vagões de suprimentos do exército. Os tibetanos exigiam chá chinês não apenas como uma bebida comum, mas também como um complemento cerimonial religioso. O governo Ming impôs um monopólio sobre a produção de chá e tentou regulamentar esse comércio com os mercados supervisionados pelo Estado, mas estes entraram em colapso em 1449 devido a falhas militares e pressões ecológicas e comerciais internas nas regiões produtoras de chá.",onde a rota comercial passou?,"{'text': ['através de Sichuan e cruzou o condado de Shangri-La em Yunnan'], 'answer_start': [0]}"
6,56d39abf59d6e414001467fd,Frédéric_Chopin,"As polonaises de Chopin mostram um avanço marcante nas de seus predecessores poloneses na forma (que incluíam seus professores Zywny e Elsner). Tal como acontece com a polonaise tradicional, as obras de Chopin são em tempo triplo e normalmente exibem um ritmo marcial em suas melodias, acompanhamentos e cadências. Ao contrário da maioria de seus precursores, eles também exigem uma técnica de jogo formidável.","A habilidade de Chopin de criar um polonasises avançado superou até mesmo dois de seus professores, Zywny e quem?","{'text': ['Elsner'], 'answer_start': [135]}"
7,5733e7014776f41900661484,Anthropology,"A antropologia evolutiva é o estudo interdisciplinar da evolução da fisiologia humana e do comportamento humano e a relação entre hominídeos e primatas não hominíneos. A antropologia evolutiva baseia-se nas ciências naturais e nas ciências sociais, combinando o desenvolvimento humano com fatores socioeconômicos. A antropologia evolutiva está preocupada com a evolução biológica e cultural dos seres humanos, do passado e do presente. Baseia-se em uma abordagem científica e reúne campos como arqueologia, ecologia comportamental, psicologia, primatologia e genética. É um campo dinâmico e interdisciplinar, com muitas linhas de evidência para compreender a experiência humana, passada e presente.",Que ramo da antropologia estuda o comportamento humano e a relação entre primatas?,"{'text': ['Evolutivo'], 'answer_start': [0]}"
8,56dd2ff966d3e219004dac33,Prime_minister,"A nomeação do primeiro-ministro da França também não requer aprovação do parlamento, mas o parlamento pode forçar a renúncia do governo. Nesses sistemas, é possível que o presidente e o primeiro-ministro sejam de diferentes partidos políticos, se a legislatura for controlada por um partido diferente daquele do presidente. Quando surge, tal estado de coisas é geralmente referido como coabitação (política).",Qual é o termo para uma situação em que o presidente e o primeiro ministro vêm de diferentes partidos políticos?,"{'text': ['coabitação'], 'answer_start': [386]}"
9,56cfb0d5234ae51400d9be82,New_York_City,O Centro da Escola de Charter de Nova York ajuda na organização de novas escolas charter. Existem aproximadamente 900 escolas seculares e religiosas particulares na cidade.,Sobre quantas escolas privadas tem Nova York?,"{'text': ['900'], 'answer_start': [114]}"


## Lets preprocess the data

tokenize the data

In [10]:
! pip install sentencepiece

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting sentencepiece
  Downloading sentencepiece-0.1.99-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m19.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sentencepiece
Successfully installed sentencepiece-0.1.99


In [11]:
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

Downloading (…)okenizer_config.json:   0%|          | 0.00/28.0 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/483 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

In [12]:
# # this will make sure the tokenizer is fast
assert isinstance(tokenizer, transformers.PreTrainedTokenizerFast)

In [13]:
pad_on_right = tokenizer.padding_side == "right" # model except padding on the left

max_length = 384 # The maximum length of a feature (question and context)
doc_stride = 128 # The authorized overlap between two part of the context when splitting it is needed.

def prepare_train_features(examples):
    # Tokenize our examples with truncation and padding, but keep the overflows using a stride. This results
    # in one example possible giving several features when a context is long, each of those features having a
    # context that overlaps a bit the context of the previous feature.
    tokenized_examples = tokenizer(
        examples["question" if pad_on_right else "context"],
        examples["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Since one example might give us several features if it has a long context, we need a map from a feature to
    # its corresponding example. This key gives us just that.
    sample_mapping = tokenized_examples.pop("overflow_to_sample_mapping")
    # The offset mappings will give us a map from token to character position in the original context. This will
    # help us compute the start_positions and end_positions.
    offset_mapping = tokenized_examples.pop("offset_mapping")

    # Let's label those examples!
    tokenized_examples["start_positions"] = []
    tokenized_examples["end_positions"] = []

    for i, offsets in enumerate(offset_mapping):
        # We will label impossible answers with the index of the CLS token.
        input_ids = tokenized_examples["input_ids"][i]
        cls_index = input_ids.index(tokenizer.cls_token_id)

        # Grab the sequence corresponding to that example (to know what is the context and what is the question).
        sequence_ids = tokenized_examples.sequence_ids(i)

        # One example can give several spans, this is the index of the example containing this span of text.
        sample_index = sample_mapping[i]
        answers = examples["answers"][sample_index]
        # If no answers are given, set the cls_index as answer.
        if len(answers["answer_start"]) == 0:
            tokenized_examples["start_positions"].append(cls_index)
            tokenized_examples["end_positions"].append(cls_index)
        else:
            # Start/end character index of the answer in the text.
            start_char = answers["answer_start"][0]
            end_char = start_char + len(answers["text"][0])

            # Start token index of the current span in the text.
            token_start_index = 0
            while sequence_ids[token_start_index] != (1 if pad_on_right else 0):
                token_start_index += 1

            # End token index of the current span in the text.
            token_end_index = len(input_ids) - 1
            while sequence_ids[token_end_index] != (1 if pad_on_right else 0):
                token_end_index -= 1

            # Detect if the answer is out of the span (in which case this feature is labeled with the CLS index).
            if not (offsets[token_start_index][0] <= start_char and offsets[token_end_index][1] >= end_char):
                tokenized_examples["start_positions"].append(cls_index)
                tokenized_examples["end_positions"].append(cls_index)
            else:
                # Otherwise move the token_start_index and token_end_index to the two ends of the answer.
                # Note: we could go after the last offset if the answer is the last word (edge case).
                while token_start_index < len(offsets) and offsets[token_start_index][0] <= start_char:
                    token_start_index += 1
                tokenized_examples["start_positions"].append(token_start_index - 1)
                while offsets[token_end_index][1] >= end_char:
                    token_end_index -= 1
                tokenized_examples["end_positions"].append(token_end_index + 1)
    return tokenized_examples

## we need to prepare the data for multiple reason

*   if we have impossible answers like if they are in another feature with long context
*   we can solve that by set the cls index for start and end position or we can just discard those example if we set allow_impossible_answer = False




In [14]:
train_tokenize_data = train_data.map(prepare_train_features, batched=True, remove_columns=train_data.column_names)
validate_tokenize_data = validate_data.map(prepare_train_features, batched=True, remove_columns=validate_data.column_names)

Map:   0%|          | 0/10512 [00:00<?, ? examples/s]

Map:   0%|          | 0/5285 [00:00<?, ? examples/s]

In [15]:
train_tokenize_data

Dataset({
    features: ['input_ids', 'attention_mask', 'start_positions', 'end_positions'],
    num_rows: 12428
})

## fine tune the model

In [16]:
model = AutoModelForQuestionAnswering.from_pretrained(model_checkpoint)

Downloading pytorch_model.bin:   0%|          | 0.00/268M [00:00<?, ?B/s]

Some weights of the model checkpoint at distilbert-base-uncased were not used when initializing DistilBertForQuestionAnswering: ['vocab_transform.weight', 'vocab_projector.bias', 'vocab_layer_norm.weight', 'vocab_projector.weight', 'vocab_layer_norm.bias', 'vocab_transform.bias']
- This IS expected if you are initializing DistilBertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing DistilBertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of DistilBertForQuestionAnswering were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['qa_outputs.weight', 'qa_outputs.bias']
You should probably TRAIN this mode

## Initiate training
### before that we need training arguments which will need folder name and other optional

In [17]:
args = TrainingArguments(
    f"test",
    evaluation_strategy = "epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=3,
    weight_decay=0.01,
)

## data collector that will batch the examples together

In [18]:
data_collector = default_data_collator

## Trainer

In [19]:
trainer = Trainer(
    model,
    args,
    train_dataset=train_tokenize_data,
    eval_dataset=validate_tokenize_data,
    data_collator=data_collector,
    tokenizer=tokenizer,
)

In [20]:
trainer.train()



Epoch,Training Loss,Validation Loss
1,3.4426,2.909785
2,2.404,2.710584
3,2.1884,2.754742


TrainOutput(global_step=2331, training_loss=2.59358655879652, metrics={'train_runtime': 1585.1315, 'train_samples_per_second': 23.521, 'train_steps_per_second': 1.471, 'total_flos': 3653452636194816.0, 'train_loss': 2.59358655879652, 'epoch': 3.0})

## Evaluation will need more work

### model predicts logits by itself for start and end position of our ans. so if we take a batch from validation dataloader, output will have start and end logit.

### we will use best possible answers limit with hyper parameter.
### wheterver we find within that limit, we will get the score and find the best one

In [56]:
import torch

for batch in trainer.get_eval_dataloader():
    break
batch = {k: v.to(trainer.args.device) for k, v in batch.items()}
with torch.no_grad():
    output = trainer.model(**batch)
output.keys()

odict_keys(['loss', 'start_logits', 'end_logits'])

In [57]:
output.start_logits.shape, output.end_logits.shape

(torch.Size([16, 384]), torch.Size([16, 384]))

In [58]:
output.start_logits.argmax(dim=-1), output.end_logits.argmax(dim=-1)

(tensor([16, 16, 13, 15, 25, 14, 14, 11, 14, 10, 14, 12, 14, 15, 28, 19],
        device='cuda:0'),
 tensor([ 18,  18,  15,  17, 182,  16,  16,  13,  16,  59,  16,  14,  16,  17,
         231,  53], device='cuda:0'))

In [59]:
# n_best_size = 20

# start_logits = output.start_logits[0].cpu().numpy()
# end_logits = output.end_logits[0].cpu().numpy()
# # Gather the indices the best start/end logits:
# start_indexes = np.argsort(start_logits)[-1 : -n_best_size - 1 : -1].tolist()
# end_indexes = np.argsort(end_logits)[-1 : -n_best_size - 1 : -1].tolist()
# valid_answers = []
# for start_index in start_indexes:
#     for end_index in end_indexes:
#         if start_index <= end_index: # We need to refine that test to check the answer is inside the context
#             valid_answers.append(
#                 {
#                     "score": start_logits[start_index] + end_logits[end_index],
#                     "text": "" # We need to find a way to get back the original substring corresponding to the answer in the context
#                 }
#             )

## now we will pre-process our validation a bit diferently than train
### because we need to check how can we check whether the given span is within the context and not the question.
### we need to do two task, 
*   add the id of the generated feature
*   add offset mapping which will give a map from token indices to character position



In [60]:
def prepare_validation_features(examples):
    # Tokenize our examples with truncation and maybe padding, but keep the overflows using a stride. This results
    # in one example possible giving several features when a context is long, each of those features having a
    # context that overlaps a bit the context of the previous feature.
    tokenized_examples = tokenizer(
        examples["question" if pad_on_right else "context"],
        examples["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Since one example might give us several features if it has a long context, we need a map from a feature to
    # its corresponding example. This key gives us just that.
    sample_mapping = tokenized_examples.pop("overflow_to_sample_mapping")

    # We keep the example_id that gave us this feature and we will store the offset mappings.
    tokenized_examples["example_id"] = []

    for i in range(len(tokenized_examples["input_ids"])):
        # Grab the sequence corresponding to that example (to know what is the context and what is the question).
        sequence_ids = tokenized_examples.sequence_ids(i)
        context_index = 1 if pad_on_right else 0

        # One example can give several spans, this is the index of the example containing this span of text.
        sample_index = sample_mapping[i]
        tokenized_examples["example_id"].append(examples["id"][sample_index])

        # Set to None the offset_mapping that are not part of the context so it's easy to determine if a token
        # position is part of the context or not.
        tokenized_examples["offset_mapping"][i] = [
            (o if sequence_ids[k] == context_index else None)
            for k, o in enumerate(tokenized_examples["offset_mapping"][i])
        ]

    return tokenized_examples

In [61]:
validation_features = validate_data.map(
    prepare_validation_features,
    batched=True,
    remove_columns=validate_data.column_names
)



## lets predict for all the validation features

In [62]:
raw_pred = trainer.predict(validation_features)

In [28]:
## seting the columns that are hidden since trainer hides unused columns
validation_features.set_format(type=validation_features.format["type"], columns=list(validation_features.features.keys()))

## refining the test by settign None in the offset mapping

## double check the ans

In [30]:
validate_data[0]['answers']

{'text': ['Denver Broncos', 'Denver Broncos', 'Denver Broncos'],
 'answer_start': [182, 182, 182]}

## we will need a map between examples and their corresponding features. Also, since one example can give several features, 
## we will need to gather together all the answers in all the features generated by a given example, then pick the best one. 

In [31]:
examples = validate_data
features = validation_features

example_id_to_index = {k: i for i, k in enumerate(examples["id"])}
features_per_example = collections.defaultdict(list)
for i, feature in enumerate(features):
    features_per_example[example_id_to_index[feature["example_id"]]].append(i)

## we can now predict the impossible ans when its score is greater than the score of the bes non-impossible ans

## post-processing

In [73]:
def postprocess_qa_predictions(examples, features, raw_predictions, n_best_size = 20, max_answer_length = 30):
    all_start_logits, all_end_logits = raw_predictions
    # Build a map example to its corresponding features.
    example_id_to_index = {k: i for i, k in enumerate(examples["id"])}
    features_per_example = collections.defaultdict(list)
    for i, feature in enumerate(features):
        features_per_example[example_id_to_index[feature["example_id"]]].append(i)

    # The dictionaries we have to fill.
    predictions = collections.OrderedDict()

    # Logging.
    print(f"Post-processing {len(examples)} example predictions split into {len(features)} features.")

    # Let's loop over all the examples!
    for example_index, example in enumerate(tqdm(examples)):
        # Those are the indices of the features associated to the current example.
        feature_indices = features_per_example[example_index]

        min_null_score = None 
        valid_answers = []
        
        context = example["context"]
        # Looping through all the features associated to the current example.
        for feature_index in feature_indices:
            # We grab the predictions of the model for this feature.
            start_logits = all_start_logits[feature_index]
            end_logits = all_end_logits[feature_index]
            # This is what will allow us to map some the positions in our logits to span of texts in the original
            # context.
            offset_mapping = features[feature_index]["offset_mapping"]

            # Update minimum null prediction.
            cls_index = features[feature_index]["input_ids"].index(tokenizer.cls_token_id)
            feature_null_score = start_logits[cls_index] + end_logits[cls_index]
            if min_null_score is None or min_null_score < feature_null_score:
                min_null_score = feature_null_score

            # Go through all possibilities for the `n_best_size` greater start and end logits.
            start_indexes = np.argsort(start_logits)[-1 : -n_best_size - 1 : -1].tolist()
            end_indexes = np.argsort(end_logits)[-1 : -n_best_size - 1 : -1].tolist()
            for start_index in start_indexes:
                for end_index in end_indexes:
                    # Don't consider out-of-scope answers, either because the indices are out of bounds or correspond
                    # to part of the input_ids that are not in the context.
                    if (
                        start_index >= len(offset_mapping)
                        or end_index >= len(offset_mapping)
                        or offset_mapping[start_index] is None
                        or offset_mapping[end_index] is None
                    ):
                        continue
                    # Don't consider answers with a length that is either < 0 or > max_answer_length.
                    if end_index < start_index or end_index - start_index + 1 > max_answer_length:
                        continue

                    start_char = offset_mapping[start_index][0]
                    end_char = offset_mapping[end_index][1]
                    valid_answers.append(
                        {
                            "score": start_logits[start_index] + end_logits[end_index],
                            "text": context[start_char: end_char]
                        }
                    )
        
        if len(valid_answers) > 0:
            best_answer = sorted(valid_answers, key=lambda x: x["score"], reverse=True)[0]
        else:
            # In the very rare edge case we have not a single non-null prediction, we create a fake prediction to avoid
            # failure.
            best_answer = {"text": "", "score": 0.0}
        
        answer = best_answer["text"] if best_answer["score"] > min_null_score else ""
        predictions[example["id"]] = answer


    return predictions

## get the final prediction 

In [74]:
final_pred = postprocess_qa_predictions(validate_data, validation_features, raw_pred.predictions)

Post-processing 5285 example predictions split into 6382 features.


  0%|          | 0/5285 [00:00<?, ?it/s]

In [75]:
metric = load_metric('squad')

In [77]:
formatted_pred = [{"id": k, "prediction_text": v} for k, v in final_pred.items()]
references = [{"id": ex["id"], "answers": ex["answers"]} for ex in validate_data]
len(formatted_pred)
metric.compute(predictions=formatted_pred, references=references)

{'exact_match': 15.402081362346262, 'f1': 23.95549697777216}