## Install transformer

In [1]:
! pip install transformers==4.28.0 datasets accelerate

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [2]:
!pip install SentencePiece 

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


## Import libraries

In [3]:
from datasets import load_dataset, load_metric, ClassLabel, Sequence,Dataset
import random
import pandas as pd
import numpy as np
from IPython.display import display, HTML
import torch

import transformers
from transformers import AutoTokenizer, TrainingArguments, Trainer, default_data_collator,AdamW
from transformers import BigBirdForQuestionAnswering, BigBirdTokenizer, BigBirdTokenizerFast
from warnings import filterwarnings
filterwarnings('ignore')
import collections
from tqdm.auto import tqdm


## load dataset

In [4]:
train_data, validate_data = load_dataset("squad_v1_pt", split='train[:12%]'), load_dataset('squad_v1_pt', split='validation[:50%]')



In [5]:
train_data

Dataset({
    features: ['id', 'title', 'context', 'question', 'answers'],
    num_rows: 10512
})

In [6]:
validate_data

Dataset({
    features: ['id', 'title', 'context', 'question', 'answers'],
    num_rows: 5285
})

## fine-tune the task

In [7]:
sciq_2 = False
model_checkpoint = "google/bigbird-roberta-base"
batch_size = 8

## just to see how dataset look like

In [8]:
def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))

In [9]:
show_random_elements(validate_data)

Unnamed: 0,id,title,context,question,answers
0,571ce7f25efbb31900334e42,Oxygen,"O oxigênio está presente na atmosfera em quantidades residuais na forma de dióxido de carbono (CO 2). A rocha crustal da Terra é composta em grande parte de óxidos de silício (sílica SiO 2, como encontrado em granito e quartzo), alumínio (óxido de alumínio Al 2 O 3, em bauxita e corindo), ferro (óxido de ferro III) Fe 2O 3 , em hematita e ferrugem) e carbonato de cálcio (em calcário). O resto da crosta terrestre também é feito de compostos de oxigênio, em particular vários silicatos complexos (em minerais de silicato). O manto da Terra, de massa muito maior que a crosta, é em grande parte composto de silicatos de magnésio e ferro.","Além de óxidos, que outros compostos compõem uma grande porção da crosta terrestre?","{'text': ['silicatos complexos', 'silicatos complexos', 'silicatos', 'silicatos', 'silicatos (em minerais de silicato)'], 'answer_start': [478, 478, 478, 478, 0]}"
1,57264c42dd62a815002e80c6,Black_Death,"A explicação dominante para a peste negra é a teoria da peste, que atribui o surto a Yersinia pestis, também responsável por uma epidemia que começou no sul da China em 1865, eventualmente se espalhando para a Índia. A investigação do patógeno que causou a praga do século 19 foi iniciada por equipes de cientistas que visitaram Hong Kong em 1894, entre os quais estava o bacteriologista franco-suíço Alexandre Yersin, após o qual o patógeno se chamava Yersinia pestis. O mecanismo pelo qual Y. pestis foi geralmente transmitido foi estabelecido em 1898 por Paul-Louis Simond e foi encontrado para envolver as picadas de pulgas cujos intestinos tinham sido obstruídos por replicar Y. pestis vários dias após a alimentação em um hospedeiro infectado. Este bloqueio resulta em fome e comportamento agressivo de alimentação pelas pulgas, que repetidamente tentam limpar seu bloqueio por regurgitação, resultando em milhares de bactérias da peste sendo liberadas no local de alimentação, infectando o hospedeiro. O mecanismo da peste bubônica também foi dependente de duas populações de roedores: uma resistente à doença, que atuam como hospedeiros, mantendo a doença endêmica e uma segunda que não apresenta resistência. Quando a segunda população morre, as pulgas passam para outros hospedeiros, incluindo pessoas, criando assim uma epidemia humana.",O que foi considerado responsável pela morte negra e pela epidemia no sul da China?,"{'text': ['Yersinia pestis', 'Yersinia pestis', 'Yersinia pestis'], 'answer_start': [85, 85, 85]}"
2,5726778df1498d1400e8e0ac,Newcastle_upon_Tyne,"O apartamento de Tyneside era a forma de habitação dominante construída na época em que os centros industriais de Tyneside cresciam mais rapidamente. Eles ainda podem ser encontrados em áreas como South Heaton, em Newcastle, mas uma vez dominaram a paisagem urbana em ambos os lados do Tyne. Apartamentos em Tyneside foram construídos como terraços, um de cada par de portas levava a um apartamento no andar de cima, enquanto o outro levava ao térreo, cada um com dois ou três quartos. Um novo desenvolvimento no vale de Ouseburn os recriou; Os arquitetos Cany Ash e Robert Sakula foram atraídos pelas possibilidades de alta densidade sem se erguerem e se livrarem das áreas comuns.",Qual foi o modelo de habitação dominante quando os centros industriais estavam crescendo mais rapidamente?,"{'text': ['O apartamento Tyneside', 'O apartamento Tyneside', 'O apartamento Tyneside'], 'answer_start': [0, 0, 0]}"
3,57107d73b654c5140001f91d,Huguenot,"A guerra religiosa renovada na década de 1620 fez com que os privilégios políticos e militares dos huguenotes fossem abolidos após sua derrota. Eles retiveram as provisões religiosas do Edito de Nantes até o reinado de Luís XIV, que progressivamente aumentou a perseguição deles até que ele emitiu o Édito de Fontainebleau (1685), que aboliu todo o reconhecimento legal do protestantismo na França e forçou os huguenotes a converterem-se. . Enquanto quase três quartos foram mortos ou submetidos, cerca de 500 mil huguenotes fugiram da França no início do século XVIII.",Que proclamação aboliu o protestantismo na França?,"{'text': ['Édito de Fontainebleau', 'Édito de Fontainebleau', 'O Edito de Fontainebleau'], 'answer_start': [300, 300, 0]}"
4,56dfa2c54a1a83140091ebf3,Nikola_Tesla,"Em 1873, Tesla retornou à sua cidade natal, Smiljan. Pouco depois de ele chegar, Tesla contraiu cólera; Ele ficou de cama por nove meses e quase morreu várias vezes. O pai de Tesla, em um momento de desespero, prometeu mandá-lo para a melhor escola de engenharia se ele se recuperasse da doença (seu pai originalmente queria que ele entrasse no sacerdócio).",Quanto tempo ele ficou de cama com cólera?,"{'text': ['nove meses', 'nove meses', 'nove meses'], 'answer_start': [126, 126, 126]}"
5,571a50df4faf5e1900b8a961,Oxygen,"Fontes altamente concentradas de oxigênio promovem combustão rápida. Há riscos de incêndio e explosão quando oxidantes e combustíveis concentrados são levados para perto; um evento de ignição, como calor ou faísca, é necessário para desencadear a combustão. O oxigênio é o oxidante, não o combustível, mas mesmo assim é a fonte da maior parte da energia química liberada na combustão. Os riscos de combustão também se aplicam a compostos de oxigênio com alto potencial oxidativo, como peróxidos, cloratos, nitratos, percloratos e dicromatos, porque eles podem doar oxigênio para o fogo.",A combustão é causada por um oxidante e um combustível. Qual o papel do oxigênio na combustão?,"{'text': ['Oxigênio é o oxidante', 'o oxidante', 'oxidante', 'oxidante', 'oxidante'], 'answer_start': [0, 107, 109, 109, 109]}"
6,56e1c9bfe3433e1400423193,Computational_complexity_theory,"Muitas classes de complexidade são definidas usando o conceito de redução. Uma redução é uma transformação de um problema em outro problema. Captura a noção informal de um problema sendo pelo menos tão difícil quanto outro problema. Por exemplo, se um problema X pode ser resolvido usando um algoritmo para Y, X não é mais difícil que Y, e dizemos que X se reduz a Y. Existem muitos tipos diferentes de reduções, baseadas no método de redução, como Reduções de cozimento, reduções de Karp e reduções de Levin e o limite na complexidade de reduções, como reduções de tempo polinomial ou reduções de espaço de log.",Redução essencialmente leva um problema e converte em quê?,"{'text': ['outro problema', 'outro problema', 'outro problema'], 'answer_start': [125, 125, 125]}"
7,56f7cb10a6d7ea1400e17284,Martin_Luther,"Sua tradução da Bíblia para o vernáculo (em vez do latim) tornou-a mais acessível, o que teve um impacto tremendo na igreja e na cultura alemã. Promoveu o desenvolvimento de uma versão padrão da língua alemã, acrescentou vários princípios à arte da tradução e influenciou a escrita de uma tradução em inglês, a Bíblia de Tyndale. Seus hinos influenciaram o desenvolvimento do canto nas igrejas. Seu casamento com Katharina von Bora estabeleceu um modelo para a prática do casamento clerical, permitindo que o clero protestante se casasse.",Que livro Martin Luther traduziu para impactar a cultura alemã?,"{'text': ['Bíblia', 'Bíblia'], 'answer_start': [16, 16]}"
8,570d4606b3d812140066d61d,Victoria_(Australia),"Victoria é o centro da produção leiteira na Austrália. É o lar de 60% dos 3 milhões de bovinos leiteiros da Austrália e produz quase dois terços do leite do país, quase 6,4 bilhões de litros. O estado também possui 2,4 milhões de cabeças de gado de corte, com mais de 2,2 milhões de bovinos e bezerros abatidos a cada ano. Em 2003-2004, as equipes de pesca comercial vitoriana e a indústria da aquicultura produziram 11.634 toneladas de frutos do mar, avaliadas em quase A $ 109 milhões. O abalone Blacklipped é a base da pesca, com US $ 46 milhões, seguida pela lagosta do sul, no valor de A $ 13,7 milhões. A maioria dos abalones e lagostas é exportada para a Ásia.",Para onde é entregue a maior parte do abalone e da lagosta em águas vitorianas?,"{'text': ['Ásia', 'Ásia', 'Ásia'], 'answer_start': [662, 662, 662]}"
9,57112686b654c5140001fbd4,Steam_engine,"Motores a vapor são motores de combustão externa, onde o fluido de trabalho é separado dos produtos de combustão. Fontes de calor não-combustão como energia solar, energia nuclear ou energia geotérmica podem ser usadas. O ciclo termodinâmico ideal usado para analisar esse processo é chamado de ciclo Rankine. No ciclo, a água é aquecida e transforma-se em vapor dentro de uma caldeira operando a alta pressão. Quando expandido através de pistões ou turbinas, o trabalho mecânico é feito. O vapor de pressão reduzida é então condensado e bombeado de volta para a caldeira.",Qual ciclo termodinâmico ideal analisa o processo pelo qual os motores a vapor funcionam?,"{'text': ['Bolsa', 'Ciclo de Rankine', 'Ciclo de Rankine', 'Ciclo de Rankine'], 'answer_start': [0, 0, 0, 0]}"


## Lets preprocess the data

tokenize the data

In [10]:
tokenizer = BigBirdTokenizerFast.from_pretrained(model_checkpoint)

In [11]:
# this will make sure the tokenizer is fast
assert isinstance(tokenizer, transformers.PreTrainedTokenizerFast)

In [12]:
pad_on_right = tokenizer.padding_side == "right" # model except padding on the left

max_length = 384 # The maximum length of a feature (question and context)
doc_stride = 128 # The authorized overlap between two part of the context when splitting it is needed.

def prepare_train_features(examples):
    # Tokenize our examples with truncation and padding, but keep the overflows using a stride. This results
    # in one example possible giving several features when a context is long, each of those features having a
    # context that overlaps a bit the context of the previous feature.
    tokenized_examples = tokenizer(
        examples["question" if pad_on_right else "context"],
        examples["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Since one example might give us several features if it has a long context, we need a map from a feature to
    # its corresponding example. This key gives us just that.
    sample_mapping = tokenized_examples.pop("overflow_to_sample_mapping")
    # The offset mappings will give us a map from token to character position in the original context. This will
    # help us compute the start_positions and end_positions.
    offset_mapping = tokenized_examples.pop("offset_mapping")

    # Let's label those examples!
    tokenized_examples["start_positions"] = []
    tokenized_examples["end_positions"] = []

    for i, offsets in enumerate(offset_mapping):
        # We will label impossible answers with the index of the CLS token.
        input_ids = tokenized_examples["input_ids"][i]
        cls_index = input_ids.index(tokenizer.cls_token_id)

        # Grab the sequence corresponding to that example (to know what is the context and what is the question).
        sequence_ids = tokenized_examples.sequence_ids(i)

        # One example can give several spans, this is the index of the example containing this span of text.
        sample_index = sample_mapping[i]
        answers = examples["answers"][sample_index]
        # If no answers are given, set the cls_index as answer.
        if len(answers["answer_start"]) == 0:
            tokenized_examples["start_positions"].append(cls_index)
            tokenized_examples["end_positions"].append(cls_index)
        else:
            # Start/end character index of the answer in the text.
            start_char = answers["answer_start"][0]
            end_char = start_char + len(answers["text"][0])

            # Start token index of the current span in the text.
            token_start_index = 0
            while sequence_ids[token_start_index] != (1 if pad_on_right else 0):
                token_start_index += 1

            # End token index of the current span in the text.
            token_end_index = len(input_ids) - 1
            while sequence_ids[token_end_index] != (1 if pad_on_right else 0):
                token_end_index -= 1

            # Detect if the answer is out of the span (in which case this feature is labeled with the CLS index).
            if not (offsets[token_start_index][0] <= start_char and offsets[token_end_index][1] >= end_char):
                tokenized_examples["start_positions"].append(cls_index)
                tokenized_examples["end_positions"].append(cls_index)
            else:
                # Otherwise move the token_start_index and token_end_index to the two ends of the answer.
                # Note: we could go after the last offset if the answer is the last word (edge case).
                while token_start_index < len(offsets) and offsets[token_start_index][0] <= start_char:
                    token_start_index += 1
                tokenized_examples["start_positions"].append(token_start_index - 1)
                while offsets[token_end_index][1] >= end_char:
                    token_end_index -= 1
                tokenized_examples["end_positions"].append(token_end_index + 1)
    return tokenized_examples

## we need to prepare the data for multiple reason

*   if we have impossible answers like if they are in another feature with long context
*   we can solve that by set the cls index for start and end position or we can just discard those example if we set allow_impossible_answer = False




In [13]:
train_tokenize_data = train_data.map(prepare_train_features, batched=True, remove_columns=train_data.column_names)
validate_tokenize_data = validate_data.map(prepare_train_features, batched=True, remove_columns=validate_data.column_names)

Map:   0%|          | 0/10512 [00:00<?, ? examples/s]

Map:   0%|          | 0/5285 [00:00<?, ? examples/s]

In [14]:
from torch.utils.data import DataLoader


In [15]:
# Define the data loaders
train_dataloader = DataLoader(train_tokenize_data, batch_size=16, shuffle=True)
val_dataloader = DataLoader(validate_tokenize_data, batch_size=32, shuffle=False)

In [16]:
from transformers.data.processors.squad import SquadV2Processor
from transformers.data.metrics.squad_metrics import compute_exact, compute_f1


In [17]:
# Load the HotpotQA dataset
train_dataset = load_dataset("hotpot_qa",'distractor', split="train")
val_dataset = load_dataset("hotpot_qa",'distractor', split="validation")

Downloading builder script:   0%|          | 0.00/6.42k [00:00<?, ?B/s]

Downloading metadata:   0%|          | 0.00/5.93k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/9.19k [00:00<?, ?B/s]

Downloading and preparing dataset hotpot_qa/distractor to /root/.cache/huggingface/datasets/hotpot_qa/distractor/1.0.0/133b9501f892e5193babbad937bee3b4899deb4691ef4d791e6ac0111c875bb5...


Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/566M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/46.3M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/90447 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/7405 [00:00<?, ? examples/s]

Dataset hotpot_qa downloaded and prepared to /root/.cache/huggingface/datasets/hotpot_qa/distractor/1.0.0/133b9501f892e5193babbad937bee3b4899deb4691ef4d791e6ac0111c875bb5. Subsequent calls will reuse this data.




In [19]:
# Create the model
model = BigBirdForQuestionAnswering.from_pretrained("google/bigbird-roberta-base")

Downloading pytorch_model.bin:   0%|          | 0.00/513M [00:00<?, ?B/s]

Some weights of the model checkpoint at google/bigbird-roberta-base were not used when initializing BigBirdForQuestionAnswering: ['cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.decoder.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.bias', 'bert.pooler.bias', 'bert.pooler.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.decoder.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BigBirdForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BigBirdForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of B

## Initiate training
### before that we need training arguments which will need folder name and other optional

In [23]:
args = TrainingArguments(
    f"test",
    evaluation_strategy = "epoch",
    learning_rate=1e-6,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=3,
    weight_decay=0.01,
)

## data collector that will batch the examples together

In [24]:
data_collector = default_data_collator

## Trainer

In [25]:
trainer = Trainer(
    model,
    args,
    train_dataset=train_tokenize_data,
    eval_dataset=validate_tokenize_data,
    data_collator=data_collector,
    tokenizer=tokenizer,
)

In [26]:
trainer.train()

Attention type 'block_sparse' is not possible if sequence_length: 384 <= num global tokens: 2 * config.block_size + min. num sliding tokens: 3 * config.block_size + config.num_random_blocks * config.block_size + additional buffer: config.num_random_blocks * config.block_size = 704 with config.block_size = 64, config.num_random_blocks = 3. Changing attention type to 'original_full'...


Epoch,Training Loss,Validation Loss
1,3.3797,3.202169
2,3.0413,2.96847
3,2.9335,2.929491


TrainOutput(global_step=4854, training_loss=3.2856785067325274, metrics={'train_runtime': 4333.1166, 'train_samples_per_second': 8.962, 'train_steps_per_second': 1.12, 'total_flos': 8032655096045568.0, 'train_loss': 3.2856785067325274, 'epoch': 3.0})

## Evaluation will need more work

### model predicts logits by itself for start and end position of our ans. so if we take a batch from validation dataloader, output will have start and end logit.

### we will use best possible answers limit with hyper parameter.
### wheterver we find within that limit, we will get the score and find the best one

In [27]:
import torch

for batch in trainer.get_eval_dataloader():
    break
batch = {k: v.to(trainer.args.device) for k, v in batch.items()}
with torch.no_grad():
    output = trainer.model(**batch)
output.keys()

odict_keys(['loss', 'start_logits', 'end_logits'])

In [28]:
output.start_logits.shape, output.end_logits.shape

(torch.Size([8, 384]), torch.Size([8, 384]))

In [29]:
output.start_logits.argmax(dim=-1), output.end_logits.argmax(dim=-1)

(tensor([15, 15, 13, 14, 24, 13, 14, 11], device='cuda:0'),
 tensor([17, 17, 15, 16, 26, 15, 16, 13], device='cuda:0'))

## now we will pre-process our validation a bit diferently than train
### because we need to check how can we check whether the given span is within the context and not the question.
### we need to do two task, 
*   add the id of the generated feature
*   add offset mapping which will give a map from token indices to character position



In [30]:
def prepare_validation_features(examples):
    # Tokenize our examples with truncation and maybe padding, but keep the overflows using a stride. This results
    # in one example possible giving several features when a context is long, each of those features having a
    # context that overlaps a bit the context of the previous feature.
    tokenized_examples = tokenizer(
        examples["question" if pad_on_right else "context"],
        examples["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Since one example might give us several features if it has a long context, we need a map from a feature to
    # its corresponding example. This key gives us just that.
    sample_mapping = tokenized_examples.pop("overflow_to_sample_mapping")

    # We keep the example_id that gave us this feature and we will store the offset mappings.
    tokenized_examples["example_id"] = []

    for i in range(len(tokenized_examples["input_ids"])):
        # Grab the sequence corresponding to that example (to know what is the context and what is the question).
        sequence_ids = tokenized_examples.sequence_ids(i)
        context_index = 1 if pad_on_right else 0

        # One example can give several spans, this is the index of the example containing this span of text.
        sample_index = sample_mapping[i]
        tokenized_examples["example_id"].append(examples["id"][sample_index])

        # Set to None the offset_mapping that are not part of the context so it's easy to determine if a token
        # position is part of the context or not.
        tokenized_examples["offset_mapping"][i] = [
            (o if sequence_ids[k] == context_index else None)
            for k, o in enumerate(tokenized_examples["offset_mapping"][i])
        ]

    return tokenized_examples

In [31]:
validation_features = validate_data.map(
    prepare_validation_features,
    batched=True,
    remove_columns=validate_data.column_names
)

Map:   0%|          | 0/5285 [00:00<?, ? examples/s]

## lets predict for all the validation features

In [32]:
raw_pred = trainer.predict(validation_features)

In [33]:
## seting the columns that are hidden since trainer hiddes unused columns
validation_features.set_format(type=validation_features.format["type"], columns=list(validation_features.features.keys()))

## double check the ans

In [34]:
validate_data[0]['answers']

{'text': ['Denver Broncos', 'Denver Broncos', 'Denver Broncos'],
 'answer_start': [182, 182, 182]}

## we will need a map between examples and their corresponding features. Also, since one example can give several features, 
## we will need to gather together all the answers in all the features generated by a given example, then pick the best one. 

In [35]:
examples = validate_data
features = validation_features

example_id_to_index = {k: i for i, k in enumerate(examples["id"])}
features_per_example = collections.defaultdict(list)
for i, feature in enumerate(features):
    features_per_example[example_id_to_index[feature["example_id"]]].append(i)

## we can now predict the impossible ans when its score is greater than the score of the bes non-impossible ans

## post-processing

In [36]:



def postprocess_qa_predictions(examples, features, raw_predictions, n_best_size = 20, max_answer_length = 30):
    all_start_logits, all_end_logits = raw_predictions
    # Build a map example to its corresponding features.
    example_id_to_index = {k: i for i, k in enumerate(examples["id"])}
    features_per_example = collections.defaultdict(list)
    for i, feature in enumerate(features):
        features_per_example[example_id_to_index[feature["example_id"]]].append(i)

    # The dictionaries we have to fill.
    predictions = collections.OrderedDict()

    # Logging.
    print(f"Post-processing {len(examples)} example predictions split into {len(features)} features.")

    # Let's loop over all the examples!
    for example_index, example in enumerate(tqdm(examples)):
        # Those are the indices of the features associated to the current example.
        feature_indices = features_per_example[example_index]

        min_null_score = None 
        valid_answers = []
        
        context = example["context"]
        # Looping through all the features associated to the current example.
        for feature_index in feature_indices:
            # We grab the predictions of the model for this feature.
            start_logits = all_start_logits[feature_index]
            end_logits = all_end_logits[feature_index]
            # This is what will allow us to map some the positions in our logits to span of texts in the original
            # context.
            offset_mapping = features[feature_index]["offset_mapping"]

            # Update minimum null prediction.
            cls_index = features[feature_index]["input_ids"].index(tokenizer.cls_token_id)
            feature_null_score = start_logits[cls_index] + end_logits[cls_index]
            if min_null_score is None or min_null_score < feature_null_score:
                min_null_score = feature_null_score

            # Go through all possibilities for the `n_best_size` greater start and end logits.
            start_indexes = np.argsort(start_logits)[-1 : -n_best_size - 1 : -1].tolist()
            end_indexes = np.argsort(end_logits)[-1 : -n_best_size - 1 : -1].tolist()
            for start_index in start_indexes:
                for end_index in end_indexes:
                    # Don't consider out-of-scope answers, either because the indices are out of bounds or correspond
                    # to part of the input_ids that are not in the context.
                    if (
                        start_index >= len(offset_mapping)
                        or end_index >= len(offset_mapping)
                        or offset_mapping[start_index] is None
                        or offset_mapping[end_index] is None
                    ):
                        continue
                    # Don't consider answers with a length that is either < 0 or > max_answer_length.
                    if end_index < start_index or end_index - start_index + 1 > max_answer_length:
                        continue

                    start_char = offset_mapping[start_index][0]
                    end_char = offset_mapping[end_index][1]
                    valid_answers.append(
                        {
                            "score": start_logits[start_index] + end_logits[end_index],
                            "text": context[start_char: end_char]
                        }
                    )
        
        if len(valid_answers) > 0:
            best_answer = sorted(valid_answers, key=lambda x: x["score"], reverse=True)[0]
        else:
            # In the very rare edge case we have not a single non-null prediction, we create a fake prediction to avoid
            # failure.
            best_answer = {"text": "", "score": 0.0}
        answer = best_answer["text"] if best_answer["score"] > min_null_score else ""
        predictions[example["id"]] = answer

    return predictions

## get the final prediction 

In [37]:
final_pred = postprocess_qa_predictions(validate_data, validation_features, raw_pred.predictions)

Post-processing 5285 example predictions split into 6745 features.


  0%|          | 0/5285 [00:00<?, ?it/s]

In [38]:
metric = load_metric("squad")

Downloading builder script:   0%|          | 0.00/1.72k [00:00<?, ?B/s]

Downloading extra modules:   0%|          | 0.00/1.11k [00:00<?, ?B/s]

In [39]:
formatted_pred = [{"id": k, "prediction_text": v} for k, v in final_pred.items()]
references = [{"id": ex["id"], "answers": ex["answers"]} for ex in validate_data]
metric.compute(predictions=formatted_pred, references=references)

{'exact_match': 6.565752128666036, 'f1': 14.61112258879155}