## Install transformer

In [1]:
! pip install transformers==4.28.0 datasets accelerate


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers==4.28.0
  Downloading transformers-4.28.0-py3-none-any.whl (7.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.0/7.0 MB[0m [31m82.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting datasets
  Downloading datasets-2.12.0-py3-none-any.whl (474 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m474.6/474.6 kB[0m [31m52.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting accelerate
  Downloading accelerate-0.19.0-py3-none-any.whl (219 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m219.1/219.1 kB[0m [31m29.0 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.11.0 (from transformers==4.28.0)
  Downloading huggingface_hub-0.15.1-py3-none-any.whl (236 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m236.8/236.8 kB[0m [31m33.3 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.

## Import libraries

In [2]:
from datasets import load_dataset, load_metric, ClassLabel, Sequence, Dataset
import random
import pandas as pd
import numpy as np
from IPython.display import display, HTML
import torch

import transformers
from transformers import LongformerTokenizerFast, LongformerModel, AutoTokenizer, LongformerForQuestionAnswering
from transformers import AutoTokenizer, TrainingArguments, Trainer, default_data_collator, TFLongformerForQuestionAnswering
from transformers import AutoModelForQuestionAnswering, T5Tokenizer

import collections
from tqdm.auto import tqdm


## load dataset

In [3]:
train_data, validate_data = load_dataset("squad_v1_pt", split='train[:5%]'), load_dataset('squad_v1_pt', split='validation[:4%]')

Downloading builder script:   0%|          | 0.00/4.51k [00:00<?, ?B/s]

Downloading metadata:   0%|          | 0.00/2.19k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/6.88k [00:00<?, ?B/s]

Downloading and preparing dataset squad_v1_pt/default to /root/.cache/huggingface/datasets/squad_v1_pt/default/1.1.0/65162e0fbe44f19a4d2ad9f5f507d2e965e74249fc3239dc78b4e3bd93bab7c4...


Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/8.57M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/1.11M [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split:   0%|          | 0/87599 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/10570 [00:00<?, ? examples/s]

Dataset squad_v1_pt downloaded and prepared to /root/.cache/huggingface/datasets/squad_v1_pt/default/1.1.0/65162e0fbe44f19a4d2ad9f5f507d2e965e74249fc3239dc78b4e3bd93bab7c4. Subsequent calls will reuse this data.




In [4]:
train_data

Dataset({
    features: ['id', 'title', 'context', 'question', 'answers'],
    num_rows: 4380
})

In [5]:
validate_data

Dataset({
    features: ['id', 'title', 'context', 'question', 'answers'],
    num_rows: 423
})

## fine-tune the task

In [6]:
sciq_2 = False
model_checkpoint = "allenai/longformer-large-4096-finetuned-triviaqa"
batch_size = 2

## just to see how dataset look like

In [7]:
def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))

In [8]:
show_random_elements(train_data)

Unnamed: 0,id,title,context,question,answers
0,56cfbc81234ae51400d9bf3b,New_York_City,"Várias figuras literárias americanas proeminentes viveram em Nova York durante as décadas de 1830 e 1840, incluindo William Cullen Bryant, Washington Irving, Herman Melville, Rufus Wilmot Griswold, John Keese, Nathaniel Parker Willis e Edgar Allan Poe. Os membros de mentalidade pública da elite dos negócios contemporâneos fizeram lobby para o estabelecimento do Central Park, que em 1857 se tornou o primeiro parque paisagístico de uma cidade americana.","Central Park, em 1857, tornou-se o primeiro parque na América para se tornar o quê?","{'text': ['primeiro paisagismo'], 'answer_start': [0]}"
1,56cddc2a62d2951400fa690a,Spectre_(2015_film),"Christoph Waltz foi escalado para o papel de Franz Oberhauser, embora ele se recusasse a comentar sobre a natureza da peça. Mais tarde foi revelado com o lançamento do filme que ele é Ernst Stavro Blofeld. Dave Bautista foi escalado como Mr. Hinx depois que os produtores procuraram um ator com experiência em esportes de contato. Depois de escalar Bérénice Lim Marlohe, um recém-chegado, como Sévérine in Skyfall, Mendes procurou conscientemente um ator mais experiente para o papel de Madeleine Swann, no papel de Léa Seydoux no papel. Monica Bellucci se juntou ao elenco como Lucia Sciarra, tornando-se, com a idade de cinquenta anos, a atriz mais velha a ser escalada como uma Bond girl. Em uma entrevista separada com o site dinamarquês Euroman, Jesper Christensen revelou que ele estaria reprisando seu papel como Mr. White de Casino Royale e Quantum of Solace. O personagem de Christensen foi supostamente morto em uma cena destinada a ser usada como um epílogo de Quantum of Solace, antes de ser removido do corte final do filme, permitindo seu retorno em Specter.",Quem Christoph Waltz retratou em Specter?,"{'text': ['Franz Oberhauser'], 'answer_start': [45]}"
2,5734215f4776f419006618fe,Montana,"À medida que os colonos brancos começaram a povoar Montana a partir da década de 1850 até a década de 1870, surgiram disputas com os nativos americanos, principalmente sobre a propriedade e o controle da terra. Em 1855, o Governador Territorial de Washington, Isaac Stevens, negociou o tratado Hellgate entre o governo dos Estados Unidos e Salish, Pend d&#39;Oreille e o povo Kootenai do oeste de Montana, que estabeleceu limites para as nações tribais. O tratado foi ratificado em 1859. Embora o tratado estabelecesse o que mais tarde se tornaria a Reserva Indígena Flathead, problemas com intérpretes e confusão sobre os termos do tratado levaram os brancos a acreditar que o Vale Bitterroot foi aberto para colonização, mas as nações tribais contestaram essas provisões. . O Salish permaneceu no Vale do Bitterroot até 1891.",O que o tratado estabeleceu?,"{'text': ['Reserva Indígena Flathead'], 'answer_start': [550]}"
3,56ce34c7aab44d1400b88598,New_York_City,"Uma expedição espanhola liderada pelo capitão Estêvão Gomes chegou ao porto de Nova York em janeiro de 1525, a bordo da caravela La Anunciada, e mapeou a foz do rio Hudson, que ele chamou de Rio de San. Antonio. O gelo pesado o impediu de continuar a exploração e ele retornou à Espanha em agosto. O primeiro mapa científico a mostrar continuamente a costa leste norte-americana, o mapa-múndi de 1527 conhecido como Padrón Real, foi informado pela expedição de Gomes e rotulou o Nordeste como Tierra de Esteban Gómez em sua homenagem.",Qual era o nome do navio de Estêvão Gomes?,"{'text': ['O anunciado'], 'answer_start': [0]}"
4,5733d4364776f419006612f3,Antibiotics,"A primeira sulfonamida e o primeiro antibacteriano comercialmente disponível, o Prontosil, foi desenvolvido por uma equipe de pesquisa liderada por Gerhard Domagk em 1932 nos Laboratórios Bayer do conglomerado IG Farben, na Alemanha. Domagk recebeu o Prêmio Nobel de Medicina de 1939 por seus esforços. Prontosil teve um efeito relativamente amplo contra cocos Gram-positivos, mas não contra enterobactérias. A pesquisa foi estimulada rapidamente pelo seu sucesso. A descoberta e desenvolvimento desta droga sulfonamida abriu a era dos antibacterianos.",Qual empresa desenvolveu o Prontosil?,"{'text': ['Cores IG'], 'answer_start': [0]}"
5,56d5ecf21c85041400946e5d,2008_Sichuan_earthquake,"Chuva forte persistente e deslizamentos de terra no condado de Wenchuan e na área próxima afetaram gravemente os esforços de resgate. No início das operações de resgate, em 12 de maio, 20 helicópteros foram enviados para a entrega de alimentos, água e ajuda de emergência, além da evacuação de feridos e reconhecimento de áreas atingidas pelo terremoto. Às 17h37 de CST, em 13 de maio, um total de mais de 15.600 soldados e milicianos da região militar de Chengdu se juntaram à força de resgate nas áreas mais afetadas. Um comandante informou da cidade de Yingxiu, Wenchuan, que cerca de 3.000 sobreviventes foram encontrados, enquanto o status dos outros habitantes (cerca de 9.000) permaneceu incerto. Os 1.300 salvadores chegaram ao epicentro, e 300 tropas pioneiras chegaram à sede de Wenchuan por volta das 23:30 CST. Às 12:17 CST, 14 de maio de 2008, a comunicação na sede de Wenchuan foi parcialmente revivida. Na tarde de 14 de maio, 15 Tropas de Operações Especiais, junto com suprimentos de socorro e equipamentos de comunicação, saltaram para o inacessível Condado de Mao, a nordeste de Wenchuan.",Como as pessoas foram relatadas como sobreviventes na cidade de Yingxiu?,"{'text': ['cerca de 3.000'], 'answer_start': [579]}"
6,56cc655c6d243a140015ef94,IPod,"Para todos os iPods lançados em 2006 e anteriores, algumas configurações de som do equalizador (EQ) distorceriam o som grave muito facilmente, mesmo em músicas pouco exigentes. Isso aconteceria para configurações de EQ como R &amp; B, Rock, Acoustic e Bass Booster, porque o equalizador amplificava o nível de áudio digital além do limite do software, causando distorção (clipping) nos instrumentos de baixo.",Qual problema específico causou o problema com a distorção de graves?,"{'text': ['recorte'], 'answer_start': [0]}"
7,56cc0d816d243a140015ee7c,Frédéric_Chopin,"Embora este período tenha sido produtivo, o mau tempo teve um efeito tão prejudicial na saúde de Chopin que Sand decidiu deixar a ilha. Para evitar mais encargos alfandegários, Sand vendeu o piano para um casal francês local, os Canuts. O grupo viajou primeiro para Barcelona, depois para Marselha, onde ficaram por alguns meses enquanto Chopin convalescia. Em maio de 1839, foram para o verão na propriedade de Sand em Nohant, onde passaram a maior parte do verão até 1846. No outono, retornaram a Paris, onde o apartamento de Chopin na rue Tronchet ficava perto da casa alugada de Sand na rua Pigalle. Ele frequentemente visitava Sand à noite, mas ambos mantinham alguma independência. Em 1842, ele e Sand mudaram-se para a Square d&#39;Orléans, vivendo em prédios adjacentes.",Para onde Frédéric e Sand se mudaram em 1842 em edifícios próximos um do outro?,"{'text': ['Praça Orleans'], 'answer_start': [0]}"
8,5733963c4776f41900660df6,Genocide,"Em 2007, a Corte Européia de Direitos Humanos (ECHR) observou em seu julgamento sobre Jorgic contra a Alemanha que em 1992 a maioria dos estudiosos do Direito adotou a visão estreita de que &quot;intenção de destruir&quot; na CPPCG significava a destruição físico-biológica pretendida do grupo protegido e que esta ainda era a opinião da maioria. Mas a CEDH também observou que uma minoria adotou uma visão mais ampla e não considerou a destruição biológico-física necessária, já que a intenção de destruir um grupo nacional, racial, religioso ou étnico era suficiente para se qualificar como genocídio.","Em 2007, qual foi o caso anterior que a Corte Européia de Direitos Humanos elaborou para refinar ainda mais os qualificadores de genocídio?","{'text': ['Jorgic v. Alemanha'], 'answer_start': [0]}"
9,56cec033aab44d1400b889af,2008_Sichuan_earthquake,"Uma equipe de socorro emergencial de 184 pessoas (composta de 12 pessoas do Departamento de Sismologia do Estado, 150 do Comando da Área Militar de Beijing e 22 do Hospital Geral da Polícia Armada) deixou Pequim do Aeroporto Nanyuan no final de 12 de maio em dois aviões de transporte militar. viajar para o Condado de Wenchuan.",Quantas pessoas estavam na equipe de socorro de emergência do terremoto?,"{'text': ['184'], 'answer_start': [37]}"


## Lets preprocess the data

tokenize the data

In [9]:
! pip install sentencepiece

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting sentencepiece
  Downloading sentencepiece-0.1.99-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m13.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sentencepiece
Successfully installed sentencepiece-0.1.99


In [10]:
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

Downloading (…)lve/main/config.json:   0%|          | 0.00/866 [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

In [11]:
# # this will make sure the tokenizer is fast
assert isinstance(tokenizer, transformers.PreTrainedTokenizerFast)

In [12]:
pad_on_right = tokenizer.padding_side == "right" # model except padding on the left

max_length = 384 # The maximum length of a feature (question and context)
doc_stride = 128 # The authorized overlap between two part of the context when splitting it is needed.

def prepare_train_features(examples):
    # Tokenize our examples with truncation and padding, but keep the overflows using a stride. This results
    # in one example possible giving several features when a context is long, each of those features having a
    # context that overlaps a bit the context of the previous feature.
    tokenized_examples = tokenizer(
        examples["question" if pad_on_right else "context"],
        examples["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Since one example might give us several features if it has a long context, we need a map from a feature to
    # its corresponding example. This key gives us just that.
    sample_mapping = tokenized_examples.pop("overflow_to_sample_mapping")
    # The offset mappings will give us a map from token to character position in the original context. This will
    # help us compute the start_positions and end_positions.
    offset_mapping = tokenized_examples.pop("offset_mapping")

    # Let's label those examples!
    tokenized_examples["start_positions"] = []
    tokenized_examples["end_positions"] = []

    for i, offsets in enumerate(offset_mapping):
        # We will label impossible answers with the index of the CLS token.
        input_ids = tokenized_examples["input_ids"][i]
        cls_index = input_ids.index(tokenizer.cls_token_id)

        # Grab the sequence corresponding to that example (to know what is the context and what is the question).
        sequence_ids = tokenized_examples.sequence_ids(i)

        # One example can give several spans, this is the index of the example containing this span of text.
        sample_index = sample_mapping[i]
        answers = examples["answers"][sample_index]
        # If no answers are given, set the cls_index as answer.
        if len(answers["answer_start"]) == 0:
            tokenized_examples["start_positions"].append(cls_index)
            tokenized_examples["end_positions"].append(cls_index)
        else:
            # Start/end character index of the answer in the text.
            start_char = answers["answer_start"][0]
            end_char = start_char + len(answers["text"][0])

            # Start token index of the current span in the text.
            token_start_index = 0
            while sequence_ids[token_start_index] != (1 if pad_on_right else 0):
                token_start_index += 1

            # End token index of the current span in the text.
            token_end_index = len(input_ids) - 1
            while sequence_ids[token_end_index] != (1 if pad_on_right else 0):
                token_end_index -= 1

            # Detect if the answer is out of the span (in which case this feature is labeled with the CLS index).
            if not (offsets[token_start_index][0] <= start_char and offsets[token_end_index][1] >= end_char):
                tokenized_examples["start_positions"].append(cls_index)
                tokenized_examples["end_positions"].append(cls_index)
            else:
                # Otherwise move the token_start_index and token_end_index to the two ends of the answer.
                # Note: we could go after the last offset if the answer is the last word (edge case).
                while token_start_index < len(offsets) and offsets[token_start_index][0] <= start_char:
                    token_start_index += 1
                tokenized_examples["start_positions"].append(token_start_index - 1)
                while offsets[token_end_index][1] >= end_char:
                    token_end_index -= 1
                tokenized_examples["end_positions"].append(token_end_index + 1)
    return tokenized_examples

## we need to prepare the data for multiple reason

*   if we have impossible answers like if they are in another feature with long context
*   we can solve that by set the cls index for start and end position or we can just discard those example if we set allow_impossible_answer = False




In [13]:
train_tokenize_data = train_data.map(prepare_train_features, batched=True, remove_columns=train_data.column_names)
validate_tokenize_data = validate_data.map(prepare_train_features, batched=True, remove_columns=validate_data.column_names)

Map:   0%|          | 0/4380 [00:00<?, ? examples/s]

Map:   0%|          | 0/423 [00:00<?, ? examples/s]

In [14]:
train_tokenize_data

Dataset({
    features: ['input_ids', 'attention_mask', 'start_positions', 'end_positions'],
    num_rows: 5575
})

In [15]:
import torch
torch.cuda.empty_cache()

## fine tune the model

In [16]:
model = LongformerForQuestionAnswering.from_pretrained(model_checkpoint)

Downloading pytorch_model.bin:   0%|          | 0.00/1.74G [00:00<?, ?B/s]

## Initiate training
### before that we need training arguments which will need folder name and other optional

In [17]:
args = TrainingArguments(
    f"test",
    evaluation_strategy = "epoch",
    learning_rate=1e-6,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    num_train_epochs=2,
    weight_decay=0.01,
)

## data collector that will batch the examples together

In [18]:
data_collector = default_data_collator

In [19]:
import torch
torch.cuda.empty_cache()

## Trainer

In [20]:
trainer = Trainer(
    model,
    args,
    train_dataset=train_tokenize_data,
    eval_dataset=validate_tokenize_data,
    data_collator=data_collector,
    tokenizer=tokenizer,
)

In [21]:
trainer.train()



Epoch,Training Loss,Validation Loss
1,2.2992,2.456928


Epoch,Training Loss,Validation Loss
1,2.2992,2.456928


## Evaluation will need more work

### model predicts logits by itself for start and end position of our ans. so if we take a batch from validation dataloader, output will have start and end logit.

### we will use best possible answers limit with hyper parameter.
### wheterver we find within that limit, we will get the score and find the best one

In [None]:
import torch

for batch in trainer.get_eval_dataloader():
    break
batch = {k: v.to(trainer.args.device) for k, v in batch.items()}
with torch.no_grad():
    output = trainer.model(**batch)
output.keys()

In [None]:
output.start_logits.shape, output.end_logits.shape

In [None]:
output.start_logits.argmax(dim=-1), output.end_logits.argmax(dim=-1)

In [None]:
# n_best_size = 20

# start_logits = output.start_logits[0].cpu().numpy()
# end_logits = output.end_logits[0].cpu().numpy()
# # Gather the indices the best start/end logits:
# start_indexes = np.argsort(start_logits)[-1 : -n_best_size - 1 : -1].tolist()
# end_indexes = np.argsort(end_logits)[-1 : -n_best_size - 1 : -1].tolist()
# valid_answers = []
# for start_index in start_indexes:
#     for end_index in end_indexes:
#         if start_index <= end_index: # We need to refine that test to check the answer is inside the context
#             valid_answers.append(
#                 {
#                     "score": start_logits[start_index] + end_logits[end_index],
#                     "text": "" # We need to find a way to get back the original substring corresponding to the answer in the context
#                 }
#             )

## now we will pre-process our validation a bit diferently than train
### because we need to check how can we check whether the given span is within the context and not the question.
### we need to do two task, 
*   add the id of the generated feature
*   add offset mapping which will give a map from token indices to character position



In [None]:
def prepare_validation_features(examples):
    # Tokenize our examples with truncation and maybe padding, but keep the overflows using a stride. This results
    # in one example possible giving several features when a context is long, each of those features having a
    # context that overlaps a bit the context of the previous feature.
    tokenized_examples = tokenizer(
        examples["question" if pad_on_right else "context"],
        examples["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Since one example might give us several features if it has a long context, we need a map from a feature to
    # its corresponding example. This key gives us just that.
    sample_mapping = tokenized_examples.pop("overflow_to_sample_mapping")

    # We keep the example_id that gave us this feature and we will store the offset mappings.
    tokenized_examples["example_id"] = []

    for i in range(len(tokenized_examples["input_ids"])):
        # Grab the sequence corresponding to that example (to know what is the context and what is the question).
        sequence_ids = tokenized_examples.sequence_ids(i)
        context_index = 1 if pad_on_right else 0

        # One example can give several spans, this is the index of the example containing this span of text.
        sample_index = sample_mapping[i]
        tokenized_examples["example_id"].append(examples["id"][sample_index])

        # Set to None the offset_mapping that are not part of the context so it's easy to determine if a token
        # position is part of the context or not.
        tokenized_examples["offset_mapping"][i] = [
            (o if sequence_ids[k] == context_index else None)
            for k, o in enumerate(tokenized_examples["offset_mapping"][i])
        ]

    return tokenized_examples

In [None]:
validation_features = validate_data.map(
    prepare_validation_features,
    batched=True,
    remove_columns=validate_data.column_names
)

## lets predict for all the validation features

In [None]:
raw_pred = trainer.predict(validation_features)

In [None]:
## seting the columns that are hidden since trainer hides unused columns
validation_features.set_format(type=validation_features.format["type"], columns=list(validation_features.features.keys()))

## refining the test by settign None in the offset mapping

## double check the ans

In [None]:
validate_data[0]['answers']

## we will need a map between examples and their corresponding features. Also, since one example can give several features, 
## we will need to gather together all the answers in all the features generated by a given example, then pick the best one. 

In [None]:
examples = validate_data
features = validation_features

example_id_to_index = {k: i for i, k in enumerate(examples["id"])}
features_per_example = collections.defaultdict(list)
for i, feature in enumerate(features):
    features_per_example[example_id_to_index[feature["example_id"]]].append(i)

## we can now predict the impossible ans when its score is greater than the score of the bes non-impossible ans

## post-processing

In [None]:
def postprocess_qa_predictions(examples, features, raw_predictions, n_best_size = 20, max_answer_length = 30):
    all_start_logits, all_end_logits = raw_predictions
    # Build a map example to its corresponding features.
    example_id_to_index = {k: i for i, k in enumerate(examples["id"])}
    features_per_example = collections.defaultdict(list)
    for i, feature in enumerate(features):
        features_per_example[example_id_to_index[feature["example_id"]]].append(i)

    # The dictionaries we have to fill.
    predictions = collections.OrderedDict()

    # Logging.
    print(f"Post-processing {len(examples)} example predictions split into {len(features)} features.")

    # Let's loop over all the examples!
    for example_index, example in enumerate(tqdm(examples)):
        # Those are the indices of the features associated to the current example.
        feature_indices = features_per_example[example_index]

        min_null_score = None 
        valid_answers = []
        
        context = example["context"]
        # Looping through all the features associated to the current example.
        for feature_index in feature_indices:
            # We grab the predictions of the model for this feature.
            start_logits = all_start_logits[feature_index]
            end_logits = all_end_logits[feature_index]
            # This is what will allow us to map some the positions in our logits to span of texts in the original
            # context.
            offset_mapping = features[feature_index]["offset_mapping"]

            # Update minimum null prediction.
            cls_index = features[feature_index]["input_ids"].index(tokenizer.cls_token_id)
            feature_null_score = start_logits[cls_index] + end_logits[cls_index]
            if min_null_score is None or min_null_score < feature_null_score:
                min_null_score = feature_null_score

            # Go through all possibilities for the `n_best_size` greater start and end logits.
            start_indexes = np.argsort(start_logits)[-1 : -n_best_size - 1 : -1].tolist()
            end_indexes = np.argsort(end_logits)[-1 : -n_best_size - 1 : -1].tolist()
            for start_index in start_indexes:
                for end_index in end_indexes:
                    # Don't consider out-of-scope answers, either because the indices are out of bounds or correspond
                    # to part of the input_ids that are not in the context.
                    if (
                        start_index >= len(offset_mapping)
                        or end_index >= len(offset_mapping)
                        or offset_mapping[start_index] is None
                        or offset_mapping[end_index] is None
                    ):
                        continue
                    # Don't consider answers with a length that is either < 0 or > max_answer_length.
                    if end_index < start_index or end_index - start_index + 1 > max_answer_length:
                        continue

                    start_char = offset_mapping[start_index][0]
                    end_char = offset_mapping[end_index][1]
                    valid_answers.append(
                        {
                            "score": start_logits[start_index] + end_logits[end_index],
                            "text": context[start_char: end_char]
                        }
                    )
        
        if len(valid_answers) > 0:
            best_answer = sorted(valid_answers, key=lambda x: x["score"], reverse=True)[0]
        else:
            # In the very rare edge case we have not a single non-null prediction, we create a fake prediction to avoid
            # failure.
            best_answer = {"text": "", "score": 0.0}
        
        answer = best_answer["text"] if best_answer["score"] > min_null_score else ""
        predictions[example["id"]] = answer


    return predictions

## get the final prediction 

In [None]:
final_pred = postprocess_qa_predictions(validate_data, validation_features, raw_pred.predictions)

In [None]:
metric = load_metric('squad')

In [None]:
formatted_pred = [{"id": k, "prediction_text": v} for k, v in final_pred.items()]
references = [{"id": ex["id"], "answers": ex["answers"]} for ex in validate_data]
len(formatted_pred)
metric.compute(predictions=formatted_pred, references=references)