# Fine-tuning BERT (base or large) on a Question-Answering task by using the library adapter-transformers (script version)

- **Credit**: [Hugging Face](https://huggingface.co/) and [adapter-transformers](https://github.com/Adapter-Hub/adapter-transformers)
- **Author**: [Pierre GUILLOU](https://www.linkedin.com/in/pierreguillou/)
- **Date**: 02/07/2021
- **Blog post**: []()
- **Link to the folder in github with this notebook and all necessary scripts**: [question-answering with adapters](https://github.com/piegu/language-models/tree/master/adapters/question-answering/)
- **Link to the adapters in the AdapterHub**: 

## 1. Context

### Objective

The objective here is to **fine-tune a Masked Language Model (MLM) like BERT (base or large) for a QA task by training adapters (library [adapter-transformers](https://github.com/Adapter-Hub/adapter-transformers)), not the embeddings and transformers layers of the MLM model**, and to compare results with BERT model fully fine-tune for the same task.

The interest is obvious: if you need models for different NLP tasks, instead of fine-tuning and storing one model by NLP task, **you store only one MLM model and the trained tasks adapters which sizes are about 3% of the MLM model one**. More, the loading of these adapters in production is very easy.

### Content

In this notebook, we will see how to fine-tune one of the [🤗 Transformers](https://github.com/huggingface/transformers) model to a question answering task, which is the task of extracting the answer to a question from a given context. We will use the library [adapter-transformers](https://github.com/Adapter-Hub/adapter-transformers) and see how to easily load a dataset for these kinds of tasks and use the `Trainer` API to fine-tune a model on it.

![Widget inference representing the QA task](images/question_answering_adapter.png)

**Note:** This notebook finetunes models that answer question by taking a substring of a context, not by generating new text.

This notebook is built to run on any question answering task with the same format as SQUAD (version 1 or 2), with any model checkpoint from the [Model Hub](https://huggingface.co/models) as long as that model has a version with a token classification head and a fast tokenizer (check on [this table](https://huggingface.co/transformers/index.html#bigtable) if this is the case). It might just need some small adjustments if you decide to use a different dataset than the one used here. Depending on you model and the GPU you are using, you might need to adjust the batch size to avoid out-of-memory errors. Set those three parameters, then the rest of the notebook should run smoothly:

### History and Credit

This notebook is an adaptation of the following notebooks and scripts for **fine-tuning a (transformer) Masked Language Model (MLM) like BERT (base or large) on the QA task with any QA dataset** (we use here the [Portuguese Squad 1.1 dataset](https://forum.ailab.unb.br/t/datasets-em-portugues/251/4)):
- **from [adapter-transformers](https://github.com/Adapter-Hub/adapter-transformers)** | notebook [04_Cross_Lingual_Transfer.ipynb](https://github.com/Adapter-Hub/adapter-transformers/blob/master/notebooks/04_Cross_Lingual_Transfer.ipynb) and script [run_qa.py](https://github.com/Adapter-Hub/adapter-transformers/blob/master/examples/question-answering/run_qa.py) (this script was adapted from the script [run_qa.py](https://github.com/huggingface/transformers/blob/master/examples/pytorch/question-answering/run_qa.py) of HF)
- **from [transformers](https://github.com/huggingface/transformers) of Hugging Face** | notebook [question_answering.ipynb](https://github.com/huggingface/notebooks/blob/master/examples/question_answering.ipynb) and script [run_qa.py](https://github.com/huggingface/transformers/blob/master/examples/pytorch/question-answering/run_qa.py) 

In order to speed up the fine-tuning of the model on only one GPU, the library [DeepSpeed](https://www.deepspeed.ai/) could be used by applying the configuration provided by HF in the notebook [transformers + deepspeed CLI](https://github.com/stas00/porting/blob/master/transformers/deepspeed/DeepSpeed_on_colab_CLI.ipynb) but as the library adapter-transformers is not synchronized with the last version of the library transformers of HF, we keep that option for the future.

### Major changes from original notebooks and scripts

The script [run_qa.py](https://github.com/Adapter-Hub/adapter-transformers/blob/master/examples/question-answering/run_qa.py) allows to evaluate the model performance against f1 metric at the end of each epoch, and not against validation loss as done in the notebook [question_answering.ipynb](https://github.com/huggingface/notebooks/blob/master/examples/question_answering.ipynb). This is very important as we consider the metric when selecting a model, not the loss. Therefore, we decided to launch this script inside this notebook (by simulating terminal command line) instead of running code in cells as done in the notebook of HF.

More, we updated the script [run_qa.py](https://github.com/Adapter-Hub/adapter-transformers/blob/master/examples/question-answering/run_qa.py) to [run_qa_adapter.py](https://github.com/piegu/language-models/blob/master/adapters/question-answering/run_qa_adapter.py) with the following changes:
- **EarlyStopping** by selecting the model with the highest eval f1 (patience of 3 before ending the training)
- **MAD-X 2.0** that allows not to train adapters in the last transformer layer (read page 6 of [UNKs Everywhere: Adapting Multilingual Language Models to New Scripts](https://arxiv.org/pdf/2012.15562.pdf))
- **Stack method** for the lang and task adapters when a lang adapter is loaded ([doc](https://docs.adapterhub.ml/adapter_composition.html?highlight=stack#stack))

## 2. Installation

In [1]:
import pathlib
from pathlib import Path

#root path
root = Path.cwd()

In [2]:
import pickle
import pandas as pd

In [3]:
import sys; print('python:',sys.version)

import torch; print('Pytorch:',torch.__version__)

import transformers; print('adapter-transformers:',transformers.__version__)
import transformers; print('HF transformers:',transformers.__hf_version__)
import tokenizers; print('tokenizers:',tokenizers.__version__)
import datasets; print('datasets:',datasets.__version__)

# import deepspeed; print('deepspeed:',deepspeed.__version__)

# Versions used in the virtuel environment of this notebook:

# python: 3.8.10 (default, Jun  4 2021, 15:09:15) 
# [GCC 7.5.0]
# Pytorch: 1.9.0
# adapter-transformers: 2.0.1
# transformers: 4.5.1
# tokenizers: 0.10.3
# datasets: 1.8.0

python: 3.8.10 (default, Jun  4 2021, 15:09:15) 
[GCC 7.5.0]
Pytorch: 1.9.0
adapter-transformers: 2.0.1
HF transformers: 4.5.1
tokenizers: 0.10.3
datasets: 1.8.0


Create symbolic links to the folder with the scripts to run or download them in the same folder of this notebook:

In [4]:
# ln -s ~/adapter-transformers/examples/question-answering/run_qa_adapter.py
# ln -s ~/adapter-transformers/examples/question-answering/trainer_qa.py
# ln -s ~/adapter-transformers/examples/question-answering/utils_qa.py

## 3. Model & dataset

In [5]:
# Select a MLM BERT base or large in the dataset language
model_checkpoint = "neuralmind/bert-base-portuguese-cased"
# model_checkpoint = "neuralmind/bert-large-portuguese-cased"

# SQuAD 1.1 in Portuguese
dataset_name = "squad11pt"

# This flag is the difference between SQUAD v1 or 2 (if you're using another dataset, it indicates if impossible
# answers are allowed or not).
version_2_with_negative = False # If true, some of the examples do not have an answer.

## 4. Main hyperparameters

In [6]:
task = "qa"

In [7]:
# training arguments
batch_size = 16
gradient_accumulation_steps = 1

learning_rate = 1e-4
num_train_epochs = 10.
early_stopping_patience = 3

adam_epsilon = 1e-6

fp16 = True
ds = False # If True, we use DeepSpeed

# best model
load_best_model_at_end = True 
metric_for_best_model = "f1"
greater_is_better = True

In [8]:
# train adapter
train_adapter = True # we want to train an adapter
load_adapter = None # we do not upload an existing adapter 

# lang adapter
with_adapters_mlm = False # if False, we do not upload an existing lang adapter

if with_adapters_mlm:
    adapter_composition = "stack" # we will stack the lang and task adapters
else:
    adapter_composition = None

# if True, do not put adapter in the last transformer layer
madx2 = True

## 5. Configuration

### GPU

In [9]:
# gpu
n_gpu = 1 # train on just one GPU
gpu = 0 # select the GPU

In [10]:
# Select GPU 0
import os
os.environ['MASTER_ADDR'] = 'localhost'
if gpu == 0:
    os.environ['MASTER_PORT'] = '9996' # modify if RuntimeError: Address already in use # GPU 0
elif gpu == 1:
    os.environ['MASTER_PORT'] = '9995'
os.environ['RANK'] = "0"
os.environ['LOCAL_RANK'] = str(gpu)
os.environ['WORLD_SIZE'] = "1"

### Training arguments of the HF trainer

In [11]:
# setup the training argument
do_train = True 
do_eval = True 

# if you want to test the trainer, set up the following variables
max_train_samples = 200 # None
max_val_samples = 50 # None

# epochs, bs, GA
evaluation_strategy = "epoch" 

# fp16
fp16_opt_level = 'O1'
fp16_backend = "auto"
fp16_full_eval = False

# optimizer (AdamW)
weight_decay = 0.01 # 0.0
adam_beta1 = 0.9
adam_beta2 = 0.999

# scheduler
lr_scheduler_type = 'linear'
warmup_ratio = 0.0
warmup_steps = 0

# logs
logging_strategy = "steps"
logging_first_step = True # False
logging_steps = 500     # if strategy = "steps"
eval_steps = logging_steps # logging_steps

# checkpoints
save_strategy = "epoch" # steps
save_steps = 500 # if save_strategy = "steps"
save_total_limit = 1 # None

# no cuda, seed
no_cuda = False
seed = 42

# bar
disable_tqdm = False # True
remove_unused_columns = True

In [12]:
# folder for training outputs

outputs = model_checkpoint.replace('/','-') + '_' + dataset_name + '/'
if with_adapters_mlm:
    outputs = outputs + 'mlm_' + str(task) + '_AdCompo' + str(adapter_composition)
else:
    outputs = outputs + str(task)
outputs = outputs \
+ '_lr' + str(learning_rate) \
+ '_bs' + str(batch_size) \
+ '_eps' + str(adam_epsilon) \
+ '_epochs' + str(num_train_epochs) \
+ '_wamlm' + str(with_adapters_mlm) \
+ '_madx2' + str(madx2) \
+ '_ds' + str(ds) \
+ '_fp16' + str(fp16) \
+ '_best' + str(load_best_model_at_end) \
+ '_metric' + str(metric_for_best_model)

# path to outputs
path_to_outputs = root/'models_outputs'/outputs

# subfolder for model outputs
output_dir = path_to_outputs/'output_dir' 
overwrite_output_dir = True # False

# logs
logging_dir = path_to_outputs/'logging_dir'

In [13]:
# The maximum total input sequence length after tokenization. Sequences longer
# than this will be truncated, sequences shorter will be padded.
max_seq_length = 384

# Whether to pad all samples to `max_seq_length`.
# If False, will pad the samples dynamically when batching to the maximum length in the batch (which can
# be faster on GPU but will be slower on TPU).
pad_to_max_length = True
    
# The threshold used to select the null answer: if the best answer has a score that is less than
# the score of the null answer minus this threshold, the null answer is selected for this example.
# Only useful when `version_2_with_negative=True`.
null_score_diff_threshold = 0.0

# When splitting up a long document into chunks, how much stride to take between chunks
doc_stride = 128
    
# The total number of n-best predictions to generate when looking for an answer.
n_best_size = 20
 
# The maximum length of an answer that can be generated. This is needed because the start
# and end predictions are not conditioned on one another.
max_answer_length = 30

### Adapters config

#### Task adapter

In [14]:
# task adapter config
adapter_config = "pfeiffer" # houlsby is possible, too
adapter_non_linearity = 'gelu' # relu is possible, too
adapter_reduction_factor = 16
language = 'pt' # pt = Portuguese

#### Lang adapter

In [15]:
if with_adapters_mlm:
    
    # hyperparameters used for fine-tuning the MLM with lang adapter
    learning_rate_mlm = 1e-4
    batch_size_mlm = 32
    gradient_accumulation_steps_mlm = 1
    adam_epsilon_mlm = 1e-6
    num_train_epoch_mlm = 100.
    madx2_mlm = madx2
    ds_mlm = False
    fp16_mlm = True
    load_best_model_at_end_mlm = True
    metric_for_best_model_mlm = "loss"
    
    # path to lang adapter
    outputs_mlm = model_checkpoint.replace('/','-') + '_' + dataset_name + '/mlm' \
    + '_lr' + str(learning_rate_mlm) \
    + '_bs' + str(batch_size_mlm) \
    + '_GAS' + str(gradient_accumulation_steps_mlm) \
    + '_eps' + str(adam_epsilon_mlm) \
    + '_epochs' + str(num_train_epoch_mlm) \
    + '_madx2' + str(madx2_mlm) \
    + '_ds' + str(ds_mlm) \
    + '_fp16' + str(fp16_mlm) \
    + '_best' + str(load_best_model_at_end_mlm) \
    + '_metric' + str(metric_for_best_model_mlm)

    path_to_outputs = root/'models_outputs'/outputs_mlm
    
    # Config of the lang adapter
    lang_adapter_path = path_to_outputs/'adapters-mlm/'
    
    load_lang_adapter = lang_adapter_path
    lang_adapter_config = str(lang_adapter_path + "/adapter_config.json")
    lang_adapter_non_linearity = 'gelu'
    lang_adapter_reduction_factor = 2
    language_mlm = language

## 6. Preparing the dataset

In [16]:
# %%time
# if dataset_name == "squad11pt":
    
#     # create dataset folder 
#     path_to_dataset = root/'data'/dataset_name
#     path_to_dataset.mkdir(parents=True, exist_ok=True) 

#     # Get dataset SQUAD in Portuguese
#     %cd {path_to_dataset}
#     !wget --load-cookies /tmp/cookies.txt "https://docs.google.com/uc?export=download&confirm=$(wget --quiet --save-cookies /tmp/cookies.txt --keep-session-cookies --no-check-certificate 'https://docs.google.com/uc?export=download&id=1Q0IaIlv2h2BC468MwUFmUST0EyN7gNkn' -O- | sed -rn 's/.*confirm=([0-9A-Za-z_]+).*/\1\n/p')&id=1Q0IaIlv2h2BC468MwUFmUST0EyN7gNkn" -O squad-pt.tar.gz && rm -rf /tmp/cookies.txt

#     # unzip 
#     !tar -xvf squad-pt.tar.gz

#     # Get the train and validation json file in the HF script format 
#     # inspiration: file squad.py at https://github.com/huggingface/datasets/tree/master/datasets/squad

#     import json 
#     files = ['squad-train-v1.1.json','squad-dev-v1.1.json']

#     for file in files:

#         # Opening JSON file & returns JSON object as a dictionary 
#         f = open(file, encoding="utf-8") 
#         data = json.load(f) 

#         # Iterating through the json list 
#         entry_list = list()
#         id_list = list()

#         for row in data['data']: 
#             title = row['title']

#             for paragraph in row['paragraphs']:
#                 context = paragraph['context']

#                 for qa in paragraph['qas']:
#                     entry = {}

#                     qa_id = qa['id']
#                     question = qa['question']
#                     answers = qa['answers']

#                     entry['id'] = qa_id
#                     entry['title'] = title.strip()
#                     entry['context'] = context.strip()
#                     entry['question'] = question.strip()

#                     answer_starts = [answer["answer_start"] for answer in answers]
#                     answer_texts = [answer["text"].strip() for answer in answers]
#                     entry['answers'] = {}
#                     entry['answers']['answer_start'] = answer_starts
#                     entry['answers']['text'] = answer_texts

#                     entry_list.append(entry)

#         reverse_entry_list = entry_list[::-1]

#         # for entries with same id, keep only last one (corrected texts by the group Deep Learning Brasil)
#         unique_ids_list = list()
#         unique_entry_list = list()
#         for entry in reverse_entry_list:
#             qa_id = entry['id']
#             if qa_id not in unique_ids_list:
#                 unique_ids_list.append(qa_id)
#                 unique_entry_list.append(entry)

#         # Closing file 
#         f.close() 

#         new_dict = {}
#         new_dict['data'] = unique_entry_list

#         file_name = 'pt_' + str(file)
#         with open(file_name, 'w') as json_file:
#             json.dump(new_dict, json_file)
            
# %cd {root}

You can replace the dataset above with any dataset hosted on [the hub](https://huggingface.co/datasets) or use your own files. Just uncomment the following cell and replace the paths with values that will lead to your files:

In [17]:
# datasets = load_dataset("text", data_files={"train": path_to_train.txt, "validation": path_to_validation.txt}

You can also load datasets from a csv or a JSON file, see the [full documentation](https://huggingface.co/docs/datasets/loading_datasets.html#from-local-files) for more information.

In [None]:
from datasets import load_dataset, load_metric

if dataset_name == "squad11pt":
    
    # dataset folder 
    path_to_dataset = root/'data'/dataset_name
    
    # paths to files
    train_file = str(path_to_dataset/'pt_squad-train-v1.1.json')
    validation_file = str(path_to_dataset/'pt_squad-dev-v1.1.json')
    
    datasets = load_dataset('json', 
                            data_files={'train': train_file, \
                                        'validation': validation_file, \
                                       }, 
                            field='data')

To access an actual element, you need to select a split first, then give an index:

In [19]:
datasets["train"][10]

{'id': '5735c47ae853931400426b64',
 'title': 'Kathmandu',
 'context': 'A maioria das cozinhas encontradas em Katmandu não é vegetariana. No entanto, a prática do vegetarianismo não é incomum, e a culinária vegetariana pode ser encontrada em toda a cidade. O consumo de carne bovina é muito incomum e considerado tabu em muitos lugares. Buff (carne de búfalo Marinho) é muito comum. Há uma forte tradição de consumo de buffs em Katmandu, especialmente entre Newars, que não é encontrado em outras partes do Nepal. O consumo de carne de porco era considerado tabu até algumas décadas atrás. Devido à mistura com a cozinha Kirat do leste do Nepal, a carne de porco encontrou um lugar nos pratos de Katmandu. Uma população marginal de hindus e muçulmanos devotos o considera tabu. Os muçulmanos proíbem comer buff a partir do Alcorão, enquanto os hindus comem todas as variedades, exceto a carne de vaca, pois consideram a vaca uma deusa e símbolo da pureza. O café da manhã principal para moradores e vi

To get a sense of what the data looks like, the following function will show some examples picked randomly in the dataset.

In [20]:
from datasets import ClassLabel, Sequence
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))

In [21]:
show_random_elements(datasets["train"])

Unnamed: 0,id,title,context,question,answers
0,572813372ca10214002d9d58,Strasbourg,"Além da catedral, Estrasburgo abriga várias outras igrejas medievais que sobreviveram às muitas guerras e destruições que assolaram a cidade: a românica Église Saint-Étienne, parcialmente destruída em 1944 por bombardeios aliados, parte românica, parte gótica, muito a grande Igreja Saint-Thomas, com seu órgão Silbermann, no qual Wolfgang Amadeus Mozart e Albert Schweitzer tocavam, o protestante da igreja gótica Saint-Pierre-le-Jeune com sua cripta que remonta ao século VII e seu claustro parcialmente do século XI, o gótico Église Saint-Guillaume, com seus belos vitrais e móveis do início da Renascença, a gótica Église Saint-Jean, a parte gótica, a parte Art Nouveau Église Sainte-Madeleine etc. A igreja neogótica Saint-Pierre-le-Vieux Catholique ( há também uma igreja adjacente (Saint-Pierre-le-Vieux protestante) serve de santuário para vários altares trabalhados e pintados em madeira do século XV, vindos de outras igrejas agora destruídas e instaladas lá para exibição pública. Entre os numerosos edifícios medievais seculares, destaca-se o monumental Ancienne Douane (antiga alfândega).",Onde está localizado o órgão Silbermann?,"{'answer_start': [276], 'text': ['Igreja Saint-Thomas']}"
1,57310cad05b4da19006bcd2b,Immaculate_Conception,"A popularidade dessa representação particular da Imaculada Conceição se espalhou por todo o resto da Europa e desde então continua sendo a representação artística mais conhecida do conceito: em um reino celestial, momentos após sua criação, o espírito de Maria (na forma de um jovem) olha com reverência (ou inclina a cabeça para) Deus. A lua está sob seus pés e um halo de doze estrelas envolve sua cabeça, possivelmente uma referência a ""uma mulher vestida de sol"" em Apocalipse 12: 1-2. Imagens adicionais podem incluir nuvens, uma luz dourada e querubins. Em algumas pinturas, os querubins estão segurando lírios e rosas, flores frequentemente associadas a Maria.",Sobre o que Maria se apóia neste símbolo?,"{'answer_start': [339], 'text': ['lua está sob seus pés']}"
2,572f79b4a23a5019007fc66a,Han_dynasty,"As culturas básicas mais comuns consumidas durante o Han foram trigo, cevada, milheto, milho moído, arroz e feijão. Frutas e legumes comumente consumidos incluem castanhas, peras, ameixas, pêssegos, melões, damascos, morangos, morangos vermelhos, jujubas, cabaça, brotos de bambu, mostarda e taro. Os animais domesticados que também foram comidos incluíam galinhas, patos mandarim, gansos, vacas, ovelhas, porcos, camelos e cães (vários tipos foram criados especificamente para alimentação, enquanto a maioria foi usada como animais de estimação). Tartarugas e peixes foram retirados de riachos e lagos. Foram consumidos caça comum, como coruja, faisão, pega, veado-sika e perdiz de bambu chinesa. Os temperos incluíam açúcar, mel, sal e molho de soja. Cerveja e vinho eram consumidos regularmente.",Quais eram os cães nessa época com maior probabilidade de serem considerados?,"{'answer_start': [525], 'text': ['animais de estimação']}"
3,5731bfcc0fdd8d15006c64fc,Egypt,"As condições econômicas começaram a melhorar consideravelmente, após um período de estagnação, devido à adoção de políticas econômicas mais liberais pelo governo, bem como ao aumento das receitas do turismo e do mercado de ações em expansão. Em seu relatório anual, o Fundo Monetário Internacional (FMI) classificou o Egito como um dos principais países do mundo que está realizando reformas econômicas. Algumas grandes reformas econômicas empreendidas pelo governo desde 2003 incluem uma redução drástica de costumes e tarifas. Uma nova lei tributária implementada em 2005 reduziu os impostos corporativos de 40% para os atuais 20%, resultando em um aumento declarado de 100% na receita tributária até o ano de 2006.",Qual área de negócios cresceu ultimamente no Egito?,"{'answer_start': [212], 'text': ['mercado de ações']}"
4,5707066b9e06ca38007e92b3,Letter_case,"Em latim, foram encontrados papiros de Herculano, datados de 79 dC (quando foram destruídos), que foram escritos em cursiva romana antiga, onde as primeiras formas de letras minúsculas ""d"", ""h"" e ""r"", por exemplo, já pode ser reconhecido. Segundo o papirologista Knut Kleve, ""a teoria, portanto, de que as letras minúsculas foram desenvolvidas a partir dos unciais do século V e dos minúsculos carolíngios do século IX parece estar errada"". Havia letras maiúsculas e minúsculas, mas a diferença entre as duas variantes era inicialmente estilística, e não ortográfica, e o sistema de escrita ainda era basicamente unicameral: um determinado documento manuscrito podia usar um estilo ou outro, mas esses não eram mistos. As línguas européias, exceto o grego antigo e o latim, não fizeram a distinção entre os casos antes de 1300. [citação necessário]",Quais idiomas de continentes com poucas exceções geralmente não utilizavam distinção entre maiúsculas e minúsculas até cerca de 1300?,"{'answer_start': [730], 'text': ['européias']}"
5,572783acdd62a815002e9f4a,Child_labour,"No Brasil, a idade mínima para o trabalho foi identificada como catorze devido a contínuas emendas constitucionais ocorridas em 1934, 1937 e 1946. No entanto, devido a uma mudança na ditadura militar pelos anos 80, a restrição de idade mínima foi reduzida para doze anos de idade, mas foi revisada devido a relatos de condições perigosas e perigosas de trabalho em 1988. Isso levou à idade mínima sendo novamente aumentada para 14. Outro conjunto de restrições foi aprovado em 1998 que restringia os tipos de trabalho que os jovens podiam participar, como trabalhos considerados perigosos, como a operação de equipamentos de construção ou certos tipos de trabalho na fábrica. Embora tenham sido tomadas muitas medidas para reduzir o risco e a ocorrência de trabalho infantil, ainda há um número elevado de crianças e adolescentes trabalhando com menos de quatorze anos no Brasil. Somente nos anos 80 foi descoberto que quase nove milhões de crianças no Brasil trabalhavam ilegalmente e não participavam de atividades infantis tradicionais que ajudam a desenvolver importantes experiências de vida.",Qual a idade mínima para trabalhar no Brasil?,"{'answer_start': [855], 'text': ['quatorze']}"
6,5726f391dd62a815002e9609,Nigeria,"A prestação de serviços de saúde na Nigéria é uma responsabilidade simultânea dos três níveis de governo no país e do setor privado. A Nigéria vem reorganizando seu sistema de saúde desde a Iniciativa Bamako de 1987, que promoveu formalmente métodos baseados na comunidade para aumentar a acessibilidade de medicamentos e serviços de saúde à população, em parte implementando taxas de usuário. A nova estratégia aumentou drasticamente a acessibilidade por meio da reforma da saúde baseada na comunidade, resultando em uma prestação de serviços mais eficiente e equitativa. Uma estratégia abrangente de abordagem foi estendida a todas as áreas da assistência médica, com subsequente melhoria nos indicadores de assistência médica e melhoria na eficiência e custo dos serviços de saúde.",A Nigéria está adicionando que tipo de custos ao seu sistema de saúde?,"{'answer_start': [376], 'text': ['taxas de usuário']}"
7,56d130f217492d1400aabbc3,Kanye_West,"West foi preso novamente em 14 de novembro de 2008 no hotel Hilton, perto de Gateshead, após outra briga envolvendo um fotógrafo do lado de fora da famosa boate Tup Tup Palace em Newcastle upon Tyne. Mais tarde, ele foi libertado ""sem mais ações"", segundo um porta-voz da polícia.",Onde Kanye foi preso pela segunda vez?,"{'answer_start': [54], 'text': ['hotel Hilton, perto de Gateshead']}"
8,56dd2d7d9a695914005b9530,Prime_minister,"Walpole sempre negou que ele era ""primeiro ministro"" e, durante todo o século 18, parlamentares e juristas continuaram negando que qualquer posição desse tipo fosse conhecida pela Constituição. George II e George III fizeram esforços árduos para recuperar o poder pessoal do monarca, mas a complexidade e as despesas crescentes do governo fizeram com que um ministro que pudesse comandar a lealdade dos Comuns fosse cada vez mais necessário. A longa permanência do primeiro ministro da guerra William Pitt, o Jovem (1783-1801), combinada com a doença mental de George III, consolidou o poder do posto. O título foi mencionado pela primeira vez em documentos do governo durante a administração de Benjamin Disraeli, mas não apareceu na Ordem Britânica formal de precedência até 1905.","Além de Walpole, quem mais negou que o primeiro ministro não existisse?","{'answer_start': [82], 'text': ['parlamentares e juristas']}"
9,570c3f1dec8fbc190045be1d,Mary_(mother_of_Jesus),"As doutrinas da Assunção ou Dormição de Maria estão relacionadas à sua morte e suposição corporal ao céu. A Igreja Católica Romana definiu dogmaticamente a doutrina da Assunção, que foi feita em 1950 pelo Papa Pio XII no Munificentissimus Deus. Se a Virgem Maria morreu ou não, não é definido dogmaticamente, embora uma referência à morte de Maria seja feita em Munificentissimus Deus. Na Igreja Ortodoxa Oriental, acredita-se na Assunção da Virgem Maria e é celebrada com sua Dormição, onde eles acreditam que ela morreu.",Em qual documento papal foi definido o dogma da Assunção?,"{'answer_start': [221], 'text': ['Munificentissimus Deus']}"


## 7. Training + Evaluation

#### Setup environment variables 

The magic command `%env` corresponds to `export` in linux. It allows to setup the values of all arguments of the script `run_qa_adapter.py`.

In [22]:
envs = {
'n_gpu':n_gpu,
'gpu':gpu,
'CUDA_VISIBLE_DEVICES':gpu,
'model_name_or_path':model_checkpoint,
'dataset_name':dataset_name,
'train_file':train_file,
'validation_file':validation_file,
'do_train':do_train,
'do_eval':do_eval,
'max_train_samples':max_train_samples,
'max_val_samples':max_train_samples,
'output_dir':output_dir,
'overwrite_output_dir':overwrite_output_dir,
'max_seq_length':max_seq_length,
'pad_to_max_length':pad_to_max_length,
'null_score_diff_threshold':null_score_diff_threshold,
'doc_stride':doc_stride,
'n_best_size':n_best_size,
'max_answer_length':max_answer_length,
'evaluation_strategy':evaluation_strategy,
'per_device_train_batch_size':batch_size,
'per_device_eval_batch_size':batch_size,
'gradient_accumulation_steps':gradient_accumulation_steps,
'learning_rate':learning_rate,
'weight_decay':weight_decay,
'adam_beta1':adam_beta1,
'adam_beta2':adam_beta2,
'adam_epsilon':adam_epsilon,
'num_train_epochs':num_train_epochs,
'warmup_ratio':warmup_ratio,
'warmup_steps':warmup_steps,
'logging_dir':logging_dir,
'logging_strategy':logging_strategy,
'logging_first_step':logging_first_step,
'logging_steps':logging_steps,
'eval_steps':eval_steps,
'save_strategy':save_strategy,
'save_steps':save_steps,
'save_total_limit':save_total_limit,
'no_cuda':no_cuda,
'seed':seed,
'fp16':fp16,
'fp16_opt_level':fp16_opt_level,
'fp16_backend':fp16_backend,
'fp16_full_eval':fp16_full_eval,
'disable_tqdm':disable_tqdm,
'remove_unused_columns':remove_unused_columns,
'load_best_model_at_end':load_best_model_at_end,
'metric_for_best_model':metric_for_best_model,
'greater_is_better':greater_is_better,
'early_stopping_patience':early_stopping_patience,
'madx2':madx2,
'train_adapter':train_adapter,
'adapter_config':adapter_config,
'adapter_non_linearity':adapter_non_linearity,
'adapter_reduction_factor':adapter_reduction_factor,
'language':language,
'adapter_composition':adapter_composition
}

if with_adapters_mlm:
    envs['load_lang_adapter']=load_lang_adapter
    envs['lang_adapter_config']=lang_adapter_config
    envs['lang_adapter_non_linearity']=lang_adapter_non_linearity
    envs['lang_adapter_reduction_factor']=lang_adapter_reduction_factor

In [None]:
for k,v in envs.items():
    %env {k}={v}

#### Delete the output_dir (if exists)

In [None]:
!rm -r {output_dir}

Now, we can launch the training :-) 

In [25]:
# copy/paste/uncomment the 2 following lines in the following cell if you want to limit the number of data (useful for testing)
# --max_train_samples $max_train_samples \
# --max_val_samples $max_val_samples \

In [26]:
import os
os.environ['MKL_THREADING_LAYER'] = 'GNU'

In [None]:
%%time
if with_adapters_mlm:
    # with lang adapter
    !python -m torch.distributed.launch --nproc_per_node=$n_gpu run_qa_adapter.py \
    --model_name_or_path $model_checkpoint \
    --train_file $train_file \
    --validation_file $validation_file \
    --do_train $do_train \
    --do_eval $do_eval \
    --output_dir $output_dir \
    --overwrite_output_dir $overwrite_output_dir \
    --max_seq_length $max_seq_length \
    --pad_to_max_length $pad_to_max_length \
    --null_score_diff_threshold $null_score_diff_threshold \
    --doc_stride $doc_stride \
    --n_best_size $n_best_size \
    --max_answer_length $max_answer_length \
    --evaluation_strategy $evaluation_strategy \
    --per_device_train_batch_size $batch_size \
    --per_device_eval_batch_size $batch_size \
    --gradient_accumulation_steps $gradient_accumulation_steps \
    --learning_rate $learning_rate \
    --weight_decay $weight_decay \
    --adam_beta1 $adam_beta1 \
    --adam_beta2 $adam_beta2 \
    --adam_epsilon $adam_epsilon \
    --num_train_epochs $num_train_epochs \
    --warmup_ratio $warmup_ratio \
    --warmup_steps $warmup_steps \
    --logging_dir $logging_dir \
    --logging_strategy $logging_strategy \
    --logging_first_step $logging_first_step \
    --logging_steps $logging_steps \
    --eval_steps $eval_steps \
    --save_strategy $save_strategy \
    --save_steps $save_steps \
    --save_total_limit $save_total_limit \
    --no_cuda $no_cuda \
    --seed $seed \
    --fp16 $fp16 \
    --fp16_opt_level $fp16_opt_level \
    --fp16_backend $fp16_backend \
    --fp16_full_eval $fp16_full_eval \
    --disable_tqdm $disable_tqdm \
    --remove_unused_columns $remove_unused_columns \
    --load_best_model_at_end $load_best_model_at_end \
    --metric_for_best_model $metric_for_best_model \
    --greater_is_better $greater_is_better \
    --early_stopping_patience $early_stopping_patience \
    --madx2 $madx2 \
    --train_adapter $train_adapter \
    --adapter_config $adapter_config \
    --adapter_non_linearity $adapter_non_linearity \
    --adapter_reduction_factor $adapter_reduction_factor \
    --language $language \
    --adapter_composition $adapter_composition \
    --load_lang_adapter $load_lang_adapter \
    --lang_adapter_config $lang_adapter_config \
    --lang_adapter_non_linearity $lang_adapter_non_linearity \
    --lang_adapter_reduction_factor $lang_adapter_reduction_factor
else:
    # without lang adapter
    !python -m torch.distributed.launch --nproc_per_node=$n_gpu run_qa_adapter.py \
    --model_name_or_path $model_checkpoint \
    --train_file $train_file \
    --validation_file $validation_file \
    --do_train $do_train \
    --do_eval $do_eval \
    --output_dir $output_dir \
    --overwrite_output_dir $overwrite_output_dir \
    --max_seq_length $max_seq_length \
    --pad_to_max_length $pad_to_max_length \
    --null_score_diff_threshold $null_score_diff_threshold \
    --doc_stride $doc_stride \
    --n_best_size $n_best_size \
    --max_answer_length $max_answer_length \
    --evaluation_strategy $evaluation_strategy \
    --per_device_train_batch_size $batch_size \
    --per_device_eval_batch_size $batch_size \
    --gradient_accumulation_steps $gradient_accumulation_steps \
    --learning_rate $learning_rate \
    --weight_decay $weight_decay \
    --adam_beta1 $adam_beta1 \
    --adam_beta2 $adam_beta2 \
    --adam_epsilon $adam_epsilon \
    --num_train_epochs $num_train_epochs \
    --warmup_ratio $warmup_ratio \
    --warmup_steps $warmup_steps \
    --logging_dir $logging_dir \
    --logging_strategy $logging_strategy \
    --logging_first_step $logging_first_step \
    --logging_steps $logging_steps \
    --eval_steps $eval_steps \
    --save_strategy $save_strategy \
    --save_steps $save_steps \
    --save_total_limit $save_total_limit \
    --no_cuda $no_cuda \
    --seed $seed \
    --fp16 $fp16 \
    --fp16_opt_level $fp16_opt_level \
    --fp16_backend $fp16_backend \
    --fp16_full_eval $fp16_full_eval \
    --disable_tqdm $disable_tqdm \
    --remove_unused_columns $remove_unused_columns \
    --load_best_model_at_end $load_best_model_at_end \
    --metric_for_best_model $metric_for_best_model \
    --greater_is_better $greater_is_better \
    --early_stopping_patience $early_stopping_patience \
    --madx2 $madx2 \
    --train_adapter $train_adapter \
    --adapter_config $adapter_config \
    --adapter_non_linearity $adapter_non_linearity \
    --adapter_reduction_factor $adapter_reduction_factor \
    --language $language \
    --adapter_composition $adapter_composition

````
Saving nbest_preds to (...)/mnt/home/pierre/course-v4/nbs/MLM/language-modeling/models_outputs/neuralmind-bert-base-portuguese-cased_squad11pt/qa_lr0.0001_bs16_eps1e-06_epochs10.0_wamlmFalse_madx2True_dsFalse_fp16True_bestTrue_metricf1/output_dir/eval_nbest_predictions.json.

[INFO|trainer_pt_utils.py:722] 2021-07-01 19:40:37,300 >> ***** eval metrics *****
[INFO|trainer_pt_utils.py:727] 2021-07-01 19:40:37,300 >>   epoch        =    10.0
[INFO|trainer_pt_utils.py:727] 2021-07-01 19:40:37,300 >>   eval_f1      = 82.0608
[INFO|trainer_pt_utils.py:727] 2021-07-01 19:40:37,300 >>   eval_samples =   10917
[INFO|trainer_pt_utils.py:727] 2021-07-01 19:40:37,300 >>   exact_match  = 69.9054
````

In [57]:
# folder of the saved task adapter
!ls -al {output_dir/task}

total 3244
drwxrwxr-x 2 pierre pierre    4096 Jul  1 19:35 .
drwxrwxr-x 4 pierre pierre    4096 Jul  1 19:37 ..
-rw-rw-r-- 1 pierre pierre     642 Jul  1 19:35 adapter_config.json
-rw-rw-r-- 1 pierre pierre     240 Jul  1 19:35 head_config.json
-rw-rw-r-- 1 pierre pierre 3294305 Jul  1 19:35 pytorch_adapter.bin
-rw-rw-r-- 1 pierre pierre    7143 Jul  1 19:35 pytorch_model_head.bin


Now, you can push the saved adapter + head to the [AdapterHub](https://adapterhub.ml/) (follow instructions at [Contributing to Adapter Hub](https://docs.adapterhub.ml/contributing.html)).

## 8. TensorBoard

In [36]:
#!pip install tensorboard

In [None]:
import os
PATH = os.getenv('PATH')
# replace xxxx by your username on your server (ex: paulo)
# replace yyyy by the name of the virtual environment of this notebook (ex: adapter-transformers)
%env PATH=/mnt/home/xxxx/anaconda3/envs/yyyy/bin:$PATH

In [59]:
%load_ext tensorboard
# %reload_ext tensorboard
%tensorboard --logdir {logging_dir} --bind_all

The tensorboard extension is already loaded. To reload it, use:
  %reload_ext tensorboard


Reusing TensorBoard on port 6067 (pid 1172553), started 6:53:10 ago. (Use '!kill 1172553' to kill it.)

## 9. Application QA

In [60]:
### import transformers
import pathlib
from pathlib import Path

In [61]:
from transformers import AutoModelForQuestionAnswering, AutoTokenizer

model_qa = AutoModelForQuestionAnswering.from_pretrained(model_checkpoint)
tokenizer_qa = AutoTokenizer.from_pretrained(model_checkpoint, use_fast=True)

Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertForQuestionAnswering: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForQuestionAnswering were not initialized from the model checkpoint at

In [62]:
# load the language adapter
if with_adapters_mlm:
    task_mlm_load_as = 'mlm'
    lang_adapter_name = model_qa.load_adapter(
        load_lang_adapter,
        config=lang_adapter_config,
        load_as=task_mlm_load_as,
        with_head=False
    )
else:
    lang_adapter_name = None

# load adapter
if train_adapter:
    task_name = 'qa'
    load_adapter_qa = str(output_dir/task_name)
    adapter_name = model_qa.load_adapter(
        load_adapter_qa,
        config=adapter_config,
        load_as=task_name,
        with_head=True
    )
else:
    adapter_name = None
    
if train_adapter:
    # Set the adapters to be used in every forward pass
    if lang_adapter_name:
        model_qa.set_active_adapters([lang_adapter_name, adapter_name])
    else:
        model_qa.set_active_adapters([adapter_name])
else:
    # Set the adapters to be used in every forward pass
    if lang_adapter_name:
        model_qa.set_active_adapters([lang_adapter_name])

In [63]:
from transformers import pipeline
nlp = pipeline("question-answering", model=model_qa, tokenizer=tokenizer_qa)

In [64]:
# source: https://pt.wikipedia.org/wiki/Pandemia_de_COVID-19
context = r"""A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, 
uma doença respiratória causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). 
O vírus tem origem zoonótica e o primeiro caso conhecido da doença remonta a dezembro de 2019 em Wuhan, na China. 
Em 20 de janeiro de 2020, a Organização Mundial da Saúde (OMS) classificou o surto 
como Emergência de Saúde Pública de Âmbito Internacional e, em 11 de março de 2020, como pandemia. 
Em 18 de junho de 2021, 177 349 274 casos foram confirmados em 192 países e territórios, 
com 3 840 181 mortes atribuídas à doença, tornando-se uma das pandemias mais mortais da história.
Os sintomas de COVID-19 são altamente variáveis, variando de nenhum a doenças com risco de morte. 
O vírus se espalha principalmente pelo ar quando as pessoas estão perto umas das outras. 
Ele deixa uma pessoa infectada quando ela respira, tosse, espirra ou fala e entra em outra pessoa pela boca, nariz ou olhos.
Ele também pode se espalhar através de superfícies contaminadas. 
As pessoas permanecem contagiosas por até duas semanas e podem espalhar o vírus mesmo se forem assintomáticas.
"""

In [65]:
%%time
question = "Quando começou a pandemia de Covid-19 no mundo?"

result = nlp(question=question, context=context)

print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")

Answer: 'dezembro de 2019', score: 0.2859, start: 289, end: 305
CPU times: user 20.3 s, sys: 3.14 s, total: 23.5 s
Wall time: 1.17 s


In [66]:
%%time
question = "Qual é a data de início da pandemia Covid-19 em todo o mundo?"

result = nlp(question=question, context=context)

print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")

Answer: 'dezembro de 2019', score: 0.2018, start: 289, end: 305
CPU times: user 20 s, sys: 4.73 s, total: 24.7 s
Wall time: 1.32 s


In [67]:
%%time
question = "A Covid-19 tem algo a ver com animais?"

result = nlp(question=question, context=context)

print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")

Answer: 'origem zoonótica', score: 0.4086, start: 224, end: 240
CPU times: user 18.3 s, sys: 4.79 s, total: 23.1 s
Wall time: 1.17 s


In [68]:
%%time
question = "Onde foi descoberta a Covid-19?"

result = nlp(question=question, context=context)

print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")

Answer: 'Wuhan, na China', score: 0.701, start: 309, end: 324
CPU times: user 23.6 s, sys: 6.27 s, total: 29.9 s
Wall time: 1.5 s


In [69]:
%%time
question = "Quantos casos houve?"

result = nlp(question=question, context=context)

print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")

Answer: '177 349 274', score: 0.6846, start: 535, end: 546
CPU times: user 13.4 s, sys: 2.49 s, total: 15.9 s
Wall time: 678 ms


In [70]:
%%time
question = "Quantos mortes?"

result = nlp(question=question, context=context)

print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")

Answer: '3 840 181', score: 0.8342, start: 605, end: 614
CPU times: user 40 s, sys: 9.41 s, total: 49.4 s
Wall time: 2.66 s


In [71]:
%%time
question = "Quantos paises tiveram casos?"

result = nlp(question=question, context=context)

print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")

Answer: '192', score: 0.5195, start: 574, end: 577
CPU times: user 48.2 s, sys: 12.7 s, total: 1min
Wall time: 3.13 s


In [72]:
%%time
question = "Quais são sintomas de COVID-19"

result = nlp(question=question, context=context)

print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")

Answer: 'nenhum a doenças com risco de morte', score: 0.6356, start: 760, end: 795
CPU times: user 40.2 s, sys: 10.4 s, total: 50.5 s
Wall time: 2.66 s


In [73]:
%%time
question = "Como se espalha o vírus?"

result = nlp(question=question, context=context)

print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")

Answer: 'pelo ar', score: 0.1721, start: 832, end: 839
CPU times: user 43.3 s, sys: 11.4 s, total: 54.7 s
Wall time: 3.01 s


# END