# Fine-tuning a MLM (Masked Language Model) like BERT (base or large) with the library adapter-transformers (notebook version)

- **Credit**: [Hugging Face](https://huggingface.co/) and [adapter-transformers](https://github.com/Adapter-Hub/adapter-transformers)
- **Author**: [Pierre GUILLOU](https://www.linkedin.com/in/pierreguillou/)
- **Date**: 05/07/2021
- **Blog post**: [NLP nas empresas | Como ajustar um modelo de linguagem natural como BERT a um novo domínio linguístico com um Adapter?](https://medium.com/@pierre_guillou/nlp-nas-empresas-como-ajustar-um-modelo-de-linguagem-natural-como-bert-a-um-novo-dom%C3%ADnio-23752b73b185)
- **Link to the folder in github with this notebook and all necessary scripts**: [language-modeling with adapters](https://github.com/piegu/language-models/tree/master/adapters/language-modeling/)

## 1. Context

### Objective

The objective here is to **fine-tune a Masked Language Model (MLM) like BERT (base or large) by training adapters (library [adapter-transformers](https://github.com/Adapter-Hub/adapter-transformers)), not the embeddings and transformers layers of the MLM model**, and to compare results with BERT model fully fine-tune for the same task.

The interest is obvious: if you need models for different NLP tasks, instead of fine-tuning and storing one model by NLP task, **you store only one MLM model and the trained tasks adapters which sizes are about 3% of the MLM model one**. More, the loading of these adapters in production is very easy.

### Content

In this notebook, we'll see how to fine-tune one of the [🤗 Transformers](https://github.com/huggingface/transformers) model on a language modeling tasks. We will cover one type of language modeling tasks which is:

- Masked language modeling: the model has to predict some tokens that are masked in the input. It still has access to the whole sentence, so it can use the tokens before and after the tokens masked to predict their value.

![Widget inference representing the masked language modeling task](images/masked_language_modeling_adapter.png)

We will see how to easily load and preprocess the dataset for each one of those tasks, and how to use the `Trainer` API to fine-tune a model on it.

### History and Credit

This notebook is an adaptation of the following notebooks and scripts for **fine-tuning a (transformer) Masked Language Model (MLM) like BERT (base or large) with any dataset** (we use here the texts of the [Portuguese Squad 1.1 dataset](https://forum.ailab.unb.br/t/datasets-em-portugues/251/4)):
- **from [adapter-transformers](https://github.com/Adapter-Hub/adapter-transformers)** | notebook [01_Adapter_Training.ipynb](https://github.com/Adapter-Hub/adapter-transformers/blob/master/notebooks/01_Adapter_Training.ipynb) and script [run_mlm.py](https://github.com/Adapter-Hub/adapter-transformers/blob/master/examples/language-modeling/run_mlm.py) (this script was adapted from the script [run_mlm.py](https://github.com/huggingface/transformers/blob/master/examples/pytorch/language-modeling/run_mlm.py) of HF)
- **from [transformers](https://github.com/huggingface/transformers) of Hugging Face** | notebook [language_modeling.ipynb](https://github.com/huggingface/notebooks/blob/master/examples/language_modeling.ipynb) and script [run_mlm.py](https://github.com/huggingface/transformers/blob/master/examples/pytorch/language-modeling/run_mlm.py) 

In order to speed up the fine-tuning of the model on only one GPU, the library [DeepSpeed](https://www.deepspeed.ai/) could be used by applying the configuration provided by HF in the notebook [transformers + deepspeed CLI](https://github.com/stas00/porting/blob/master/transformers/deepspeed/DeepSpeed_on_colab_CLI.ipynb) but as the library adapter-transformers is not synchronized with the last version of the library transformers of HF, we keep that option for the future.

*Note: the paragraph about Causal language modeling (CLM) is not included in this notebook, and all the non necessary code about Masked Model Language (MLM) has been deleted from the original notebook.*

### Major changes from original notebooks and scripts

The notebook [language_modeling.ipynb](https://github.com/huggingface/notebooks/blob/master/examples/language_modeling.ipynb) and script [run_mlm.py](https://github.com/Adapter-Hub/adapter-transformers/blob/master/examples/language-modeling/run_mlm.py) allow to evaluate the model performance against the validation loss at the end of each epoch, not against the metric accuracy. 

As a metric is better in order to select a model than the loss, we introduced in this notebook the metric accuracy for model evaluation (see the method `comput_metrics()`). However, as it needs many GB for the evaluation calculation, we do not use it here.

Thus, we updated the notebook [language_modeling.ipynb](https://github.com/huggingface/notebooks/blob/master/examples/language_modeling.ipynb)  to [language_modeling_adapter.ipynb](https://github.com/piegu/language-models/blob/master/adapters/language_modeling/language_modeling_adapter.ipynb) with the following changes:
- **Accuracy**: model evaluation through eval accuracy
- **EarlyStopping** by selecting the model with the highest eval accuracy (patience of 3 before ending the training)
- **MAD-X 2.0** that allows not to train adapters in the last transformer layer (read page 6 of [UNKs Everywhere: Adapting Multilingual Language Models to New Scripts](https://arxiv.org/pdf/2012.15562.pdf))

## 2. Installation

In [1]:
import pathlib
from pathlib import Path

#root path
root = Path.cwd()

In [2]:
import pickle
import pandas as pd
import numpy as np
import random

In [3]:
import sys; print('python:',sys.version)

import torch; print('Pytorch:',torch.__version__)

import transformers; print('adapter-transformers:',transformers.__version__)
import transformers; print('HF transformers:',transformers.__hf_version__)
import tokenizers; print('tokenizers:',tokenizers.__version__)
import datasets; print('datasets:',datasets.__version__)

# import deepspeed; print('deepspeed:',deepspeed.__version__)

# Versions used in the virtuel environment of this notebook:

# python: 3.8.10 (default, Jun  4 2021, 15:09:15) 
# [GCC 7.5.0]
# Pytorch: 1.9.0
# adapter-transformers: 2.0.1
# transformers: 4.5.1
# tokenizers: 0.10.3
# datasets: 1.8.0

python: 3.8.10 (default, Jun  4 2021, 15:09:15) 
[GCC 7.5.0]
Pytorch: 1.9.0
adapter-transformers: 2.0.1
HF transformers: 4.5.1
tokenizers: 0.10.3
datasets: 1.8.0


## 3. Model & dataset

In [4]:
# Select a MLM BERT base or large in the dataset language
model_checkpoint = "neuralmind/bert-base-portuguese-cased"
# model_checkpoint = "neuralmind/bert-large-portuguese-cased"

# SQuAD 1.1 in Portuguese
dataset_name = "squad11pt" # SQuAD v1.1 em português

## 4. Main hyperparameters

In [5]:
task = "mlm"

In [6]:
# training arguments
batch_size = 32
gradient_accumulation_steps = 1

learning_rate = 1e-4
num_train_epochs = 100.
early_stopping_patience = 5

adam_epsilon = 1e-6

fp16 = True
ds = False # DeepSpeed

# best model
load_best_model_at_end = True 
if load_best_model_at_end:
    metric_for_best_model = "loss" # could be accuracy, too
    if metric_for_best_model == "accuracy":
        greater_is_better = True
    else:
        greater_is_better = False

In [7]:
# train adapter
train_adapter = True # we want to train an adapter
load_adapter = None # we do not upload an existing adapter 
load_lang_adapter = None # we do not upload an existing lang adapter

# if True, do not put adapter in the last transformer layer
madx2 = True

## 5. Configuration

### GPU

In [8]:
# gpu
n_gpu = 1 # train on just one GPU
gpu = 0 # select the GPU

In [9]:
# Run this notebook in GPU 0
# As we do not launch a python script in this notebook, this cell is not mandatory
import os
os.environ['MASTER_ADDR'] = 'localhost'
if gpu == 0:
    os.environ['MASTER_PORT'] = '9996' # modify if RuntimeError: Address already in use # GPU 0
elif gpu == 1:
    os.environ['MASTER_PORT'] = '9995'
os.environ['RANK'] = "0"
os.environ['LOCAL_RANK'] = str(gpu)
os.environ['WORLD_SIZE'] = "1"

### Lang adapter config

In [10]:
# lang adapter config
adapter_config = "pfeiffer+inv" # houlsby+inv is possible, too
adapter_non_linearity = 'gelu' # relu is possible, too
adapter_reduction_factor = 2
language = 'pt '# pt = Portuguese

### Training arguments of the HF trainer

In [11]:
# setup the training argument
do_train = True 
do_eval = True 

# epochs, bs, GA
evaluation_strategy = "epoch" # no

# fp16
fp16_opt_level = 'O1'
fp16_backend = "auto"
fp16_full_eval = False

# optimizer (AdamW)
weight_decay = 0.01 # 0.0
adam_beta1 = 0.9
adam_beta2 = 0.999

# scheduler
lr_scheduler_type = 'linear'
warmup_ratio = 0.0
warmup_steps = 0

# logs
logging_strategy = "steps"
logging_first_step = True # False
logging_steps = 500     # if strategy = "steps"
eval_steps = logging_steps # logging_steps

# checkpoints
save_strategy = "epoch" # steps
save_steps = 500 # if save_strategy = "steps"
save_total_limit = 1 # None

# no cuda, seed
no_cuda = False
seed = 42

# bar
disable_tqdm = False # True
remove_unused_columns = True

In [12]:
# folder for training outputs

outputs = model_checkpoint.replace('/','-') + '_' + dataset_name + '/'  
outputs = outputs + str(task) \
+ '_lr' + str(learning_rate) \
+ '_bs' + str(batch_size) \
+ '_GAS' + str(gradient_accumulation_steps) \
+ '_eps' + str(adam_epsilon) \
+ '_epochs' + str(num_train_epochs) \
+ '_patience' + str(early_stopping_patience) \
+ '_madx2' + str(madx2) \
+ '_ds' + str(ds) \
+ '_fp16' + str(fp16) \
+ '_best' + str(load_best_model_at_end) \
+ '_metric' + str(metric_for_best_model) \
+ '_adapterconfig' + str(adapter_config)

# path to outputs
path_to_outputs = root/'models_outputs'/outputs

# subfolder for model outputs
output_dir = path_to_outputs/'output_dir' 
overwrite_output_dir = True # False

# logs
logging_dir = path_to_outputs/'logging_dir'

## 6. Preparing the dataset

In [13]:
# if dataset_name == "squad11pt":
    
#     # create dataset folder 
#     path_to_dataset = root/'data'/dataset_name
#     path_to_dataset.mkdir(parents=True, exist_ok=True) 

#     # Get dataset SQUAD in Portuguese
#     %cd {path_to_dataset}
#     !wget --load-cookies /tmp/cookies.txt "https://docs.google.com/uc?export=download&confirm=$(wget --quiet --save-cookies /tmp/cookies.txt --keep-session-cookies --no-check-certificate 'https://docs.google.com/uc?export=download&id=1Q0IaIlv2h2BC468MwUFmUST0EyN7gNkn' -O- | sed -rn 's/.*confirm=([0-9A-Za-z_]+).*/\1\n/p')&id=1Q0IaIlv2h2BC468MwUFmUST0EyN7gNkn" -O squad-pt.tar.gz && rm -rf /tmp/cookies.txt

#     # unzip 
#     !tar -xvf squad-pt.tar.gz

#     # Get the train and validation json file in the HF script format 
#     # inspiration: file squad.py at https://github.com/huggingface/datasets/tree/master/datasets/squad
    
#     import json 
#     files = ['squad-train-v1.1.json','squad-dev-v1.1.json']

#     for file in files:

#         # Opening JSON file & returns JSON object as a dictionary 
#         f = open(file, encoding="utf-8") 
#         data = json.load(f) 

#         # Iterating through the json list 
#         context_list = list()
#         id_list = list()

#         for row in data['data']: 

#             for paragraph in row['paragraphs']:
#                 context = (paragraph['context']).strip()
#                 context_list.append(context)

#         # Get unique context
#         unique_context_list = list(set(context_list))

#         # Closing file 
#         f.close() 

#         file_name = 'pt_' + str(file).replace('json','txt')
#         with open(file_name, 'wb') as list_file:
#             pickle.dump(unique_context_list, list_file)
         
#     %cd ../..

You can replace the dataset above with any dataset hosted on [the hub](https://huggingface.co/datasets) or use your own files. Just uncomment the following cell and replace the paths with values that will lead to your files:

In [14]:
# datasets = load_dataset("text", data_files={"train": path_to_train.txt, "validation": path_to_validation.txt}

You can also load datasets from a csv or a JSON file, see the [full documentation](https://huggingface.co/docs/datasets/loading_datasets.html#from-local-files) for more information.

In [15]:
if dataset_name == "squad11pt":
    
    path_to_data = root/'data'/dataset_name
    files = ['pt_squad-train-v1.1.txt','pt_squad-dev-v1.1.txt']
    
    for i,file in enumerate(files):
        path_to_file = path_to_data/file
        with open(path_to_file, "rb") as f:   # Unpickling
            text_list = pickle.load(f)

            with open(file, "w") as output:
                output.write(str(text_list))
        
        df = pd.DataFrame(text_list,columns=['text'])
        if i == 0:
            df_train = df.copy()
        else:
            df_validation = df.copy()
            
    from datasets import Dataset, DatasetDict
    dataset_train = Dataset.from_pandas(df_train)
    dataset_validation = Dataset.from_pandas(df_validation)

    datasets = DatasetDict()
    datasets['train'] = dataset_train
    datasets['validation'] = dataset_validation

To access an actual element, you need to select a split first, then give an index:

In [16]:
datasets["train"][10]

{'text': 'O panteísmo sustenta que Deus é o universo e o universo é Deus, enquanto o panenteísmo sustenta que Deus contém, mas não é idêntico ao universo. É também a visão da Igreja Católica Liberal; Teosofia; algumas visões do hinduísmo, exceto o vaisnavismo, que acredita no panenteísmo; Sikhismo; algumas divisões do neopaganismo e taoísmo, juntamente com muitas denominações e indivíduos variados dentro das denominações. A Cabala, Misticismo judaico, pinta uma visão panteísta / panenteísta de Deus - que tem ampla aceitação no judaísmo hassídico, particularmente de seu fundador The Baal Shem Tov - mas apenas como um complemento à visão judaica de um deus pessoal, não no panteísta original sensação que nega ou limita a persona a Deus. [citação necessário]'}

To get a sense of what the data looks like, the following function will show some examples picked randomly in the dataset.

In [17]:
from datasets import ClassLabel
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
    display(HTML(df.to_html()))

In [18]:
show_random_elements(datasets["train"])

Unnamed: 0,text
0,"A única irmã de Elizabeth, princesa Margaret, nasceu em 1930. As duas princesas foram educadas em casa, sob a supervisão de sua mãe e de sua governanta, Marion Crawford, que era conhecida casualmente como ""Crawfie"". As aulas concentraram-se em história, linguagem, literatura e música. Crawford publicou uma biografia dos anos de infância de Elizabeth e Margaret, intitulada As princesinhas, em 1950, para grande consternação da família real. O livro descreve o amor de Elizabeth por cavalos e cães, sua ordem e sua atitude de responsabilidade. Outros ecoaram tais observações: Winston Churchill descreveu Elizabeth quando ela tinha dois anos como ""uma personagem. Ela tem um ar de autoridade e reflexividade surpreendentes em uma criança"". Sua prima Margaret Rhodes a descreveu como ""uma menina alegre, mas fundamentalmente sensata e bem-comportada""."
1,"Um corante vermelho chamado Kermes foi produzido a partir do período neolítico, secando e depois esmagando os corpos das fêmeas de um inseto de pequena escala do gênero Kermes, principalmente o Kermes vermilio. Os insetos vivem na seiva de certas árvores, especialmente os carvalhos de Kermes, perto da região do Mediterrâneo. Frascos de kermes foram encontrados em um enterro neolítico em Adaoutse, Bouches-du-Rhône. Kermes de carvalhos foi mais tarde usado pelos romanos, que o importaram da Espanha. Uma variedade diferente de corante foi feita a partir de insetos de escama Porphyrophora hamelii (cochonilha armênia) que viviam nas raízes e caules de certas ervas. Foi mencionado em textos já no século VIII aC, e foi usado pelos antigos assírios e persas."
2,"Outras referências ao material de Fleming podem ser encontradas ao longo do filme; um esconderijo do MI6 é chamado ""Hildebrand Rarities and Antiques"", uma referência ao conto ""The Hildebrand Rarity"" da coleção de contos Somente para seus olhos. [citação necessário] A tortura de Bond por Blofeld espelha sua tortura pelo personagem-título de Kingsley O romance de continuação de Amis, Coronel Sun. [citação necessário]"
3,"A série se passa três anos após os eventos de Digimon Adventure 02, quando Digimon, que fica desonesto por uma infecção misteriosa, parece causar estragos no mundo humano. Tai e os outros DigiDestined da série original se reúnem com seus parceiros e começam a revidar com o apoio do governo japonês, enquanto Davis, Yolei, Cody e Ken são derrotados por um poderoso inimigo chamado Alphamon e desaparecem sem deixar rasto. Tai e os outros também conhecem outro DigiDestined chamado Meiko Mochizuki e seu parceiro Meicoomon que se tornam seus amigos, até Meicoomon se tornar hostil também e fugir após um encontro com Ken, que reaparece repentinamente, mais uma vez como o Imperador Digimon. A série de filmes também apresenta vários DigiDestined com seus parceiros Digivolve até o nível mega pela primeira vez, um feito que Tai e Matt haviam conseguido anteriormente."
4,"As reuniões para adoração e estudo são realizadas nos Salões do Reino, que geralmente têm caráter funcional e não contêm símbolos religiosos. As testemunhas são designadas para uma congregação em cujo ""território"" geralmente residem e participam de cultos semanais a que se referem como ""reuniões"", conforme agendado pelos anciãos da congregação. As reuniões são amplamente dedicadas ao estudo da literatura da Watch Tower Society e da Bíblia. O formato das reuniões é estabelecido pela sede da religião, e o assunto da maioria das reuniões é o mesmo em todo o mundo. As congregações se reúnem para duas sessões por semana, compreendendo cinco reuniões distintas que totalizam cerca de três horas e meia, geralmente reunindo no meio da semana (três reuniões) e no fim de semana (duas reuniões). Antes de 2009, as congregações se reuniam três vezes por semana; essas reuniões foram condensadas, com a intenção de que os membros dediquem uma noite ao ""culto em família"". As reuniões são abertas e fechadas com kingdom canções (hinos) e breves orações. Duas vezes por ano, Testemunhas de várias congregações que formam um ""circuito"" se reúnem para uma assembléia de um dia. Grupos maiores de congregações se reúnem uma vez por ano para uma ""convenção regional"" de três dias, geralmente em estádios ou auditórios alugados. Seu evento mais importante e solene é a comemoração da ""Refeição Noturna do Senhor"", ou ""Memorial da Morte de Cristo"" na data da Páscoa Judaica."
5,"O protestantismo teve uma influência importante na ciência. De acordo com a tese de Merton, houve uma correlação positiva entre a ascensão do puritanismo inglês e o pietismo alemão, por um lado, e a ciência experimental inicial, por outro. A tese de Merton tem duas partes distintas: em primeiro lugar, apresenta uma teoria de que a ciência muda devido ao acúmulo de observações e à melhoria da técnica e metodologia experimentais; em segundo lugar, argumenta que a popularidade da ciência na Inglaterra do século XVII e a demografia religiosa da Royal Society (cientistas ingleses da época eram predominantemente puritanos ou outros protestantes) podem ser explicadas por uma correlação entre o protestantismo e os valores científicos . Merton se concentrou no puritanismo inglês e no pietismo alemão como responsáveis pelo desenvolvimento da revolução científica dos séculos XVII e XVIII. Ele explicou que a conexão entre afiliação religiosa e interesse pela ciência era resultado de uma sinergia significativa entre os valores protestantes ascéticos e os da ciência moderna. Os valores protestantes incentivaram a pesquisa científica, permitindo que a ciência identificasse a influência de Deus no mundo - sua criação - e, assim, fornecendo uma justificativa religiosa para a pesquisa científica."
6,"As línguas iranianas ou línguas iranianas formam um ramo das línguas indo-iranianas, que por sua vez são um ramo da Família de línguas indo-européias. Os falantes das línguas iranianas são conhecidos como povos iranianos. As línguas iranianas históricas estão agrupadas em três estágios: iraniano antigo (até 400 aC), iraniano médio (400 aC - 900 dC) e novo iraniano (desde 900 dC). Das línguas iranianas antigas, as mais compreendidas e registradas são o persa antigo (uma língua do Irã Aquemênida) e o avestan (a língua do Avesta). As línguas iranianas médias incluíam o persa médio (uma língua do sassânida Irã), o parta e o bactriano."
7,"Os sistemas mais antigos ou simplificados podem suportar apenas os valores de TZ exigidos pelo POSIX, que especificam no máximo uma regra de início e fim explicitamente no valor. Por exemplo, TZ = 'EST5EDT, M3.2.0 / 02: 00, M11.1.0 / 02: 00' especifica o horário no leste dos Estados Unidos a partir de 2007. Esse valor de TZ deve ser alterado sempre que as regras do horário de verão mudarem, e o novo valor se aplica a todos os anos, manipulando incorretamente alguns registros de data e hora mais antigos."
8,"Em 2003, foi introduzida uma taxa de congestionamento para reduzir o volume de tráfego no centro da cidade. Com algumas exceções, os motoristas são obrigados a pagar £ 10 por dia para dirigir dentro de uma zona definida que abrange grande parte do centro de Londres. Os motoristas residentes na zona definida podem comprar um passe de temporada bastante reduzido. O governo de Londres inicialmente esperava que a Zona de Cobrança de Congestionamento aumente o período de pico diário de usuários de metrô e ônibus em 20.000 pessoas, reduza o tráfego rodoviário em 10 a 15%, aumente a velocidade do tráfego em 10 a 15% e reduza as filas em 20 a 30% . Ao longo de vários anos, o número médio de carros que entraram no centro de Londres em um dia da semana foi reduzido de 195.000 para 125.000 carros - uma redução de 35% dos veículos dirigidos por dia."
9,"Magadha (sânscrito: formed) formou um dos dezesseis Mahā-Janapadas (sânscrito: ""Grandes Países"") ou reinos na Índia antiga. O núcleo do reino era a área de Bihar, ao sul do Ganges; sua primeira capital foi Rajagriha (moderna Rajgir) e depois Pataliputra (moderna Patna). Magadha expandiu-se para incluir a maior parte de Bihar e Bengala com a conquista de Licchavi e Anga, respectivamente, seguidas por grande parte do leste de Uttar Pradesh e Orissa. O antigo reino de Magadha é muito mencionado nos textos jainistas e budistas. Também é mencionado no Ramayana, Mahabharata, Puranas. Um estado de Magadha, possivelmente um reino tribal, é registrado nos textos védicos muito antes no tempo de 600 aC. O Império Magadha tinha grandes governantes como Bimbisara e Ajatshatru."


As we can see, some of the texts are a full paragraph of a Wikipedia article while others are just titles or empty lines.

## 7. Masked language modeling

For masked language modeling (MLM) we are going to use the same preprocessing as before for our dataset with one additional step: we will randomly mask some tokens (by replacing them by `[MASK]`) and the labels will be adjusted to only include the masked tokens (we don't have to predict the non-masked tokens).

In [19]:
from transformers import AutoTokenizer
    
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, use_fast=True)

We can now call the tokenizer on all our texts. This is very simple, using the [`map`](https://huggingface.co/docs/datasets/package_reference/main_classes.html#datasets.Dataset.map) method from the Datasets library. First we define a function that call the tokenizer on our texts:

In [20]:
def tokenize_function(examples):
    return tokenizer(examples["text"])

We can apply the same tokenization function as before, we just need to update our tokenizer to use the checkpoint we just picked:

In [21]:
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, use_fast=True)
tokenized_datasets = datasets.map(tokenize_function, batched=True, num_proc=4, remove_columns=["text"])











In [22]:
# block_size = tokenizer.model_max_length
block_size = 128

Then we write the preprocessing function that will group our texts:

In [23]:
def group_texts(examples):
    # Concatenate all texts.
    concatenated_examples = {k: sum(examples[k], []) for k in examples.keys()}
    total_length = len(concatenated_examples[list(examples.keys())[0]])
    # We drop the small remainder, we could add padding if the model supported it instead of this drop, you can
        # customize this part to your needs.
    total_length = (total_length // block_size) * block_size
    # Split by chunks of max_len.
    result = {
        k: [t[i : i + block_size] for i in range(0, total_length, block_size)]
        for k, t in concatenated_examples.items()
    }
    result["labels"] = result["input_ids"].copy()
    return result

First note that we duplicate the inputs for our labels. This is because the model of the 🤗 Transformers library apply the shifting to the right, so we don't need to do it manually.

Also note that by default, the `map` method will send a batch of 1,000 examples to be treated by the preprocessing function. So here, we will drop the remainder to make the concatenated tokenized texts a multiple of `block_size` every 1,000 examples. You can adjust this behavior by passing a higher batch size (which will also be processed slower). You can also speed-up the preprocessing by using multiprocessing:

And like before, we group texts together and chunk them in samples of length `block_size`. You can skip that step if your dataset is composed of individual sentences.

In [24]:
lm_datasets = tokenized_datasets.map(
    group_texts,
    batched=True,
    batch_size=1000,
    num_proc=4,
)











The rest is very similar to what we had, with two exceptions. First we use a model suitable for masked LM:

In [25]:
from transformers import AutoModelForMaskedLM
model = AutoModelForMaskedLM.from_pretrained(model_checkpoint)

Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertForMaskedLM: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [26]:
# number of model parameters
model_num_param=0
for p in model.parameters():
    model_num_param+=p.numel()
model_num_param

108954466

## 8. Lang adapter

In [27]:
# Setup adapters
if train_adapter:
        
    # new
    if madx2:
        # do not add adapter in the last transformer layers 
        leave_out = [len(model.bert.encoder.layer)-1]
    else:
        leave_out = []
        
    # new
    # task_name = data_args.dataset_name or "mlm"
    task_name = "mlm"
        
    # check if adapter already exists, otherwise add it
    if task_name not in model.config.adapters:
            
#             # resolve the adapter config
#             adapter_config = AdapterConfig.load(
#                 adapter_args.adapter_config,
#                 non_linearity=adapter_args.adapter_non_linearity,
#                 reduction_factor=adapter_args.adapter_reduction_factor,
#             )

        # new
        # resolve adapter config with (eventually) the MAD-X 2.0 option
        if adapter_config == "pfeiffer":
            from transformers.adapters.configuration import PfeifferConfig
            adapter_config = PfeifferConfig(non_linearity=adapter_non_linearity,
                                            reduction_factor=adapter_reduction_factor,
                                            leave_out=leave_out)           
        elif adapter_config == "pfeiffer+inv":
            from transformers.adapters.configuration import PfeifferInvConfig
            adapter_config = PfeifferInvConfig(non_linearity=adapter_non_linearity,
                                               reduction_factor=adapter_reduction_factor,
                                               leave_out=leave_out)          
        elif adapter_config == "houlsby":
            from transformers.adapters.configuration import HoulsbyConfig
            adapter_config = HoulsbyConfig(non_linearity=adapter_non_linearity,
                                           reduction_factor=adapter_reduction_factor,
                                           leave_out=leave_out)
        elif adapter_config == "houlsby+inv":
            from transformers.adapters.configuration import HoulsbyInvConfig
            adapter_config = HoulsbyInvConfig(non_linearity=adapter_non_linearity,
                                              reduction_factor=adapter_reduction_factor,
                                              leave_out=leave_out)              
            
        # load a pre-trained from Hub if specified
        if load_adapter:
            model.load_adapter(
                    load_adapter,
                    config=adapter_config,
                    load_as=task_name,
                    with_head = False
                )
        # otherwise, add a fresh adapter
        else:
            model.add_adapter(task_name, config=adapter_config)
                
    # optionally load another pre-trained language adapter
    if load_lang_adapter:
        # resolve the language adapter config
        lang_adapter_config = AdapterConfig.load(
                lang_adapter_config,
                non_linearity=lang_adapter_non_linearity,
                reduction_factor=lang_adapter_reduction_factor,
                leave_out=leave_out,
            )
        # load the language adapter from Hub
        lang_adapter_name = model.load_adapter(
                load_lang_adapter,
                config=lang_adapter_config,
                load_as=language,
                with_head = False
            )
    else:
        lang_adapter_name = None
    # Freeze all model weights except of those of this adapter
    model.train_adapter([task_name])
    # Set the adapters to be used in every forward pass
    if lang_adapter_name:
        model.set_active_adapters([lang_adapter_name, task_name])
    else:
        model.set_active_adapters([task_name])
else:
    if load_adapter or load_lang_adapter:
        raise ValueError(
                "Adapters can only be loaded in adapters training mode."
                "Use --train_adapter to enable adapter training"
            )

In [27]:
model

BertForMaskedLM(
  (bert): BertModel(
    (invertible_adapters): ModuleDict(
      (mlm): NICECouplingBlock(
        (F): Sequential(
          (0): Linear(in_features=384, out_features=192, bias=True)
          (1): Activation_Function_Class()
          (2): Linear(in_features=192, out_features=384, bias=True)
        )
        (G): Sequential(
          (0): Linear(in_features=384, out_features=192, bias=True)
          (1): Activation_Function_Class()
          (2): Linear(in_features=192, out_features=384, bias=True)
        )
      )
    )
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(29794, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            

In [28]:
model_adapter_num_param=0
for p in model.parameters():
    model_adapter_num_param+=p.numel()
model_adapter_num_param

115751266

In [29]:
print(f"Number of parameters of the model with adapter: {model_adapter_num_param:.0f}")
print(f"Number of parameters of the model without adapter: {model_num_param:.0f}")
print(f"Number of parameters of the adapter: {model_adapter_num_param - model_num_param:.0f}")
print(f"Pourcentage of additional parameters through adapter:",round(((model_adapter_num_param - model_num_param)/model_num_param)*100,2),'%')

Number of parameters of the model with adapter: 115751266
Number of parameters of the model without adapter: 108954466
Number of parameters of the adapter: 6796800
Pourcentage of additional parameters through adapter: 6.24 %


## 9. Training

In [28]:
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir=output_dir,
    overwrite_output_dir=overwrite_output_dir,
    do_train=do_train,
    do_eval=do_eval,
    evaluation_strategy=evaluation_strategy,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    gradient_accumulation_steps=gradient_accumulation_steps,
    learning_rate=learning_rate,
    weight_decay=weight_decay,
    adam_beta1=adam_beta1,
    adam_beta2=adam_beta2,
    adam_epsilon=adam_epsilon,
    num_train_epochs=num_train_epochs,
    lr_scheduler_type=lr_scheduler_type,
    warmup_ratio=warmup_ratio,
    warmup_steps=warmup_steps,
    logging_dir=logging_dir,         # directory for storing logs
    logging_strategy=evaluation_strategy,
    logging_steps=logging_steps,     # if strategy = "steps"
    save_strategy=evaluation_strategy,          # model checkpoint saving strategy
    save_steps=logging_steps,        # if strategy = "steps"
    save_total_limit=save_total_limit,
    fp16=fp16,
    eval_steps=logging_steps,        # if strategy = "steps"
    load_best_model_at_end=load_best_model_at_end,
    metric_for_best_model=metric_for_best_model,
    greater_is_better=greater_is_better,
    )

if ds:
    training_args.deepspeed = ds_config

And second, we use a special `data_collator`. The `data_collator` is a function that is responsible of taking the samples and batching them in tensors. In the previous example, we had nothing special to do, so we just used the default for this argument. Here we want to do the random-masking. We could do it as a pre-processing step (like the tokenization) but then the tokens would always be masked the same way at each epoch. By doing this step inside the `data_collator`, we ensure this random masking is done in a new way each time we go over the data.

To do this masking for us, the library provides a `DataCollatorForLanguageModeling`. We can adjust the probability of the masking:

In [29]:
from transformers import DataCollatorForLanguageModeling
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm_probability=0.15)

Let's define a compute metrics (accuracy). Even if it is always better to eveluate a model against a metric, we will not use it to evaluate the best model during the training as it can make a CUDA out of memory. Instead, we will use the validation loss (in the case of fine-tuning a MLM on  a new dataset, it is a common procedure). At the end of the training, we will use our compute metrics (accuracy) to get the performance of our model.

In [30]:
# metric accuracy
from datasets import load_metric
metric = load_metric("accuracy")

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)

    indices = [[i for i, x in enumerate(labels[row]) if x != -100] for row in range(len(labels))]

    labels = [labels[row][indices[row]] for row in range(len(labels))]
    temp = list()
    for item in labels:
        temp += item.tolist()
    labels = temp

    predictions = [predictions[row][indices[row]] for row in range(len(predictions))]
    temp = list()
    for item in predictions:
        temp += item.tolist()
    predictions = temp
    
    results = metric.compute(predictions=predictions, references=labels)
    results["eval_accuracy"] = results["accuracy"]
    results.pop("accuracy")

    return results

Then we just have to pass everything to `Trainer` and begin training:

In [31]:
from transformers.trainer_callback import EarlyStoppingCallback

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=lm_datasets["train"], # .shard(index=1, num_shards=90), to be used to reduce train to 1/90
    eval_dataset=lm_datasets["validation"], #.shard(index=1, num_shards=90), to be used to reduce validation to 1/90
    tokenizer=tokenizer,
    data_collator=data_collator,
#     compute_metrics=compute_metrics,
    do_save_full_model=not train_adapter, 
    do_save_adapters=train_adapter,
    callbacks=[EarlyStoppingCallback(early_stopping_patience=early_stopping_patience)],
    )    

In [None]:
trainer.args._n_gpu = n_gpu # train on one GPU
trainer.train()

In [None]:
# add the metric accuracy
# trainer.compute_metrics=compute_metrics

# calculation of the performance on the validation set
eval_results = trainer.evaluate()
eval_results

In [None]:
import math
print(f"Perplexity: {math.exp(eval_results['eval_loss']):.2f}")
# print(f"Accuracy: {eval_results['eval_accuracy']:.2f}")

In [None]:
# save adapter + head
adapters_folder = 'adapters-' + task_name
path_to_save_adapter = path_to_outputs/adapters_folder
trainer.model.save_adapter(str(path_to_save_adapter), adapter_name=task_name, with_head=True)

!ls -lh {path_to_save_adapter}

Now, you can push the saved adapter + head to the [AdapterHub](https://adapterhub.ml/) (follow instructions at [Contributing to Adapter Hub](https://docs.adapterhub.ml/contributing.html)).

## 10. TensorBoard

In [None]:
#!pip install tensorboard

In [None]:
import os
PATH = os.getenv('PATH')
# replace xxxx by your username on your server (ex: paulo)
# replace yyyy by the name of the virtual environment of this notebook (ex: adapter-transformers)
%env PATH=/mnt/home/xxxx/anaconda3/envs/yyyy/bin:$PATH

In [None]:
%load_ext tensorboard
# %reload_ext tensorboard
%tensorboard --logdir {logging_dir} --bind_all

## 11. Application MLM

In [30]:
### import transformers
import pathlib
from pathlib import Path

### Model original (without lang adapter)

We use the model `neuralmind/bert-base-portuguese-cased` and its trainned lang adapter within the following examples.

In [30]:
from transformers import AutoModelForMaskedLM, AutoTokenizer

model_mlm = AutoModelForMaskedLM.from_pretrained(model_checkpoint)
tokenizer_mlm = AutoTokenizer.from_pretrained(model_checkpoint, use_fast=True)

Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertForMaskedLM: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [64]:
from transformers import pipeline
nlp = pipeline("fill-mask", model=model_mlm, tokenizer=tokenizer_mlm)

Let's take one sentence from the SQuAD 1.1 pt dataset and replace the word `Deus` by the token `[MASK]`.

In [65]:
nlp("O panteísmo sustenta que [MASK] é o universo e o universo é Deus.")

[{'sequence': 'O panteísmo sustenta que Deus é o universo e o universo é Deus.',
  'score': 0.7392684817314148,
  'token': 2538,
  'token_str': 'Deus'},
 {'sequence': 'O panteísmo sustenta que deus é o universo e o universo é Deus.',
  'score': 0.042948465794324875,
  'token': 4023,
  'token_str': 'deus'},
 {'sequence': 'O panteísmo sustenta que ele é o universo e o universo é Deus.',
  'score': 0.029601380228996277,
  'token': 368,
  'token_str': 'ele'},
 {'sequence': 'O panteísmo sustenta que Cristo é o universo e o universo é Deus.',
  'score': 0.021081821992993355,
  'token': 4184,
  'token_str': 'Cristo'},
 {'sequence': 'O panteísmo sustenta que tudo é o universo e o universo é Deus.',
  'score': 0.018854131922125816,
  'token': 2745,
  'token_str': 'tudo'}]

Let's test now the original model with another sentence and `China` has masked word.

In [66]:
nlp("O primeiro caso da COVID-19 foi descoberto em Wuhan, na [MASK].")

[{'sequence': 'O primeiro caso da COVID - 19 foi descoberto em Wuhan, na China.',
  'score': 0.9124720096588135,
  'token': 3278,
  'token_str': 'China'},
 {'sequence': 'O primeiro caso da COVID - 19 foi descoberto em Wuhan, na Índia.',
  'score': 0.034306950867176056,
  'token': 4340,
  'token_str': 'Índia'},
 {'sequence': 'O primeiro caso da COVID - 19 foi descoberto em Wuhan, na Malásia.',
  'score': 0.023240933194756508,
  'token': 17753,
  'token_str': 'Malásia'},
 {'sequence': 'O primeiro caso da COVID - 19 foi descoberto em Wuhan, na Tailândia.',
  'score': 0.013218147680163383,
  'token': 15582,
  'token_str': 'Tailândia'},
 {'sequence': 'O primeiro caso da COVID - 19 foi descoberto em Wuhan, na Inglaterra.',
  'score': 0.0027242223732173443,
  'token': 2785,
  'token_str': 'Inglaterra'}]

### Model with lang adapter

In [67]:
with_adapters_mlm = True

if with_adapters_mlm:
    # hyperparameters used for fine-tuning the MLM with lang adapter
    learning_rate_mlm = 1e-4
    batch_size_mlm = 32
    gradient_accumulation_steps_mlm = 1
    adam_epsilon_mlm = 1e-6
    num_train_epoch_mlm = 100.
    madx2_mlm = True
    ds_mlm = False
    fp16_mlm = True
    load_best_model_at_end_mlm = True
    metric_for_best_model_mlm = "loss"

    # path to lang adapter
    outputs_mlm = model_checkpoint.replace('/','-') + '_' + dataset_name + '/mlm' \
    + '_lr' + str(learning_rate_mlm) \
    + '_bs' + str(batch_size_mlm) \
    + '_GAS' + str(gradient_accumulation_steps_mlm) \
    + '_eps' + str(adam_epsilon_mlm) \
    + '_epochs' + str(num_train_epoch_mlm) \
    + '_madx2' + str(madx2_mlm) \
    + '_ds' + str(ds_mlm) \
    + '_fp16' + str(fp16_mlm) \
    + '_best' + str(load_best_model_at_end_mlm) \
    + '_metric' + str(metric_for_best_model_mlm)

    path_to_outputs = root/'models_outputs'/outputs_mlm

    # Config of the lang adapter
    lang_adapter_path = path_to_outputs/'adapters-mlm/'

    load_lang_adapter = lang_adapter_path
    lang_adapter_config = str(lang_adapter_path) + "/adapter_config.json"
    lang_adapter_non_linearity = 'gelu'
    lang_adapter_reduction_factor = 2
    language_mlm = 'pt'

In [68]:
# load the language adapter
if with_adapters_mlm:
    task_mlm_load_as = 'mlm'
    lang_adapter_name = model_mlm.load_adapter(
        str(load_lang_adapter),
        config=lang_adapter_config,
        load_as=task_mlm_load_as,
        with_head=True
    )
else:
    lang_adapter_name = None
    
# Set the adapters to be used in every forward pass
if lang_adapter_name:
    model_mlm.set_active_adapters([lang_adapter_name])

In [69]:
from transformers import pipeline
nlp = pipeline("fill-mask", model=model_mlm, tokenizer=tokenizer_mlm)

In [70]:
nlp("O panteísmo sustenta que [MASK] é o universo e o universo é Deus.")

[{'sequence': 'O panteísmo sustenta que Deus é o universo e o universo é Deus.',
  'score': 0.8649417161941528,
  'token': 2538,
  'token_str': 'Deus'},
 {'sequence': 'O panteísmo sustenta que ele é o universo e o universo é Deus.',
  'score': 0.020680619403719902,
  'token': 368,
  'token_str': 'ele'},
 {'sequence': 'O panteísmo sustenta que Cristo é o universo e o universo é Deus.',
  'score': 0.020070625469088554,
  'token': 4184,
  'token_str': 'Cristo'},
 {'sequence': 'O panteísmo sustenta que tudo é o universo e o universo é Deus.',
  'score': 0.012983395718038082,
  'token': 2745,
  'token_str': 'tudo'},
 {'sequence': 'O panteísmo sustenta que Jesus é o universo e o universo é Deus.',
  'score': 0.010557097382843494,
  'token': 3125,
  'token_str': 'Jesus'}]

Our fine-tuned model scored better (0.865 vs. 0.739) when finding the masked word `Deus`. It seems that our finetuning on the SQuAD 1.1 pt dataset with lang adapter worked.

Let's test now our fine-tuned model with another sentence and `China` has masked word.

In [71]:
nlp("O primeiro caso da COVID-19 foi descoberto em Wuhan, na [MASK].")

[{'sequence': 'O primeiro caso da COVID - 19 foi descoberto em Wuhan, na China.',
  'score': 0.8676925897598267,
  'token': 3278,
  'token_str': 'China'},
 {'sequence': 'O primeiro caso da COVID - 19 foi descoberto em Wuhan, na Índia.',
  'score': 0.0645902156829834,
  'token': 4340,
  'token_str': 'Índia'},
 {'sequence': 'O primeiro caso da COVID - 19 foi descoberto em Wuhan, na Malásia.',
  'score': 0.018060894683003426,
  'token': 17753,
  'token_str': 'Malásia'},
 {'sequence': 'O primeiro caso da COVID - 19 foi descoberto em Wuhan, na Tailândia.',
  'score': 0.015696141868829727,
  'token': 15582,
  'token_str': 'Tailândia'},
 {'sequence': 'O primeiro caso da COVID - 19 foi descoberto em Wuhan, na Alemanha.',
  'score': 0.0037865887861698866,
  'token': 2423,
  'token_str': 'Alemanha'}]

The masked word `China` was found with a high score of 0.868 but lower than the score of the orginal model (0.913). It was expected: by finetuning the original model, we specialized it to the "language" of the dataset used.

# END