<a href="https://colab.research.google.com/github/Servat0r/HLT-Project-2023/blob/master/IT5_base_over_SquaD_IT_10000_examples.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Test Settings:

1. **Model**: IT5-base;
2. **Dataset**: Squad-IT;
3. **Examples**: $10000$;
4. **Other**: can compare to same training size with `MT5-Base` over both standard LMQG Squad and its augmented version.

### 1. Preliminaries

#### Mounting and Installing

In [None]:
import os
os.environ['CUDA_LAUNCH_BLOCKING'] = "1"

In [None]:
from google.colab import drive
drive.mount('/content/drive')
%cd "/content/drive/MyDrive/Colab Notebooks"

Mounted at /content/drive
/content/drive/MyDrive/Colab Notebooks


In [None]:
%run utils.ipynb

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.6/7.6 MB[0m [31m17.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m519.6/519.6 kB[0m [31m25.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.4/81.4 kB[0m [31m10.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.5/76.5 kB[0m [31m8.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.1/61.1 kB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m268.8/268.8 kB[0m [31m25.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m45.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m51.9 MB/s[0m et

Downloading builder script:   0%|          | 0.00/7.95k [00:00<?, ?B/s]

Downloading builder script:   0%|          | 0.00/4.20k [00:00<?, ?B/s]

In [None]:
NUM_EPOCHS = 10

#### Imports

In [None]:
from transformers import AutoModel, AutoTokenizer, AutoModelForSeq2SeqLM, AdamW, DataCollatorWithPadding
from datasets import load_dataset, Dataset, load_from_disk, load_metric
import numpy as np
import evaluate
import torch
import os

In [None]:
model_checkpoint='gsarti/it5-base'

In [None]:
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

Downloading (…)okenizer_config.json:   0%|          | 0.00/1.91k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.01M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/1.79k [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
tokenizer.add_special_tokens({'sep_token': '<sep>', 'additional_special_tokens': ['<answer>', '<context>']})

3

### 2. Dataset Loading and Preprocessing

We will use [`squad_it`](https://huggingface.co/datasets/squad_it), a variant of the `SquaD` dataset adapted to `Question Generation` tasks.

In [None]:
def load_and_preprocess_squad_it_dataset(
    dataset_name='squad_it', train_dataset_name='squad_it_qg_train',
    eval_dataset_name='squad_it_qg_eval', test_dataset_name='squad_it_qg_test',
    shuffle_seed=None, train_select=None, eval_select=None, train_dataset_split=0.8,
    use_extra_ids=False,
):
  dataset_loading_result = get_dataset(dataset_name, train_dataset_name, eval_dataset_name, test_dataset_name)
  local = dataset_loading_result['local']
  if local:
    train_dataset = dataset_loading_result['train']
    validation_dataset = dataset_loading_result['eval']
    test_dataset = dataset_loading_result['test']
  if not local:
    datasets = load_dataset(dataset_name)
    dev_dataset = datasets['train'].remove_columns(['id'])
    test_dataset = datasets['test'].remove_columns(['id'])

    new_test_dataset = {'answer': [], 'question': [], 'context': []}
    test_dataset.map(lambda sample: build_answers_squad_it(sample, new_test_dataset))
    test_dataset = Dataset.from_dict(new_test_dataset)

    new_dev_dataset = {'answer': [], 'question': [], 'context': []}
    dev_dataset.map(lambda sample: build_answers_squad_it(sample, new_dev_dataset))
    del dev_dataset
    dev_dataset = Dataset.from_dict(new_dev_dataset)

    train_dataset_length = int(train_dataset_split * dev_dataset_length) + 1 if 0 <= train_dataset_split <= 1 else int(train_dataset_split)

    train_dataset = dev_dataset.shuffle(seed=shuffle_seed).select(range(train_dataset_length))
    validation_dataset = dev_dataset.shuffle(seed=shuffle_seed).select(range(train_dataset_length, dev_dataset_length))
    print(f"Train dataset has {len(train_dataset)} items. Validation dataset has {len(validation_dataset)} items.")

    train_dataset.save_to_disk(train_dataset_name)
    validation_dataset.save_to_disk(eval_dataset_name)
    test_dataset.save_to_disk(test_dataset_name)

  if train_select:
    train_dataset = train_dataset.shuffle(seed=shuffle_seed).select(range(train_select))
  if eval_select:
    validation_dataset = validation_dataset.shuffle(seed=shuffle_seed).select(range(eval_select))

  build_train_feature = lambda sample: build_train_feature_squad_it(sample, use_extra_ids=use_extra_ids)
  train_dataset = train_dataset.map(build_train_feature).remove_columns(['answer', 'context'])
  validation_dataset = validation_dataset.map(build_train_feature).remove_columns(['answer', 'context'])
  test_dataset = test_dataset.map(build_train_feature).remove_columns(['answer', 'context'])

  tokenized_train_dataset = train_dataset.map(tokenizer_function, batched=True).remove_columns(['answer_context', 'question'])
  tokenized_validation_dataset = validation_dataset.map(tokenizer_function, batched=True).remove_columns(['answer_context', 'question'])
  tokenized_test_dataset = test_dataset.map(lambda samples: tokenizer_function(samples, input_ids_padding="max_length", train_dataset=train_dataset), batched=True).remove_columns(['answer_context'])

  tokenized_train_dataset.set_format("torch")
  tokenized_validation_dataset.set_format("torch")
  tokenized_test_dataset.set_format("torch")

  return (train_dataset, validation_dataset, test_dataset), (tokenized_train_dataset, tokenized_validation_dataset, tokenized_test_dataset)

In [None]:
(train_dataset, validation_dataset, test_dataset), (tokenized_train_dataset, tokenized_validation_dataset, tokenized_test_dataset) = \
  load_and_preprocess_squad_it_dataset(shuffle_seed=42, train_select=10000, eval_select=5000, train_dataset_split=0.8, use_extra_ids=True)

Map:   0%|          | 0/10231 [00:00<?, ? examples/s]

### 3. Model Loading and configuration

#### Loading

In [None]:
model = AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint)

In [None]:
model.resize_token_embeddings(len(tokenizer))

You are resizing the embedding layer without providing a `pad_to_multiple_of` parameter. This means that the new embeding dimension will be 32106. This might induce some performance reduction as *Tensor Cores* will not be available. For more details  about this, or help on choosing the correct value for resizing, refer to this guide: https://docs.nvidia.com/deeplearning/performance/dl-performance-matrix-multiplication/index.html#requirements-tc


Embedding(32106, 768)

#### Configuration

In [None]:
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model.to(device)
device

device(type='cuda')

In [None]:
optimizer, train_dataloader, eval_dataloader, lr_scheduler, \
  num_training_steps = get_training_configuration(train_batch_size=4, eval_batch_size=4, tokenizer=tokenizer, learning_rate=1e-4, num_epochs=NUM_EPOCHS)

25000




In [None]:
train_dataloader

<torch.utils.data.dataloader.DataLoader at 0x781faac4cac0>

In [None]:
for batch in train_dataloader:
  batch['input_ids'].to(device)
  break

You're using a T5TokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


### 4. Fine-tuning

#### Execution

In [None]:
training_results_dict = main_training_loop(
    model, device, optimizer, train_dataloader, eval_dataloader,
    lr_scheduler, num_training_steps, num_epochs=NUM_EPOCHS, metrics=None,
    eval_strategy='epoch', eval_every=2000, model_save_path='squad_it_reduced_it5base_test',
    early_stopping=False, early_stopping_min_delta=1e-3, early_stopping_patience=5,
    tokenizer=tokenizer, num_beams=4, tokenize_predictions_output=False, start_epoch=0
  )

epoch_train_losses = training_results_dict['epoch_train_losses']
epoch_eval_losses = training_results_dict['epoch_eval_losses']
epoch_eval_metrics = training_results_dict['epoch_eval_metrics']
epoch = training_results_dict['epoch']
print(epoch_train_losses, epoch_eval_losses, epoch_eval_metrics, sep='\n')

  0%|          | 0/25000 [00:00<?, ?it/s]

  0%|          | 0/12500 [00:00<?, ?it/s]

  labels_batch = torch.tensor(batch['labels'])


Epoch 0: Train Loss = 1.6156840324401855, Eval Loss = 1.3812355995178223
Save this model (y/n)?> y
Continue training (y/n)?> y


  labels_batch = torch.tensor(batch['labels'])


Epoch 1: Train Loss = 1.3163243532180786, Eval Loss = 1.374467134475708
Save this model (y/n)?> y
Continue training (y/n)?> y


  labels_batch = torch.tensor(batch['labels'])


Epoch 2: Train Loss = 1.2718225717544556, Eval Loss = 1.4157308340072632
Save this model (y/n)?> n
Continue training (y/n)?> y
Epoch 3: Train Loss = 1.302768588066101, Eval Loss = 1.4186042547225952
Save this model (y/n)?> n
Continue training (y/n)?> y
Epoch 4: Train Loss = 1.7045382261276245, Eval Loss = 1.4515316486358643
Save this model (y/n)?> n
Continue training (y/n)?> n
[1.6156840324401855, 1.3163243532180786, 1.2718225717544556, 1.302768588066101, 1.7045382261276245]
[1.3812355995178223, 1.374467134475708, 1.4157308340072632, 1.4186042547225952, 1.4515316486358643]
[]


In [None]:
model.save_pretrained(f'squad_it_reduced_it5base_example_(epoch {epoch})')

### 5. Analysis of the Results

### Calculating BLEU and ROUGE score

In [None]:
loss_tracker=[]
metrics_tracker=[]
metrics = {
    'bleu': get_bleu_config(tokenizer),
    'nist': get_nist_config(tokenizer),
    'rouge': get_rouge_config(tokenizer),
}

Downloading builder script:   0%|          | 0.00/5.94k [00:00<?, ?B/s]

Downloading extra modules:   0%|          | 0.00/1.55k [00:00<?, ?B/s]

Downloading extra modules:   0%|          | 0.00/3.34k [00:00<?, ?B/s]

Downloading builder script:   0%|          | 0.00/5.53k [00:00<?, ?B/s]

Downloading builder script:   0%|          | 0.00/6.27k [00:00<?, ?B/s]

In [None]:
P = True

In [None]:
if P:
  model = AutoModelForSeq2SeqLM.from_pretrained('CleanedUp/squad_it_reduced_it5base_test_epoch1', local_files_only=True)

In [None]:
if P:
  optimizer, train_dataloader, eval_dataloader, lr_scheduler, \
    num_training_steps = get_training_configuration(train_batch_size=4, eval_batch_size=4, tokenizer=tokenizer, learning_rate=1e-3, num_epochs=2)

5000




In [None]:
if P:
  device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
  model.to(device)
  print()




In [None]:
tokenized_test_dataset = tokenized_test_dataset.remove_columns(['question'])

In [None]:
from tqdm.auto import tqdm
test_dataloader = DataLoader(tokenized_test_dataset, shuffle=True, batch_size=8, collate_fn=DataCollatorWithPadding(tokenizer=tokenizer))
test_loss_tracker, test_metrics_tracker, num_test_steps = [], [], len(test_dataloader)
test_progress_bar = tqdm(range(num_test_steps))
test_loss = evaluation_loop(
    model, device, optimizer, test_dataloader, lr_scheduler, test_loss_tracker, test_metrics_tracker, metrics, test_progress_bar,
    num_beams=4, tokenizer=tokenizer, tokenize_predictions_output=False,
)

  0%|          | 0/1279 [00:00<?, ?it/s]

  labels_batch = torch.tensor(batch['labels'])


Metrics = {'bleu': {'bleu': 0.21122757673096654, 'precisions': [0.48680444621938235, 0.259100953974591, 0.16491527123232727, 0.10971072302483827], 'brevity_penalty': 0.9664229661582641, 'length_ratio': 0.9669742632565549, 'translation_length': 120192, 'reference_length': 124297}, 'nist': {'nist_mt': 5.4963323744320185}, 'rouge': {'rouge1': 0.44064429014936385, 'rouge2': 0.2557444229542568, 'rougeL': 0.41073416738800617, 'rougeLsum': 0.41064015065199944}}


In [None]:
test_dataset[18:30]['question']

['Dal 1947 al 1967, quanto è aumentato il prezzo del petrolio?',
 'Dal 1947 al 1967, quanto è aumentato il prezzo del petrolio?',
 "Quando ha iniziato l' OPEC a riadattare i prezzi del petrolio?",
 "Quando ha iniziato l' OPEC a riadattare i prezzi del petrolio?",
 "Quando l' olio è tornato ai suoi livelli di Bretton Woods?",
 "Quando la Siria e l' Egitto hanno lanciato un attacco a sorpresa contro Israele?",
 "Quante volte di più le altre nazioni hanno dovuto pagare per il petrolio dopo l' attacco a sorpresa?",
 "Quante volte di più le altre nazioni hanno dovuto pagare per il petrolio dopo l' attacco a sorpresa?",
 "Quante volte di più le altre nazioni hanno dovuto pagare per il petrolio dopo l' attacco a sorpresa?",
 "Perchè lo scià d' Iran ha rilasciato un' intervista?",
 "Perchè l' OPEC ha portato il prezzo del petrolio a 5,11 dollari?",
 'Quando hanno portato il prezzo del petrolio a 5,11 dollari?']

In [None]:
predictions = model.generate(tokenized_test_dataset['input_ids'][18:30].to(device), max_length=64, num_beams=10)

In [None]:
tokenizer.batch_decode(predictions, skip_special_tokens=True)

['quanto è aumentato il prezzo del petrolio dal 1947 al 1967?',
 'quanto è aumentato il prezzo del petrolio dal 1947 al 1967?',
 "in quale anno l' opec ha ritardato ad aggiornare i prezzi?",
 "quando l' opec ha iniziato ad adeguare i prezzi per riflettere il deprezzamento?",
 "in quale anno l' opec ha aumentato i prezzi del petrolio?",
 "quando la siria e l' egitto hanno lanciato un attacco a sorpresa su israele?",
 'chi era il secondo esportatore mondiale di petrolio?',
 'quante volte il prezzo del petrolio è aumentato?',
 "quanto ha pagato la siria e l' egitto per rivendere a noi il petrolio greggio?",
 "qual è stato il nome del giorno in cui la siria e l' egitto hanno lanciato un attacco a sorpresa su israele?",
 "perché l' opec ha aumentato il prezzo del petrolio del 70%?",
 "quando l' opec ha aumentato il prezzo del petrolio?"]

In [None]:
test_dataset[108:120]['question']

['Quando Honda, Toyota e Nissan hanno aperto impianti di assemblaggio negli Stati Uniti?',
 'Quando Honda, Toyota e Nissan hanno aperto impianti di assemblaggio negli Stati Uniti?',
 "Nome di un' auto più grande che Toyota ha creato come acquirenti lamentato le piccole dimensioni compatte?",
 "Nome di un' auto più grande che Toyota ha creato come acquirenti lamentato le piccole dimensioni compatte?",
 'Denominare un tipo di camion compatti Toyota?',
 'Denominare un tipo di camion compatti Toyota?',
 'Che cosa ha fatto Mitsubishi ribattezzato il suo Forte?',
 'Mazda, Mitsubishi e Isuzu hanno aderito alla partnership con quale casa automobilistica americana?',
 'Mazda, Mitsubishi e Isuzu hanno aderito alla partnership con quale casa automobilistica americana?',
 'Quando le case automobilistiche americane si sono schierate con le loro auto sostitutive nazionali, quale politica si è conclusa?',
 'Quanti passeggeri può ospitare la Ford Fiesta?',
 'Quanti passeggeri può ospitare la Ford Fies

In [None]:
predictions = model.generate(tokenized_test_dataset['input_ids'][108:120].to(device), max_length=64, num_beams=10)

In [None]:
tokenizer.batch_decode(predictions, skip_special_tokens=True)

['quando hanno aperto gli impianti di assemblaggio negli stati uniti le divisioni di lusso di honda, toyota e nissan per differenziarsi dai loro marchi di massa?',
 "in quale anno le restrizioni volontarie all' esportazione di honda, toyota e nissan sono state colpite dalle restrizioni volontarie all' esportazione?",
 "qual era il nome dell' auto più grande introdotta da toyota e nissan dopo la crisi petrolifera del 1973?",
 "qual era il nome dell' auto più grande introdotta da toyota e nissan?",
 "qual era il nome dell' autocarro datsun?",
 "qual era il nome dell' autocarro toyota?",
 'qual era il nome originale di mitsubishi dopo la crisi petrolifera?',
 'quali aziende hanno collaborato con mazda, mitsubishi e isuzu?',
 'chi ha collaborato con mazda, mitsubishi e isuzu?',
 'qual era la politica di mazda, mitsubishi e isuzu?',
 'quante persone erano nella dodge omni / plymouth horizon di ford alla fine degli anni settanta?',
 'quante persone erano nella dodge omni / plymouth horizon d

In [None]:
test_dataset[1081:1100]['question']

['Qual è la teoria più recente, più ampiamente accettata dietro la diffusione della peste?',
 'Qual è la teoria più recente, più ampiamente accettata dietro la diffusione della peste?',
 "Qual è la teoria dell' aria cattivo ufficialmente conosciuto come?",
 "Qual è stato considerato responsabile della morte nera e dell' epidemia nella Cina meridionale?",
 "Dove e quando è iniziata l' indagine sull' agente patogeno della peste?",
 "Dove e quando è iniziata l' indagine sull' agente patogeno della peste?",
 'Per chi è stata chiamata yersinia pestis?',
 'Per chi è stata chiamata yersinia pestis?',
 'Da che cosa dipendeva il meccanismo della peste bollicina?',
 'Chi ha scritto sulla grande pestilenza nel 1893?',
 'Che cosa pensava Gasquet della peste?',
 'Quando è uscita la seconda edizione del libro di Gasquet?',
 'Che cosa ha imputato il libro di Gasquet alla peste?',
 "Qual è un' altra piaga che si pensa di aver diffuso allo stesso modo?",
 'Quanto alte sono le febbri della peste?',
 'Qu

In [None]:
bertscore = compute_bert_score(
    test_dataset, tokenized_test_dataset, model, device, tokenizer, batch_size=16,
    lang='en', model_type=None, max_length=200, num_beams=4, num_candidates=1
)

  0%|          | 0/640 [00:00<?, ?it/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/482 [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/1.42G [00:00<?, ?B/s]

Some weights of RobertaModel were not initialized from the model checkpoint at roberta-large and are newly initialized: ['roberta.pooler.dense.weight', 'roberta.pooler.dense.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
bertscore

{'precision': (0.8750039670100834, 0.016852199210288056),
 'recall': (0.8722016805184207, 0.01730502514481325),
 'f1': (0.8733229406402513, 0.01584338963275441)}

In [None]:
np.mean([v[0] for v in bertscore.values()])

0.8735095293895853