# 1. Libraries

In [7]:
from google.colab import drive
drive.mount('/content/gdrive')

import json

import torch
from torch.distributions import Categorical
from transformers import AutoTokenizer, AutoModelForSequenceClassification

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt


Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


# 2. Set up

In [2]:
train_data_path = "/content/gdrive/MyDrive/Colab Notebooks/MNLP/Homework I - task 4/binary/train.jsonl"
dev_data_path = "/content/gdrive/MyDrive/Colab Notebooks/MNLP/Homework I - task 4/binary/dev.jsonl"
test_data_path = "/content/gdrive/MyDrive/Colab Notebooks/MNLP/Homework I - task 4/gold_truth/binary/test.jsonl"

In [3]:
def reformat_jsonl(input_path, output_path):
  id_seq = 0
  with open(input_path, "r") as input_file, open(output_path, "w") as output_file:
    for line in input_file:
      json_data = json.loads(line)
      reformatted_json_data = {
          "id" : id_seq,
          "lemma" : json_data["lemma"],
          "sentence1" : json_data["sentence1"],
          "sentence2" : json_data["sentence2"],
          "start1" : json_data["start1"],
          "end1" : json_data["end1"],
          "start2" : json_data["start2"],
          "end2" : json_data["end2"],
          "choices" : ["Ambiguo", "Non ambiguo"],
          "label" : json_data["label"]
      }
      json.dump(reformatted_json_data, output_file)
      output_file.write('\n')
      id_seq += 1

def read_lines_jsonl(file_path, num_lines):
  with open(file_path, 'r') as f:
    json_list = list(f)
    for line in json_list[:num_lines]:
      data = json.loads(line)
      print(data)

In [4]:
# italian train data
reformat_jsonl(train_data_path, "WiC-ITA_train.jsonl")
read_lines_jsonl("WiC-ITA_train.jsonl", num_lines = 10) # preview of the first 10 lines

{'id': 0, 'lemma': 'affare', 'sentence1': 'E visto che mi lascia GPS , Ecoscandaglio , TUTTE le dotazioni obbligatorie in ottimo stato ( razzi nuovi , ecc ) un sacco di cime ( due ancora nuove imballate ) , gonfiatore , pezzi vari di ricambio , ecc ecc ecc con un supplemento è affare fatto .', 'sentence2': 'La rivista nordamericana segnala come presunti sospetti il milionario e potente della stampa venezuelana , Gustavo Cisnero , che avrebbe ricevuto istruzioni da Otto Reich , massimo responsabile della Casa Bianca per gli Affari Latinoamericani .', 'start1': 235, 'end1': 241, 'start2': 220, 'end2': 226, 'choices': ['Ambiguo', 'Non ambiguo'], 'label': 0}
{'id': 1, 'lemma': 'elemento', 'sentence1': "In particolare , l' elemento più scandaloso del provvedimento che ci accingiamo a votare è rappresentato dagli articoli 7 e 8 su cui , questa mattina , abbiamo condotto , come opposizione , una lunga battaglia di buon senso .", 'sentence2': 'Il Fondo mostra di apprezzare " certi elementi di 

In [5]:
# italian test data
reformat_jsonl(test_data_path, "WiC-ITA_test.jsonl")
read_lines_jsonl("WiC-ITA_test.jsonl", num_lines = 10) # preview of the first 10 lines

{'id': 0, 'lemma': 'minore', 'sentence1': "Dopo innumerevoli provini sono stati scelti 15 attori per i ruoli principali , 200 per le parti minori e quasi 4000 comparse che animeranno le 24 puntate da 50 minuti ognuna trasmesse ogni domenica con due episodi l' uno di seguito all' altro .", 'sentence2': 'Il direttore di Micromega ha detto che , dopo questi due giorni , ci troviamo di fronte alla scelta fra un bene e un male minore .', 'start1': 96, 'end1': 102, 'start2': 122, 'end2': 128, 'choices': ['Ambiguo', 'Non ambiguo'], 'label': 1}
{'id': 1, 'lemma': 'rigore', 'sentence1': "44 ' st Napoli vicinissimo al gol con Floro Flores lanciato in area di rigore da un colpo di testa di Stellone : sull' incursione dell' attaccante napoletano Casazza con un' uscita disperata riesce a respingere in angolo .", 'sentence2': "Nell' altra semifinale i simpaticissimi e tecnicamente validissimi ragazzi di Torino avevano la meglio ai calci di rigore della sezione di Roma 2 , dopo che i tempi regolament

In [6]:
# italian dev data
reformat_jsonl(dev_data_path, "WiC-ITA_dev.jsonl")
read_lines_jsonl("WiC-ITA_dev.jsonl", num_lines = 10) # preview of the first 10 lines

{'id': 0, 'lemma': 'delicatezza', 'sentence1': 'Il presidente AZZOLLINI , stante la delicatezza dei temi oggetto del provvedimento , ritiene opportuno richiedere la predisposizione di una relazione tecnica .', 'sentence2': 'Montare la panna senza zucchero in modo che diventi molto solida , quindi unirla al composto avendo cura di mescolarla con molta delicatezza .', 'start1': 36, 'end1': 47, 'start2': 129, 'end2': 140, 'choices': ['Ambiguo', 'Non ambiguo'], 'label': 0}
{'id': 1, 'lemma': 'fede', 'sentence1': "Per quanto riguarda gli adolescenti l' indagine rileva che la fede risulta più diffusa tra le ragazze : il 76,4 % delle adolescenti è credente , contro il 71,1 % dei coetanei di sesso maschile .", 'sentence2': 'Quando un datore di lavoro viene perseguito in ottemperanza alle disposizioni adottate in virtù del presente articolo , egli deve avere il diritto di produrre la prova della propria buona fede .', 'start1': 62, 'end1': 66, 'start2': 188, 'end2': 192, 'choices': ['Ambiguo', 

# 3. Prompt formulation

In [7]:
prompts = [
    "Il significato della parola '{lemma}' è ambiguo o non ambiguo nella frase '{sentence1}' e nella frase '{sentence2}'?",
    "Nella frase '{sentence1}' e nella frase '{sentence2}', il significato della parola '{lemma}' risulta ambiguo o non ambiguo?",
    "Data la parola '{lemma}', valuta se il suo significato risulta essere ambiguo o non ambiguo nella frase '{sentence1}' e nella frase '{sentence2}'."
]

In [8]:
def save_prompts_jsonl(prompts, file_path):
  json_prompts = []
  for prompt in prompts:
    json_prompts.append({"prompt": prompt})

  with open(file_path, "w") as output_file:
    for json_prompt in json_prompts:
      json.dump(json_prompt, output_file)
      output_file.write("\n")

In [9]:
save_prompts_jsonl(prompts, "prompts.jsonl")
read_lines_jsonl("prompts.jsonl", num_lines = 3)

{'prompt': "Il significato della parola '{lemma}' è ambiguo o non ambiguo nella frase '{sentence1}' e nella frase '{sentence2}'?"}
{'prompt': "Nella frase '{sentence1}' e nella frase '{sentence2}', il significato della parola '{lemma}' risulta ambiguo o non ambiguo?"}
{'prompt': "Data la parola '{lemma}', valuta se il suo significato risulta essere ambiguo o non ambiguo nella frase '{sentence1}' e nella frase '{sentence2}'."}


# 4. Performance Evaluation

## 4.1 Llama 2

In [10]:
device = "cuda" if torch.cuda.is_available() else "cpu"
device

'cuda'

In [32]:
model_id = "MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSequenceClassification.from_pretrained(model_id).to(device)

tokenizer_config.json:   0%|          | 0.00/467 [00:00<?, ?B/s]

spm.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/16.3M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/23.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/173 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.09k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/558M [00:00<?, ?B/s]

In [78]:
def evaluate_prompt(prompt, data_file):
  formatted_prompts, y_true, y_pred = [], [], []

  with open(data_file, "r") as f:
    json_data = list(f)
    for line in json_data:
      pair = json.loads(line)
      id = pair['id']
      lemma = pair['lemma']
      sentence1 = pair['sentence1']
      sentence2 =  pair['sentence2']
      start1 = pair['start1']
      end1 = pair['end1']
      start2 = pair['start2']
      end2 = pair['end2']
      choices = pair['choices']
      label = pair['label']

      formatted_prompt = prompt.format(lemma = lemma, sentence1 = sentence1, sentence2 = sentence2)
      inputs = tokenizer(prompt, return_tensors = "pt").to(device)
      logits = model(**inputs).logits[0].detach().cpu().numpy()
      probabilities = torch.softmax(torch.tensor(logits), dim = -1).detach().cpu().numpy()
      predicted_label = probabilities.argmax()

      formatted_prompts.append(formatted_prompt)
      y_true.append(label)
      y_pred.append(predicted_label)

    return formatted_prompts, y_true, y_pred


def visualize_results(results, num_results):
  choices = ["Ambiguo", "Non Ambiguo"]
  for n in range(num_results):
    print("Prompt: ", results[0][0][n])
    print("Actual Label:", choices[results[0][1][n]])
    print("Predicted Label:", choices[results[0][2][n]])
    print("")


def compute_metrics(y_true, y_pred):
  accuracy = accuracy_score(y_true, y_pred)
  precision = precision_score(y_true, y_pred)
  recall = recall_score(y_true, y_pred)
  f1 = f1_score(y_true, y_pred)
  cf_matrix = confusion_matrix(y_true, y_pred)

  return accuracy, precision, recall, f1, cf_matrix


def visualize_metrics(accuracy, precision, recall, f1, cf_matrix):
  print("Overall Accuracy: ", round(accuracy, 3))
  print("Overall Precision: ", round(precision, 3))
  print("Overall Recall: ", round(recall, 3))
  print("Overall F1-Score: ", round(f1, 3))

  # # Confusion Matrix Plot
  # fig, ax = plt.subplots(figsize=(10, 5))
  # sns.heatmap(cf_matrix, annot=True)
  # ax.set_title('Confusion Matrix')
  # ax.set_xlabel('Predicted Labels')
  # ax.set_ylabel('True Labels')
  # plt.show()

In [79]:
train_results = []
test_results = []
dev_results = []

for prompt in prompts:
  formatted_prompt, y_true, y_pred = evaluate_prompt(prompt, "WiC-ITA_train.jsonl")
  train_results.append([formatted_prompt, y_true, y_pred])

  formatted_prompt, y_true, y_pred = evaluate_prompt(prompt, "WiC-ITA_test.jsonl")
  test_results.append([formatted_prompt, y_true, y_pred])

  formatted_prompt, y_true, y_pred = evaluate_prompt(prompt, "WiC-ITA_dev.jsonl")
  dev_results.append([formatted_prompt, y_true, y_pred])

In [80]:
visualize_results(train_results, 10) # preview of the first 10 train results

Prompt:  Il significato della parola 'affare' è ambiguo o non ambiguo nella frase 'E visto che mi lascia GPS , Ecoscandaglio , TUTTE le dotazioni obbligatorie in ottimo stato ( razzi nuovi , ecc ) un sacco di cime ( due ancora nuove imballate ) , gonfiatore , pezzi vari di ricambio , ecc ecc ecc con un supplemento è affare fatto .' e nella frase 'La rivista nordamericana segnala come presunti sospetti il milionario e potente della stampa venezuelana , Gustavo Cisnero , che avrebbe ricevuto istruzioni da Otto Reich , massimo responsabile della Casa Bianca per gli Affari Latinoamericani .'?
Actual Label: Ambiguo
Predicted Label: Non Ambiguo

Prompt:  Il significato della parola 'elemento' è ambiguo o non ambiguo nella frase 'In particolare , l' elemento più scandaloso del provvedimento che ci accingiamo a votare è rappresentato dagli articoli 7 e 8 su cui , questa mattina , abbiamo condotto , come opposizione , una lunga battaglia di buon senso .' e nella frase 'Il Fondo mostra di apprez

In [81]:
train_metrics = []
test_metrics = []
dev_metrics = []

for prompt in range(len(prompts)):
  accuracy, precision, recall, f1, cf_matrix = compute_metrics(train_results[prompt][1], train_results[prompt][2])
  train_metrics.append([accuracy, precision, recall, f1, cf_matrix])

  accuracy, precision, recall, f1, cf_matrix = compute_metrics(test_results[prompt][1], test_results[prompt][2])
  test_metrics.append([accuracy, precision, recall, f1, cf_matrix])

  accuracy, precision, recall, f1, cf_matrix = compute_metrics(dev_results[prompt][1], dev_results[prompt][2])
  dev_metrics.append([accuracy, precision, recall, f1, cf_matrix])

## 4.2 Overall Statistics

In [82]:
# Train Statistics
for n in range(len(train_metrics)):
  print(f"Train Statistics for the Prompt {n}")
  print("Prompt: ", prompts[n])
  visualize_metrics(train_metrics[n][0], train_metrics[n][1], train_metrics[n][2], train_metrics[n][3], train_metrics[n][4])
  print(" ")

Train Statistics for the Prompt 0
Prompt:  Il significato della parola '{lemma}' è ambiguo o non ambiguo nella frase '{sentence1}' e nella frase '{sentence2}'?
Overall Accuracy:  0.713
Overall Precision:  0.713
Overall Recall:  1.0
Overall F1-Score:  0.832
 
Train Statistics for the Prompt 1
Prompt:  Nella frase '{sentence1}' e nella frase '{sentence2}', il significato della parola '{lemma}' risulta ambiguo o non ambiguo?
Overall Accuracy:  0.713
Overall Precision:  0.713
Overall Recall:  1.0
Overall F1-Score:  0.832
 
Train Statistics for the Prompt 2
Prompt:  Data la parola '{lemma}', valuta se il suo significato risulta essere ambiguo o non ambiguo nella frase '{sentence1}' e nella frase '{sentence2}'.
Overall Accuracy:  0.713
Overall Precision:  0.713
Overall Recall:  1.0
Overall F1-Score:  0.832
 


In [83]:
# Test Statistics
for n in range(len(train_metrics)):
  print(f"Test Statistics for the Prompt {n}")
  print("Prompt: ", prompts[n])
  visualize_metrics(test_metrics[n][0], test_metrics[n][1], test_metrics[n][2], test_metrics[n][3], test_metrics[n][4])
  print(" ")

Test Statistics for the Prompt 0
Prompt:  Il significato della parola '{lemma}' è ambiguo o non ambiguo nella frase '{sentence1}' e nella frase '{sentence2}'?
Overall Accuracy:  0.5
Overall Precision:  0.5
Overall Recall:  1.0
Overall F1-Score:  0.667
 
Test Statistics for the Prompt 1
Prompt:  Nella frase '{sentence1}' e nella frase '{sentence2}', il significato della parola '{lemma}' risulta ambiguo o non ambiguo?
Overall Accuracy:  0.5
Overall Precision:  0.5
Overall Recall:  1.0
Overall F1-Score:  0.667
 
Test Statistics for the Prompt 2
Prompt:  Data la parola '{lemma}', valuta se il suo significato risulta essere ambiguo o non ambiguo nella frase '{sentence1}' e nella frase '{sentence2}'.
Overall Accuracy:  0.5
Overall Precision:  0.5
Overall Recall:  1.0
Overall F1-Score:  0.667
 


In [92]:
# Dev Statistics
for n in range(len(dev_metrics)):
  print(f"Test Statistics for the Prompt {n}")
  print("Prompt: ", prompts[n])
  visualize_metrics(dev_metrics[n][0], dev_metrics[n][1], dev_metrics[n][2], dev_metrics[n][3], dev_metrics[n][4])
  print(" ")

Test Statistics for the Prompt 0
Prompt:  Il significato della parola '{lemma}' è ambiguo o non ambiguo nella frase '{sentence1}' e nella frase '{sentence2}'?
Overall Accuracy:  0.5
Overall Precision:  0.5
Overall Recall:  1.0
Overall F1-Score:  0.667
 
Test Statistics for the Prompt 1
Prompt:  Nella frase '{sentence1}' e nella frase '{sentence2}', il significato della parola '{lemma}' risulta ambiguo o non ambiguo?
Overall Accuracy:  0.5
Overall Precision:  0.5
Overall Recall:  1.0
Overall F1-Score:  0.667
 
Test Statistics for the Prompt 2
Prompt:  Data la parola '{lemma}', valuta se il suo significato risulta essere ambiguo o non ambiguo nella frase '{sentence1}' e nella frase '{sentence2}'.
Overall Accuracy:  0.5
Overall Precision:  0.5
Overall Recall:  1.0
Overall F1-Score:  0.667
 


# EXTRA ?


In [None]:
# !pip install datasets
# !pip install accelerate -U
# !pip install transformers==4.30

from transformers import DistilBertForSequenceClassification, Trainer, TrainingArguments
from datasets import load_dataset
from transformers import DistilBertTokenizer

tokenizer = DistilBertTokenizer.from_pretrained("distilbert-base-uncased")
train_dataset = load_dataset("json", data_files="WiC-ITA_train.jsonl")
dev_dataset = load_dataset("json", data_files="WiC-ITA_dev.jsonl")

def tokenize_dataset(dataset):
    tokenized_dataset = tokenizer(dataset["sentence1"], dataset["sentence2"], truncation=True, padding=True)
    tokenized_dataset["label"] = dataset["label"]
    return tokenized_dataset

train_dataset = train_dataset.map(tokenize_dataset)
dev_dataset = dev_dataset.map(tokenize_dataset)

training_args = TrainingArguments(
    output_dir='./results',          # output directory
    num_train_epochs=3,              # total number of training epochs
    per_device_train_batch_size=16,  # batch size per device during training
    per_device_eval_batch_size=64,   # batch size for evaluation
    warmup_steps=500,                # number of warmup steps for learning rate scheduler
    weight_decay=0.01,               # strength of weight decay
    logging_dir='./logs',            # directory for storing logs
    logging_steps=10,
)

model = DistilBertForSequenceClassification.from_pretrained("distilbert-base-uncased")

trainer = Trainer(
    model = model,
    args = training_args,
    train_dataset = train_dataset,
    eval_dataset = dev_dataset
)

trainer.train()