In [1]:
import pandas as pd
from datasets import load_dataset, Dataset
import os
import re
import torch
from sklearn.model_selection import train_test_split
import requests


### PRE-PROCESSING

Per ottenere un dataset che possa essere utilizzato come training del nostro language model partiamo dai file conllu che contengono i testi annotati di wikipedia italiana. Da questi file vogliamo ottenere una struttura dati che per ogni frase riporti id, testo e indice di Gulpease (per ora).

In [2]:
#si ottengono i path di ogni file per il pretraining e si salvano in una lista
ds_directory = "data"
ds_files = []
for file_name in os.listdir(ds_directory):
    file_path = os.path.join(ds_directory, file_name)
    ds_files.append(file_path)
print(ds_files)

['data\\prova.conllu', 'data\\prova2.conllu', 'data\\text_all.txt']


In [29]:
#funzione che calcola gulpease - io in teoria userò read-it
'''
def comp_gulpease(ns, nw, nl):
    g_value = 89 + ((300*ns - 10*nl)/nw) #è corretta questa formula?
    return g_value
'''

In [3]:
#Qui il codice per ottenere l'indicie di leggibilità

SERVER_PATH = "http://api.italianlp.it"

#con una post si carica il documento nel db del server e si caclcola la leggibiità 
def load_document(text):
    r = requests.post(SERVER_PATH + '/documents/',           # carica il documento nel database del server
                      data={'text': text,                    # durante il caricamento viene eseguita un'analisi linguistica necessaria per calcolare la leggibilita'
                          'lang': 'IT',
                          'extra_tasks': ["readability"]     # chiede al server di calcolare anche la leggibilità del docuemnto
                  })
    doc_id = r.json()['id']                                  # id del documento nel database del server, che serve per richiedere i risultati delle analisi
    return doc_id

#si fa una get per ottenere i risultati, in questo caso siamo interessati solo alla leggibilità globale
def get_sent_readability(doc_id):
    r = requests.get(SERVER_PATH + '/documents/details/%s' % doc_id)
    result = r.json()
    sent_dict = result['sentences']['data'][0]
    sent_readability = sent_dict["readability_score_all"]        #prendiamo la leggibilità globale
    return sent_readability

#funzione per iterare su ciascuna frase 
'''def get_readit_scores(file_path):
    readit_list = []
    for line in open(file_path, 'r', encoding = "utf-8"): 
        print(line)
        if line.startswith("# text"):
            current_sent = line[9:].rstrip('\n')
            sent_id = load_document(current_sent)
            r_score = get_sent_readability(sent_id)
            readit_list.append(r_score)
    return readit_list
'''

'def get_readit_scores(file_path):\n    readit_list = []\n    for line in open(file_path, \'r\', encoding = "utf-8"): \n        print(line)\n        if line.startswith("# text"):\n            current_sent = line[9:].rstrip(\'\n\')\n            sent_id = load_document(current_sent)\n            r_score = get_sent_readability(sent_id)\n            readit_list.append(r_score)\n    return readit_list\n'

In [6]:
#funzione che legge i file conllu riga per riga, estraendo id, testo e indice di complessità di ciascuna frase 
def extract(file_path, n_file):
    id_list = []
    text_list = []
    readit_list = []
    #gulp_list = []
    current_id=""
    current_sent=""
    for line in open(file_path, 'r', encoding='utf-8'):
        if line.startswith("# text"):
            current_sent = line[9:].rstrip('\n')
            #gulp = comp_gulpease(1, len(words), sum(len(word) for word in words))
            print(current_sent)
            sent_id = load_document(current_sent)
            r_score = get_sent_readability(sent_id)
            readit_list.append(r_score)
            text_list.append(current_sent)
            #gulp_list.append(gulp)
        elif line.startswith("# sent_id"):
            current_id = re.sub(r'\D', '', line)
            id_list.append(f'{current_id}_{str(n_file)}') #per avere id univoco ho aggiunto numero del file
    return id_list, text_list, readit_list
            
            


In [7]:
#si estraggono id e testo tramite le funzioni sopra definite
n_file = 1
id_list = []
text_list = []
readit_list = []
for item in ds_files:
    item_ids, item_texts, item_readit = extract(item, n_file)
    id_list = id_list + item_ids
    text_list = text_list + item_texts
    readit_list = readit_list + item_readit
    n_file += 1

L'allunaggio è la discesa di un veicolo sulla Luna.
Si distingue tra allunaggio duro, cioè un impatto che comporta la distruzione del veicolo, e allunaggio morbido, che permette al veicolo di arrivare intatto sulla superficie lunare.
Il programma Luna, partito nel 1959 con la sonda Luna 2, inviò il primo veicolo riuscito ad impattare con il satellite.
Luna 9, il 3 febbraio 1966, eseguì il primo atterraggio morbido sulla Luna.
Il primo allunaggio di un essere umano, il 20 luglio 1969, fu quello di Neil Armstrong, comandante della missione Apollo 11, e di Buzz Aldrin, mentre il loro compagno Michael Collins, rimasto in orbita, controllava il modulo di comando Columbia.
La prima missione verso la Luna dopo il periodo aureo, conclusosi nel 1976 con Luna 24, ultima missione automatica sovietica, fu organizzata dal Giappone con la sonda Hiten-Hagoromo lanciata il 24 gennaio 1990, che collaudò una nuova rotta lunare molto più economica ma anche molto più lenta;
il rilascio della sonda Hagorom

In [8]:
#si crea un dataframe con una riga per frase, attributi: id, testo e indice di gulpease
ds_df = pd.DataFrame(columns=["id", "text", "readit_index"])

ds_df["id"] = id_list
ds_df["text"] = text_list
ds_df["readit_index"]  = readit_list

ds_df.head()


Unnamed: 0,id,text,readit_index
0,1_1,L'allunaggio è la discesa di un veicolo sulla ...,4.228906
1,2_1,"Si distingue tra allunaggio duro, cioè un impa...",72.176978
2,3_1,"Il programma Luna, partito nel 1959 con la son...",80.940219
3,4_1,"Luna 9, il 3 febbraio 1966, eseguì il primo at...",12.844614
4,5_1,"Il primo allunaggio di un essere umano, il 20 ...",94.060913


In [9]:
#setto il device da usare
#torch.device("cpu")

device(type='cpu')

In [10]:
#Divido in training e test set
dataset = Dataset.from_pandas(ds_df)
split_set = dataset.train_test_split(test_size=0.1)

train_ds = split_set["train"]
test_ds = split_set["test"]

### TOKENIZATION

In questa sezione si importa il tokenizzatore col quale si tokenizza ciascuna frase nel formato necessario per Bert, alla fine si otterrà un dataset nel formato corretto con tutte le features necessarie per il training

In [11]:
import tokenizers
import transformers
from transformers import BertTokenizer

In [12]:
#si importa il tokenizzatore già configurato (in questo caso: bert-base-italian-cased)
tokenizer = BertTokenizer.from_pretrained("dbmdz/bert-base-italian-cased")


In [13]:
#facciamo l'encoding di tutto il dataset tokenizzando frase per frase
def encode(sample):
    return tokenizer(sample["text"], padding=True, truncation=True, max_length=512, return_special_tokens_mask=True)

train_set = train_ds.map(encode, batched=True)
test_set = test_ds.map(encode, batched=True)
train_set.set_format('torch', columns=["input_ids", "attention_mask", "token_type_ids"])
test_set.set_format('torch', columns=["input_ids", "attention_mask", "token_type_ids"])


Map:   0%|          | 0/32 [00:00<?, ? examples/s]

Map:   0%|          | 0/4 [00:00<?, ? examples/s]

In [14]:
train_set

Dataset({
    features: ['id', 'text', 'readit_index', 'input_ids', 'token_type_ids', 'special_tokens_mask', 'attention_mask'],
    num_rows: 32
})

In [15]:
test_set

Dataset({
    features: ['id', 'text', 'readit_index', 'input_ids', 'token_type_ids', 'special_tokens_mask', 'attention_mask'],
    num_rows: 4
})

### TRAINING DI BERT

Si procede al training di Bert. Il modello dovrà partire da uno stato iniziale con pesi random, per questo non si importa il modello già addestrato, ma si configura semplicemente l'architettura la sua architettura per poi addestrarlo da zero. Si definisce poi una strategia di training e i suoi argomenti per poi addestrare il modello sul trask di Language Modeling. 

In [16]:
from transformers import Trainer, TrainingArguments, TrainerCallback, BertConfig, BertForMaskedLM, DataCollatorForLanguageModeling, set_seed


In [17]:
model_name = "prajjwal1/bert-mini"
model_config = BertConfig.from_pretrained(model_name)

print(model_config)

BertConfig {
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 256,
  "initializer_range": 0.02,
  "intermediate_size": 1024,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 4,
  "num_hidden_layers": 4,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "transformers_version": "4.20.1",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 30522
}



In [18]:
model = BertForMaskedLM(model_config)
model.resize_token_embeddings(len(tokenizer))


Embedding(31102, 256)

In [19]:
model.config

BertConfig {
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 256,
  "initializer_range": 0.02,
  "intermediate_size": 1024,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 4,
  "num_hidden_layers": 4,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "transformers_version": "4.20.1",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 31102
}

In [20]:
#usiamo il datacollator per fare le batch per il training
datacollator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=True, mlm_probability=0.2, return_tensors="pt")

In [21]:
datacollator

DataCollatorForLanguageModeling(tokenizer=PreTrainedTokenizer(name_or_path='dbmdz/bert-base-italian-cased', vocab_size=31102, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}), mlm=True, mlm_probability=0.2, pad_to_multiple_of=None, tf_experimental_compile=False, return_tensors='pt')

In [22]:
print(f"Lunghezza del dataset: {len(train_set)}")

Lunghezza del dataset: 32


In [23]:
#definisco una funzione di callback per verificare l'ordinamento dei dati per ogni epoca
class check_ds_order(TrainerCallback):
    def on_epoch_begin(self, args, state, control, train_dataloader, **kwargs):
        f = open(f"train_check.txt", "a")
        f.write(f"\n------------------------ ORDINE DEI DATI ALL'INIZI DELL'EPOCA {int(state.epoch+1)} ------------------------")
        f.write(str(train_dataloader.dataset["input_ids"][:5]))
        f.write("-----------------------------------------------------------------------------------")


In [24]:
#argomenti provvisori, da definire meglio
training_args = TrainingArguments(
    output_dir = "my_pretrained_model",
    evaluation_strategy="steps",
    overwrite_output_dir=True,
    per_device_train_batch_size=32,
    per_device_eval_batch_size=64,
    num_train_epochs=3,
    logging_steps=10,
    save_steps=10,
    save_total_limit=2,
    load_best_model_at_end=True,
    seed=42, 
    )

In [25]:
set_seed(training_args.seed)

In [26]:
open('train_check.txt', 'w').close()

In [27]:
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=datacollator,
    train_dataset=train_set,
    eval_dataset=test_set,
    callbacks=[check_ds_order], 
    )

In [28]:
trainer.train()

The following columns in the training set don't have a corresponding argument in `BertForMaskedLM.forward` and have been ignored: special_tokens_mask, id, readit_index, text. If special_tokens_mask, id, readit_index, text are not expected by `BertForMaskedLM.forward`,  you can safely ignore this message.
***** Running training *****
  Num examples = 32
  Num Epochs = 3
  Instantaneous batch size per device = 32
  Total train batch size (w. parallel, distributed & accumulation) = 32
  Gradient Accumulation steps = 1
  Total optimization steps = 3


  0%|          | 0/3 [00:00<?, ?it/s]



Training completed. Do not forget to share your model on huggingface.co/models =)




{'train_runtime': 9.2413, 'train_samples_per_second': 10.388, 'train_steps_per_second': 0.325, 'train_loss': 10.37182871500651, 'epoch': 3.0}


TrainOutput(global_step=3, training_loss=10.37182871500651, metrics={'train_runtime': 9.2413, 'train_samples_per_second': 10.388, 'train_steps_per_second': 0.325, 'train_loss': 10.37182871500651, 'epoch': 3.0})