In [12]:
import pickle
import pandas as pd

#deserialize data from a file
def load_data(file_name,language):
    path="../data/"+language+"/"+file_name
    try: 
        file = open(path, 'rb') 
        data = pickle.load(file) 
        return data
    except: 
        print("Error in reading data")



In [30]:
import pandas as pd
from conllu import parse, TokenList

# Funzione per salvare il DataFrame in un file CoNLL-U
def save_to_conllu(dataframe,file_name,language):
    # Creazione della lista di token da DataFrame
    path="../data/"+language+"/"+file_name
    tokens = []
    for _, row in dataframe.iterrows():
        token = {
            "id": row['POSITION'],
            "form": row['WORD'],
            "misc":  row['TAG']
        }
        tokens.append(token)
    
    # Creazione dell'oggetto TokenList
    token_list = TokenList(tokens)
    
    # Scrittura del TokenList nel file CoNLL-U
    with open(path, "w", encoding="utf-8") as f:
        f.write(token_list.serialize())
    print("DataFrame salvato in formato CoNLL-U:", path)

# Esempio di utilizzo

#save_to_conllu(df, "output.conllu")


Viterbi

In [22]:
import pandas as pd
import numpy as np



# Funzione per l'algoritmo di Viterbi: prende in input le probabilità di emissione e di transizione sottoforma di dataframe
# e restituisce le coppie parola-NER_TAG assegnate
def Viterbi(emission_dataframe, transition_dataframe):
    epsilon = 1e-10  # Valore molto piccolo
    # Lista delle parole nel testo
    testo_array = emission_dataframe.columns.tolist()
    # Numero di stati (tag)
    K = transition_dataframe.shape[0]
    
    # Lunghezza del testo
    T = len(testo_array)
    
    # Inizializzazione
    viterbi = np.zeros((K, T))
    backpointer = np.zeros((K, T), dtype=int)
    
    # Inizializzazione del primo passo
    Pi = 1  # Start equiprobabile 
    viterbi[:, 0] = np.log(emission_dataframe.iloc[:, 0] + epsilon) + np.log(Pi)
    backpointer[:, 0] = 0 
    
    # Iterazione
    for t in range(1, T):
        for k in range(K):
            # Calcolo della probabilità Viterbi per ogni stato
            max_val = float('-inf')
            max_idx = 0
            for j in range(K):
                val = viterbi[j, t - 1] + np.log(transition_dataframe.iloc[j, k] + epsilon) + np.log(emission_dataframe.iloc[k, t] + epsilon)
                if val > max_val:
                    max_val = val
                    max_idx = j
            viterbi[k, t] = max_val
            backpointer[k, t] = max_idx
    
    # Terminazione: Trova il massimo della colonna finale
    max_final_val = np.max(viterbi[:, T - 1])
    max_final_idx = np.argmax(viterbi[:, T - 1])
    
    # Costruzione del percorso Viterbi partendo dall'ultimo passo
    viterbi_path = [max_final_idx]
    for i in reversed(range(1, T)):
        viterbi_path.insert(0, backpointer[viterbi_path[0], i])
    
    # Costruzione delle coppie parola-tag assegnate
    word_tag_pairs = [(testo_array[i], transition_dataframe.index[j]) for i, j in enumerate(viterbi_path)]
    
    # Stampa del percorso Viterbi e delle coppie parola-tag assegnate
    print("Percorso Viterbi:", viterbi_path)

    df = pd.DataFrame({
        'POSITION': range(1, T + 1),
        'WORD': [pair[0] for pair in word_tag_pairs],
        'TAG': [pair[1] for pair in word_tag_pairs]
    })
    
    return df
    

Creazione del sub-dataset di probabilità di emissione per le parole di una frase.

Applicazione di diverse tecniche di smoothing per gestire le parole sconosciute:

1 - Sempre O: P(unk|O) = 1

2 - Sempre O o MISC: P(unk|O)=P(unk|B-MISC)=0.5

3 - Uniforme: P(unk|tag) = 1/#(NER_TAGs)

4 - Statistica TAG sul val set: parole che compaiono 1 sola volta  -> unknown_prob calcolata nel file learning 


In [16]:
#prende in input una frase, le probabilità di emisione e transizione apprese 
#restituisce le coppie parola-NER_TAG assegnate utilizzano l'algoritmo di Viterbi e applicando la tecnica di smoothing specificata
def viterbi_tagger(sentence, emission_prob, transition_prob, smoothing_type=1):
    #inizializzazione
    tags=transition_prob.keys()
    words = sentence.split()
    transition_df = pd.DataFrame.from_dict(transition_prob)
    emission_sentence_df = pd.DataFrame(columns=words,index=tags)
    
    #iterazione per ogni parola delle frase aggiorna il dataframe delle emissioni
    for word in words:
        if word in emission_prob:
            emission_sentence_df[word] = emission_prob[word].values()
        else: #applicazione dello smoothing
            if (smoothing_type==1): emission_sentence_df[word] =  {tag: 1 if tag == "O" else 0 for tag in tags}
            elif (smoothing_type==2): emission_sentence_df[word] =  {tag: 0.5 if tag == "B-MISC" or tag == "O" else 0 for tag in tags}
            elif (smoothing_type==3): emission_sentence_df[word] =  {tag: 1/len(tags) for tag in tags}
            elif (smoothing_type==4): emission_sentence_df[word] =  unkown_prob
   
    return Viterbi(emission_sentence_df, transition_df)

# Esempio di utilizzo
#caricamento delle probabilità apprese


In [32]:
emission_prob=load_data("emission_prob","it")
transition_prob=load_data("transition_prob","it")
unkown_prob=load_data("unknown_prob","it")
sentence = "The PAROLASCONOSCIUTA tour would cover the United States and the UK and Ireland throughout 2019 ."
vit_df=viterbi_tagger(sentence,emission_prob,transition_prob,4)
print(vit_df)
save_to_conllu(vit_df, "viterbi_tag.conllu", "it")

Percorso Viterbi: [0, 0, 0, 0, 0, 0, 8, 8, 8, 8, 5, 0, 7, 6, 0, 0]
    POSITION               WORD    TAG
0          1                The      O
1          2  PAROLASCONOSCIUTA      O
2          3               tour      O
3          4              would      O
4          5              cover      O
5          6                the      O
6          7             United  I-ORG
7          8             States  I-ORG
8          9                and  I-ORG
9         10                the  I-ORG
10        11                 UK  B-ORG
11        12                and      O
12        13            Ireland  I-PER
13        14         throughout  B-PER
14        15               2019      O
15        16                  .      O
DataFrame salvato in formato CoNLL-U: ../data/it/viterbi_tag.conllu
