Funzioni di Gestione files

In [1]:
import pickle
import pandas as pd
import numpy as np
from conllu import parse, TokenList

#deserialize data from a file
def load_data(file_name,language):
    path="../data/"+language+"/"+file_name
    try: 
        file = open(path, 'rb') 
        data = pickle.load(file) 
        return data
    except: 
        print("Error in reading data")


# function to read data from file
def read_dataset(file_name,language):
    path="../data/"+language+"/dataset/"+file_name+".conllu"
    data = pd.read_csv (path, sep = '\t',quoting=3, names=["POSITION","WORD","TAG"])
    return data



# Funzione per salvare il DataFrame in un file CoNLL-U
def save_to_conllu(dataframe,file_name,language):
    # Creazione della lista di token da DataFrame
    path="../data/"+language+"/tagging/"+file_name
    tokens = []
    for _, row in dataframe.iterrows():
        token = {
            "id": row['POSITION'],
            "form": row['WORD'],
            "misc":  row['TAG']
        }
        tokens.append(token)
    
    # Creazione dell'oggetto TokenList
    token_list = TokenList(tokens)
    
    # Scrittura del TokenList nel file CoNLL-U
    with open(path, "w", encoding="utf-8") as f:
        f.write(token_list.serialize())
    print("DataFrame salvato in formato CoNLL-U:", path)





Funzioni di manipolazione e creazione del golden system

In [2]:
def extract_sentences_from_dataframe(df):
    sentences = ''
    for index, row in df.iterrows():
        word = row['WORD']
        if pd.notnull(word):  # Se la parola non è nulla
            if sentences:  # Se c'è già una frase, aggiungi uno spazio prima della nuova parola
                sentences += ' '
            sentences += word
    return sentences

Viterbi

In [3]:
#implementazione dell'algoritmo di viterbi con la prevenzione dell'underflow tramite logaritmo e probabilità iniziale omogenea

def viterbi(emission_df, transition_df):
    # Numero di stati
    num_states = len(transition_df)

    # Inizializzazione della matrice di probabilità
    dp = pd.DataFrame(index=range(num_states), columns=range(len(emission_df.columns)))
    pi = 1 / num_states #Probabilità iniziale equiprobabile
    dp.iloc[:, 0] = np.log(pi) + np.log(emission_df.iloc[:, 0] + 1e-10)

    # Inizializzazione del percorso ottimale
    path = {state: [state] for state in range(num_states)}

    # Ciclo attraverso le osservazioni
    for t in range(1, len(emission_df.columns)):
        new_path = {}

        # Ciclo attraverso i possibili stati
        for state in range(num_states):
            # Calcolo della probabilità massima
            max_prob = float('-inf')
            max_state = None
            for prev_state in range(num_states):
                prob = dp.iloc[prev_state, t-1] + np.log(transition_df.iloc[prev_state, state] + 1e-10) + np.log(emission_df.iloc[state, t] + 1e-10)
                if prob > max_prob:
                    max_prob = prob
                    max_state = prev_state
            
            dp.iloc[state, t] = max_prob

            # Aggiornamento del percorso ottimale
            new_path[state] = path[max_state] + [state]

        path = new_path

    # Ritorno del percorso ottimale
    max_prob = dp.iloc[:, len(emission_df.columns)-1].max()
    max_path = path[dp.iloc[:, len(emission_df.columns)-1].idxmax()]

    # Stampa a schermo il percorso di Viterbi
    print('Il percorso di Viterbi è:', ' -> '.join(emission_df.index[max_path]))

    return pd.DataFrame({'POSITION': range(len(max_path)), 'WORD': emission_df.columns, 'TAG': [emission_df.index[state] for state in max_path]})


Creazione del sub-dataset di probabilità di emissione per le parole di una frase.

Applicazione di diverse tecniche di smoothing per gestire le parole sconosciute:

1 - Sempre O: P(unk|O) = 1

2 - Sempre O o MISC: P(unk|O)=P(unk|B-MISC)=0.5

3 - Uniforme: P(unk|tag) = 1/#(NER_TAGs)

4 - Statistica TAG sul val set: parole che compaiono 1 sola volta  -> unknown_prob calcolata nel file learning 


In [4]:
#prende in input una frase, le probabilità di emisione e transizione apprese 
#restituisce le coppie parola-NER_TAG assegnate utilizzano l'algoritmo di Viterbi e applicando la tecnica di smoothing specificata
def viterbi_tagger(sentence, emission_prob, transition_prob, unkown_prob, smoothing_type=1):
    #inizializzazione
    tags=transition_prob.keys()
    words = sentence.split()
    transition_df = pd.DataFrame.from_dict(transition_prob)
    emission_sentence_df = pd.DataFrame(columns=words,index=tags)
    
    #iterazione per ogni parola delle frase aggiorna il dataframe delle emissioni
    for word in words:
        if word in emission_prob:
            
            emission_sentence_df[word] = pd.Series(emission_prob[word]).values

        ############da riguardare##################
        else: #applicazione dello smoothing
           if (smoothing_type==1): emission_sentence_df[word] =  {tag: 1 if tag == "O" else 0 for tag in tags}
           elif (smoothing_type==2): emission_sentence_df[word] =  {tag: 0.5 if tag == "B-MISC" or tag == "O" else 0.01 for tag in tags}
           elif (smoothing_type==3): emission_sentence_df[word] =  {tag: 1/len(tags) for tag in tags}
           elif (smoothing_type==4): emission_sentence_df[word] =  unkown_prob
   
    return viterbi(emission_sentence_df, transition_df)


NAIVE TAGGER

In [5]:
#Naive tagger --> utilizza la probabilità di emissione più alta, se parola sconosciuta --> B-MISC

def naive_tagger(sentence, emission_prob):
    tags = []
    words = sentence.split()

    for word in words:
        if word in emission_prob:
            tags.append(max(emission_prob[word], key=emission_prob[word].get))
        else:
            tags.append("B-MISC")
    
    # Creazione del DataFrame
    df = pd.DataFrame({'WORD': words, 'TAG': tags})
    df['POSITION'] = df.index + 1  # Aggiunge la colonna POSITION
    df = df[['POSITION', 'WORD', 'TAG']]  # Riordina le colonne
    
    return df



Esempio di Decoding Completo

In [6]:
for language in ["en","it","es"]:

 print( "inizio lingua: "+language) 
 emission_prob=load_data("emission_prob",language)
 transition_prob=load_data("transition_prob",language)
 unkown_prob=load_data("unknown_prob",language)

 #carico il file di test, estraggo la sentence e pongo il test set df come golden_df
 golden_tot = read_dataset("test",language)
 golden_df = golden_tot.head(10000)
 sentence = extract_sentences_from_dataframe(golden_df)

 vit_df=viterbi_tagger(sentence,emission_prob,transition_prob,unkown_prob,1)
 nayve_df=naive_tagger(sentence, emission_prob)


 save_to_conllu(golden_df, "golden_tag.conllu", language)
 save_to_conllu(vit_df, "viterbi_tag.conllu", language)
 save_to_conllu(nayve_df, "nayve_tag.conllu", language)
 print( "fine lingua: "+language)

inizio lingua: en
Il percorso di Viterbi è: O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> I-LOC -> B-LOC -> O -> O -> B-LOC -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> I-LOC -> B-LOC -> O -> O -> B-LOC -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> B-PER -> O -> O -> O -> I-ORG -> B-ORG -> O -> O -> O -> O -> O -> O -> O -> O -> O -> B-LOC -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> B-LOC -> O -> B-MISC -> O -> B-LOC -> O -> O -> O -> O -> B-ORG -> O -> O -> B-MISC -> O -> O -> O -> B-PER -> B-PER -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> O -> B-MISC -> O -> O -> O -> O -> O -> O