In [1]:
import csv
import numpy
import numpy as np
import scipy as sp
import scipy.stats
import hashlib
import matplotlib.pyplot as plt

In [2]:
# crea un dizionario, in cui ad ogni parola (chiave) corrisponde una lista
# di babel synset presi del file "SemEval17_IT_senses2sysensts.txt"
# es. un estratto:
"""{.....'cifra': ['bn:00019153n', 'bn:00025702n', 'bn:00055715n', 'bn:01412291n', 
'bn:00034392n', 'bn:00024979n', 'bn:00058287n', 'bn:00034394n', 'bn:00003601n', 
'bn:00019155n'], 
   'dollaro': ['bn:00010038n', 'bn:00007240n', 'bn:00028115n', 
 'bn:00028114n', 'bn:00044648n', 'bn:00071729n', 'bn:00050950n', 
 'bn:00013472n', 'bn:00016907n', 'bn:15584900n', 'bn:00042310n', 
 'bn:00034409n', 'bn:00079129n', 'bn:00047909n', 'bn:00057522n', 
 'bn:00007961n', 'bn:00078306n', 'bn:00082043n', 'bn:00075926n', 
 'bn:00008503n', 'bn:00009726n', 'bn:14987182n', 'bn:00013578n', 
 'bn:00015129n'].....}"""


def get_senses_dictionary(word_list):
    senses_for_words = dict()
    file = open("SemEval17_IT_senses2synsets.txt", "r", encoding="utf8")
    lines = file.readlines()
    for i in range(0, len(lines)):
        line = lines[i]
        line = line.replace("\n", "").replace("#", "")
        if line in word_list:
            while True:
                i += 1
                babel_synset = lines[i].replace("\n", "")
                if "#" in babel_synset:  # vuol dire che non sto considerando più un babel synset
                    break
                if line not in senses_for_words:
                    senses_for_words[line] = [babel_synset]
                else:
                    senses_for_words[line].append(babel_synset)
    return senses_for_words


# crea un dizionario delle annotazioni, in cui ad ogni coppia di parole
# prese dal file delle annotazioni "annotations1.tsv" associa il valore
# di similarità annotato da un essere umano
"""es: un estratto {('terremoto', 'scossa'): '3.4', ('patrimonio', 'azione'): 
                 '0.3', ('ebreo', 'Gerusalemme'): '2.0', 
                 ('nuvolosità', 'previsione'): '1.2', 
                 ('dizionario', 'enciclopedia'): '3.1'....}"""


def get_human_similarities_dictionary():
    human_similarities = dict()
    annotations_file = open("annotations1.tsv")
    read_tsv = csv.reader(annotations_file, delimiter="\t")
    for row in read_tsv:
        if row[0]:  # verifico che non sia una riga vuota (può capitare)
            human_similarities[(row[0], row[1])] = row[2]
    annotations_file.close()
    return human_similarities


# crea un dizionario delle annotazioni, in cui ad ogni coppia di parola
# prese dal file delle annotazioni "annotations2.tsv" associa una coppia
# di BABEL synset annotati da un essere umano sulla base delle annotazioni
# di similarità del file "annotations1.tsv"
"""es: un estratto {('terremoto', 'scossa'): ('bn:00029448n', 'bn:00029441n'), 
            ('patrimonio', 'azione'): ('bn:00080746n', 'bn:00070912n'), 
            ('ebreo', 'Gerusalemme'): ('bn:00043492n', 'bn:00015555n'),...}"""


def get_human_synsets_dictionary():
    human_synsets = dict()
    annotations_file = open("annotations2.tsv")
    read_tsv = csv.reader(annotations_file, delimiter="\t")
    for row in read_tsv:
        if row[0]:  # verifico che non sia una riga vuota (può capitare)
            human_synsets[(row[0], row[1])] = (row[2], row[3])
    annotations_file.close()
    return human_synsets


# restituisce tutte le parole presenti nella coppie valutate nel dizionario
# delle annotazioni umane che viene dato in input
def get_word_list(human_similarities_dictionary):
    word_list = []
    for pair in human_similarities_dictionary.keys():
        word_list.append(pair[0])
        word_list.append(pair[1])
    return word_list


# crea una dizionario che associa ad ogni coppia di parole del dizionario
# delle annotazioni umane delle similarità, un valore di similarità dato dalla massimizzazione della similarità
# del coseno tra l'insieme dei vettori nasari associati ad una parola
# e l'insieme dei vettori nasari associati all'altra parola
# CONSEGNA 1
def get_NASARI_similarities_dictionary(human_similarities_dictionary, senses_dictionary):
    similarity_dictionary = dict()
    for word_pair in human_similarities_dictionary:

        try:
            word1_senses = senses_dictionary[word_pair[0]]
            word2_senses = senses_dictionary[word_pair[1]]

            word1_vectors = get_NASARI_vectors(word1_senses)
            word2_vectors = get_NASARI_vectors(word2_senses)

            similarity_value = max_cosine_similarity(word1_vectors, word2_vectors)[0]

            similarity_dictionary[word_pair] = similarity_value

        except KeyError:  # una delle due parole della coppia non c'è nel file "SemEval17_IT_senses2synsets.txt"
            print("La coppia ", word_pair, "non e' stata valutata")

    return similarity_dictionary


# crea un dizionario che associa ad ogni coppia di parole del dizionario
# delle annotazioni umane dei sensi, una coppia di babel synset che massimizza la similarità
# del coseno tra l'insieme dei vettori associati alla prima parola
# e l'insieme dei vettori associati alla seconda parola
# CONSEGNA 2
def get_word_pair_synset_pair_dictionary(human_synsets_dictionary, senses_dictionary):
    synsets_dictionary = dict()
    for word_pair in human_synsets_dictionary:
        try:
            word1_senses = senses_dictionary[word_pair[0]]
            word2_senses = senses_dictionary[word_pair[1]]

            word1_vectors = get_NASARI_vectors(word1_senses)
            word2_vectors = get_NASARI_vectors(word2_senses)

            # TO-DO
            synset_pair = max_cosine_similarity(word1_vectors, word2_vectors)[1]

            synsets_dictionary[word_pair] = synset_pair

        except KeyError:  # una delle due parole della coppia non c'è nel file "SemEval17_IT_senses2synsets.txt"
            print("La coppia ", word_pair, "non e' stata valutata")
    return synsets_dictionary


# cerca un vettore NASARI per ogni babel synset in input
# associati ad una parola. Resituisce un dizionario
# che avrà come chiavi i babel synset e come valori
# i vettori NASARI associati
def get_NASARI_vectors(word_senses):
    word_vectors = dict()

    NASARI_file = open("mini_NASARI.tsv")
    read_tsv = csv.reader(NASARI_file, delimiter="\t")

    for row in read_tsv:
        babel_synset = row[0].split("__")[0]
        if babel_synset in word_senses:
            vector = [float(val) for val in row[1:]]
            word_vectors[babel_synset] = vector

    NASARI_file.close()
    return word_vectors


# massimizza la cosine_similarity tra due liste di vettori distribuzionali
def max_cosine_similarity(word_vector1, word_vectors2):
    max_cos_similarity = 0
    for babel_synset1 in word_vector1.keys():
        for babel_synset2 in word_vectors2.keys():
            cos_similarity = c_similarity(word_vector1[babel_synset1], word_vectors2[babel_synset2])
            if cos_similarity > max_cos_similarity:
                max_cos_similarity = cos_similarity
                synset_pair = (babel_synset1, babel_synset2)
    return max_cos_similarity, synset_pair


# calcola la similarità del coseno tra due vettori numerici
# restituisce quindi il rapporto tra il prodotto scalare die due vettori e il
# prodotto della loro norma
def c_similarity(vect1, vect2):
    numerator = numpy.dot(vect1, vect2)
    denominator = numpy.linalg.norm(vect1) * numpy.linalg.norm(vect2)

    return numerator / denominator


SEMEVAL_MAPPER

In [3]:
# Mappa un cognome su uno dei 10 insiemi di coppie da annotare
# 
# assegnare la variabile `input_name` con il proprio cognome
def get_range(surname):
    nof_elements = 500
    base_idx = (abs(int(hashlib.sha512(surname.encode('utf-8')).hexdigest(), 16)) % 10)
    idx_intervallo = base_idx * 50+1
    return idx_intervallo
 

input_name = "Altamura"

values = []
sx = get_range(input_name)
values.append(sx)
dx = sx+50-1
intervallo = "" + str(sx) + "-" + str(dx)
print('{:15}:\tcoppie nell\'intervallo {}'.format(input_name, intervallo))


Altamura       :	coppie nell'intervallo 201-250


ANNOTAZIONE 1

In [None]:
"""
Altamura       :	coppie nell'intervallo 201-250

"""
INTERVAL_START = 201
INTERVAL_END = 250

"""
Processo di annotazione manuale dell'utente'
"""

with open('annotations1.tsv', 'wt') as out_file:
    # processo di annotazione. vengono prese le coppie di parole
    # che vanno da INTERVAL_START  a INTERVAL_END e viene chiesto
    # all'utente il punteggio di similaritÃ  [1-4]
    tsv_writer = csv.writer(out_file, delimiter='\t')

    with open("it.test.data.txt", "r", encoding="utf8") as fp:
        for i, line in enumerate(fp):
            if i >= INTERVAL_START - 1:
                line = line.replace("\n", "").split("\t")
                print("==============================")
                word1, word2 = line[0], line[1]
                print(word1, " ", word2)
                similarity_value = float(input("Inserire similaritÃ (1-4): "))
                similarity_value = format(similarity_value, '.1f')
                tsv_writer.writerow([word1, word2, similarity_value])
                print("==============================")
            if i == INTERVAL_END - 1:
                break
    fp.close()
    out_file.close()

terremoto   scossa


Inserire similaritÃ (1-4):  1


patrimonio   azione


Inserire similaritÃ (1-4):  1


ebreo   Gerusalemme


Inserire similaritÃ (1-4):  1


nuvolosità   previsione


Inserire similaritÃ (1-4):  1


dizionario   enciclopedia


Inserire similaritÃ (1-4):  1


zecca   museo


Inserire similaritÃ (1-4):  1


sedia   sgabello


Inserire similaritÃ (1-4):  1


spagnolo   umidità


Inserire similaritÃ (1-4):  1


lattina   bottiglia


Inserire similaritÃ (1-4):  1


mosca   formica


Inserire similaritÃ (1-4):  11


mito   satira


Inserire similaritÃ (1-4):  1


centro della città   autobus


Inserire similaritÃ (1-4):  1


coda   Boeing 747-200


Inserire similaritÃ (1-4):  1


opera d'arte   artista


Inserire similaritÃ (1-4):  2


NATO   alleanza


Inserire similaritÃ (1-4):  3


re   sovrano


Inserire similaritÃ (1-4):  3


ritmo   cadenza


Inserire similaritÃ (1-4):  4


Alexander Fleming   penicillina


Inserire similaritÃ (1-4):  4


flauto   musica


Inserire similaritÃ (1-4):  3


airone cenerino   lago


Inserire similaritÃ (1-4):  3


viscosità   spruzzo


Inserire similaritÃ (1-4):  2


hardware   case


Inserire similaritÃ (1-4):  2


anello   fidanzamento


Inserire similaritÃ (1-4):  2


latino   tedesco


Inserire similaritÃ (1-4):  2


classe operaia   fabbrica


Inserire similaritÃ (1-4):  2


Shakespeare   Dickens


Inserire similaritÃ (1-4):  2


banconota   prete


Inserire similaritÃ (1-4):  23


strumento   lavoro


Inserire similaritÃ (1-4):  3


cinghiale nano   suidi


Inserire similaritÃ (1-4):  3


suffragio   uscita


Inserire similaritÃ (1-4):  3


stella   luminosità


Inserire similaritÃ (1-4):  3


trota   chitarra


Inserire similaritÃ (1-4):  3


dollaro   milionario


Inserire similaritÃ (1-4):  3


cifra   numero


Inserire similaritÃ (1-4):  3


burrasca   coperta


Inserire similaritÃ (1-4):  3


Obama   Clinton


Inserire similaritÃ (1-4):  3


personaggio secondario   film


Inserire similaritÃ (1-4):  3


Juventus   Bayern Monaco


Inserire similaritÃ (1-4):  3


cambiamento climatico   precipitazione


Inserire similaritÃ (1-4):  3


IA   batteria


Inserire similaritÃ (1-4):  3


capolavoro   Gioconda


Inserire similaritÃ (1-4):  3


crimine   aggressione


Inserire similaritÃ (1-4):  4


incoronazione   acqua


Inserire similaritÃ (1-4):  5


vocalista   pentagramma


Inserire similaritÃ (1-4):  4


spareggio   pallacanestro


Inserire similaritÃ (1-4):  3


forze armate   difesa


Inserire similaritÃ (1-4):  2


lago   nuvola


Inserire similaritÃ (1-4):  2


monastero   doccia


Inserire similaritÃ (1-4):  2


lingua madre   lingua


Inserire similaritÃ (1-4):  2


porto   incarto


Inserire similaritÃ (1-4):  2




ANNOTAZIONE 2

In [None]:
"""
Altamura       :	coppie nell'intervallo 201-250

"""

with open('annotations2.tsv', 'wt') as out_file:
    
    #processo di annotazione manuale
    ##Term1 Term2 BS1 BS2 Terms_in_BS1 Terms_in_BS2
    
    tsv_writer = csv.writer(out_file, delimiter='\t')
    tsv_writer.writerow(['terremoto', 'scossa', 'bn:00029448n','bn:00029441n','sisma,attività sismica,tremito','microsisma,microsismo'])
    tsv_writer.writerow(['patrimonio', 'azione', 'bn:00080746n','bn:00070912n','ricchezza,ricco,facoltoso','compartecipazione,quota'])
    tsv_writer.writerow(['ebreo', 'Gerusalemme', 'bn:00043492n','bn:00015555n','israelita,giudeo','Gerico'])
    tsv_writer.writerow(['nuvolosità', 'previsione', 'bn:00020002n','bn:00004638n','nube,nembo','anticipazione,predizione,vaticinio'])
    tsv_writer.writerow(['dizionario', 'enciclopedia', 'bn:00026967n','bn:00024746n','vocabolario,lessico,calepino','opera di consultazione'])
    tsv_writer.writerow(['zecca', 'museo', 'bn:00055225n','bn:00056426n','monete','manufatti,scienza'])
    tsv_writer.writerow(['sedia', 'sgabello', 'bn:00017515n','bn:00074427n','seggiola,gamba della sedia','panchetto'])
    tsv_writer.writerow(['spagnolo', 'umidità', 'bn:00073092n','bn:00045190n','Lingua spagnola','vapore acqueo'])
    tsv_writer.writerow(['lattina', 'bottiglia', 'bn:00072586n','bn:00012339n','bibite','contenitore d alluminio','vetro,liquidi'])
    tsv_writer.writerow(['mosca', 'formica', 'bn:13319918n','bn:00004458n','insetto','insetto'])
    tsv_writer.writerow(['mito', 'satira', 'bn:00056669n','bn:00013998n','racconto mitologico','caricatura'])
    tsv_writer.writerow(['coda', 'Boeing 747-200', 'bn:00030590n','bn:03226093n','aeromobile,impennaggio','aereo'])
    tsv_writer.writerow(["opera d'arte", 'artista', 'bn:00081581n','bn:00006182n','creazione artistica','attività artistica'])
    tsv_writer.writerow(['NATO', 'alleanza', 'bn:00056978n','bn:03544293n','organizzazione internazionale','associazione,patto'])
    tsv_writer.writerow(['re', 'sovrano', 'bn:00024097n','bn:00024097n','regnante','regnante'])
    tsv_writer.writerow(['ritmo', 'cadenza', 'bn:00009396n','bn:00014520n','tempo','teoria musicale,composizione'])
    tsv_writer.writerow(['Alexander Fleming', 'penicillina', 'bn:00002616n','bn:00061363n','medico,farmacologo','antibiotici'])
    tsv_writer.writerow(['flauto', 'musica', 'bn:00035477n','bn:00056443n','aerofoni labiali','melomane'])
    tsv_writer.writerow(['airone cenerino', 'lago', 'bn:16449236n','bn:00049709n','uccello','massa di acqua'])
    tsv_writer.writerow(['viscosità', 'spruzzo', 'bn:00080092n','bn:00073618n','vischiosità,grandezza fisica','acqua'])
    tsv_writer.writerow(['hardware', 'case', 'bn:00021480n','bn:00262368n','materiale informatico','informatica,computer'])
    tsv_writer.writerow(['anello', 'fidanzamento', 'bn:00008287n','bn:00010152n','gioiello','fidanzata,promessa sposa,promessa'])
    tsv_writer.writerow(['latino', 'tedesco', 'bn:00050161n','bn:00040293n','Lingua latina','Lingua tedesca'])
    tsv_writer.writerow(['classe operaia', 'fabbrica', 'bn:00049570n','bn:00032675n','classe lavoratrice,lavoro,lavoranti','stabilimento,manifattura,impianto'])
    tsv_writer.writerow(['Shakespeare', 'Dickens', 'bn:00008556n','bn:00017842n','drammaturgo,poeta inglese','scrittore,giornalista,reporter'])
    tsv_writer.writerow(['banconota', 'prete', 'bn:00008375n','bn:00057892n','biglietto di banca,biglietto,cambiale','religione'])
    tsv_writer.writerow(['strumento', 'lavoro', 'bn:00077585n','bn:14959529n','utensile,arnese','attività produttiva,compenso'])
    tsv_writer.writerow(['cinghiale nano', 'suidi', 'bn:03100066n','bn:00033468n','suide','maiali'])
    tsv_writer.writerow(['suffragio', 'uscita', 'bn:00067845n','bn:00032243n','diritto di voto','andare fuori'])
    tsv_writer.writerow(['stella', 'luminosità', 'bn:00073964n','bn:14292145n','astro,sole','stella,energia elettromagnetica,astronomia'])
    tsv_writer.writerow(['trota', 'chitarra', 'bn:00078435n','bn:00042150n','pesce','strumento musicale,corde'])
    tsv_writer.writerow(['dollaro', 'milionario', 'bn:00079129n','bn:00055058n','biglietto verde,dollaro USA','patrimonio'])
    tsv_writer.writerow(['cifra', 'numero', 'bn:00025702n','bn:00058285n','simbolo,numeri,sistema numerico','grandezze,ente astratto'])
    tsv_writer.writerow(['burrasca', 'coperta', 'bn:00074458n','bn:00011119n','bufera,temporale,fortunale','coltre,copriletto'])
    tsv_writer.writerow(['Obama', 'Clinton', 'bn:03330021n','bn:00010400n','politico,presidente','presidente'])
    tsv_writer.writerow(['personaggio secondario', 'film', 'bn:00206836n','bn:00034481n','personaggio,narrazione','produzione cinematografica'])
    tsv_writer.writerow(['Juventus', 'Bayern Monaco', 'bn:00876765n','bn:00963795n','Torino,società calcistica','società polisportiva tedesca,Bundesliga'])
    tsv_writer.writerow(['cambiamento climatico', 'precipitazione', 'bn:00019782n','bn:00028483n','cambiamento del clima,mutamento climatico','precipitazione atmosferica'])
    tsv_writer.writerow(['IA', 'batteria', 'bn:00002150n','bn:00009064n','intelligenza artificiale','pila elettrica,accumulatore'])
    tsv_writer.writerow(['capolavoro', 'Gioconda', 'bn:00053738n','bn:03571983n','opera ben riuscita','dipinto'])
    tsv_writer.writerow(['crimine', 'aggressione', 'bn:00023807n','bn:00002015n','reato,delitto,misfatto,fattaccio','aggressività,atto di violenza'])
    tsv_writer.writerow(['incoronazione', 'acqua', 'bn:00022800n','bn:00042379n','investitura,coronazione,incoronamento','H2O,composto chimico,atomi di idrogeno'])
    tsv_writer.writerow(['spareggio', 'pallacanestro', 'bn:00062962n','bn:00008889n','play-off','basket,basketball,cestismo'])
    tsv_writer.writerow(['forze armate', 'difesa', 'bn:00005732n','bn:00025878n','forze militari,militari','azione militare,difendere'])
    tsv_writer.writerow(['lago', 'nuvola', 'bn:00049709n','bn:00020002n','massa di acqua','nube,nembo'])
    tsv_writer.writerow(['monastero', 'doccia', 'bn:13460974n','bn:00071324n','monaci,monache,religioni','acqua,strumento,persona'])
    tsv_writer.writerow(['lingua madre', 'lingua', 'bn:00034782n','bn:00049911n','madrelingua,lingua materna','linguaggio,parlare,parlata'])
    tsv_writer.writerow(['porto', 'incarto', 'bn:00063640n','bn:00060120n','litorale marittimo,struttura,riva','imballo'])
    

CONSEGNA 1

In [None]:
def main():
    human_similarities_dictionary = get_human_similarities_dictionary()
    
    senses_dictionary = get_senses_dictionary(get_word_list(human_similarities_dictionary))
    
    NASARI_similarities_dictionary = get_NASARI_similarities_dictionary(human_similarities_dictionary, senses_dictionary)

    human_similarities = []
    NASARI_similarities = []
    for word_pair in human_similarities_dictionary.keys():
        if word_pair in NASARI_similarities_dictionary.keys():
            human_similarities.append(float(human_similarities_dictionary[word_pair]))
            NASARI_similarities.append(NASARI_similarities_dictionary[word_pair])
    
    print()
    print("VALUTAZIONI DI SIMILARITA' UMANE: ")
    print(human_similarities_dictionary)
    print()
    print("VALUTAZIONI DI SIMILARITA' DEL SISTEMA: ")
    print(NASARI_similarities_dictionary)
    
    
    print()
    print("Pearson Correlation: ",np.corrcoef(human_similarities, NASARI_similarities))
    print()
    print("Spearman Correlation: ",sp.stats.spearman(human_similarities, NASARI_similarities))

main()

IndexError: list index out of range

CONSEGNA 2

In [None]:
def main():
    human_similarities_dictionary = get_human_similarities_dictionary()
    
    senses_dictionary = get_senses_dictionary(get_word_list(human_similarities_dictionary))
    
    human_synsets_dictionary = get_human_synsets_dictionary()
    
    word_pair_synset_pair_dictionary = get_word_pair_synset_pair_dictionary(human_synsets_dictionary, senses_dictionary)
    
    print()
    print("ASSEGNAMENTI SYNSETS UMANI: ")
    print(human_synsets_dictionary)
    print()
    print("'ASSEGNAMENTI SYNSETS DEL SISTEMA: ")
    print(word_pair_synset_pair_dictionary)
    
    print()
    #calcolo accuratezza sui singoli elementi
    checked = 0
    for word_pair in human_synsets_dictionary.keys():
        synset_pair = word_pair_synset_pair_dictionary[word_pair]
        human_synsets_pair = human_synsets_dictionary[word_pair]
        if synset_pair[0] == human_synsets_pair[0]:
            checked += 1
        if synset_pair[1] == human_synsets_pair[1]:
            checked += 1
    evaluated = len(human_synsets_dictionary.keys()) * 2
    print("Accuratezza sui singoli elmenti: ", checked / evaluated)
            
    #calcolo accuratezza sulle coppie
    checked = 0
    for word_pair in human_synsets_dictionary.keys():
        synset_pair = word_pair_synset_pair_dictionary[word_pair]
        human_synsets_pair = human_synsets_dictionary[word_pair]
        if (synset_pair[0] == human_synsets_pair[0]) and (synset_pair[1] == human_synsets_pair[1]):
            checked += 1
    evaluated = len(human_synsets_dictionary.keys())
    print("Accuratezza sulle coppie: ", checked / evaluated)

main()