In [1]:
import re
import enum
import math
import random
import nltk
import csv
import numpy as np
import scipy as sp
from nltk.corpus import wordnet as wn
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import semcor
from nltk.tokenize import word_tokenize
from nltk.stem.wordnet import WordNetLemmatizer
from random import randrange
from collections import deque
from statistics import mean

FUNZIONI DI PREPROCESSING

In [3]:
#il pre-processing consiste nella tokenizzazione, lemmatizzazione,
#rimozione della punteggiatura e delle stopwords di una sentence
def pre_processing(sentence):
    return set(remove_stopwords(tokenize_sentence(remove_punctuation(sentence))))

#rimuove le stowords da una lista di parole
def remove_stopwords(words_list):
    stopwords_list = get_stopwords()
    return [value.lower() for value in words_list if value.lower() not in stopwords_list]


#Tokenizza la frase in input e ne affettua anche la lemmatizzazione della sue parole
def tokenize_sentence(sentence):
    words_list = []
    lmtzr = WordNetLemmatizer()
    for tag in nltk.pos_tag(word_tokenize(sentence)):
        if (tag[1][:2] == "NN"):
            words_list.append(lmtzr.lemmatize(tag[0], pos = wn.NOUN))
        elif (tag[1][:2] == "VB"):
             words_list.append(lmtzr.lemmatize(tag[0], pos = wn.VERB))
        elif (tag[1][:2] == "RB"):
             words_list.append(lmtzr.lemmatize(tag[0], pos = wn.ADV))
        elif (tag[1][:2] == "JJ"):
             words_list.append(lmtzr.lemmatize(tag[0], pos = wn.ADJ))
    return words_list

#Restituisce la l'insieme di stopwords dal file delle stopwords
def get_stopwords():
    stopwords = open("stop_words_FULL.txt", "r")
    stopwords_list = []
    for word in stopwords:
        stopwords_list.append(word.replace('\n', ''))
    stopwords.close()
    return stopwords_list

#Rimuove la punteggiatura da una sentence
#Restituisce la sentence senza punteggiature
def remove_punctuation(sentence):
    return re.sub(r'[^\w\s]','',sentence)

Word sense disambiguation (WSD) is an open problem of
natural language processing, which comprises the process of
identifying which sense of a word (i.e. meaning) is used in any
given sentence, when the word has a number of distinct senses
(polysemy).

FUNZIONI PRINCIPALI

In [2]:
#Algoritmo di Lesk
def lesk_algorithm(word, sentence, word_type):
    best_sense = wn.synsets(word)[0]
    max_overlap = 0
    max_signature = []
    print("Frase: ", sentence)
    context = pre_processing(sentence)
    
    #se il tipo di parola è un nome allora cerco solo tra i nomi in wordnet
    #altrimenti prendo tutti i synset associati a quel termine
    if word_type == 'NOUN':
        synsets = wn.synsets(word, pos=wn.NOUN)
    elif word_type == 'ALL':
        synsets = wn.synsets(word)
        
    for sense in synsets:
        signature = get_signature(sense)
        overlap = len(list(signature & context)) #overlap
        if overlap > max_overlap:
            max_overlap = overlap
            best_sense = sense
            max_signature = signature
            
    print("Contesto della frase: ", context)
    print("max Signature: ", max_signature) #signature del senso con più overlap con il contesto della sentence
    return best_sense

#Signature di un senso di WordNet      
def get_signature(sense):
    signature = set()
    for word in pre_processing(sense.definition()): #tokenizzo la definizione del synset
        signature.add(word)
    for example in sense.examples(): #tokenizzo ogni esempio del synset
        for word in pre_processing(example):
            signature.add(word)
    return signature #la signature conterrà tutte le parole presenti nella definizione del senso e negli esempi


FUNZIONI UTILI PER L'ANALISI DEL TESTO

In [4]:
#Restituisce un sostantivo random presente nel dizionario associato ad una sentence
def get_random_noun(dictionary_tag):
    try:
        sentence_nouns = dictionary_tag['NN']
    except KeyError:
        return None #se non ci sono sostantivi
    noun =  random.choice(sentence_nouns)
    if len(wn.synsets(noun)) == 0:
        return None #se il sostantivo scelto non ha almeno un synset in wordnet
    return noun

#Restituisce una parola random presente nel dizionario associato ad una sentence
def get_random_word(dictionary_tag):
    keys = list(dictionary_tag.keys())
    if not keys:
        return None #se non ci sono parole "analizzabili" nel dizionario, aka se il dizionario è vuoto
    key = random.choice(keys)
    words_list = dictionary_tag[key]
    word = random.choice(words_list)
    if len(wn.synsets(word)) == 0:
        return None #se la parola scelta non ha almeno un synset in wordnet
    return word

#Verifica che una parola abbia un synset target associato
#Senza synset target associato è inutile confrontare l'output dell'algortimo di Lesk
def check_word_synset_target(word,sentence_sem):
    for w in sentence_sem:
        if (type(w) != list):
            if (w[0] == word):
                return True
    return False
    
#Crea un dizionario che ha come chiavi i tag presenti nella sentence
#e come valori liste di parole associate a quei tag
#e.g {NN: ['home','garden'], VB:['gone'], .....,}
#input: sentence_tag -> rappresenta le words della sentence con i relativi pos tag
#input: sentence_sem -> rappresenta le words della sentence con il relativo synset target associato
def get_dictionary_tag(sentence_tag,sentence_sem):
    dictionary_tag = dict()
    stopwords_list = get_stopwords()
    for word in sentence_tag:
         tag = word.label()
         word = " ".join(l for l in word)
         if check_word_synset_target(word, sentence_sem): #Non inserisco nel dizionario parole che non hanno un synset target
             w = word.lower()
             if w not in stopwords_list and tag: #Non inserisco nel dizionario stopwords o parole che non hanno un pos tag associato
                 if tag in dictionary_tag:
                     dictionary_tag[tag].append(word)
                 else:
                     dictionary_tag[tag] = [word]             
    return dictionary_tag


def get_random_index(index_evaluated, INDEXES_NUM):
    while True:
        index = randrange(INDEXES_NUM)
        if index not in index_evaluated:
            return index
    

#Restituisce il synset target per una parola in una sentence
def get_synset_target_for_word_in_sentence(noun,sentence):
     for word in sentence:
      if(type(word) != list):
          if (word[0] == noun):
              return str(word.label())

VARIE METRICHE DI SIMILARITA E ALGORITMI PER LA RICERCA

In [5]:
#Restituisce tutti i percorsi di iperonimi di un senso di wordnet
#effettua una ricerca in profondità ricorsiva
def all_hypernym_paths(sense):
    paths = []
    hypernyms = sense.hypernyms()
    if len(hypernyms) == 0:
        paths = [[sense]]
    for hypernym in hypernyms:
        for ancestor_list in all_hypernym_paths(hypernym):
            ancestor_list.append(sense)
            paths.append(ancestor_list)
    return paths

#massima profondità intesa come il massimo dei massimi percorsi di iperonimi di tutti i sensi presenti in wordnet
max_depth = max(max(len(hyp_path) for hyp_path in all_hypernym_paths(ss)) for ss in wn.all_synsets())

def similarity(word1, word2, similarity_function):
    max_sim = 0
    for s1 in wn.synsets(word1):
        for s2 in wn.synsets(word2):
           sim = similarity_function(s1,s2)
           if sim > max_sim:
               max_sim = sim
    return max_sim

#------------ MY SIMILARITY FUNCTIONS-------------#
def wu_palmer_similarity(sense1, sense2):
    numerator = 2 * depth(LC_subsumer(sense1,sense2))
    denominator = depth(sense1) + depth(sense2)
    return numerator/denominator

def leakcock_chodorow(sense1, sense2):
    numerator = (shortest_path(sense1, sense2) + 1)
    denominator = (2 * max_depth) + 1
    return -math.log(numerator/denominator)

def shortest_path_similarity(sense1, sense2):
    return ((2 * max_depth) - shortest_path(sense1, sense2))

#------------ WORDNET SIMILARITY FUNCTIONS---------#
def wn_wu_palmer_similarity(sense1, sense2):
    sim = sense1.wup_similarity(sense2)
    if sim: return sim
    else: return 0
    
def wn_leakcock_chodorow(sense1, sense2):
    try:
        sim = sense1.lch_similarity(sense2)
        if sim: return sim
        else: return 0
    except:
        return 0

#restituisce un dizionario di iperonimi del senso in input con la relativa profondità
#rispetto al senso in input
#le profondità di ogni senso sono sempre le più piccole distanze dal senso da cui si è partiti
#esempio per il senso 'apple.n.01':
"""{Synset('apple.n.01'): 0, Synset('edible_fruit.n.01'): 1, Synset('pome.n.01'): 1,
 Synset('fruit.n.01'): 2, Synset('produce.n.01'): 2, Synset('reproductive_structure.n.01'): 3,
 Synset('food.n.02'): 3, Synset('plant_organ.n.01'): 4, Synset('solid.n.01'): 4, 
 Synset('plant_part.n.01'): 5, Synset('matter.n.03'): 5,
 Synset('natural_object.n.01'): 6, Synset('physical_entity.n.01'): 6, 
 Synset('whole.n.02'): 7, Synset('entity.n.01'): 7, Synset('object.n.01'): 8}"""
def min_hypernyms_depth(sense):
    sense_depth_queue = deque([(sense, 0)]) #deque garantisce efficienza nell'inserire ed eliminare elementi sia a destra che a sinistra della coda
    sense_depth_dict = {}
    while sense_depth_queue:
        s, depth = sense_depth_queue.popleft()
        if s in sense_depth_dict:
            continue
        sense_depth_dict[s] = depth
        depth += 1
        sense_depth_queue.extend((hyperonym, depth) for hyperonym in s.hypernyms()) #li mette a destra della coda
    return sense_depth_dict

#restituisce il percorso più breve tra due sensi di wordnet
def shortest_path(sense1,sense2):
    if sense1 == sense2:
        return 0
    
    dict1 = min_hypernyms_depth(sense1) #dizionario iperonimi del sense1
    dict2 = min_hypernyms_depth(sense2) #dizionario iperonimi del sense2
    
    min_dist = (2 * max_depth) #distanza minima inizialmente uguale alla massima lunghezza che può avere
    #per ogni senso del dizionario degli iperonimi di sense1
    #cerca di trovare il match con un senso del secondo dizionario.
    #la distanza minima sarà la somma minima delle profondità dei sensi matchati
    #rispetto al senso di partenza (sense1, sense2)
    for ss, dist1 in dict1.items():
        dist2 = dict2.get(ss) 
        if not dist2:
            dist2 = (2 * max_depth)
        min_dist = min(min_dist, dist1 + dist2)
    return (2 * max_depth) if math.isinf(min_dist) else min_dist

#Restituisce il lowest common ancestor di due sensi, cioè l'iperonimo comune
#più vicino ai due sensi. se ne ho più di uno prendo quello può essere il più profondo rispetto alla radice,
def LC_subsumer(sense1, sense2):
    if sense1 == sense2: return sense1
    
    dict1 = min_hypernyms_depth(sense1) #dizionario iperonimi minimi del sense1
    dict2 = min_hypernyms_depth(sense2) #dizionario iperonimi minimi del sense2
    
    min_dist = (2 * max_depth)
    candidates = []
    for ss, dist1 in dict1.items():
        dist2 = dict2.get(ss) 
        if not dist2:
            dist2 = (2 * max_depth)
        else:
            if (dist1 + dist2) <= min_dist:
                min_dist = (dist1 + dist2)
                candidates.append(ss) 
    if candidates:
        deepest = candidates[0]
        for sense in candidates:
            if depth(sense) < depth(deepest):
                deepest = sense
        return deepest #restituisce il senso con profondità maggiore rispetto alla radice

#restituisce la profondità di un senso in wordnet
#la profondità è vista come il massimo percorso dal senso alla radice
#cioè il path più lungo di tutti i path degli iperonimi del senso          
def depth(sense):
    if not sense:
        return 0
    return max([len(path) for path in all_hypernym_paths(sense)])

#Classe enum con la quale specifichiamo il tipo di similarità utilizzata
class Similarity_Type(enum.Enum):
    wu_palmer_similarity = 1
    shortest_path = 2
    leakcock_chodorow = 3


In [6]:
def main():  
    similarity_type = Similarity_Type.wu_palmer_similarity
    
    #_____________________MAIN_________________________________________________
    with open('WordSim353.csv') as csv_file:
        csv_reader = csv.reader(csv_file, delimiter=',')
        assignments = []
        targets = []
        line_count = 0
        for row in csv_reader:
            if line_count > 0:
                print("=============================")
                print("Word1: ",row[0])
                print("Word2: ",row[1])
                sim = 0
                wn_sim = 0
                if similarity_type.value == 1:
                    sim = similarity(row[0], row[1], wu_palmer_similarity)
                    wn_sim = similarity(row[0], row[1], wn_wu_palmer_similarity)
                elif similarity_type.value == 2:
                    sim = similarity(row[0], row[1], shortest_path_similarity)
                elif similarity_type.value == 3:
                    sim = similarity(row[0], row[1], leakcock_chodorow)
                    wn_sim = similarity(row[0], row[1], wn_leakcock_chodorow)
                print("System Similarity: ",sim)
                print("WordNet Similarity: ",wn_sim)
                print("Human Similarity: ",row[2])
                print("Similarity Type: ", similarity_type.name)
                assignments.append(sim)
                targets.append(float(row[2]))
                print("=============================")
            line_count = line_count + 1
    print()
    """
    PEARSON
        +1 - Complete positive correlation
        +0.8 - Strong positive correlation
        +0.6 - Moderate positive correlation
        0 - no correlation whatsoever
        -0.6 - Moderate negative correlation
        -0.8 - Strong negative correlation
        -1 - Complete negative correlation
        Restituisce una matrice M = nxn quadrata dove n = 2 (numero di inoput) dove M (i,j) è
        la correlazione tra la variabile casuale i e j. Poichè la correlazione
        tra una variabile e se stessa è 1, tutte le voci diagonali (i,i) sono uguali a 1
    """    
    print("Pearson Correlation: ",np.corrcoef(assignments, targets))
    
    """
    SPEARMAN
        Misura non parametrica della monotonicità della relazione
        tra due dataset. Varia da +1 a -1 con 0 che implica la non correlazione
        1 indica che se x cresce y cresce
        -1 indica che se x cresce y descresce
    """
    print()
    print("Spearman Correlation: ",sp.stats.spearmanr(assignments, targets))
    #_____________________MAIN_________________________________________________

#TESTING
main()

Word1:  love
Word2:  sex
System Similarity:  0.7692307692307693
WordNet Similarity:  0.9230769230769231
Human Similarity:  6.77
Similarity Type:  wu_palmer_similarity
Word1:  tiger
Word2:  cat
System Similarity:  0.896551724137931
WordNet Similarity:  0.9655172413793104
Human Similarity:  7.35
Similarity Type:  wu_palmer_similarity
Word1:  tiger
Word2:  tiger
System Similarity:  1.0
WordNet Similarity:  1.0
Human Similarity:  10.00
Similarity Type:  wu_palmer_similarity
Word1:  book
Word2:  paper
System Similarity:  0.875
WordNet Similarity:  0.875
Human Similarity:  7.46
Similarity Type:  wu_palmer_similarity
Word1:  computer
Word2:  keyboard
System Similarity:  0.8235294117647058
WordNet Similarity:  0.8235294117647058
Human Similarity:  7.62
Similarity Type:  wu_palmer_similarity
Word1:  computer
Word2:  internet
System Similarity:  0.631578947368421
WordNet Similarity:  0.631578947368421
Human Similarity:  7.58
Similarity Type:  wu_palmer_similarity
Word1:  plane
Word2:  car
System

In [7]:
tokenizer = RegexpTokenizer(r'\w+')

INDEXES_NUM = 1000 #è il limite, partendo da 0, di sentence che possono essere testate relative al database SemCor
RANGE = 50 #è il numero di sentence che effettivamente verranno testate            

sentences_tag = semcor.tagged_sents() #lista di liste. Ogni lista rappresenta una sentence e ad ogni parola della sentence è associato un pos tag
sentences = semcor.sents() #lista di liste di parole. Ogni lista rappresenta una sentence
sentences_sem = semcor.tagged_sents(tag = "sem") #lista di liste. Ogni lista rappresenta una sentence e ad ogni parola della sentence è associato un synset gold


def main():
    checked = 0 #termini valutati correttamente
    evaluated = 0 #termini valutati
    index_evaluated = set() #insieme degli indici già valutati
    while(evaluated <= RANGE):
        while True: #fino a quando non trova una word che ha almeno un senso in wordnet   
            index = get_random_index(index_evaluated, INDEXES_NUM)
            word = get_random_noun(get_dictionary_tag(sentences_tag[index],sentences_sem[index]))
            if word:
                break
        print("====================")
        sentence = sentences[index]
        print("Parola da disambiguare: ",word)
        #all'algoritmo di lesk viene dato in input la word e l'insieme dei termini che formano la frase, uniti sottoforma di stringa
        best_sense = str(lesk_algorithm(word, ' '.join(word for word in sentence), word_type='NOUN'))
        print("Senso attribuito dall'algoritmo di Lesk: ",best_sense)
        target_lemma = get_synset_target_for_word_in_sentence(word,sentences_sem[index])
        print("Senso Target: ",target_lemma)
        best_sense_lemma = best_sense[8:len(best_sense)-2]
        if target_lemma:
            if best_sense_lemma in target_lemma:
             checked= checked + 1
        print("====================")
        evaluated += 1
        print("====================")
    
    print("Checked: ", checked)
    print("Evaluated: ",evaluated)
    print("Accuracy: ",checked/RANGE)
    
main()   

Parola da disambiguare:  years
Frase:  Named by Mayor Wagner three years ago to head a committee that included James A. Farley , Bernard Gimbel and Clint Blume , Shea worked relentlessly .
Contesto della frase:  {'james', 'wagner', 'include', 'bernard', 'blume', 'work', 'relentlessly', 'year', 'committee', 'ago', 'clint', 'head', 'farley', 'mayor', 'shea', 'named', 'gimbel'}
max Signature:  {'white', 'eld', 'life', 'late', 'year', 'hasnt', 'brink', 'time', 'geezerhood', 'beard', 'age', 'sissy', 'slow'}
Senso attribuito dall'algoritmo di Lesk:  Synset('old_age.n.01')
Senso Target:  Lemma('year.n.01.year')
Parola da disambiguare:  man
Frase:  When a man is laid to rest , he is entitled to stay put .
Contesto della frase:  {'entitle', 'man', 'lay', 'rest', 'stay'}
max Signature:  {'man', 'human', 'word', 'refer', 'generic'}
Senso attribuito dall'algoritmo di Lesk:  Synset('man.n.03')
Senso Target:  Lemma('homo.n.02.man')
Parola da disambiguare:  formation
Frase:  When that failed , he enl

In [8]:
tokenizer = RegexpTokenizer(r'\w+')

EXECUTIONS = 10 #numero massimo di esecuzioni
INDEXES_NUM = 7000 #è il limite, partendo da 0, di sentence che possono essere testate relative al database SemCor
RANGE = 50 #è il numero di sentence che effettivamente verranno testate in ogni esecuzione        

sentences_tag = semcor.tagged_sents()
sentences = semcor.sents()
sentences_sem = semcor.tagged_sents(tag = "sem")


def main():
    accuracy_list = []
    for execution in range(1,EXECUTIONS + 1):
        checked = 0 #termini valutati correttamente
        evaluated = 0 #termini valutati
        index_evaluated = set() #insieme degli indici già valutati
        while(evaluated <= RANGE):
            while True: #fino a quando non trova una word che può essere presa in considerazione  
                index = get_random_index(index_evaluated, INDEXES_NUM)
                word = get_random_word(get_dictionary_tag(sentences_tag[index],sentences_sem[index]))
                if word:
                    break
            print("====================")
            sentence = sentences[index]
            print("Parola da disambiguare: ",word)
            #all'algoritmo di lesk viene dato in input la word e l'insieme dei termini che formano la frase, uniti sottoforma di stringa
            best_sense = str(lesk_algorithm(word, ' '.join(word for word in sentence), word_type='NOUN'))
            print("Senso attribuito dall'algoritmo di Lesk: ",best_sense)
            target_lemma = get_synset_target_for_word_in_sentence(word,sentences_sem[index])
            print("Senso Target: ",target_lemma)
            best_sense_lemma = best_sense[8:len(best_sense)-2]
            if target_lemma:
                if best_sense_lemma in target_lemma:
                 checked= checked + 1
            print("====================")
            evaluated += 1
            print("====================")
        
        print("Checked: ", checked)
        print("Evaluated: ",evaluated)
        accuracy = checked/RANGE
        print("Accuracy: ",accuracy)
        accuracy_list.append(accuracy)
    print()
    print("Esecuzioni: ",EXECUTIONS)
    print("Lista delle accuratezze: ", accuracy_list)
    print("Accuratezza media: ",mean(accuracy_list))
    
main()

Parola da disambiguare:  flocculated
Frase:  As shown in Figure 3 , the protoplasm of other fibers was pale , granular , or flocculated and invaded by phagocytes .
Contesto della frase:  {'pale', 'invade', 'fiber', 'protoplasm', 'granular', 'flocculate', 'phagocyte', 'figure'}
max Signature:  []
Senso attribuito dall'algoritmo di Lesk:  Synset('flocculate.v.01')
Senso Target:  Lemma('flocculate.v.01.flocculate')
Parola da disambiguare:  tested
Frase:  All samples were tested by both the saline and albumin methods .
Contesto della frase:  {'test', 'albumin', 'sample', 'saline', 'method'}
max Signature:  []
Senso attribuito dall'algoritmo di Lesk:  Synset('test.v.01')
Senso Target:  Lemma('screen.v.01.test')
Parola da disambiguare:  13
Frase:  The BOD of the effluent ranged from a minimum of 13 to a maximum of 47 mg / l .
Contesto della frase:  {'bod', 'maximum', 'minimum', 'range', 'effluent'}
max Signature:  []
Senso attribuito dall'algoritmo di Lesk:  Synset('thirteen.n.01')
Senso Tar