In [184]:
import nltk
from nltk.corpus import semcor
from nltk.corpus import wordnet as wn
from nltk.tokenize import word_tokenize
from nltk.corpus.reader.wordnet import Lemma
from nltk import Tree
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
import random
import numpy as np
import string

In [185]:
data=[[c for c in s] for s in semcor.tagged_sents(tag='both')]

---
### Prepocessing
Il codice seguente contiene una serie di funzioni per estrarre e preprocessare le frasi contenute in semcor
in questo modo sarà più semplice accedere alle frasi annotate con pos tag e synset ed estrarre una parola a caso da disanabiguare

In [186]:
#converte i pos tag di nltk in quelli di wordnet
def convert_pos(pos):
    pos_map = {'J': 'a', 'N': 'n', 'R': 'r', 'V': 'v', 'M': 'v'}
    return pos_map.get(pos[0], pos)

In [187]:
#convertitore da semcor in dizionario
#data una frase annotata del corpus semcor nella forma di lista di alberi
#ritorna una lista di dizionari con la parola, il pos tag e il synset
#vengono ignorati tutte le stopwords e punteggiature
#gli alberi inziali per le parole con lemma sono nella nella forma  ROOT[label(lemma)]-->child[label(posTag)]-->child[word]
#gli alberi iniziali per le parole senza lemma sono nella forma ROOT[label(posTag)]-->child[word]
def extract_info(list):
    token_list = []
    for tree in list:
        token={"word":None,"pos":None,"syn":None}
        label=tree.label()
        if isinstance(label,Lemma): #se il token ha un lemma ne ricavo il synset
            token["syn"]=label.synset()
            tree=tree[0]#esploro il figlio che contiene la parola e il pos tag

        #ignoro la punteggiatura e le parole composte/entità (es. New York)
        if not isinstance(tree[0],Tree) and label is not None:
            token["pos"]=convert_pos(tree.label())
            token["word"]=tree[0].lower()
            token_list.append(token)

    return token_list

In [188]:
#ritorna una parola casuale e la frase da cui è stata estratta, se only_nouns=True ritorna necessariamente un sostantivo
def get_random_word(data,only_nouns=False):
    found=False
    while not found:
        sentence=random.choice(data)
        token_list=extract_info(sentence)
        content_word=[token for token in token_list if token["syn"]is not None]#non estraggo le stopwords
        for token in content_word:
            if wn.synsets(token["word"]) != []:#se la parola ha almeno un synset
                if not only_nouns or token["pos"]=="n":
                        return (token,token_list)

---
### Implementazione WSD
IL codice seguente costituisce la parte principale del progetto, contiene le funzioni per ottenere il contesto, la signature, per implementare l'overlap e l'algoritmo di Lesk

In [189]:
#prepocessa i dati, rimuovendo la punteggiatura, tokenizzando e lemmatizzando
def preprocess(sentence): 
    if isinstance(sentence,str):#se è una stringa la tokenizzo in lista
        sentence=word_tokenize(sentence)
    sentence=[w.lower() for w in sentence if w not in string.punctuation]
    lemmatizer = WordNetLemmatizer()
    tokens=[lemmatizer.lemmatize(w) for w in sentence]
    return tokens

In [190]:
#data una lista di synset e le frasi annotate di semcor
#controlla ogni frase che contiene un certo synset
#ritorna un dizionario, in cui ad ogni synset è associata una lita di frasi tokenizzate in cui compare
#corpus_examples= {syn1: [[esempio1],[esempio2],[esempio3]], syn2:[...]}
def get_corpus_examples(synsets,data):
    corpus_examples={syn.name():[] for syn in synsets}
    for sentence in data:
        token_list=extract_info(sentence)
        for token in token_list:
            syn=token["syn"]
            if syn is not None and syn in synsets:
                corpus_examples[syn.name()].append([t["word"]for t in token_list])
                break
    return corpus_examples

In [191]:
#per ogni parola in word_list incrementa il numero di documenti che contengono la parola
#se la parola non è presente viene aggiunta 
def add_to_signature(signature_dict,word_list):
    for word in set(word_list): #non considero duplicati nella stessa frase (?)
        signature_dict[word]=signature_dict.get(word,0)+1
    return signature_dict

#ritorna la signature di un synset
#la signature è un dizionario che associa ad ogni parola il suo peso (idf) calcolato come  idf_i=log(Ndoc/Nd_i)
def get_signature(synset,corpus_examples=None,gemini_examples=None):
    signature={}

    #----------------vengono aggiunta la definizione e  li esempi di wordnet---------------
    Ndoc=1# definizione del synset
    signature=add_to_signature(signature,preprocess(synset.definition()))#descrizione del synset
    for wn_ex in synset.examples(): #esempi su wordnet
        signature=add_to_signature(signature,preprocess(wn_ex))
        Ndoc+=1

    #----------------vengono aggiunti gli esempi del corpus-----------------------
    if corpus_examples:#se sono presenti dei degli esempi del corpus
        for corpus_ex in corpus_examples:#frasi su semcor in cui compare il synset
            signature=add_to_signature(signature,preprocess(corpus_ex))
            Ndoc+=1

    #----------------vengono aggiunti gli esempi di gemini-----------------------
    if gemini_examples:#se sono presenti dei degli esempi di gemini
        for gemini_ex in gemini_examples:
            signature=add_to_signature(signature,preprocess(gemini_ex))
            Ndoc+=1
            
    #calcolo dell'idf
    for word in signature:
        signature[word]=np.log(Ndoc/signature[word])
    sorted_signature = dict(sorted(signature.items(), key=lambda item: item[1],reverse=True))
    return sorted_signature

#ritorna il contesto di una parola
#il contesto è composto dalla lista di parole lemmizzate della frase in cui si trova la parola da disambiguare
#se la parola è una content word, utilizzo il suo pos tag per aiutare il lematizer
#altrimenti è una stopword e non viene lemmaizzata
def get_context(token_list):
    lemmatizer = WordNetLemmatizer()
    return [lemmatizer.lemmatize(t["word"], t["pos"]) if t["syn"] is not None else t["word"] for t in token_list]


In [192]:
#calcola l'overlap tra il contesto e la signature di un synset
#se weighted=True calcola la somma dei pesi delle parole in comune 
#se weighted=False calcola il numero di parole in comune eccetto le stopwords
def compute_overlap(signature,context,weighted=False):
    if weighted:
        return sum([signature.get(word,0) for word in context])
    else:
        stopword = stopwords.words('english')
        #remove stopwords
        context= [w for w in context if w.casefold() not in stopword]
        signature= {k:v for k,v in signature.items() if k not in stopword}
        return len(set(signature.keys()).intersection(context))

In [193]:
#implementazione dell'algoritmo di Lesk
#ritorna il synset che ha il massimo overlap tra la signature e il contesto
def lesk(word, pos, sentence, data=None, gemini=False):
    synsets = wn.synsets(word, pos)#
    if synsets == []: synsets=wn.synsets(word)#se non trovo il synset con il pos tag specificato uso tutti i synset
    max_overlap = 0
    best_syns = synsets[0]
    context = get_context(sentence)

    #-----------------se specificato vengono estratti altri esempi (corupus e/o gemini)---------------------
    if data: 
        corpus_examples = get_corpus_examples(synsets, data)
    else: corpus_examples = None
    if gemini:
        gemini_examples=get_gemini_examples(synsets) #parte opzionale in fondo
    else: gemini_examples=None

    #----------------ricerca del synset con overlap maggiore---------------------
    for syn in synsets:
        signature = get_signature(syn, 
                                  corpus_examples.get(syn.name(),None) if corpus_examples else None,
                                  gemini_examples.get(syn.name(),None) if gemini_examples else None)
        overlap = compute_overlap(signature, context, weighted=bool(data))
        if overlap > max_overlap:
            max_overlap = overlap
            best_syns = syn

    return best_syns

#baseline, ritorna il synset più frequente
def naive_wsd(word):
    synsets=wn.synsets(word)
    if synsets==[]: return None
    else:return synsets[0]

Esempio di utilizzo delle funzioni precedenti

In [214]:
#stampa verbosa di un test
token,token_list =get_random_word(data,only_nouns=True)
print("# word: ",token["word"])
print("# sentence: ",[t["word"]for t in token_list])
print("# extracted context: ",get_context(token_list))
print("# signature of each synset (No corpus examples):")
synsets=wn.synsets(token['word'],pos=token["pos"])
for syn in synsets:
    signature=get_signature(syn)
    overlap=compute_overlap(signature,get_context(token_list))
    print(" -",syn.name()," overlap: ",overlap, " signature: ",signature)

print("\n# signature of each synset (with corpus examples):")
corpus_examples=get_corpus_examples(synsets,data)
for syn in synsets:
    signature=get_signature(syn,corpus_examples[syn.name()])
    overlap=compute_overlap(signature,get_context(token_list),weighted=True)
    print(" -",syn.name()," overlap:",round(overlap,4), " signature: ",signature)

word = token['word']
pos=token['pos']
correct_synset = token['syn'].name()
def check_prediction(prediction):
    return "V" if prediction == correct_synset else "X"
print("-"*30,"\n")
print("# correct synset:", correct_synset)
print("# predicted synset naive:", (predicted_synset := naive_wsd(word).name()), check_prediction(predicted_synset))
print("# predicted synset lesk:", (predicted_synset := lesk(word,pos,token_list).name()), check_prediction(predicted_synset))
print("# predicted synset corpus lesk:", (predicted_synset := lesk(word,pos, token_list,data).name()), check_prediction(predicted_synset))


# word:  notion
# sentence:  ['the', 'notion', 'of', 'inspiration', 'is', 'somehow', 'cognate', 'to', 'this', 'feeling']
# extracted context:  ['the', 'notion', 'of', 'inspiration', 'be', 'somehow', 'cognate', 'to', 'this', 'feeling']
# signature of each synset (No corpus examples):
 - impression.n.01  overlap:  1  signature:  {'vague': 1.6094379124341003, 'some': 1.6094379124341003, 'is': 1.6094379124341003, 'placed': 1.6094379124341003, 'which': 1.6094379124341003, 'confidence': 1.6094379124341003, 'idea': 1.6094379124341003, 'of': 1.6094379124341003, 'her': 1.6094379124341003, 'favorable': 1.6094379124341003, 'impression': 1.6094379124341003, 'about': 1.6094379124341003, 'crisis': 1.6094379124341003, 'the': 1.6094379124341003, 'what': 1.6094379124341003, 'are': 1.6094379124341003, 'your': 1.6094379124341003, 'my': 1.6094379124341003, 'it': 1.6094379124341003, 'belief': 1.6094379124341003, 'sincerity': 1.6094379124341003, 'strengthened': 1.6094379124341003, 'she': 1.6094379124341003,

---
### Testing
Test su 50 frasi casuali, con calcolo di accuracy

In [196]:
#prendo tutte le frasse
data=[[c for c in s] for s in semcor.tagged_sents(tag='both')]

In [211]:
#testa su N frasi naive,lesk e corpus_lesk
def testN(data,only_nouns=False,N=50,gemini=False):
    c_naive=0
    c_lesk=0
    c_corpus_lesk=0
    c_gemini_lesk=0
    for i in range(N):
        token,token_list=get_random_word(data,only_nouns)
        correct_syn=token['syn']
        word=token['word']
        pos=token['pos']
        if  naive_wsd(word)==correct_syn:
            c_naive+=1
        if lesk(word,pos,token_list)==correct_syn:
            c_lesk+=1
        if lesk(word,pos,token_list,data)==correct_syn:
            c_corpus_lesk+=1
        if gemini:
            if lesk(word,pos,token_list,data,gemini)==correct_syn:
                c_gemini_lesk+=1
        
    return c_naive/N,c_lesk/N,c_corpus_lesk/N,c_gemini_lesk/N

accuracy=testN(data,only_nouns=True)
print("naive:",accuracy[0],"lesk:",accuracy[1],"corpus_lesk:",accuracy[2])

naive: 0.7 lesk: 0.64 corpus_lesk: 0.88


In [213]:
#esegue k=10 volte gli algoritmi di WSD su N=50 frasi, e ne ritorna l'accuracy media
def full_test(k=10):
    naive_results=0
    lesk_results=0
    corpus_lesk_results=0
    for i in range(k):
        n,l,cl,_ =testN(data)
        print("Test "+str(i)+" :",n,l,cl)
        naive_results+=n
        lesk_results+=l
        corpus_lesk_results+=cl

    return(round(naive_results/k,3),round(lesk_results/k,3),round(corpus_lesk_results/k,3))

accuracy=full_test() #NON ESEGUIRE IMPIEGA 10 MINUTI
print("----Avarage accuracy: ----")
print("naive:",accuracy[0],"lesk:",accuracy[1],"corpus_lesk:",accuracy[2])

Test 0 : 0.42 0.52 0.7
Test 1 : 0.34 0.54 0.78
Test 2 : 0.3 0.42 0.72
Test 3 : 0.42 0.5 0.78
Test 4 : 0.36 0.46 0.74
Test 5 : 0.48 0.36 0.8
Test 6 : 0.34 0.56 0.76
Test 7 : 0.38 0.36 0.74
Test 8 : 0.52 0.5 0.74
Test 9 : 0.38 0.34 0.8
----Avarage accuracy: ----
naive: 0.394 lesk: 0.456 corpus_lesk: 0.756


---
### Gemini
WSD usando corpus Lesk + esempi aggiuntivi generati da Gemini

In [None]:
import google.generativeai as genai
#IMPORTANTE: USARE UNA VPN PER UTILIZZARE GEMINI
API_KEY= "AIzaSyBZKGJMLzRjl7wfLtHLtg2hsNJGEm1V2gg" #inserire la propria chiave API
genai.configure(api_key=API_KEY)
model = genai.GenerativeModel('gemini-pro')
gen_config=genai.types.GenerationConfig(temperature=0.7) #gli altri parametri vanno bene di default
#spesso i blocchi di sicurezza sono troppo restrittivi, molto spesso non generava esempi, quindi li ho azzerati
safe_config = [
  {
    "category": "HARM_CATEGORY_HARASSMENT",
    "threshold": "BLOCK_NONE"
  },
  {
    "category": "HARM_CATEGORY_HATE_SPEECH",
    "threshold": "BLOCK_NONE"
  },
  {
    "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
    "threshold": "BLOCK_NONE"
  },
  {
    "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
    "threshold": "BLOCK_NONE"
  },
  ]

#### Prompt engeneering One-shot seguendo il framework COSTAR
- (C) Context: "You are a smart lexicographer who wants to improve the world's best dictionary"
- (O) Obbiettivo: "Given a definition and some examples for a list of word, write 5 more examples that best represent the meaning of each word. "
- (S) Stile: "...a friendly, clear style to make the examples sound natural and easy to understand."
- (T) Tono: "Use a colloquial tone..."
- (A) Audience: "For language learners who seek clear and relatable usage of the words."
- (R) Risposta: "Write the examples in plain text and insert them into a dictionary in the following format: {"synset1": ["example1", "example2", "example3", "example4", "example5"],"synset2": ["example1",...],...} [...] Do not use newlines." 


In [None]:
def get_prompt(synsets):
    prompt="""
    You are a smart lexicographer who wants to improve the world's best dictionary. Given a definition and some examples for a list of word, write 5 more examples that best represent the meaning of each word. 
    Use a colloquial tone and a friendly, clear style to make the examples sound natural and easy to understand for language learners who seek clear and relatable usage of the words
    Write the examples in plain text and insert them into a dictionary in the following format: {"synset1": ["example1", "example2", "example3", "example4", "example5"],"synset2": ["example1",...],...}
    Your response will be used as input for a program, so you MUST respect this format. Do not use newlines.

    **example of input**
    synset= "bank.n.01"
    Term: "bank"
    synonyms: "depository_financial_institution", "banking_concern", "banking_company"
    Definition: "a financial institution that accepts deposits and channels the money into lending activities"
    Examples: ["he cashed a check at the bank", "that bank holds the mortgage on my home"]

    **your new 5 examples**
    Example of Output: {"bank.n.01":["she opened a savings account at the local bank", "the bank approved his loan for the new car", "they went to the bank to deposit their paychecks", "the bank's interest rates for loans are very competitive", "after losing her debit card, she reported it to the bank immediately"]}
    
    **Input:**
    """
    for syn in synsets:
        prompt+="""
        Term: """ + syn.lemmas()[0].name()+ """  
        synonyms: """ + str([lemma.name() for lemma in syn.lemmas()[1:]]) + """
        Definition: """ + str(syn.definition()) + """
        Examples: """ + str(syn.examples()) + """
        """
    prompt+="""
    Output:
    """
    return prompt


In [None]:
import time
#data una lista di synset ritorna un dizionario, in cui ad ogni synset è associata una lita di esempi di utilizzo generate con gemini
def get_gemini_examples(synsets):
    prompt=get_prompt(synsets)
    #chiamata API gemini
    response = model.generate_content(prompt,generation_config=gen_config,safety_settings=safe_config)
    time.sleep(1)#per evitare di superare il limite di richieste
    #se la generazione non è andata a buon fine (es safety reasons riprovo massimo 2 volte)
    if response.candidates[0].finish_reason>1  :
        for i in range(2):
            print("Error, finish reason: ",response.candidates[0].finish_reason)
            response = model.generate_content(prompt,generation_config=gen_config)
            if response.candidates[0].finish_reason==1:
                break
        return None
    #controllo che la stringa ottenuta sia convertibile in lista
    try:
        example_list = eval(response.text)
        return example_list
    except:
        print("Error, output not formatted correctly")
        print(response.text)
        return None

- L'accuracy di corpus-lesk con anche l'utilizzo di esempi generati da Gemini sono equivalenti a quelle di corpus-lesk con solo gli esempi di Semcor.
- Confrontando le singature ottenute solo con Semcor e quelle con Semcor+Gemini, notiamo leggerissime differenze, probabilmente non sufficienti per un incremento sensibile nelle performance.
- Se vengono utilizzati solo gli esempi di Gemini le prestazioni crollano, evidentemente non sono sufficienti per disambiguare correttamente i sensi.

In [200]:
#Test di utilizzo 
accuracy=testN(data,only_nouns=False,N=5,gemini=True)
print("naive:",accuracy[0],"lesk:",accuracy[1],"corpus_lesk:",accuracy[2],"gemini_corpus_lesk:",accuracy[3])

naive: 0.4 lesk: 0.6 corpus_lesk: 0.8 gemini_corpus_lesk: 0.8
