# Esercitazione 2

Sempre partendo dai dati sulle definizioni, si richiede di provare a costruire un sistema che utilizzi la molteplicità delle definizioni per risalire al termine "target" in maniera automatica. Non si richiede di "indovinare" ogni termine, ma di avvicinarsi (almeno semanticamente) alla risposta. Provare più soluzioni, includendo meccanismi di filtro delle definizioni (ad es. escludendo quelle meno informative o con caratteristiche particolari), di ricerca nell'albero tassonomico di WordNet (provando a partire da candidati "genus", secondo il principio Genus-Differentia), ecc.

In [118]:
import numpy as np
import pandas as pd
import string
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.stem import PorterStemmer
from nltk.corpus import wordnet as wn
from nltk.corpus import stopwords

## Pre-processing

In [119]:
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

def clear_sentence(sentence):
    tokens = nltk.word_tokenize(sentence)
    tokens = [token for token in tokens if token not in string.punctuation] #tolgo la punteggiatura
    tokens = [token.lower() for token in tokens] # sostituisco le maiuscole con le minuscole
    tokens = [token for token in tokens if token not in stop_words] # rimuovo le stop words
    tokens = [lemmatizer.lemmatize(token) for token in tokens] # lemmatizzo
    
    return tokens

## Metodi di supporto

In [120]:
"""
Dato un token ritorna una lista di iponimi
"""
def get_hypoyms(token):
    synonyms = wn.synsets(token)

    hyponyms = []
    for syn in synonyms:
        hyponyms += syn.hyponyms()

    hyponyms = [syn.lemmas()[0].name() for syn in hyponyms]

    return hyponyms

"""
Dato un token ritorna una lista di iperonimi
"""
def get_hypernyms(token):
    synonyms = wn.synsets(token)

    hypernyms = []
    for syn in synonyms:
        hypernyms += syn.hypernyms()

    hypernyms = [syn.lemmas()[0].name() for syn in hypernyms]

    return hypernyms

def get_context(definitions):
    context = set()
    for definition in definitions:
        context = context.union(set(definition))
    return context

def simplified_lesk(word, context):
    best_sense = None
    max_overlap = 0

    for sense in wn.synsets(word, pos='n'):
        signature = set(clear_sentence(sense.definition())).union(set(clear_sentence(' '.join(sense.examples()))))
        overlap = len(context.intersection(signature))
        if overlap > max_overlap:
            max_overlap = overlap
            best_sense = sense
    
    return best_sense


## Ottenimento del geneus

In [127]:
'''
Restituisce come geneus il token che compare più volte nelle definizioni
'''
def get_geneus(definitions, syn = None):
    words = []
    for definition in definitions:
        words += definition

    # se ho il synset aggiungo alle parole anche la definizione del synset
    if syn is not None:
        words += clear_sentence(syn.definition())

    return nltk.FreqDist(words).most_common(1)[0][0]

## Approccio 1: recursive simplified lesk

Partendo dal geneus, si prendono tutti i suoi synset, e ad ognuno di essi si applica il recursive_simplified_lesk. La caratteristica
di questo algoritmo è che non si ferma al primo livello di iponimi del geneus, ma per ognuno di essi scende di un certo numero di livelli (iperparametro da specificare). Così facendo vengono analizzati un numero maggiore di synsets così da avere più probabilità di ottenere il synset corretto.

In [122]:
'''
Variante ricorsiva del lesk, che permette di scendere di livello nella
gerarchia del geneus
'''
def recursive_simplified_lesk(level, best_sense, current_syn, max_overlap, context):
    if level == 0:
        return [best_sense, max_overlap]
    else:
        for syn in current_syn.hyponyms():
            signature = set(clear_sentence(syn.definition())).union(clear_sentence(' ' .join(syn.examples())))
            overlap = len(context.intersection(signature))
            if overlap >= max_overlap:
                max_overlap = overlap
                best_sense = syn

        return recursive_simplified_lesk(level - 1, best_sense, current_syn, max_overlap, context)

'''
Metodo per predire il token dato un insieme di definizioni
'''
def predict_token(definitions, geneus):
    best_sense = None
    max_overlap = 0

    # ottengo il contesto
    context = get_context(definitions)

    # per ogni synset del geneus cerco il synset con il massimo overlap 
    # con il contesto, andando ad usare una variante personalizzata
    # del simplified lesk
    for syn_geneus in wn.synsets(geneus):    
        sense, overlap = recursive_simplified_lesk(3, best_sense, syn_geneus, max_overlap, context)
        if overlap > max_overlap:
            max_overlap = overlap
            best_sense = sense

    return best_sense

## Approccio 2: rimozione definizioni poco informative + recursive simplified lesk

In [159]:
def remove_uninformative_definitions(definitions, syn):
    syn_definition = clear_sentence(syn.definition())

    defs_overlap = []
    # per ogni definizione calcolo l'overlap con la definizione del synset
    for definition in definitions:
        defs_overlap.append(len(set(definition).intersection(set(syn_definition))))

    # rimuovo le definizioni che hanno overlap minore
    min_overlap = min(defs_overlap)
    
    new_definitions = []
    for i in range(len(definitions)):
        if defs_overlap[i] != min_overlap:
            new_definitions.append(definitions[i])

    return new_definitions

## Main

In [162]:
corpus = pd.read_csv('definizioni.tsv', sep='\t', engine='python')
corpus.head(5)

Unnamed: 0,door,ladybug,pain,blurriness
0,"A construction used to divide two rooms, tempo...","small flying insect, typically red with black ...",A feeling of physical or mental distress,sight out of focus
1,"It's an opening, it can be opened or closed.","It is an insect, it has wings, red with black ...","It is a feeling, physical or emotional. It is ...","It is the absence of definite borders, shapele..."
2,"An object that divide two room, closing an hol...",An insect that can fly. It has red or orange c...,A felling that couscious beings can experince ...,A sensation felt when you can't see clearly th...
3,Usable for access from one area to another,Small insect with a red back,Concept that describes a suffering living being,Lack of sharpness
4,Structure that delimits an area and allows acc...,Small round flying insect,Feeling of physical discomfort,Characteristic of lack of clarity or precision


In [163]:
corpus['door'] = corpus['door'].apply(clear_sentence)
corpus['ladybug'] = corpus['ladybug'].apply(clear_sentence)
corpus['pain'] = corpus['pain'].apply(clear_sentence)
corpus['blurriness'] = corpus['blurriness'].apply(clear_sentence)

### Applicazione approccio 1

In [None]:
for token in corpus.columns:
    geneus = get_geneus(corpus[token])
    predicted_token = predict_token(corpus[token], geneus)

    print('token: ' + token)
    print("geneus: " + geneus)
    print("predicted token: " + predicted_token.name())

    print("\n")

token: door
geneus: room
predicted token: study.n.05


token: ladybug
geneus: insect
predicted token: dipterous_insect.n.01


token: pain
geneus: feeling
predicted token: affection.n.01


token: blurriness
geneus: see
predicted token: take.v.06




### Applicazione approccio 2

In [None]:
for token in ['door', 'ladybug', 'pain', 'blurriness']:
    syn = simplified_lesk(token, get_context(corpus[token]))
    
    #sostituisce il contenuto di corpus_copy[token] con le definizioni senza quelle che hanno overlap minore
    new_definitions = remove_uninformative_definitions(corpus[token], syn)
    geneus = get_geneus(new_definitions, syn)
    predicted_token = predict_token(corpus[token], geneus)

    print('Token: ', token)
    print('Geneus: ', geneus)
    print("predicted token: " + predicted_token.name())
    print('\n')
