## Esercizio

### Consegna

- Scegliere un verbo transitivo --> **KILL**
- Trovare un corpus con > 1000 frasi in cui comprare un verbo scelto (usare un verbo comune) --> link to resource: https://sentence.yourdictionary.com/kill
- Effettuare parsing e disambiguazione
- Usare i supersensi di wordnet sugli argomenti (subj e obj nel caso di 2 argomenti) del verbo scelto
- Calcolo risultati, frequenza e stampare cluster semantici ottenuti

### Appunti

Wordnet supersense: Per ogni sinset abbiamo un supersenso associato (esempi su slide)
Utilizzare i supersense dei synset per determinare il semantic type - nltk

I supersense di wordenet non sono il massimo, vediamo alcune alternative:
 * CSI - Ai supersense ci sono associati delle categorie che possono essere utilizzati come supersense

link to wordnet resource: https://www.nltk.org/_modules/nltk/corpus/reader/wordnet.html

*Spunti futuri:*

**Come distinguo i synset?**
--> Funzione lesk (https://www.nltk.org/howto/wsd.html#word-sense-disambiguation)

**Come trovo il supersenso tra due termini?**
--> Funzione Lowest Common Hypernyms (https://www.nltk.org/howto/wordnet_lch.html)

In [155]:
from nltk.corpus import wordnet
from spacy.matcher import DependencyMatcher
from nltk.wsd import lesk
import re
import spacy
from pprint import pprint

* person: Usata per trovare il supersenso dei pronomi
* patter: Usato per trovare il soggetto e l'oggetto del verbo kill

In [156]:
person = ["i", "you", "he", "she", "we", "they", "me", "him", "her", "his", "them", "someone"] 

pattern = [
    {"RIGHT_ID": "attr",
    "RIGHT_ATTRS": {"LEMMA": {"IN": ["kill"]}}
    },
    {"LEFT_ID": "attr",
    "REL_OP": ">",
    "RIGHT_ID": "subj",
    "RIGHT_ATTRS": {"DEP": {"IN": ["nsubj"]}}
    },
    {"LEFT_ID": "attr",
    "REL_OP": ">",
    "RIGHT_ID": "dobj",
    "RIGHT_ATTRS": {"DEP": {"IN": ["dobj"]}}
    }
]

#### carico spacy e aggiungo il pattern al Matcher

In [157]:
nlp = spacy.load('en_core_web_sm')
matcher = DependencyMatcher(nlp.vocab)
matcher.add("pattern", [pattern])

#### Metodi utili per trovare il match e per la wsd

In [158]:
def get_match( text):
    # Find the pattern in the document
    doc = nlp(text)
    matches = matcher(doc)
    for match in matches:
        match_words = sorted(match[1])
        phrase = doc[match_words[0]:match_words[len(match_words)-1]+1]
        subj = phrase[0].text
        dobj = phrase[len(phrase)-1].text
        
        return subj,dobj
    return "",""

def word_sense_disambiguation(list_words, word):
    right_synset = lesk(list_words, word)
    return right_synset

In [159]:
def cleaner(text):
    res = text.split('.')
    return res[1]

### Esecuzione

In [160]:
subj_ss = ""
dobj_ss = ""
struct = {}
with open ('../sentence_kill.txt', 'r') as f:
    for row in f:
        subj_ss, dobj_ss = "", ""
        subj, dobj = get_match(row)
        if subj != "" and dobj != "":
            subj_synset = word_sense_disambiguation(re.findall(r'\w+', row), subj)
            dobj_synset = word_sense_disambiguation(re.findall(r'\w+', row), dobj)
            
            if not subj_synset is None: 
                subj_ss = cleaner(subj_synset.lexname())
            else:
                if subj.lower() in person:
                    subj_ss = "person"
                else:
                    subj_ss = subj.lower()
            if not dobj_synset is None:
                dobj_ss = cleaner(dobj_synset.lexname())    
            else:
                if dobj.lower() in person:
                    dobj_ss = "person"
                else:
                    dobj_ss = dobj.lower()

            if (subj_ss, dobj_ss) in struct:
                struct[(subj_ss, dobj_ss)] += 1
            else:
                struct[(subj_ss, dobj_ss)] = 1
            
pprint(struct)

{('Tops', 'animal'): 1,
 ('act', 'cognition'): 1,
 ('act', 'person'): 3,
 ('all', 'all'): 3,
 ('all', 'animal'): 2,
 ('all', 'artifact'): 1,
 ('all', 'change'): 1,
 ('all', 'cognition'): 1,
 ('all', 'communication'): 1,
 ('all', 'food'): 1,
 ('all', 'group'): 1,
 ('all', 'location'): 1,
 ('all', 'person'): 14,
 ('animal', 'Tops'): 1,
 ('animal', 'artifact'): 1,
 ('animal', 'himself'): 1,
 ('animal', 'location'): 1,
 ('animal', 'person'): 3,
 ('animal', 'quantity'): 1,
 ('artifact', 'act'): 1,
 ('artifact', 'all'): 1,
 ('artifact', 'communication'): 1,
 ('artifact', 'contact'): 1,
 ('artifact', 'person'): 1,
 ('attribute', 'cognition'): 1,
 ('body', 'person'): 1,
 ('cognition', 'group'): 1,
 ('cognition', 'location'): 1,
 ('cognition', 'person'): 3,
 ('communication', 'all'): 1,
 ('communication', 'food'): 1,
 ('communication', 'person'): 1,
 ('contact', 'person'): 1,
 ('czerno', 'location'): 1,
 ('food', 'person'): 1,
 ('food', 'time'): 1,
 ('group', 'consumption'): 1,
 ('group', 'pers

### Test 
Utilizzato per codice di prova

Metodo che cerca un match con il pattern riportato sopra. 
Il match che trova è del tipo ("soggetto kill oggetto"), tramite l'accesso alla prima e all'ultima parola riusciamo ad isolare soggetto e oggetto.
Controlliamo se uno dei due (o entrambi) sono presenti nella lista sopra dichiarata, nel caso lo siano, sappiamo già che il loro "supersense" (o iperonimo, dobbiamo capire) è Person.

Due problematiche:
- nel caso in cui abbiamo più di un synset per ogni parola dobbiamo disambiguare e capire quale prendere.
- nel caso ci siano altre parole (Others, nomi di persona,...) che non hanno un synset, dobbiamo capire come gestirli.

In [161]:
def get_match(name_pattern, pattern, text):
    nlp = spacy.load('en_core_web_sm')
    matched_elements = [] 
    matcher = DependencyMatcher(nlp.vocab)
    matcher.add(name_pattern, [pattern])
    doc = nlp(text.lower())
    matches = matcher(doc)
    matches.sort(key = lambda x : x[1])
    for match in matches:
        match_words = sorted(match[1])
        phrase = doc[match_words[0]:match_words[len(match_words)-1]+1]

        subj = phrase[0].text
        dobj = phrase[len(phrase)-1].text


        super_subj, super_dobj = "", ""
        if subj in person:
            super_subj = "Person"
        elif dobj in person:
            super_dobj = "Person"
        
        syn_subj = wordnet.synsets(subj)
        syn_dobj = wordnet.synsets(dobj)
        
        if syn_subj == []:
            print(f"Frase: {text}")
            print(f"Synset non trovato, il soggetto è {subj}")
        elif syn_dobj == []:
            print(f"Frase: {text}")
            print(f"Synset non trovato, l'oggetto' è {dobj}")
        else:
            syn_subj = syn_subj
            syn_dobj = syn_dobj
        '''
        if super_subj != "":
            print(f"S:{subj}: {super_subj}")
        else:
            print(f"{subj}: {syn_subj}")
        
        if super_dobj != "":
            print(f"S:{dobj}: {super_dobj}")
        else:
            print(f"{dobj}: {syn_dobj}")
        '''
        #matched_elements.append(wordnet.synsets(subj)[0].supersense() ,wordnet.synsets(dobj)[0].supersense())
    if matched_elements == []:
        return False
    return matched_elements

# OLD CODE AND NOTES:

Ci sono soggetti e oggetti che non hanno dei synset, ad esempio YOU non ha un wordnet synset, credo che si debbano eliminare dal dataset questi tipi di frase, perchè non si possono trovare gli iperonimi se non hai il synset di partenza. in alternativa, come ha detto il prof a lezione, si può mettere una regola per cui quando incontri uno di questi elementi metti 'person' come iperonimo di default

IL DATASET HA UN BOTTO DI SOGGETTI E OGGETTI CON PRONOMI DI MERDA. UN PÒ BRUTTINO PER I NOSTRI SCOPI

### Esecuzione

In [162]:
dataset = []
with open ('../sentence_cook.txt', 'r') as f:
    for row in f:
        result = get_match("pattern", pattern, row)
        if result != False:
            dataset.append(result)

FileNotFoundError: [Errno 2] No such file or directory: '../sentence_cook.txt'

### Cose utili sparse

In [None]:
#print(f"synsets di subj: {wordnet.synsets(subj)}; synsets di obj: {wordnet.synsets(obj)}\n\n")
#print(f"iperonimo di subj: {wordnet.synsets(subj)[0].hypernyms()}, iperonimo di obj: {wordnet.synsets(obj)[0].hypernyms()}\n\n")
        
print(wordnet.synsets("monkey"))
#print(wordnet.synsets("victor")[0].supersense())
print(wordnet.synsets("monkey")[0].definition())
print(wordnet.synsets("monkey")[0].hyponyms())
print("\n\n\n")
print(wordnet.synsets("banana")[0].common_hypernyms(wordnet.synsets("monkey")[0]))
print(wordnet.synsets("dog")[0].root_hypernyms())
print(f"antenato più vicino tra man e baby: {wordnet.synsets('man')[0].lowest_common_hypernyms(wordnet.synsets('baby')[0])}") # UTILE UTILE UTILE

[Synset('monkey.n.01'), Synset('imp.n.02'), Synset('tamper.v.01'), Synset('putter.v.02')]
any of various long-tailed primates (excluding the prosimians)
[Synset('new_world_monkey.n.01'), Synset('old_world_monkey.n.01')]




[Synset('object.n.01'), Synset('organism.n.01'), Synset('physical_entity.n.01'), Synset('living_thing.n.01'), Synset('entity.n.01'), Synset('whole.n.02')]
[Synset('entity.n.01')]
antenato più vicino tra man e baby: [Synset('person.n.01')]


In [None]:
#print(f"synsets di subj: {wordnet.synsets(subj)}; synsets di obj: {wordnet.synsets(obj)}\n\n")
#print(f"iperonimo di subj: {wordnet.synsets(subj)[0].hypernyms()}, iperonimo di obj: {wordnet.synsets(obj)[0].hypernyms()}\n\n")
        
print(wordnet.synsets("monkey"))
print(wordnet.synsets("monkey")[0].definition())
print(wordnet.synsets("monkey")[0].lexname())
print("\n\n\n")
print(wordnet.synsets("banana")[0].common_hypernyms(wordnet.synsets("monkey")[0]))
print(wordnet.synsets("dog")[0].root_hypernyms())
print(f"antenato più vicino tra man e baby: {wordnet.synsets('man')[0].lowest_common_hypernyms(wordnet.synsets('baby')[0])}") # UTILE UTILE UTILE

[Synset('monkey.n.01'), Synset('imp.n.02'), Synset('tamper.v.01'), Synset('putter.v.02')]
any of various long-tailed primates (excluding the prosimians)
noun.animal




[Synset('physical_entity.n.01'), Synset('living_thing.n.01'), Synset('object.n.01'), Synset('entity.n.01'), Synset('whole.n.02'), Synset('organism.n.01')]
[Synset('entity.n.01')]
antenato più vicino tra man e baby: [Synset('person.n.01')]
