# Esercizio 1 - Definizioni

In questo esercizio calcoliamo i valori di similarità tra le definizioni date da noi per 4 termini.
Lo scopo dell'esercizio è provare che dare una definizione di un termine è più complicato di quanto si possa pensare, 
specialmente se il termine è di natura astratta e/o generico.
Una prova di questo fatto è subito osservabile dando un veloce sguardo alle definizioni, dove si può notare come siano
parecchio diverse tra di loro.

I termini utilizzati per l'esperimento sono:

- Emotion
  
- Person
- Revenge
- Brick

### Import and constant

In [1]:
from collections import Counter
from nltk.stem import WordNetLemmatizer

Lista di stop words, utilizzata per ripulire il testo dalle parole poco rillevanti per determinare il significato. Abbiamo utilizzato questa lista di stopword che è composta dalla lista base 
di nltk + alcune parole aggiunte da noi, molto frequenti nelle descrizioni ma prive di significato ai nostri scopi.

In [2]:
STOP_WORDS = ['on','of','a', 'most', 'be', 'did', "mightn't", 'or', 'the', 'does', "it's", 'ourselves', 'if', 'few', 'above', 've', 'ours', 
'your', 'some', 'own', 't', 'yours', 'couldn', "you'll", 'both', "wouldn't", 'once', 'off', 'doesn', 'through', 'their', 
'themselves', 'until', 'isn', 'do', "hadn't", 'have', 'from', 'needn', 'hers', 'has', 'between', 'not', 'ain', 'they', 'after', 'out', 
'then', 'while', "shouldn't", 'mightn', 'against', "should've", "couldn't", 'she', 'but', 'as', 'below', 'over', 'each', 'hadn', 'when', 
'of', 'there', 'hasn', 'before', 'aren', 'only', 'them', 'is', 'will', 'yourself', 'so', 're', 'very', "you'd", 'all', 'nor', 'o', 'haven', 
'had', 'that', 'doing', 'just', 'no', 'and', "needn't", 'was', "didn't", 'a', 'weren', 'why', 'an', "mustn't", "isn't", 'wouldn', 'whom', 
'too', "that'll", 'should', 'himself', 'about', 'which', 'under', "don't", 'y', "hasn't", 'been', 'his', 'here', 'further', "doesn't", 
'same', 'how', 'we', 'than', 'ma', 'who', 'herself', 'theirs', 'were', 'any', 'wasn', "haven't", 'having', 'it', 'yourselves', 'more', 
'won', 'those', 'by', 'now', 'd', 'where', 'me', 'him', 'again', 's', 'are', 'shouldn', "weren't", "wasn't", 'for', 'what', "she's", 'll', 
"won't", 'this', 'because', 'm', 'you', 'shan', 'up', 'can', 'her', 'itself', 'i', "you're", 'in', 'myself', 'its', 'mustn', 'don', 'these', 
'such', 'down', 'our', 'into', "shan't", 'didn', 'am', 'he', 'to', 'my', "aren't", 'other', "you've", 'at', 'during', 'with', 'someone']


### Functions

Rimuove le stop words dal testo

In [3]:
def remove_stop_words(text):
    result = []
    for word in text:
        if word.lower() not in STOP_WORDS:
            result.append(word.lower())
    return result

Sostituisce le parole con il loro lemma, basato su WordNet

In [4]:
def lemmatize_words(text):
    result = []
    lemmatizer = WordNetLemmatizer()
    for word in text:
        result.append(lemmatizer.lemmatize(word))
    return result

Organizziamo i dati (definizioni) in una matrice di stringhe, ogni riga contiene il termine di riferimento seguito dalle
definizioni date. La matrice ha 4 righe, una per ogni definizione.

In [5]:
list = open("../data/def.csv").readlines() # Save the definitions in a list, splitting by coma

data = []
# Save the data in a matrix of 4 row
for l in list:
    data.append(l.strip("\n").split(","))

Dopo aver ripulito il testo da stopwords e dopo aver sostituito le parole con il loro lemma, andiamo a salvare i 
termini all'interno di una struttura *Counter*. Questo tipo di struttura ci permette di salvare le parole uniche all'interno 
delle definizioni e di contare quante volte ogni parola è presente. Otteniamo quindi, per ogni termine, una lista di parole
con associata la frequenza.

Per calcolare la similarità tra le definizioni abbiamo preso le n parole più frequenti e abbiamo calcolato la media delle frequenze, dividendo il risultato per il numero di parole estratto.

In [18]:
for line in data:
    main_concept = line[0] # Save the term, which is in the first position of the list
    counter_concept = Counter()
    # Clean the definition by removing the stop word and lemmatizing the word
    # and save the resul in a counter structure
    for definition in line[1:]:
        statement = remove_stop_words(definition.split())
        statement = lemmatize_words(statement)
        counter_concept.update(statement)

    # Save the n most commond words in the definition
    freq_words = counter_concept.most_common(5)
    print(freq_words)
    
    for word in freq_words:
        final_result += word[1]
    
    final_result = final_result/(len(line)-1)

    print(f"Punteggio finale per {main_concept}: {round(final_result/len(freq_words), 2)}\n")



[('feeling', 11), ('human', 8), ('feel', 8), ('being', 7), ('something', 6)]
Punteggio finale per Emotion: 0.28

[('human', 26), ('being', 21), ('homo', 5), ('person', 4), ('sapiens', 4)]
Punteggio finale per Person: 0.35

[('feeling', 7), ('anger', 7), ('action', 6), ('emotion', 6), ('act', 6)]
Punteggio finale per Revenge: 0.21

[('used', 22), ('object', 15), ('construction', 15), ('material', 14), ('build', 12)]
Punteggio finale per Brick: 0.53



## Analisi risultati

I risultati mostrano quello che ci aspettavamo, cioè che dare definizioni per i termini è più complicato di quanto possiamo pensare.
Infatti per *brick* abbiamo una similarità del *50%* che è decisamente bassa, e la situazione peggiora per il termine più generico
*person*. 
Per *emotion* e *revenge* abbiamo una similarità ancora più bassa siccome sono termini più astratti rispetto
ai precedenti.

In generale dovrebbe essere più semplice dare definizioni per i termini più concreti e meno generici, che in questo caso corrisponde
a *brick*, ed infatti i nostri risultati, almeno per quanto rigurda *brick*, coincidono con questo assunto.

- **Criterio di similarità utilizzato**: Abbiamo volutamente utilizzato una funzione di similarità costruita da noi che si basa
  semplicemente sul conteggio delle parole comuni nelle definizioni. Funzioni di similarita più accurate, come la cosine similarity, 
  avrebbero prodotto risultati diversi.

- **Dataset utilizzato**: Il dataset utilizzato, fatto da noi studenti del corso, è troppo piccolo per permettere di trarre dei risultati 
  accurati, probabilmente se avessimo avuto a disposizione più definizioni avremmo potuto ottenere un risultato più accurato.