## Consegna
Misurazione dell’overlap lessicale tra una serie di definizioni per concetti generici/specifici e concreti/astratti. Partendo dai dati sulle definizioni (presente nella cartella "dati" su Moodle), si richiede di calcolare la similarità 2-a-2 tra le definizioni (ad es. usando la cardinalità dell'intersezione dei lemmi normalizzata sulla lunghezza minima delle definizioni), aggregando (ed effettuando la media degli score di similarità) sulle due dimensioni (concretezza / specificità). 



In [19]:
import pandas as pd
from itertools import combinations
from utils import utils as u


## Creazione dizionario e Definizione Struttura dati
La struttura dati utilizzata avrà la seguente forma: 

  "name": { ["def_1", "def_2", "...", "def_n"] }
    

In [21]:
file_path = '../datasets/TLN-definitions-23.tsv'
df = pd.read_csv(file_path, sep='\t')

data = {}
definitions = []
for col in df.columns:
    definitions = []
    if col != '1':
        data[col] = {} ## data[ladybug]
        for riga in df[col]:
            if col != '1':
                definitions.append(riga)
        data[col] = definitions

### Calcolo Similarità
Abbiamo calcolato la similarità tra x definizioni utilizzando la cardinalità dell'intersezione tra le definizioni tokenizzate normalizzate per la minima tra le due:
$$
similarity = \frac{|def_1\cap def_2|}{|def_1|} \lor \frac{|def_1\cap def_2|}{|def_2|}
$$

In [22]:
def compute_similarity(definition_1_tokens, definition_2_tokens):

    min_len = 0

    if len(definition_1_tokens) > len(definition_2_tokens):
        min_len = len(definition_2_tokens)
    else:
        min_len = len(definition_1_tokens)

    return (len(set(definition_1_tokens).intersection(set(definition_2_tokens))) / min_len)

## Main e stampa dei risultati

In [23]:
lista_def = []
result = {}
result_tmp = []
for col in data:
   defs = data[col]
   #print(data[col])
   for d1, d2 in combinations(defs, 2):
       d1 = u.noise_reduction_en(d1)
       d1 = u.remove_punctuation(d1)
       d1 = u.remove_stop_words(d1)
       d2 = u.noise_reduction_en(d2)
       d2 = u.remove_punctuation(d2)
       d2 = u.remove_stop_words(d2)
       
       score = compute_similarity(d1,d2)
       result_tmp.append(score)
       
   average_result = sum(result_tmp) / len(result_tmp)
   result[col] = average_result
       
print("---------------------------")
label1 = ["concreto", "astratto"]
label2 = ["specifico", "generale"]  
for col in result:
    if col == "door":
        print("Concreto / Generico" )
        print(result[col], " ", col)
        print("---------------------------")
    if col == "ladybug":
        print("Concreto / Specifico" )
        print(result[col], " ", col)
        print("---------------------------")
    if col == "pain":
        print("Astratto / Generico" )
        print(result[col], " ", col)
        print("---------------------------")
    if col == "blurriness":
        print("Astratto / Specifico" )
        print(result[col], " ", col)
        print("---------------------------")

    



---------------------------
Concreto / Generico
0.2115583713859579   door
---------------------------
Concreto / Specifico
0.3665658256175503   ladybug
---------------------------
Astratto / Generico
0.3026011089804191   pain
---------------------------
Astratto / Specifico
0.24439159818470207   blurriness
---------------------------
