# Esercizio 1.1 - Similarity

Calcolo della similarità fra i termini del file *defs.csv* .

Caricamento del file *defs.csv* .

In [68]:
import pandas as pd

df_defs = pd.read_csv(filepath_or_buffer="utils/defs.csv", index_col=0).dropna()
df_defs.reset_index(drop=True, inplace=True)
NUM_DEFS = len(df_defs) # 30
df_defs

Unnamed: 0,Courage,Paper,Apprehension,Sharpener
0,property that allows you to face any situation...,"cellulose material that can be cut, folded and...","something strange, which causes a strange feel...",tool equipped with a blade that allows you to ...
1,Ability to face our own fears and do something...,Material derived from trees and used in sever...,fearful expectation or anticipation,Object used to shapen a pencil
2,the ability to face thing without fear,a type of material made from cellulose,A mood where one feel agitation,An object to sharpen a pencil
3,Inner strength that allow you to face particul...,Product obtained from wood cellulose. It is us...,State of disturbance,Tool used to sharpen pencils
4,Ability to control the fear,Flat material made from wood used for writing,Worry about the future,Little object which allow to sharpen a pencil
5,Ability to control fear and to be willing to d...,a short piece of writing on a particular subje...,"act of understanding something, or the way tha...",tool for making something sharper
6,Ability to avoid fear and to take on risky act...,Material derived from trees and used to write on,Non-relaxed state of mind derived from unaccom...,Tool used to cut pencil tip
7,Ability to make choices and take action withou...,Material obtained from trees' cortex,"Sense of loss, sadness, fear and awe",Tool for making a mine sharpener
8,Being able to do something fearful,A material crafted from wood that can be used ...,Mental status that make a person feel uncomfor...,Tool that can be used to sharpen a pencil
9,the ability to do something despite being frig...,thin object on which you can easily write,state of mind in which one is frightened,object that allows you to sharpen a pencil


Fase di preprocessing (_lowercasing_, _stopword removal_, _stemming_).

In [69]:
from nltk.stem import PorterStemmer
import string

# Loading stopwords list from file
stopwords = []
for line in open("utils/stop_words_FULL.txt", 'r').readlines():
    stopwords.append(line.rstrip('\n'))
stopwords = pd.Series(stopwords)

# Initializing nltk.PorterStemmer()
ps = PorterStemmer()

for i in df_defs.columns:
    # Lowercasing
    df_defs[i] = df_defs[i].str.lower()
    # Punct removal
    tmp = df_defs[i].apply(lambda x: str(x).translate(str.maketrans('', '',string.punctuation)))
    df_defs[i] = tmp
    # Stopword removal
    tmp = df_defs[i].apply(lambda x: ' '.join([word for word in str(x).split() if word not in stopwords.values]))
    df_defs[i] = tmp
    # Stemming
    tmp = df_defs[i].apply(lambda x: ' '.join([ps.stem(word) for word in str(x).split()]))
    df_defs[i] = tmp
df_defs

Unnamed: 0,Courage,Paper,Apprehension,Sharpener
0,properti allow face situat despit feel fear,cellulos materi cut fold written,strang strang feel strang normal abnorm,tool equip blade allow sharpen pencil
1,abil face fear scar unpleas,materi deriv tree context,fear expect anticip,object shapen pencil
2,abil face thing fear,type materi cellulos,mood feel agit,object sharpen pencil
3,inner strength allow face situat,product wood cellulos write,disturb,tool sharpen pencil
4,abil control fear,flat materi wood write,worri futur,object allow sharpen pencil
5,abil control fear deal unpleas,short piec write subject univers student,understand understood,tool make sharper
6,abil avoid fear riski action,materi deriv tree write,nonrelax mind deriv unaccommod event,tool cut pencil
7,abil choic action fear,materi tree cortex,sens loss sad fear awe,tool make mine sharpen
8,fear,materi craft wood note,mental statu person feel uncomfort situat,tool sharpen pencil
9,abil despit frighten,thin object easili write,mind frighten,object allow sharpen pencil


Calcolo della similarità fra le definizioni di ogni termine.

Ci aspettiamo che i termini __concreti__ ('*Paper*', '*Sharpener*') abbiamo un valore di similarità maggiore rispetto a quelli __astratti__ ('*Courage*', '*Apprehension*')

In [70]:
def bag_of_words(d, defs):
    """
    Find the average intersection length between a definition and the others.

    :param d: the definition
    :param defs: the other definitions

    :return: average length of the intersection
    """
    d = set(d.split())
    sum = 0
    for other_d in defs:
        bow = d.intersection(other_d.split())
        sum += len(bow)
    return sum / NUM_DEFS

def compute_sim(c):
    """
    Find the average bow value between all the definitions of a term.

    :param c: the term's column in the dataframe

    :return: average bow value
    """
    sum = 0
    for i in range(NUM_DEFS):
        sum += bag_of_words(df_defs[c][i], df_defs[c])
    return sum / NUM_DEFS

for c in df_defs.columns:
    print(c, '\t', compute_sim(c))
    # media delle medie delle intersezioni fra tutte le combinazioni di definizioni della colonna c
    # per ogni definizione calcolo la bow media con tutte le altre defs, faccio la media delle medie ed ho la similarità

Courage 	 1.0377777777777777
Paper 	 0.978888888888889
Apprehension 	 0.518888888888889
Sharpener 	 1.6122222222222224


# Esercizio 1.2 - Similarity explanation

Spiegazione della similarità usando una lista delle parole più frequentemente usate nelle definizioni.

Per ogni termine si calcola:
 - il numero totale di paorle diverse usate nelle definizioni
 - una lista delle parole maggiormente usate (occorrono in almeno la metà delle definizioni)

In [71]:
for c in df_defs.columns:
    words_count = df_defs[c].str.split(expand=True).stack().value_counts() # conta le occorrenze di ogni parola lungo tutta la colonna del termine
    frequent_words = words_count[words_count > 15]  # prendiamo le parole che occorrono in 1/2 (15) delle definizioni, supponendo che ogni parola compaia al più una volta in ogni definizione
    print(f'Word: \'{c}\'\n'
          f'Number of words: {len(words_count)}\n'
          f'List of frequent words: \n{frequent_words}\n')

Word: 'Courage'
Number of words: 51
List of frequent words: 
abil    19
fear    18
dtype: int64

Word: 'Paper'
Number of words: 50
List of frequent words: 
materi    23
write     16
dtype: int64

Word: 'Apprehension'
Number of words: 57
List of frequent words: 
Series([], dtype: int64)

Word: 'Sharpener'
Number of words: 28
List of frequent words: 
pencil     25
sharpen    19
tool       16
dtype: int64



Dai dati ottenuti notiamo come per i termini '*Courage*', '*Paper*' ed '*Apprehension*' il numero delle parole usato sia molto alto, sintomo di una difficoltà nell'individuarli correttamente.

Per '*Apprehension*' abbiamo il valore maggiore (57) ed infatti è il termine con il valore di similarità più basso. Questo rispecchia ciò che si era affermato in precedenza, infatti, essendo un termine astratto, è molto difficile da descrivere ed ognuno tende ad avere una propria rappresentazione.

Discorso opposto per '*Sharpener*', il quale ha invece poche parole usate (28) ed è quello con la similarità maggiore. Essendo un oggetto fisico è più semplice descriverlo e si tende ad usare un linguaggio più uniforme.

Fra le parole più usate nelle definizioni possiamo osservare che per gli oggetti __concreti__ si ha una concentrazione maggiore sugli stessi termini, in quanto le caratteristiche sono visibili ed è semplice descriverle.
Questo non vale per gli oggetti __astratti__ i quali hanno una distribuzione delle parole diversa, basti guardare ad '*Apprehension*' che non ha nessuna parola frequente.