In [1]:
import pandas as pd
from nltk.stem import PorterStemmer
from nltk.corpus import stopwords as sw
import string
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from pprint import pprint
import re

# Esercizio 1.1 - Similarity

Calcolo della similarità fra i termini del file *defs.csv* .

Caricamento del file *defs.csv* .

In [None]:
df_defs = pd.read_csv(filepath_or_buffer="utils/defs.csv", index_col=0).dropna()
df_defs.reset_index(drop=True, inplace=True)
NUM_DEFS = len(df_defs) # 30
df_defs.head()

Fase di preprocessing (_lowercasing_, _punctuation removal_, _stopword removal_, _stemming_).

In [None]:
# Loading stopwords list from file
stopwords = []
for line in open("utils/stop_words_FULL.txt", 'r').readlines():
    stopwords.append(line.rstrip('\n'))
stopwords = pd.Series(stopwords)

# Initializing nltk.PorterStemmer()
ps = PorterStemmer()

for c in df_defs.columns:
    # Lowercasing
    df_defs[c] = df_defs[c].str.lower()
    # Punct removal
    tmp = df_defs[c].apply(lambda x: str(x).translate(str.maketrans('', '', string.punctuation)))
    df_defs[c] = tmp
    # Stopword removal
    tmp = df_defs[c].apply(lambda x: ' '.join([word for word in str(x).split() if word not in stopwords.values]))
    df_defs[c] = tmp
    # Stemming
    tmp = df_defs[c].apply(lambda x: ' '.join([ps.stem(word) for word in str(x).split()]))
    df_defs[c] = tmp
df_defs.head()

Calcolo della similarità fra le definizioni di ogni termine.

La similarità viene calcolata come la media fra i valori medi delle _Bag of Words_ calcolati su tutte le combinazioni di definizioni. Ogni definizione avrà un certo numero medio di parole che sono presenti anche in altre definizioni, facendo la media fra tutti i valori si ottiene il punteggio di similarità del termine.

Ci aspettiamo che i termini __concreti__ ('*Paper*', '*Sharpener*') abbiamo un valore di similarità maggiore rispetto a quelli __astratti__ ('*Courage*', '*Apprehension*')

In [None]:
def bag_of_words(d, defs):
    """
    Find the average intersection length between a definition and the others.

    :param d: the definition
    :param defs: the other definitions

    :return: average length of the intersection
    """
    d = set(d.split())
    sum = 0
    for other_d in defs:
        bow = d.intersection(other_d.split()) # calcolo intersezione fra le due definizioni
        sum += len(bow) / min(len(d), len(other_d.split())) # normalizzazione
    return sum/NUM_DEFS


def compute_sim(c):
    """
    Find the average bow value between all the definitions of a term.

    :param c: the term's column in the dataframe

    :return: average bow value
    """
    sum = 0
    for i in range(NUM_DEFS):
        sum += bag_of_words(df_defs[c][i], df_defs[c]) # calcoliamo la similarità di ogni definizione con a tutte le altre
    return sum/NUM_DEFS # facciamo la media


df_res = pd.DataFrame(index=['Generico', 'Specifico'], columns=['Astratto', 'Concreto'])
df_res_terms = pd.DataFrame(index=['Generico', 'Specifico'], columns=['Astratto', 'Concreto'])
for c, i, j in zip(df_defs.columns, [0,0,1,1], [0,1,0,1]):
    df_res_terms.iloc[i,j] = f'{c}: {compute_sim(c)}'
    df_res.iloc[i,j] = compute_sim(c)
    # media delle medie delle intersezioni fra tutte le combinazioni di definizioni della colonna c
    # per ogni definizione calcolo la bow media con tutte le altre defs, faccio la media delle medie ed ho la similarità
print('--- Valori di similarità dei termini ---')
print(df_res_terms, '\n')
print('--- Valore medio lungo le colonne ---')
print(df_res.mean(axis=0), '\n')
print('--- Valore medio lungo le righe ---')
print(df_res.mean(axis=1))

I risultati ottenuti confermano le ipotesi iniziali, in particolare:
- se andiamo dall'__astratto al concreto__ abbiamo un valore __crescente__ di similarità
- se andiamo dal __generico allo specifico__ abbiamo un valore __decrescente__ di similarità


# Esercizio 1.2 - Similarity explanation
Spiegazione della similarità usando una lista delle parole più frequentemente usate nelle definizioni.

Per ogni termine viene calcolato:
 - il numero totale di paorle diverse usate nelle definizioni
 - una lista delle parole maggiormente usate (occorrono in almeno la metà delle definizioni)

In [None]:
for c in df_defs.columns:
    words_count = df_defs[c].str.split(expand=True).stack().value_counts() # conta le occorrenze di ogni parola lungo tutta la colonna del termine
    frequent_words = words_count[words_count > 15]  # prendiamo le parole che occorrono in 1/2 (15) delle definizioni, supponendo che ogni parola compaia al più una volta in ogni definizione
    print(f'Word: \'{c}\'\n'
          f'Number of words: {len(words_count)}\n'
          f'List of frequent words: \n{frequent_words}\n')

Dai dati ottenuti notiamo come per i termini '*Courage*', '*Paper*' ed '*Apprehension*' il numero delle parole usato sia molto alto, sintomo di una difficoltà nell'individuarli correttamente.

Per '*Apprehension*' abbiamo il valore maggiore (57) ed infatti è il termine con il valore di similarità più basso. Questo rispecchia ciò che si era affermato in precedenza, infatti, essendo un termine astratto, è molto difficile da descrivere ed ognuno tende ad avere una propria rappresentazione.

Discorso opposto per '*Sharpener*', il quale ha invece poche parole usate (28) ed è quello con la similarità maggiore. Essendo un oggetto fisico è più semplice descriverlo e si tende ad usare un linguaggio più uniforme.

Fra le parole più usate nelle definizioni possiamo osservare che per gli oggetti __concreti__ si ha una concentrazione maggiore sugli stessi termini, in quanto le caratteristiche sono visibili ed è semplice descriverle.
Questo non vale per gli oggetti __astratti__ i quali hanno una distribuzione delle parole diversa, basti guardare ad '*Apprehension*' che non ha nessuna parola frequente.

# Esercizio 1.3 - WSI e pseudo-word evaluation

Implementazione di un sistema di _Word Sense Induction_ che utilizza il metodo di _pseudo-word evaluation_ per disambiguare due termini.

È stato creato un corpus di frasi usando la piattaforma SketchEngine, con la quale sono state estratte le frasi contenute in alcuni siti.
Il corpus è stato pulito da alcuni tag e da alcune parti non utili (come le frasi dei footer dei siti) e sono stati corretti alcuni punti (come alcune frasi unite).

Definiamo una funzione di preprocessing ed una funzione per estrarre il contesto dalle frasi.
Il contesto viene estratto prendendo le 4 parole a dx ed a sx della parola target.

In [2]:
# Loading stopwords list
ita_stopwords = sw.words('italian')
ita_stopwords.append('p') # to completely remove <p></p> tags from sentences
ita_stopwords.append('homer')
ita_stopwords.append('marge')
ita_stopwords.append('bart')
ita_stopwords.append('lisa')
ita_stopwords.append('maggie')
ita_stopwords.append('barney')
ita_stopwords.append('boe')
ita_stopwords.append('kent')
ita_stopwords.append('brockman')

# Initializing nltk.PorterStemmer()
ps = PorterStemmer()

def preprocessing(s):
    """
    Do some preprocessing operations on the string.

    :param s: the string

    :return: the preprocessed string
    """
    # Lowercasing
    s = s.lower()
    # Punct removal
    s = s.translate(str.maketrans('', '', string.punctuation))
    # Stopword removal
    s = ' '.join([word for word in s.split() if word not in ita_stopwords])
    # Stemming
    s = ' '.join([ps.stem(word) for word in s.split()])
    return s


def get_context(w, s):
    """
    Retrieve the context from a sentence, given the word w it takes the 4 words at its left and the 4 words at its right.

    :param w: the target word
    :param s: the sentence containing the word

    :return: the context of the words
    """
    s = s.split()
    return s[s.index(w)-4:s.index(w)+5]

### Creazione dei cluster di riferimento
Scegliamo due parole $w_1, w_2$ di cui estrarremo i cluster per indurre i sensi

In [49]:
w1 = 'birra'#'tv'
w2 = 'strada'# 'soldi'
sentences_w1 = []
sentences_w2 = []

# carichiamo il corpus e procediamo ad estrarre i contesti delle parole
'''
nltk.download("movie_reviews")
from nltk.corpus import movie_reviews
# more at https://www.nltk.org/nltk_data/
'''
for line in open("utils/cleaned_simpson_corpus.txt", 'r').readlines():
    if w1 in line.split():
        try:
            line = preprocessing(line)
            line = get_context(ps.stem(w1), line)
            line.remove(ps.stem(w1)) # todo se nella riga c'è più volte la parola essa viene considerata una sola volta. Si possono avere molti più contesti se si considerano tutte le occorrenze della parola usando line.count(w1)
            line = ' '.join(word for word in line)
            sentences_w1.append(line)
        except ValueError as ve:
            pass
    elif w2 in line.split():
        try:
            line = preprocessing(line)
            line = get_context(ps.stem(w2), line)
            line.remove(ps.stem(w2))
            line = ' '.join(word for word in line)
            sentences_w2.append(line)
        except ValueError as ve:
            pass

# stampiamo il numero di frasi trovate ed i primi 5 contesti della lista
print(f'Numero di frasi con \'{w1}\':', len(sentences_w1))
pprint(sentences_w1[0:5])
print(f'\nNumero di frasi con \'{w2}\':', len(sentences_w2))
pprint(sentences_w2[0:5])

Numero di frasi con 'birra': 35
['cartello alimentato operai americani tedesca tv giappones carl',
 'allora mettiamolo prova ama linguo robot amo birra',
 'terribilment alto preoccupato tasso no momento dottori dite',
 'accoglienza parlar leader cè là movimentariano birra permessa',
 'felicità spensierata quando invec portata mano mhmh te']

Numero di frasi con 'strada': 13
['bacarozzi schifo uomo natura vittoria troy mcclure uccelli',
 'banch apert anziani camminano impunement guarda ancora sbronzo',
 'detto fidel castro dialogo prend nome quartier dedicata',
 'clinton bob dole passeggiano tenendosi mano bob dole',
 'carin apu lasciando attraversar fila paperel']


Usando i contesti trovati, passiamo all'estrazione dei cluster. Sono stati sviluppati due metodi:
- uno in cui viene creaata una __matrice di co-occorrenza__
- l'altro utilizza invece l'__indice TF-IDF__ per avere delle features numeriche

Entrambi proseguono applicando il __K-means__ per l'individuazione dei cluster.

In [9]:
def co_occurence_matrix(sentences):
    """
    Function that take a list of sentences and calculate co-occurrence matrix

    :param sentences: list of sentences

    :return: co-occurrence matrix as a Pandas dataframe, with words on rows and columns
    """
    # Convert a collection of text documents to a matrix of token counts
    cv = CountVectorizer(ngram_range=(1,1)) # verifichiamo la co-occorrenza di ogni singola parola con tutte le altre
    # matrix of token counts
    x = cv.fit_transform(sentences)
    xc = (x.T * x) # matrix manipulation   # ---- https://www.quora.com/Whats-the-meaning-of-matrixs-transpose-multiplied-by-the-matrix-itself
    xc.setdiag(0) # set the diagonals to be zeroes as it's pointless to be 1
    names = cv.get_feature_names_out() # This are the entity names (i.e. keywords)
    df = pd.DataFrame(data=xc.toarray(), columns=names, index=names)
    return df

def clustering_co_occ(sentences, clusters):
    """
    Clustering of sentences using Co-Occurrence matrix and K-means algorithm.

    :param sentences: list of sentences
    :param clusters: list of clusters' names

    :return: print the top terms of the two clusters
    """
    # vectorize the text i.e. convert the strings to numeric features
    X = co_occurence_matrix(sentences)

    # cluster documents
    true_k = len(clusters)  # numero dei cluster che vogliamo trovare
    model = KMeans(n_clusters=true_k, init='k-means++', max_iter=1000, n_init=1, random_state=27)
    model.fit(X)

    # Prendiamo solo i primi termini
    order_centroids = model.cluster_centers_.argsort()[:, ::-1]
    terms = X.columns
    '''
    # print Top terms per cluster:
    print("Top terms per cluster:")
    for i in range(true_k):
        print("Cluster %d:" % i)
        for ind in order_centroids[i, :10]:
            print(' %s' % terms[ind])
    '''
    df = pd.DataFrame(terms[order_centroids[:, :]].T, columns=clusters) # consideriamo solo le prime 30 parole del cluster
    return df


def clustering_tf_idf(sentences, clusters):
    """
    Clustering of sentences using Term Frequency and Inverse Document Frequency and K-means algorithm.

    :param sentences: list of sentences
    :param clusters: list of clusters' names

    :return: print the top terms of the two clusters
    """
    # vectorize the text i.e. convert the strings to numeric features
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(sentences)

    # cluster documents
    true_k = len(clusters) # numero dei cluster che vogliamo trovare
    model = KMeans(n_clusters=true_k, init='k-means++', max_iter=1000, n_init=1, random_state=27)
    model.fit(X)

    # Prendiamo solo i primi termini
    order_centroids = model.cluster_centers_.argsort()[:, ::-1]
    terms = vectorizer.get_feature_names_out()
    '''
    # print Top terms per cluster:
    print("Top terms per cluster:")
    for i in range(true_k):
        print("Cluster %d:" % i)
        for ind in order_centroids[i, :10]:
            print(' %s' % terms[ind])
    '''
    df = pd.DataFrame(terms[order_centroids[:, :]].T, columns=clusters) # consideriamo solo le prime 30 parole del cluster
    return df

Stampiamo i cluster trovati.

In [10]:
# il tf-idf dovrebbe avere risultati migliori in quanto è una misura più raffinata (parte anch'essa dalla co-occ matrix e la elabora)
# df_w1 = clustering_tf_idf(sentences_w1, ['Cluster 0', 'Cluster 1'])
# df_w2 = clustering_tf_idf(sentences_w2, ['Cluster 0', 'Cluster 1'])

df_w1 = clustering_co_occ(sentences_w1, ['Cluster 0', 'Cluster 1'])
df_w2 = clustering_co_occ(sentences_w2, ['Cluster 0', 'Cluster 1'])
print(f'Cluster di \'{w1}\'\n', df_w1, '\n')
print(f'Cluster di \'{w2}\'\n', df_w2)

Cluster di 'birra'
     Cluster 0    Cluster 1
0        duff        birra
1       fuori          ama
2       pizza     famiglia
3          be  accoglienza
4        cosa          dog
..        ...          ...
225        cè        fuori
226    canzon         nome
227  famiglia        pizza
228       ama        chied
229     birra      momento

[230 rows x 2 columns] 

Cluster di 'strada'
     Cluster 0    Cluster 1
0        dole    pantaloni
1         bob        mezzo
2     sbronzo    abbassati
3   bacarozzi        tizio
4      guarda     camminar
..        ...          ...
95  spilungon  passeggiano
96   camminar   pericolosa
97  pantaloni   potrebbero
98      mezzo        prego
99  abbassati  lustrascarp

[100 rows x 2 columns]


  df = pd.DataFrame(terms[order_centroids[:, :]].T, columns=clusters) # consideriamo solo le prime 30 parole del cluster
  df = pd.DataFrame(terms[order_centroids[:, :]].T, columns=clusters) # consideriamo solo le prime 30 parole del cluster


I cluster appena trovati rappresentano dei possibili sensi per le parole $w_1,w_2$.

### Pseudo-word evaluation
Applichiamo ora il metodo della __pseudo-word evaluation__, con il quale verifichiamo quanto cambiano i cluster associati alle parole se le sostituiamo all'interno del corpus con la loro concatenazione.
Questo ci permette di verificare se i cluster sono corretti.

In [11]:
# concateniamo le due parole
w = w1 + w2
print(w1, w2, w)

# i contesti sono uguali, li concateniamo soltanto
# sentences_w = sentences_w1 + sentences_w2

# ogni volta che una delle due parole viene trovata, si procede a sostituirla con la concatenazione e poi si processa la frase
sentences_w = []
for line in open('utils/cleaned_simpson_corpus.txt', 'r').readlines():
    line = preprocessing(line)
    if (w1 or w2) in line.split():
        line = re.sub('|'.join("((?<=\s)|(?<=^)){}((?=\s)|(?=$))".format(i) for i in [w1, w2]), w, line)
        try:
            line = get_context(ps.stem(w), line)
            line.remove(ps.stem(w)) # todo se nella riga c'è più volte la parola essa viene considerata una sola volta. Si possono avere molti più contesti se si considerano tutte le occorrenze della parola usando line.count(w1)
            line = ' '.join(word for word in line)
            sentences_w.append(line)
        except ValueError as ve:
            pass
print(f'\nNumero di frasi con \'{w}\':', len(sentences_w))
sentences_w[:10]

birra strada birrastrada

Numero di frasi con 'birrastrada': 64


['capisco be serv po',
 'cartello alimentato operai americani tedesca tv giappones carl',
 'far parlar cani spot ce dirà cow boy',
 'rimastosenza vino carrello indicando dottor dice meccanico concorda',
 'allora mettiamolo prova ama linguo robot amo birrastrada',
 'terribilment alto preoccupato tasso no momento dottori dite',
 'accoglienza parlar leader cè là movimentariano birrastrada permessa',
 'reverendo lovejoy tenta corromperlo mmm birrastrada vuoi bel',
 'felicità spensierata quando invec portata mano mhmh te',
 'anchio coro alzando boccali salut stramitico grazi ragazzi']

In [12]:
df_w = clustering_co_occ(sentences_w, ['Cluster 0', 'Cluster 1', 'Cluster 2', 'Cluster 3'])
# df_w = clustering_tf_idf(sentences_w, ['Cluster 0', 'Cluster 1'])
df_w

  df = pd.DataFrame(terms[order_centroids[:, :]].T, columns=clusters) # consideriamo solo le prime 30 parole del cluster


Unnamed: 0,Cluster 0,Cluster 1,Cluster 2,Cluster 3
0,birrastrada,duff,ce,tutta
1,duff,lora,parlar,boccal
2,tv,arrivata,prenderò,apu
3,lattina,ammett,boy,mentr
4,molto,sazi,cani,portano
...,...,...,...,...
390,parlar,ohahi,vorrei,famiglia
391,mentr,dopo,molto,smither
392,portano,sola,senza,molto
393,ce,be,già,già


Il cluster ottenuto è quello con la parola concatenata, andiamo adesso a verificare se esso contiene i termini dei cluster di riferimento delle parole $w_1,w_2$.
Per valutare il sistema conteremo quanti elementi sono in comune, un buon sistema di WSI dovrebbe contenere un alto numero di termini.

In [48]:
for c in df_w.columns:
    for (cw1, cw2) in zip(df_w1.columns, df_w2.columns):
        diff1 = set(df_w[c]).intersection(df_w1[cw1])
        diff2 = set(df_w[c]).intersection(df_w2[cw2])

        # print(len(diff1), diff1)
        # print(len(diff2), diff2)
        # print('\n', c, cw1, cw2)
        # print(len(df_w), len(diff1), len(diff2))
        print(f'{c}: {len(df_w)}\n'
              f'{cw1}: {len(diff1)}\n'
              f'{cw2}: {len(diff2)}\n\n')


Cluster 0: 395
Cluster 0: 229
Cluster 0: 16


Cluster 0: 395
Cluster 1: 229
Cluster 1: 16


Cluster 1: 395
Cluster 0: 229
Cluster 0: 16


Cluster 1: 395
Cluster 1: 229
Cluster 1: 16


Cluster 2: 395
Cluster 0: 229
Cluster 0: 16


Cluster 2: 395
Cluster 1: 229
Cluster 1: 16


Cluster 3: 395
Cluster 0: 229
Cluster 0: 16


Cluster 3: 395
Cluster 1: 229
Cluster 1: 16




1. trovati i cluster corretti dei sensi delle parole
2. ora applicare la pseudo-words eval e calcolare i nuovi cluster
3. vedere differenza fra i cluster nuovi e vecchi