# Esercizio 5 - Automatic summarization

Si vuole ridurre un documento del 10%, 20% o 30% secondo la seguente strategia

1. Individuare l'argomento del testo che si sta riassumendo; l'argomento può essere indicato come un (insieme di) vettori NASARI:
    - vt1 = {term1_score, term2_score, …, term10_score }
    - vt2 = {term1_score, term2_score, …, term10_score } 
    - ...

2. creare il contesto, raccogliendo qui i vettori dei termini (questo passaggio può essere ripetuto, scaricando ad ogni round il contributo dei termini associati)

3. conservare i paragrafi le cui frasi contengono i termini più salienti, in base alla sovrapposizione ponderata, WO(v1,v2)
    - riclassificare il peso dei paragrafi applicando almeno uno degli approcci menzionati (titolo, spunto, frase, coesione).

In [7]:
import requests
import os
import pandas as pd
import re
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import MWETokenizer #tiene conto delle multiword expressions
from nltk.corpus import wordnet as wn
import json
from operator import itemgetter

#BABELNET_TOKEN = '1e258739-f5e4-4961-8267-a2da4fe94572' #MO
BABELNET_TOKEN = '01a5d861-2f36-45cb-8974-a2a6526530d2' #LT

## Pre-processing

Metodo utilizzato per eseguire il preprocessing delle frasi, in cui vengono effettuate le seguenti operazioni:
- Rimozione della punteggiatura
- Trasformazione delle lettere in lowercase
- Tokenizzazione della frase tenendo conte delle multiword expression
- Lemmatizzazione di tutte le parole
- Rimozione delle stop words

In [106]:
stop_words = set(stopwords.words('english')) #remove stop words
mwes = [x for x in wn.all_lemma_names() if '_' in x]
mwes = [tuple(x.split('_')) for x in mwes]
tokenizer = MWETokenizer(mwes, separator=' ')
lemmatizer = WordNetLemmatizer()

def pre_processing(document):
    document = re.sub(r'[^\w\s]',' ',document) #remove punctuation
    document = document.lower()
    document = tokenizer.tokenize(document.split())
    document = [lemmatizer.lemmatize(token) for token in document]  
    document = [w for w in document if not w in stop_words]
    return document

## Babelnet Id di una frase

Viene utilizzato principalmente per ottenere i Babelnet Id delle parole del titolo, che una volta sottosposti a WSD (in quanto, molto probabilmente, per ogni parola avremo più synset) ci serviranno per ottenere i vettori Nasari

In [9]:
'''
Data una frase restituisce tutti i suoi babelnet id
'''
def get_sentence_babelnet_ids(file_name, sentence):
    if os.path.exists('data/ids-'+ file_name +'.json'):
        with open('data/ids-'+ file_name +'.json') as json_file:
            ids = json.load(json_file)
    else:
        ids = {}
        # prendo gli id di babelnet per ogni parola della frase
        for word in sentence:
            ids[word] = requests.get(f'https://babelnet.io/v8/getSynsetIds?lemma={word}&searchLang=EN&key={BABELNET_TOKEN}').json()

        # prendo i synset di babelnet per ogni parola della frase
        with open('data/ids_'+ file_name +'.json', 'w') as fp:
            json.dump(ids, fp)

    return ids

'''
Dato un babelnet id guardo nel file locale se ho già le informazioni, altrimenti 
faccio una richiesta a babelnet e aggiungo la riga al file locale
'''
def get_babelnet_synset_by_id(syn_id):
    df = pd.read_csv('data/local_babelnet_syns.csv')
    glosses = ['']
    examples = ['']

    if syn_id in df['id'].values:
        row = df[df['id'] == syn_id]
        name = row['name'].values[0]
        if not 'nan' in str(row['glosses'].values[0]):
            glosses = row['glosses'].values[0].split(';')
        if not 'nan' in str(row['examples'].values[0]):
            examples = row['examples'].values[0].split(';')             
    else:
        response = requests.get(f'https://babelnet.io/v8/getSynset?id={syn_id}&key={BABELNET_TOKEN}').json()


        print('=============')
        print(response)
        print('=============')

        name = response['senses'][0]['properties']['fullLemma']
        glosses = ""
        for gloss in response['glosses']:
            glosses += str(gloss['gloss']) + ';'
        examples = ""
        for example in response['examples']:
            examples += str(example['example']) + ';'

        #add row to df and save it
        df = df.concat({'id': syn_id, 'name': name, 'glosses': glosses, 'examples': examples}, ignore_index=True)
        df.to_csv('data/local_babelnet_syns.csv', index=False)

        glosses = glosses.split(';')
        examples = examples.split(';')

    return syn_id, name, glosses, examples

## Nasari

Estrazione dei vettori Nasari dal file locale

In [99]:
def get_nasari_vectors():
    nasari_vectors = pd.read_csv('data/dd-nasari.txt', on_bad_lines='skip', header=None, sep=';')
    nasari_vectors = nasari_vectors.set_index(0)
    nasari_vectors[1].fillna('', inplace=True)    

    return nasari_vectors

## Algoritmo Simplified Lesk per disambiguare il titolo

Mi server per fare il WSD dei synsets ottenuti dei token del titolo

In [116]:
'''
Dati i tutti i synset di una parola e il suo contesto, andando ad applicare
il Lesk, restituisce il synset con il contesto più simile
'''
def get_signature(bn_syn):
    _, _, glosses, examples = get_babelnet_synset_by_id(bn_syn)

    signature = ""
    for gloss in glosses:
        signature += gloss + ' '
    for example in examples:
        signature += example + ' '
    return set(pre_processing(signature))

# Usa come contesto l'intero testo del file, non solo il titolo
def simplified_lesk_by_syns(bn_syns, context):
    best_sense = None
    if bn_syns is not None and len(bn_syns) > 0:
        best_sense = bn_syns[0]['id']
        max_overlap = 0

        for bn_syn in bn_syns:
            signature = get_signature(bn_syn['id'])
            overlap = len(context.intersection(signature))
            if overlap > max_overlap:
                max_overlap = overlap
                best_sense = bn_syn['id']
    return best_sense

def get_best_senses(ids, context):
    senses = {}
    for word in ids:
        senses[word] = simplified_lesk_by_syns(ids[word], context)

    return senses

## Estrazione del documento da riassumere

In [21]:
def open_text(file_name):
    text = open('data/docs/' + file_name + '.txt', 'r', encoding='utf-8').read().split('\n')

    # pre processing
    text = [line for line in text if line != '']
    text_preprocessed = [pre_processing(line) for line in text[0:]]

    # prendo il contesto per fare WSD dei babelnet id delle parole del testo
    context_for_wsd = []
    for sentence in text_preprocessed:
        context_for_wsd = context_for_wsd + sentence
    context_for_wsd = set(context_for_wsd)

    # prendo il titolo
    title_preprocessed = text_preprocessed[0]

    return title_preprocessed, text_preprocessed, text, context_for_wsd

## Associazione Nasari Vectors - Babelnet Synsets

Associazione dei vettori Nasari ai Synset disambiguati delle parole del testo

In [18]:
'''
Per ogni senso presente nel dizionario senses, restituisce il vettore nasari corrispondente se esiste
'''
def get_nasari_vectors_by_senses(senses, nasari_vectors):
    vectors = {}

    for sense in senses:
        v = get_nasari_vectors_by_sense(senses[sense], nasari_vectors)
        if v is not None:
            vectors[sense] = v

    return vectors

'''
Dato un senso (cioè un babelnet id), restituisce il vettore nasari corrispondente se esiste
'''
def get_nasari_vectors_by_sense(sense, nasari_vectors):
    if sense in list(nasari_vectors.index.values):
        return nasari_vectors.loc[sense]
    else:
        return None

## Creazione topic

In [128]:
def get_weighted_topic(vectors):
    get_weighted_context = []

    for vector in vectors:
        #print(vectors[vector])
        sum_weights = 0
        for word in vectors[vector]:
            array = word.split('_')
            if len(array) > 1:
                sum_weights += float(word.split('_')[1])
            
        for word in vectors[vector]:
            array = word.split('_')
            if len(array) > 1:    
                weight = float(word.split('_')[1]) / sum_weights
                # preprocess word
                word_to_added = word.split('_')[0]
                word_to_added = re.sub(r'[^\w\s]',' ',word_to_added) #remove punctuation
                word_to_added = word_to_added.lower()
                word_to_added = lemmatizer.lemmatize(word_to_added)

                get_weighted_context.append((word_to_added, weight))

    return get_weighted_context

## Attribuzione score ai paragrafi


### Ottenimento dei vettori nasari delle parole nel paragrafo

Data una parola x della frase, andiamo a cercare in nasari_vectors tutti i vettori nasari che hanno x come testa. Fatto ciò, probabilmente, avremo più vettori per ogni parola (quindi più sensi per la parola), occorre quindi fare WSD su di essi. Per fare ciò ricorriamo all'utilizzo di un'altra implementazione del simplified lesk che andrà ad usare come contesto le parole presenti nel topic, mentre come signature le parole presenti nel vettore nasari del senso

In [171]:
'''
Restituisce i vettori nasari che contengono nella testa la parola word
'''
def get_nasari_vectors_by_token(token, nasari_vectors):
    return nasari_vectors[nasari_vectors[1].str.contains(token)]

In [196]:
'''
Per ogni vettore nasari del token, restituisce un dizionario con chiave il babelnet id e valore le parole
contenute nel vettore nasari
'''
def get_context_foreach_token_sense(nasari_vectors_by_token):
    context = {}
    for index, row in nasari_vectors_by_token.iterrows():
        bn_id = row.name
        row_values = row.iloc[1:].apply(lambda x: x.split('_')[0] if len(x.split('_')) > 0 else '').values
        concatenated_row = ' '.join(row_values)
        context[bn_id] = pre_processing(concatenated_row)
    
    if context == {}:
        return None
    
    return context

In [210]:
def get_contexts_of_sentence_word_from_nasari(word, nasari_vectors):
    nasari_vectors_by_token = get_nasari_vectors_by_token(word, nasari_vectors)
    return get_context_foreach_token_sense(nasari_vectors_by_token)

def simplified_lesk_for_paragraphs_word(word, context, nasari_vectors):
    best_sense = None
    max_overlap = 0

    word_signature = get_contexts_of_sentence_word_from_nasari(word, nasari_vectors)
    print(word_signature)
    if word_signature is not None:
        print('b')
        if len(word_signature) > 0:
            print('c')
            for bn_syn in word_signature.keys():
                signature = word_signature[bn_syn]
                overlap = len(context.intersection(signature))
                if overlap > max_overlap:
                    max_overlap = overlap
                    best_sense = bn_syn
    return best_sense

def get_nasari_vector_for_topic(title_nasari_vectors, weighted_topic, nasari_vectors):
    context = [x[0] for x in weighted_topic]

    weighted_topic_vectors = {}
    for token, _ in weighted_topic:
        if token in title_nasari_vectors:
            weighted_topic_vectors[token] = title_nasari_vectors[token]
        else:
            best_sense = simplified_lesk_for_paragraphs_word(token, context, nasari_vectors)
            weighted_topic_vectors[token] = nasari_vectors.loc[best_sense]

    return weighted_topic_vectors

weighted_topic_vectors = get_nasari_vector_for_topic(title_nasari_vectors, weighted_topic, nasari_vectors)


None


KeyError: None

## Pesatura dei paragrafi

Eseguita usando la metrica Weighted Overlap

In [108]:
# weighted overlap
def weighted_overlap2(vect1, vect2):
    tot = 0.0
    overlap = 0
    for i, elem in enumerate(vect1):
        try:
            index = vect2.index(elem) + 1
            overlap += 1
        except:
            index = -1
        if index != -1:
            tot += (i + 1 + index) ** (-1)
    denominatore = 1.0
    for i in range(1, overlap + 1):
        denominatore += (2 * i) ** (-1)
    return tot / denominatore

In [180]:
def compute_score_paragraph(paragraph, synsets_context, total_weight, nasari_vectors):
    synsets_sentence = []
    score_sentence = 0
    for word in paragraph:
        synsets_sentence.append(simplified_lesk_for_paragraphs_word(word, set([tupla[0] for tupla in synsets_context])), nasari_vectors)
    for syn_word in synsets_sentence:
        score_word = 0
        for (syn_topic,weight) in synsets_context:
            score_word += (weighted_overlap2(syn_word, syn_topic)*weight)
        score_word /= total_weight #media ponderata
        score_sentence += score_word
    score_sentence /= len(paragraph)
    return score_sentence

In [181]:
def disambiguate_word_context(weighted_context):
    synsets_topic = []
    total_weight = 0
    for (word_topic, weight) in weighted_context:
        synset_word_context = simplified_lesk(get_babelnet_synset_by_word(word_topic), set([tupla[0] for tupla in weighted_context if tupla[0] != word_topic]))#disambiguo il termine del topic utilizzando lesk, in cui come contesto di disambiguazione utilizzo il contesto eccetto la parola corrente
        print('il synset della parola del contesto:',word_topic, ' è -> ', synset_word_context)
        if synset_word_context is not None:
            synsets_topic.append((synset_word_context, weight))
            total_weight += weight
    return synsets_topic, total_weight

In [None]:
'''def weighted_overlap(sentence, weighted_context):
    numeratore = 0
    for word in sentence:
        #check if word is in first column of key_words
        if word in [x[0] for x in weighted_context]:
            #print(f'{word} in key_words')
            #get index of word in key_words
            index = [x[1] for x in weighted_context if x[0] == word][0]
            #print(f'index: {index}')

            numeratore += 1/(index)
            #print('\n')
       # else:
            #print(f'{word} not in key_words')
            #print('\n')

    i = 1
    denominatore = 0
    for word in weighted_context:
        denominatore += 1/(2*i)
        i += 1

    return numeratore/denominatore'''

## Estrazione automatica del riassunto

In [165]:
def make_summarization(text, text_preprocessed, synsets_context, total_weight, perc=0.8):
    text_preprocessed = text_preprocessed[1:]

    title = text[0]
    text = text[1:] #rimuovo il titolo

    weight_sentences = []
    i = 0

    for paragraph in text_preprocessed:
        # attribuisce un peso ad ogni frase
        weight_sentences.append((i, text[i], compute_score_paragraph(paragraph, synsets_context, total_weight)))
        i += 1

    # ordina le frasi in base al peso
    weight_sentences = sorted(weight_sentences, key=lambda tup: tup[2], reverse=True)
    # prendi il primo 80% delle weight_sentences
    weight_sentences = weight_sentences[:round(len(weight_sentences) * perc)]
    # ordina le frasi in base all'id
    weight_sentences = sorted(weight_sentences, key=lambda tup: tup[0])

    # prendi solo le frasi
    summary = [x[1] for x in weight_sentences]
    #add in the first postizion the title
    summary.insert(0, title)
    return summary

def print_summary(summary):
    summary = '\n\n'.join(summary)
    print(summary)
    return 

## Main

In [115]:
file_name = 'Andy-Warhol'
nasari_vectors = get_nasari_vectors()

In [117]:
title_preprocessed, text_preprocessed, text, context_for_wsd_title = open_text(file_name)

# prendo il titolo e ottengo i sensi corretti dei token del titolo
bn_ids = get_sentence_babelnet_ids(file_name, title_preprocessed)
title_senses = get_best_senses(bn_ids, context_for_wsd_title)


In [129]:
# ottenimento del topic
title_nasari_vectors = get_nasari_vectors_by_senses(title_senses, nasari_vectors)
weighted_topic = get_weighted_topic(title_nasari_vectors)


In [148]:
weighted_topic_vectors = get_nasari_vector_for_topic(title_nasari_vectors, weighted_topic, nasari_vectors)


andy warhol
[('warhol', 0.513940240030623), ('andy warhol', 0.15170791020242733), ('basquiat', 0.07589561144761432), ('pop art', 0.05767039697372272), ('sedgwick', 0.04855553804237688), ('painting', 0.04365134763909842), ('film', 0.039632073135034106), ('artist', 0.036058634122176934), ('art', 0.03288824840692621), ('music', 0.24569128741904467), ('popular music', 0.1448455660313237), ('jazz', 0.11714115099670835), ('song', 0.10419559370418197), ('rock', 0.08939061453164898), ('disco', 0.08708697045315517), ('genre', 0.07561972637854525), ('folk music', 0.07089349347988619), ('hop', 0.06513559700550542), ('painting', 0.42251743635434036), ('paint', 0.14766699098034053), ('art', 0.0757427034816619), ('artist', 0.06631962946263885), ('painter', 0.0648116787439353), ('image', 0.061398834628071185), ('watercolor', 0.059217807193723125), ('jpg', 0.052305827075373804), ('abstract expressionism', 0.050019092079914916), ('mind', 0.25866795394004316), ('thought', 0.19115657284604867), ('human',

In [135]:
weighted_topic

[('warhol', 0.513940240030623),
 ('andy warhol', 0.15170791020242733),
 ('basquiat', 0.07589561144761432),
 ('pop art', 0.05767039697372272),
 ('sedgwick', 0.04855553804237688),
 ('painting', 0.04365134763909842),
 ('film', 0.039632073135034106),
 ('artist', 0.036058634122176934),
 ('art', 0.03288824840692621),
 ('music', 0.24569128741904467),
 ('popular music', 0.1448455660313237),
 ('jazz', 0.11714115099670835),
 ('song', 0.10419559370418197),
 ('rock', 0.08939061453164898),
 ('disco', 0.08708697045315517),
 ('genre', 0.07561972637854525),
 ('folk music', 0.07089349347988619),
 ('hop', 0.06513559700550542),
 ('painting', 0.42251743635434036),
 ('paint', 0.14766699098034053),
 ('art', 0.0757427034816619),
 ('artist', 0.06631962946263885),
 ('painter', 0.0648116787439353),
 ('image', 0.061398834628071185),
 ('watercolor', 0.059217807193723125),
 ('jpg', 0.052305827075373804),
 ('abstract expressionism', 0.050019092079914916),
 ('mind', 0.25866795394004316),
 ('thought', 0.1911565728460

In [134]:
title_nasari_vectors

{'andy warhol': 1            Andy Warhol
 2         warhol_2282.46
 3     andy warhol_673.75
 4        basquiat_337.06
 5         pop art_256.12
 6        sedgwick_215.64
 7        painting_193.86
 8            film_176.01
 9          artist_160.14
 10            art_146.06
 Name: bn:00004020n, dtype: object,
 'pop': 1           Popular music
 2           music_1012.14
 3     popular music_596.7
 4             jazz_482.57
 5             song_429.24
 6             rock_368.25
 7            disco_358.76
 8            genre_311.52
 9       folk music_292.05
 10             hop_268.33
 Name: bn:00063586n, dtype: object,
 'artist': 1                          Painting
 2                  painting_1958.55
 3                       paint_684.5
 4                         art_351.1
 5                     artist_307.42
 6                    painter_300.43
 7                      image_284.61
 8                  watercolor_274.5
 9                        jpg_242.46
 10    abstract expressionism_231

In [None]:
compute_score_paragraph(text_preprocessed[1], title_nasari_vectors, 1, nasari_vectors)

In [None]:
synsets_context, total_weight = disambiguate_word_context(weighted_context=weighted_context)

{'message': 'Your key is not valid or the daily requests limit has been reached. Please visit http://babelnet.org.'}


KeyError: 0

In [None]:
summary = make_summarization(text, text_preprocessed, synsets_context, total_weight)

## Valutazione

la valutazione può essere eseguita sulla base di due metriche complementari
- BLEU (bilingual evaluation understudy) per quanto riguarda la precision
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation) per quanto riguarda la recall

### BLEU

funzione di scoring che è stata elaborata per valutare i sistemi per la traduzione automatica
- costruire un sommario di riferimento, come un elenco di termini rilevanti che dovrebbero essere presenti.
- confrontare l'insieme di termini nel riepilogo automatico (che chiamiamo riepilogo del candidato) con quelli nel riepilogo del candidato.
- il punteggio BLEU è calcolato come P = m/wt che è la frazione di termini del candidato che si trovano nel riferimento, dove m è il numero di termini del candidato che sono nel riferimento, e wt è la dimensione di il candidato

La precision in IR è solitamente definita come 
precision = |{relevant documents} ∩ {retrieved documents}| / |{retrieved documents}|


In [None]:
file_name_manual_sum = 'Andy-Warhol-manual-sum'

_, _, manual_sum, _ = open_text(file_name_manual_sum)
automatic_sum = make_summarization(text, text_preprocessed, weighted_context)

count = 0
for line in automatic_sum:
    if (line in manual_sum):
        count += 1

print(f'Precision: {count/len(automatic_sum)}')

### RECALL

Questa metrica stima in che misura le parole (e/o n-grammi) nei riassunti di riferimento umano sono apparse nei riassunti creati dal sistema
- ROUGE-N: Sovrapposizione di N-grammi tra candidato e riferimento
riepilogo.
- ROUGE-1 si riferisce alla sovrapposizione di unigramma (ogni parola) tra il sommari di sistema e di riferimento.

La Recall in IR è abitualmente definito come recall =|{relevant documents} ∩ {retrieved documents}| / |{relevant documents}|



In [None]:
file_name_manual_sum = 'Andy-Warhol-manual-sum'

_, _, manual_sum, _ = open_text(file_name_manual_sum)
automatic_sum = make_summarization(text, text_preprocessed, weighted_context)

count = 0
for line in automatic_sum:
    if (line in manual_sum):
        count += 1

print(f'Recall: {count/len(manual_sum)}')

# PENSO NON SERVA

In [None]:
def get_nasari_vector_by_sense(sense):
    nasari_vectors = get_nasari_vectors()
    vector = None
    if sense in list(nasari_vectors.index.values):
        vector = nasari_vectors.loc[sense]
    return vector