In [52]:
import string
import numpy as np
from nltk import PorterStemmer
from nltk.tokenize import sent_tokenize, word_tokenize

# Esercizio 2.1 - Text summarization estrattivo

Per questo esercizio è stato scelto come corpus la pagina di Wikipedia sul Natural Language Processing (<https://en.wikipedia.org/wiki/Natural_language_processing>).
Il testo è stato recuperato utilizzando _SketchEngine_.

L'obiettivo è quello di implementare un sistema di __text summarization estrattivo__ che riduca il numero di frasi del documento senza tralasciare informazioni importanti.

Carichiamo il corpus e creiamo un array con le singole frasi.

In [53]:
i = 0
all_sentences = np.array([])
for line in open('utils/wikipedia_nlp_page.txt', 'r').readlines():
    all_sentences = np.append(all_sentences, sent_tokenize(line))
all_sentences[:5]

array(['Natural language processing',
       'This article is about natural language processing done by computers.',
       'For the natural language processing done by the human brain, see Language processing in the brain.',
       'Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data.',
       'The goal is a computer capable of "understanding" the contents of documents, including the contextual nuances of the language within them.'],
      dtype='<U423')

In [54]:
# creiamo una copia per non modificare le frasi originali in fase di preprocessing (stopwards e punct removal ...)
summary = np.copy(all_sentences)

Effettuiamo preprocessing sulle frasi.

In [55]:
stopwords = []
for line in open("utils/stop_words_FULL.txt", 'r').readlines():
    stopwords.append(line.rstrip('\n'))
stopwords = np.array(stopwords)

# Initializing nltk.PorterStemmer()
ps = PorterStemmer()

def preprocessing(s):
    """
    Do some preprocessing operations on the string.

    :param s: the string

    :return: the preprocessed string
    """
    # Lowercasing
    s = s.lower()
    # Punct removal
    s = s.translate(str.maketrans('', '', string.punctuation))
    # Stopword removal
    s = ' '.join([word for word in s.split() if word not in stopwords])
    # Stemming
    # s = ' '.join([ps.stem(word) for word in s.split()])
    return s

In [56]:
vect_preprocessing = np.vectorize(preprocessing) # vettorizziamo la funzione in modo da applicarla a tutto l'array di frasi
summary = vect_preprocessing(summary)
summary[:5]

array(['natural language processing',
       'article natural language processing computers',
       'natural language processing human brain language processing brain',
       'natural language processing nlp subfield linguistics computer science artificial intelligence concerned interactions computers human language program computers process analyze large amounts natural language data',
       'goal computer capable understanding contents documents including contextual nuances language'],
      dtype='<U299')

Contiamo le frequenze delle parole per usarle come pesi la valutazione dell'importanza delle frasi.

In [70]:
def get_frequencies(sents):
    """
    Function to get first 4 frequent words.

    :param sents: a list of sentences

    :return: a dictionary of words with their frequency in the given sentences
    """
    words = []
    for s in sents:
        words += word_tokenize(s)
    # contiamo le parole in un dizionario
    counts = dict.fromkeys(words, 0) # inizializziamo i conteggi di tutte le parole a 0
    for w in words:
        counts[w] += 1
    return counts

In [71]:
frequencies = get_frequencies(summary)

In [72]:
'''
vedere questa guida -->  https://medium.com/analytics-vidhya/simple-text-summarization-using-nltk-eedc36ebaaf8

1) caricare il testo
2) dividere il testo in frasi (nltk.sent_tokenizer())
3) preprocessing sulle frasi

// come valutare quali frasi sono importanti??
4) trovare le n parole più frequenti nel testo
5) scegliere solo le frasi contenenti x parole frequenti
6) stampare il riassunto mostrando la riduzione in termini di frasi tolte
'''

'\nvedere questa guida -->  https://medium.com/analytics-vidhya/simple-text-summarization-using-nltk-eedc36ebaaf8\n\n1) caricare il testo\n2) dividere il testo in frasi (nltk.sent_tokenizer())\n3) preprocessing sulle frasi\n\n// come valutare quali frasi sono importanti??\n4) trovare le n parole più frequenti nel testo\n5) scegliere solo le frasi contenenti x parole frequenti\n6) stampare il riassunto mostrando la riduzione in termini di frasi tolte\n'