<a href="https://colab.research.google.com/github/adalves-ufabc/2021.QS-PLN/blob/main/2021_Q1_PLN_Notebook_29.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Processamento de Linguagem Natural [2021.Q1]**
Prof. Alexandre Donizeti Alves

### **Sumarização Automática de Textos**

Hoje em dia, várias organizações, sejam elas de compras on-line, organizações governamentais ou do setor privado, indústria de turismo ou outras instituições que oferecem serviços ao cliente, estão preocupadas com seus clientes e pedem *feedback* cada vez que usamos seus serviços. 

>
Considere o fato de que essas empresas podem receber enormes quantidades de feedback dos usuários todos os dias. E seria muito tedioso para a gerência sentar e analisar cada um deles. Mas, as tecnologias hoje chegaram a um ponto em que podem fazer praticamente todas as tarefas dos seres humanos. 

>
As máquinas tornaram-se capazes de compreender línguas humanas usando o Processamento de Linguagem Natural. Isso pode ser feito por meio de um algoritmo para reduzir o corpus do texto, mas mantendo seu significado original, ou dando uma grande visão do texto original.

In [1]:
import nltk

nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [2]:
# importing required libraries 
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize, sent_tokenize

In [3]:
# input text - to summarize  
text = """There are many techniques available to generate extractive summarization to keep it simple,
 I will be using an unsupervised learning approach to find the sentences similarity and rank them. 
 Summarization can be defined as a task of producing a concise and fluent summary while preserving 
 key information and overall meaning. One benefit of this will be, you don’t need to train and build a 
 model prior start using it for your project. It’s good to understand Cosine similarity to make the best 
 use of the code you are going to see. Cosine similarity is a measure of similarity between two non-zero 
 vectors of an inner product space that measures the cosine of the angle between them. 
 Its measures cosine of the angle between vectors. The angle will be 0 if sentences are similar """

In [4]:
# tokenizing the text 
stopWords = set(stopwords.words("english")) 
words = word_tokenize(text)

Um **dicionário** manterá um registro de quantas vezes cada palavra aparece no *feedback* depois de remover as *stop words*. Podemos usar o dicionário em cada frase para saber quais frases têm o conteúdo mais relevante no texto original.

In [5]:
# creating a frequency table to keep the score of each word 
freqTable = dict() 
for word in words: 
    word = word.lower() 
    if word in stopWords: 
        continue
    if word in freqTable: 
        freqTable[word] += 1
    else: 
        freqTable[word] = 1

Podemos usar o método `sent_tokenize()` para criar o array de sentenças. Em seguida, precisaremos de um dicionário para guardar a pontuação de cada frase, e depois iremos percorrer o dicionário para gerar o resumo.

In [6]:
# creating a dictionary to keep the score of each sentence 
sentences = sent_tokenize(text) 
sentenceValue = dict()

In [7]:
for sentence in sentences: 
    for word, freq in freqTable.items(): 
        if word in sentence.lower(): 
            if sentence in sentenceValue: 
                sentenceValue[sentence] += freq 
            else: 
                sentenceValue[sentence] = freq 

Uma abordagem simples para comparar as pontuações seria encontrar a pontuação média de uma frase.

In [8]:
sumValues = 0
for sentence in sentenceValue: 
	sumValues += sentenceValue[sentence] 

# average value of a sentence from the original text  
average = int(sumValues / len(sentenceValue))

In [9]:
# storing sentences into our summary
summary = '' 
for sentence in sentences: 
    if (sentence in sentenceValue) and (sentenceValue[sentence] > (1.2 * average)): 
        summary += " " + sentence 

print(summary) 

 There are many techniques available to generate extractive summarization to keep it simple,
 I will be using an unsupervised learning approach to find the sentences similarity and rank them. Cosine similarity is a measure of similarity between two non-zero 
 vectors of an inner product space that measures the cosine of the angle between them.


**Mais informações:**
> https://www.geeksforgeeks.org/python-text-summarizer/

> https://becominghuman.ai/text-summarization-in-5-steps-using-nltk-65b21e352b65