#Utilizando processamento de linguagem natural para criar um sumarização automática de textos


In [32]:
#! pip install nltk
#! pip install beautifulsoup4

Recomendo que você faça o download dos seguintes pacotes:
- averaged_perceptron_tagger
- floresta
- mac_morpho
- machado
- punkt
- stopwords
- wordnet
- words

In [33]:
import nltk
#nltk.download()

###2- Abrir um arquivo de texto local


In [34]:
#pip install textract
import textract
texto = textract.process("/content/Material Adicional Cap-007.pdf")
print(texto)

b'Pathwork  Material  Adicional  No.  7 \n9 de Agosto de 1973 \n \n \nEsta \xc3\xa9 uma transmiss\xc3\xa3o do Guia, dada a mim para que seja escrita. Isto acontece ocasionalmente, e \ntenho aprendido desde que o Guia se manifestou pela primeira vez a obedecer a forte press\xc3\xa3o que \nn\xc3\xa3o relaxa at\xc3\xa9 que eu me entregue e siga. A press\xc3\xa3o come\xc3\xa7ou ontem \xc3\xa0 noite, quando ent\xc3\xa3o eu soube \nque alguma mensagem estava vindo. Eva Pierrakos \n \n \n                                                A MENSAGEM \n \n \nEste \xc3\xa9 um esbo\xc3\xa7o, um tipo novo de desenho t\xc3\xa9cnico, para todos meus amigos no caminho. Isto os \najudar\xc3\xa1  a  visualizar,  conceber  e  criar  dentro  deles  uma  nova  percep\xc3\xa7\xc3\xa3o  da  fun\xc3\xa7\xc3\xa3o  do  Centro  no \nfuturo. \n \nPrimeiro  de  tudo  e  uma  vez  mais,  o  pr\xc3\xa9-requisito  b\xc3\xa1sico  para  a  realiza\xc3\xa7\xc3\xa3o  do  Plano  Divino  do \nCentro \xc3\xa9 a continua\xc3\x

###4- Chegou o momento de aplicarmos o processamento sobre linguagens naturais para tratar o texto extraído da notícia do site. Vamos começar importando algumas funcionalidades da biblioteca NLTK:

In [35]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize

###Agora vamos dividir o nosso texto em sentenças e depois em palavras:


In [36]:
texto=texto.decode("utf-8")


In [37]:
sentencas = sent_tokenize(texto)
palavras = word_tokenize(texto.lower())

###5- Um detalhe muito importante no processamento de linguagens naturais é identificar as chamadas stopwords do idioma. Stopword nada mais é que uma palavra que possui apenas significado sintático dentro da sentença, porém não traz informações relevantes sobre o seu sentido. As stopwords possuem uma frequência muito grande em todos os idiomas e por esse motivo precisamos eliminá-las das palavras que extraímos do texto. Caso contrário, nosso algoritmo poderia dar importância para palavras como: “e”, “ou”, “para”….e isso certamente atrapalharia nossa análise.

###ATENÇÃO: O processo de “tokenização” do NLTK considera as pontuações do texto como tokens também e por isso não podemos deixar de retirá-los também!

###Retirando as stopwords da nossa lista de palavras:


In [38]:
from nltk.corpus import stopwords
from string import punctuation
stopwords = set(stopwords.words('portuguese') + list(punctuation))
palavras_sem_stopwords = [palavra for palavra in palavras if palavra not in stopwords]

###Veja que utilizamos SET (não permite elementos repetidos) e também compreensão de lista. Temos que configurar o idioma das stopwords que queremos, no caso português. Retiramos também todas as pontuações utilizando ponctuation da biblioteca string.
###Agora temos nossa lista de palavras do texto sem as stopwords, armazenada na variável palavras_sem_stopwords.


###6- Hora de criar a nossa distribuição de frequência para essa lista de palavras e descobrir quais são as mais importantes. Para isso, vamos utilizar a função FreqDist da biblioteca nltk.probability:

In [39]:
from nltk.probability import FreqDist
frequencia = FreqDist(palavras_sem_stopwords)

###7- Vamos agora separar quais são as sentenças mais importantes do nosso texto. Criaremos um “score” para cada sentença baseado no número de vezes que uma palavra importante se repete dentro dela. Vamos utilizar um dicionário especial chamado defaultdict da biblioteca collections. A principal diferença para um dicionário comum é que ele não lança uma exceção quando você pesquisa por uma chave inexistente (KeyError). Ao contrário, ele adiciona essa chave no dicionário!

In [40]:
from collections import defaultdict
sentencas_importantes = defaultdict(int)

###Hora de popular o nosso dicionário. Vamos criar um looping para percorrer todas as sentenças e coletar todas as estatísticas:

In [41]:
for i, sentenca in enumerate(sentencas):
    for palavra in word_tokenize(sentenca.lower()):
        if palavra in frequencia:
            sentencas_importantes[i] += frequencia[palavra]

###Note que o código acima popula o dicionário com o índice da sentença (key) e a soma da frequência de cada palavra presente na sentença (value).

###9- Pronto! De posse dessas informações, podemos selecionar no nosso dicionário as “n” sentenças mais importantes para formar o nosso resumo. Para facilitar a nossa vida, vamos usar a funcionalidade nlargest da biblioteca heapq:

In [42]:
from heapq import nlargest
idx_sentencas_importantes = nlargest(4, sentencas_importantes, sentencas_importantes.get)

###No código acima, eu escolhi as 4 sentenças mais importantes!

###10- Finalmente podemos criar o nosso resumo:

In [43]:
for i in sorted(idx_sentencas_importantes):
    print(sentencas[i])

Nenhum assunto é tão pequeno que não mereça atenção total.. 
 
Deveria haver reuniões diárias, (às quais vocês podem chamar de grupos de confronto) onde não só 
as pessoas perturbadas, ansiosas ou infelizes que precisam de ajuda do grupo deveriam trabalhar mas 
o trabalho também deveria ser feito confrontando aqueles que talvez sintam que nenhuma ajuda é 
necessária no momento e que podem estar abstraídos das suas expressões negativas que são notadas 
por outros.
Quando  há 
aqueles que rejeitam a  mente—o intelecto e o conhecimento existente—(que é afinal só mais uma 
expressão da Criação Divina) então isto deve ser trabalhado.Tal pessoa  deveria reconhecer que para 
ela, aprender algumas das coisas do mundo talvez seja mais importante do que para aquele que usa o 
conhecimento exterior como um meio de evitar suas negatividades e seu eu que sente.
_____________________________________________________________________________________________ 
Os seguintes avisos constituem orientação pa

###A frase “sem sentido” no início do resumo é a legenda da foto contida na notícia!
