# Resumindo textos utilizando o NLTK

Importando as bibliotecas

In [32]:
from urllib.request import Request, urlopen
from bs4 import BeautifulSoup
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize
from nltk.corpus import stopwords
from string import punctuation
from nltk.probability import FreqDist
from collections import defaultdict
from heapq import nlargest

Fazendo o scraping do blog do Leg

In [36]:
link = Request('http://blog.leg.ufpr.br/archives/161')
pagina = urlopen(link).read().decode('utf-8', 'ignore')
soup = BeautifulSoup(pagina, "lxml")
texto = soup.find("div", {"class": "entry-content"}).text

Printando o inicio do nosso texto

In [37]:
texto[0:300]

'\nOlá Mundo!\nEsse é o primeiro post do blog do LEG, e assim como um programa “Hello World!”, serve para testar suas funcionalidades e apresentá-lo ao mundo.\nNeste blog pretendemos divulgar tutoriais sobre o R, shell Linux e outras ferramentas livres, conteúdos sobre Estatística e divulgar eventos e s'

### Dividindo o texto em sentenças, depois em palavras e removendo as stopwords

In [38]:
sentencas = sent_tokenize(texto)
palavras = word_tokenize(texto.lower())
stopwords = set(stopwords.words('portuguese') + list(punctuation))
palavras_sem_stopwords = [palavra for palavra in palavras if palavra not in stopwords]

Agora criaremos a frequência das palavras, para verificar quais as mais importantes.

In [39]:
frequencia = FreqDist(palavras_sem_stopwords)
frequencia

FreqDist({'aberta': 1,
          'about': 1,
          'acontecem': 1,
          'ainda': 1,
          'aplicações': 1,
          'apresentações': 1,
          'apresentá-lo': 1,
          'assim': 1,
          'assine': 1,
          'blog': 4,
          'compartilhar': 2,
          'construído': 1,
          'conteúdos': 1,
          'códigos-fonte': 1,
          'dentro': 1,
          'desenvolvidas': 1,
          'desse': 1,
          'disponibilizadas': 1,
          'disponibilizados': 1,
          'diversas': 1,
          'divulgar': 2,
          'documentos': 1,
          'eficiente': 1,
          'equipe': 1,
          'esforço': 2,
          'estatística': 1,
          'eventos': 1,
          'faz': 1,
          'fazem': 1,
          'feed': 1,
          'ferramentas': 2,
          'fique': 1,
          'funcionalidades': 1,
          'gitlab': 1,
          'hello': 1,
          'hospedado': 1,
          'laboratório': 1,
          'leg': 7,
          'linux': 1,
          'liv

### Verificando quais as sentenças mais importantes.

In [40]:
sentencas_importantes = defaultdict(int)
for i, sentenca in enumerate(sentencas):
    for palavra in word_tokenize(sentenca.lower()):
        if palavra in frequencia:
            sentencas_importantes[i] += frequencia[palavra]

Vamos pegar as n sentenças mais importantes, podemos variar esse numero conforme o tamanho do texto. No caso, pegaremos as 4 mais importantes.

In [41]:
idx_sentencas_importantes = nlargest(4, sentencas_importantes, sentencas_importantes.get)
for i in sorted(idx_sentencas_importantes):
    print(sentencas[i])

Neste blog pretendemos divulgar tutoriais sobre o R, shell Linux e outras ferramentas livres, conteúdos sobre Estatística e divulgar eventos e seminários que acontecem no LEG.
Como você pode ver, o blog foi construído com o WordPress (hospedado em um servidor do LEG), e faz parte de uma novo esforço da equipe do LEG para compartilhar, de maneira ainda mais aberta e eficiente, as ferramentas desenvolvidas no Laboratório.
Fazem parte desse esforço também o GitLab, utilizado para compartilhar códigos-fonte de pacotes do R, shell scripts, documentos e apresentações, e o Shiny, onde diversas aplicações web programadas em R são disponibilizadas.
Para saber mais sobre o blog, visite a página About, e para saber mais sobre o LEG visite a wiki do LEG.
