In [1]:
from IPython.core.display import HTML
import re
import nltk
import string
import heapq

nltk.download('stopwords')
nltk.download('rslp')
nltk.download('punkt')

def gerar_resumo(texto_original, quantidade=3, titulo=None):
    # Remove espaços em branco extras
    texto_original = re.sub(r'\s+', ' ', texto_original)
    
    # Pré-processamento do texto
    def pre_processamento(texto):
        texto_formatado = texto.lower()
        tokens = [token for token in nltk.word_tokenize(texto_formatado) if token not in stop_words and token not in string.punctuation]
        texto_formatado = " ".join(tokens)
        return texto_formatado

    stop_words = set(nltk.corpus.stopwords.words('portuguese'))
    texto_formatado = pre_processamento(texto_original)
    
    # Frequência das palavras
    frequencia = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
    frequencia_maxima = max(frequencia.values())

    for palavra in frequencia.keys():
        frequencia[palavra] = frequencia[palavra] / frequencia_maxima

    # Divisão do texto em frases
    lista_sent = nltk.sent_tokenize(texto_original)

    # Calcula notas para as frases
    notas_sent = {}
    for sent in lista_sent:
        for palavra in nltk.word_tokenize(sent.lower()):
            if palavra in frequencia.keys():
                if sent not in notas_sent:
                    notas_sent[sent] = frequencia[palavra]
                else:
                    notas_sent[sent] += frequencia[palavra]

    # Seleciona as melhores frases para o resumo
    melhores_sent = heapq.nlargest(quantidade, notas_sent, key=notas_sent.get)

    # Gera o resumo destacando as melhores frases
    display(HTML(f'<h1>Resumo do Texto - {titulo if titulo else "Sem Título"}</h1>'))
    texto_resumido = ''
    for sent in lista_sent:
        if sent in melhores_sent:
            texto_resumido += f"<mark>{sent}</mark>"
        else:
            texto_resumido += sent
    display(HTML(texto_resumido))

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\diham\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\diham\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\diham\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [2]:
lista_artigos = ["https://www.tse.jus.br/institucional/escola-judiciaria-eleitoral/publicacoes/revistas-da-eje/artigos/revista-eletronica-ano-ii-no-5/voto-consciente-um-forte-instrumento-de-mudanca-politica-e-social",
                 "https://www.scielo.br/j/ln/a/y5sBy8VgNzPf6xs7Q9qxTNq",
                 "https://www.tse.jus.br/institucional/escola-judiciaria-eleitoral/publicacoes/revistas-da-eje/artigos/revista-eletronica-eje-n.-6-ano-2",
                ]

In [85]:
from goose3 import Goose

for url in lista_artigos:
    g = Goose()
    title = g.extract(url).title
    artigo = g.extract(url)
    texto = gerar_resumo(artigo.cleaned_text, 5, title)