# Algoritmo básico baseado em frequência

## Pré-processamento do texto

In [1]:
import re
import nltk
import string

In [2]:
texto_original = """A inteligência artificial é a inteligência similar à humana.
                    Definem como o estudo de agente artificial com inteligência.
                    Ciência e engenharia de produzir máquinas com inteligência.
                    Resolver problemas e possuir inteligência.
                    Relacionada ao comportamento inteligente.
                    Construção de máquinas para raciocinar.
                    Aprender com os erros e acertos.
                    Inteligência artificial é raciocinar nas situações do cotidiano."""

In [3]:
texto_original

'A inteligência artificial é a inteligência similar à humana.\n                    Definem como o estudo de agente artificial com inteligência.\n                    Ciência e engenharia de produzir máquinas com inteligência.\n                    Resolver problemas e possuir inteligência.\n                    Relacionada ao comportamento inteligente.\n                    Construção de máquinas para raciocinar.\n                    Aprender com os erros e acertos.\n                    Inteligência artificial é raciocinar nas situações do cotidiano.'

In [4]:
texto_original = re.sub(r'\s+', ' ', texto_original)

In [5]:
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

In [6]:
nltk.download('punkt') # para realizar a tokenização das palavras

[nltk_data] Downloading package punkt to /home/junior/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [7]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /home/junior/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [8]:
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /home/junior/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [9]:
stopwords = nltk.corpus.stopwords.words('portuguese')
print(stopwords)

['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houvessem', 'houvésse

In [10]:
len(stopwords)

207

In [11]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [12]:
def preprocessamento(texto):
  
    texto_formatado = texto.lower()
    tokens = []

    for token in nltk.word_tokenize(texto_formatado):
        tokens.append(token)

    tokens = [palavra for palavra in tokens if palavra not in stopwords and palavra not in string.punctuation]
    texto_formatado = ' '.join([str(elemento) for elemento in tokens if not elemento.isdigit()])

    return texto_formatado

In [13]:
texto_formatado = preprocessamento(texto_original)
texto_formatado

'inteligência artificial inteligência similar humana definem estudo agente artificial inteligência ciência engenharia produzir máquinas inteligência resolver problemas possuir inteligência relacionada comportamento inteligente construção máquinas raciocinar aprender erros acertos inteligência artificial raciocinar situações cotidiano'

## Frequência das palavras

In [14]:
frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
frequencia_palavras

FreqDist({'inteligência': 6, 'artificial': 3, 'máquinas': 2, 'raciocinar': 2, 'similar': 1, 'humana': 1, 'definem': 1, 'estudo': 1, 'agente': 1, 'ciência': 1, ...})

In [15]:
frequencia_palavras['situações']

1

In [16]:
frequencia_palavras.keys()

dict_keys(['inteligência', 'artificial', 'similar', 'humana', 'definem', 'estudo', 'agente', 'ciência', 'engenharia', 'produzir', 'máquinas', 'resolver', 'problemas', 'possuir', 'relacionada', 'comportamento', 'inteligente', 'construção', 'raciocinar', 'aprender', 'erros', 'acertos', 'situações', 'cotidiano'])

In [17]:
frequencia_maxima = max(frequencia_palavras.values())

In [18]:
frequencia_maxima

6

In [19]:
for palavra in frequencia_palavras.keys():
  frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)

In [20]:
frequencia_palavras

FreqDist({'inteligência': 1.0, 'artificial': 0.5, 'máquinas': 0.3333333333333333, 'raciocinar': 0.3333333333333333, 'similar': 0.16666666666666666, 'humana': 0.16666666666666666, 'definem': 0.16666666666666666, 'estudo': 0.16666666666666666, 'agente': 0.16666666666666666, 'ciência': 0.16666666666666666, ...})

## Tokenização de sentenças

In [21]:
'o dr. joão foi para casa. Ele chegou cedo'.split('.')

['o dr', ' joão foi para casa', ' Ele chegou cedo']

In [22]:
nltk.word_tokenize('o dr. joão foi para casa. Ele chegou cedo')

['o', 'dr.', 'joão', 'foi', 'para', 'casa', '.', 'Ele', 'chegou', 'cedo']

In [23]:
nltk.sent_tokenize('o dr. joão foi para casa. Ele chegou cedo')

['o dr. joão foi para casa.', 'Ele chegou cedo']

In [24]:
lista_sentencas = nltk.sent_tokenize(texto_original)
lista_sentencas

['A inteligência artificial é a inteligência similar à humana.',
 'Definem como o estudo de agente artificial com inteligência.',
 'Ciência e engenharia de produzir máquinas com inteligência.',
 'Resolver problemas e possuir inteligência.',
 'Relacionada ao comportamento inteligente.',
 'Construção de máquinas para raciocinar.',
 'Aprender com os erros e acertos.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.']

## Geração do resumo (nota para as sentenças)

In [25]:
frequencia_palavras

FreqDist({'inteligência': 1.0, 'artificial': 0.5, 'máquinas': 0.3333333333333333, 'raciocinar': 0.3333333333333333, 'similar': 0.16666666666666666, 'humana': 0.16666666666666666, 'definem': 0.16666666666666666, 'estudo': 0.16666666666666666, 'agente': 0.16666666666666666, 'ciência': 0.16666666666666666, ...})

In [26]:
nota_sentencas = {}

for sentenca in lista_sentencas:
    #print(sentenca)
    for palavra in nltk.word_tokenize(sentenca.lower()):
        #print(palavra)
        if palavra in frequencia_palavras.keys():
            
            if sentenca not in nota_sentencas.keys():
                nota_sentencas[sentenca] = frequencia_palavras[palavra]
        
            else:
                nota_sentencas[sentenca] += frequencia_palavras[palavra]

In [27]:
nota_sentencas

{'A inteligência artificial é a inteligência similar à humana.': 2.833333333333333,
 'Definem como o estudo de agente artificial com inteligência.': 2.0,
 'Ciência e engenharia de produzir máquinas com inteligência.': 1.8333333333333333,
 'Resolver problemas e possuir inteligência.': 1.5,
 'Relacionada ao comportamento inteligente.': 0.5,
 'Construção de máquinas para raciocinar.': 0.8333333333333333,
 'Aprender com os erros e acertos.': 0.5,
 'Inteligência artificial é raciocinar nas situações do cotidiano.': 2.1666666666666665}

In [28]:
import heapq
melhores_sentencas = heapq.nlargest(3, nota_sentencas, key=nota_sentencas.get)

In [29]:
melhores_sentencas

['A inteligência artificial é a inteligência similar à humana.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.',
 'Definem como o estudo de agente artificial com inteligência.']

In [30]:
resumo = ' '.join(melhores_sentencas)
resumo

'A inteligência artificial é a inteligência similar à humana. Inteligência artificial é raciocinar nas situações do cotidiano. Definem como o estudo de agente artificial com inteligência.'

In [31]:
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

## Visualização do resumo

In [32]:
from IPython.core.display import HTML
texto = ''

display(HTML(f'<h1>Resumo do texto</h1>'))
for sentenca in lista_sentencas:
  #texto += sentenca
  if sentenca in melhores_sentencas:
    texto += str(sentenca).replace(sentenca, f"<mark>{sentenca}</mark>")
  else:
    texto += sentenca
display(HTML(f"""{texto}"""))

## Extração de texto da internet

In [33]:
!pip install goose3

Collecting goose3
  Downloading goose3-3.1.19-py3-none-any.whl.metadata (11 kB)
Collecting lxml (from goose3)
  Downloading lxml-5.3.0-cp312-cp312-manylinux_2_28_x86_64.whl.metadata (3.8 kB)
Collecting cssselect (from goose3)
  Downloading cssselect-1.2.0-py2.py3-none-any.whl.metadata (2.2 kB)
Collecting langdetect (from goose3)
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m9.8 MB/s[0m eta [36m0:00:00[0m
  Installing build dependencies ... [?2done
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
[?25hCollecting pyahocorasick (from goose3)
  Downloading pyahocorasick-2.1.0-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (13 kB)
Downloading goose3-3.1.19-py3-none-any.whl (113 kB)
Downloading cssselect-1.2.0-py2.py3-none-any.whl (18 kB)
Downloading lxml-5.3.0-cp312-cp312-manylinux_2_28_x86_64.whl 

In [34]:
from goose3 import Goose

In [35]:
g = Goose()
url = 'https://iaexpert.academy/2020/11/09/ia-preve-resultado-das-eleicoes-americanas/'
artigo = g.extract(url)

In [36]:
artigo.infos

{'meta': {'description': '',
  'lang': 'pt',
  'keywords': '',
  'favicon': 'https://cdn.shortpixel.ai/spai/q_+ret_img+to_webp/iaexpert.academy/wp-content/uploads/2020/06/cropped-favicon-1-32x32.png',
  'canonical': 'https://iaexpert.academy/2020/11/09/ia-preve-resultado-das-eleicoes-americanas/',
  'encoding': 'UTF-8'},
 'image': None,
 'domain': 'iaexpert.academy',
 'title': 'IA prevê resultado das eleições americanas',
 'cleaned_text': 'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton. Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos. Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados. Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.\n\nO modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas

In [37]:
artigo.title

'IA prevê resultado das eleições americanas'

In [38]:
artigo.links

['https://www.ccny.cuny.edu/profiles/hernan-makse',
 'https://www.express.co.uk/news/science/1355192/artificial-intelligence-ai-news-twitter-us-election-2020-prediction-trump-biden-evg']

In [39]:
artigo.links.append('https://www.ocupacoes.com.br/cbo-mte/251205-economista&#8221')
artigo.links.append('https://www.ocupacoes.com.br/cbo-mte/251405-filosofo&#8221')

In [40]:
artigo.tags

[]

In [41]:
artigo.cleaned_text

'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton. Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos. Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados. Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.\n\nO modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais. O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito. No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.\n\nO Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina ano passado. Desta vez, o mode

In [42]:
len(artigo.cleaned_text)

2638

In [43]:
artigo_original = artigo.cleaned_text
artigo_original

'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton. Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos. Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados. Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.\n\nO modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais. O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito. No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.\n\nO Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina ano passado. Desta vez, o mode

In [44]:
artigo_formatado = preprocessamento(artigo_original)
artigo_formatado

'eleições presidenciais americanas maioria predições apontavam vitória hillary clinton entretanto história mostrou resultado oposto donald trump presidente últimos anos desta vez estatísticos reexaminaram modelos aumentar grau confiabilidade resultados nesta tentativa otimização predições inteligência artificial certamente ficou modelo desenvolvido dr. hernan makse físico estatístico universidade cidade nova york baseou predições rede neural treinada processar sentimentos expressos redes sociais algoritmo fez análise cerca bilhão tweets chegar estimativa resultados pleito dia eleição novembro modelo indicando vitória joe biden dr. makse disse trabalho começou eleição testado novamente eleições argentina ano passado desta vez modelo treinando cerca vezes dados eleições americanas anteriores trabalho depende apenas coleta dados tratamento estatístico adequado levar consideração duas variáveis externas viés amostragem taxa comparecimento primeiro fator refere fato redes sociais necessaria

In [45]:
len(artigo_formatado)

1901

In [46]:
def sumarizar(texto, quantidade_sentencas):
  texto_original = texto
  texto_formatado = preprocessamento(texto_original)

  frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
  frequencia_maxima = max(frequencia_palavras.values())
  for palavra in frequencia_palavras.keys():
    frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)
  lista_sentencas = nltk.sent_tokenize(texto_original)

  nota_sentencas = {}
  for sentenca in lista_sentencas:
    for palavra in nltk.word_tokenize(sentenca):
      if palavra in frequencia_palavras.keys():
        if sentenca not in nota_sentencas.keys():
          nota_sentencas[sentenca] = frequencia_palavras[palavra]
        else:
          nota_sentencas[sentenca] += frequencia_palavras[palavra]

  import heapq
  melhores_sentencas = heapq.nlargest(quantidade_sentencas, nota_sentencas, key=nota_sentencas.get)

  return lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas

In [47]:
lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas = sumarizar(artigo_original, 5)

In [48]:
lista_sentencas, len(lista_sentencas)

(['Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton.',
  'Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos.',
  'Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados.',
  'Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.',
  'O modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais.',
  'O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito.',
  'No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.',
  'O Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina

In [49]:
melhores_sentencas

['A participação em redes sociais costuma ser maior nas cidades grandes, que de fato têm preferência por um dos candidatos, e o modelo deve ser corrigido para levar em consideração também a opinião das pessoas que não são ativas neste ambiente virtual.',
 'O trabalho não depende apenas da coleta dos dados, mas também de um tratamento estatístico adequado para levar em consideração duas variáveis externas: o viés de amostragem e a taxa de comparecimento.',
 'O modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais.',
 'Quando seu modelo foi usado para predizer os resultados da eleição corrente usando dados brutos, Joe Biden apareceu como vencedor com larga vantagem.',
 'Desta vez, o modelo está treinando com cerca de 5 vezes mais dados que nas eleições americanas anteriores.']

In [50]:
frequencia_palavras

FreqDist({'modelo': 1.0, 'eleições': 0.6666666666666666, 'predições': 0.6666666666666666, 'vez': 0.6666666666666666, 'eleição': 0.6666666666666666, 'desta': 0.5, 'resultados': 0.5, 'dr.': 0.5, 'makse': 0.5, 'redes': 0.5, ...})

In [51]:
nota_sentencas

{'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton.': 2.5,
 'Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos.': 1.1666666666666665,
 'Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados.': 2.3333333333333335,
 'Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.': 1.666666666666667,
 'O modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais.': 4.499999999999999,
 'O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito.': 2.1666666666666665,
 'No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.': 2.5,
 'O Dr. Makse dis

In [52]:
def visualiza_resumo(titulo, lista_sentencas, melhores_sentencas):
  from IPython.core.display import HTML
  texto = ''

  display(HTML(f'<h1>Resumo do texto - {titulo}</h1>'))
  for i in lista_sentencas:
    if i in melhores_sentencas:
      texto += str(i).replace(i, f"<mark>{i}</mark>")
    else:
      texto += i
  display(HTML(f""" {texto} """))

In [53]:
visualiza_resumo('Eleições', lista_sentencas, melhores_sentencas)

## Sumarização de mais textos

In [54]:
lista_artigos = ['https://iaexpert.academy/2020/11/06/ia-detecta-deep-fakes-produzidos-com-tecnicas-recentes/',
                 'https://iaexpert.academy/2020/11/13/facebook-apresenta-novo-algoritmo-deteccao-fake-news/',
                 'https://iaexpert.academy/2020/11/16/automl-aspectos-aplicacoes/']

In [55]:
for url in lista_artigos:
  #print(url)
  g = Goose()
  artigo = g.extract(url)
  lista_sentencas, melhores_sentencas, _, _ = sumarizar(artigo.cleaned_text, 5)
  visualiza_resumo(artigo.title, lista_sentencas, melhores_sentencas)

## Solução para o exercício - lematização

In [57]:
import spacy

In [59]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Using cached https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


In [61]:
pln = spacy.load('pt_core_news_sm')
pln

<spacy.lang.pt.Portuguese at 0x7fae066b5e50>

In [62]:
documento = pln('inteligentes inteligente inteligência corrida corrido correr correndo correstes')
for token in documento:
  print(token.text, token.lemma_)

inteligentes inteligente
inteligente inteligente
inteligência inteligência
corrida corrido
corrido corrir
correr correr
correndo correr
correstes correste


In [63]:
def preprocessamento_lematizacao(texto):
  texto = texto.lower()
  texto = re.sub(r" +", ' ', texto)

  documento = pln(texto)
  tokens = []
  for token in documento:
    tokens.append(token.lemma_)

  tokens = [palavra for palavra in tokens if palavra not in stopwords and palavra not in string.punctuation]
  texto_formatado = ' '.join([str(elemento) for elemento in tokens if not elemento.isdigit()])

  return texto_formatado

In [64]:
preprocessamento_lematizacao(texto_original)

'inteligência artificial inteligência similar a o humano definir estudo agente artificial inteligência ciência engenharia produzir máquina inteligência resolver problema possuir inteligência relacionar a o comportamento inteligente construção máquina raciocinar aprender erro acerto inteligência artificial raciocinar em o situação de o cotidiano'

In [65]:
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

In [66]:
def sumarizar_lematizacao(texto, quantidade_sentencas):
  texto_original = texto
  # Chamada para a outra função de pré-processamento
  texto_formatado = preprocessamento_lematizacao(texto_original)

  frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
  frequencia_maxima = max(frequencia_palavras.values())
  for palavra in frequencia_palavras.keys():
    frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)
  lista_sentencas = nltk.sent_tokenize(texto_original)

  nota_sentencas = {}
  for sentenca in lista_sentencas:
    for palavra in nltk.word_tokenize(sentenca):
      if palavra in frequencia_palavras.keys():
        if sentenca not in nota_sentencas.keys():
          nota_sentencas[sentenca] = frequencia_palavras[palavra]
        else:
          nota_sentencas[sentenca] += frequencia_palavras[palavra]

  import heapq
  melhores_sentencas = heapq.nlargest(quantidade_sentencas, nota_sentencas, key=nota_sentencas.get)

  return lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas

In [67]:
for url in lista_artigos:
  #print(url)
  g = Goose()
  artigo = g.extract(url)
  lista_sentencas, melhores_sentencas, _, _ = sumarizar_lematizacao(artigo.cleaned_text, 5)
  visualiza_resumo(artigo.title, lista_sentencas, melhores_sentencas)