# Algoritmo básico baseado em frequência

## Pré-processamento do texto

In [79]:
import re
import nltk
import string

In [2]:
# Texto para ser analisado
texto_original = """A inteligência artificial é a inteligência similar à humana.
                    Definem como o estudo de agente artificial com inteligência.
                    Ciência e engenharia de produzir máquinas com inteligência.
                    Resolver problemas e possuir inteligência.
                    Relacionada ao comportamento inteligente.
                    Construção de máquinas para raciocinar.
                    Aprender com os erros e acertos.
                    Inteligência artificial é raciocinar nas situações do cotidiano."""

In [3]:
texto_original

'A inteligência artificial é a inteligência similar à humana.\n                    Definem como o estudo de agente artificial com inteligência.\n                    Ciência e engenharia de produzir máquinas com inteligência.\n                    Resolver problemas e possuir inteligência.\n                    Relacionada ao comportamento inteligente.\n                    Construção de máquinas para raciocinar.\n                    Aprender com os erros e acertos.\n                    Inteligência artificial é raciocinar nas situações do cotidiano.'

In [4]:
# Usa REX para tirar os espaços maiores que um
texto_original = re.sub(r'\s+', ' ', texto_original)

In [5]:
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

In [6]:
# Download da função para tokenização (partição) da biblioteca nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [7]:
# Download da função para achar as stopwords da biblioteca nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [8]:
# Mostras as stopwords da língua portuguesa
stopwords = nltk.corpus.stopwords.words('portuguese')
print(stopwords)

['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houvessem', 'houvésse

In [9]:
# Quantidade de stopwords na língua portuguesa
len(stopwords)

207

In [10]:
# As pontuações da biblioteca string (ASCII)
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [11]:
# Função para pré-processar o texto em minúsculo e retirar as stopwords do texto de entrada
def preprocessamento(texto):
  # Passa para minúsculo
  texto_formatado = texto.lower()

  # Cria o array vazio que conterá cada palavra do texto de entrada
  tokens = []

  # Adiciona cada palavra do texto de entrada no array tokens
  for token in nltk.word_tokenize(texto_formatado):
    tokens.append(token)

  # Toda palavra que não estiver nas stopwords do texto original e não for pontuação são conservadas no array
  tokens = [palavra for palavra in tokens if palavra not in stopwords and palavra not in string.punctuation]
  # Concatena as palavras restantes em um único texto
  texto_formatado = ' '.join([str(elemento) for elemento in tokens if not elemento.isdigit()])

  return texto_formatado

In [12]:
texto_formatado = preprocessamento(texto_original)
texto_formatado

'inteligência artificial inteligência similar humana definem estudo agente artificial inteligência ciência engenharia produzir máquinas inteligência resolver problemas possuir inteligência relacionada comportamento inteligente construção máquinas raciocinar aprender erros acertos inteligência artificial raciocinar situações cotidiano'

## Frequência das palavras

In [50]:
# Calcula a frequência das palavras, ou seja, a quantidade de vezes que cada uma aparece no texto
frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
frequencia_palavras

FreqDist({'inteligência': 6, 'artificial': 3, 'máquinas': 2, 'raciocinar': 2, 'similar': 1, 'humana': 1, 'definem': 1, 'estudo': 1, 'agente': 1, 'ciência': 1, ...})

In [49]:
# Acessando uma plavra específica
frequencia_palavras['situações']

0.16666666666666666

In [28]:
# Somente as palavras, chaves do dicionário
frequencia_palavras.keys()

dict_keys(['inteligência', 'artificial', 'similar', 'humana', 'definem', 'estudo', 'agente', 'ciência', 'engenharia', 'produzir', 'máquinas', 'resolver', 'problemas', 'possuir', 'relacionada', 'comportamento', 'inteligente', 'construção', 'raciocinar', 'aprender', 'erros', 'acertos', 'situações', 'cotidiano'])

In [29]:
# O maior número de vezes que aparece uma palavra
frequencia_maxima = max(frequencia_palavras.values())
frequencia_maxima

6

In [51]:
# Cálculo da requência proporcional do aparecimento das palavras (pesos) [A cada execução acontece a divisão CUIDADO!!!]
for palavra in frequencia_palavras.keys():
  print('%s - %f/%f = %f' %(palavra, frequencia_palavras[palavra], frequencia_maxima, frequencia_palavras[palavra] / frequencia_maxima))
  frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)


inteligência - 6.000000/6.000000 = 1.000000
artificial - 3.000000/6.000000 = 0.500000
similar - 1.000000/6.000000 = 0.166667
humana - 1.000000/6.000000 = 0.166667
definem - 1.000000/6.000000 = 0.166667
estudo - 1.000000/6.000000 = 0.166667
agente - 1.000000/6.000000 = 0.166667
ciência - 1.000000/6.000000 = 0.166667
engenharia - 1.000000/6.000000 = 0.166667
produzir - 1.000000/6.000000 = 0.166667
máquinas - 2.000000/6.000000 = 0.333333
resolver - 1.000000/6.000000 = 0.166667
problemas - 1.000000/6.000000 = 0.166667
possuir - 1.000000/6.000000 = 0.166667
relacionada - 1.000000/6.000000 = 0.166667
comportamento - 1.000000/6.000000 = 0.166667
inteligente - 1.000000/6.000000 = 0.166667
construção - 1.000000/6.000000 = 0.166667
raciocinar - 2.000000/6.000000 = 0.333333
aprender - 1.000000/6.000000 = 0.166667
erros - 1.000000/6.000000 = 0.166667
acertos - 1.000000/6.000000 = 0.166667
situações - 1.000000/6.000000 = 0.166667
cotidiano - 1.000000/6.000000 = 0.166667


In [52]:
frequencia_palavras

FreqDist({'inteligência': 1.0, 'artificial': 0.5, 'máquinas': 0.3333333333333333, 'raciocinar': 0.3333333333333333, 'similar': 0.16666666666666666, 'humana': 0.16666666666666666, 'definem': 0.16666666666666666, 'estudo': 0.16666666666666666, 'agente': 0.16666666666666666, 'ciência': 0.16666666666666666, ...})

## Tokenização de sentenças

In [54]:
# Quebrando uma frase com ponto (Maneira errada)
'o dr. joão foi para casa. Ele chegou cedo'.split('.')

['o dr', ' joão foi para casa', ' Ele chegou cedo']

In [55]:
# Tokenizando cada lavra, como já visto
nltk.word_tokenize('o dr. joão foi para casa. Ele chegou cedo')

['o', 'dr.', 'joão', 'foi', 'para', 'casa', '.', 'Ele', 'chegou', 'cedo']

In [56]:
# Tokenizando frases (sentenças)
nltk.sent_tokenize('o dr. joão foi para casa. Ele chegou cedo')

['o dr. joão foi para casa.', 'Ele chegou cedo']

In [57]:
# Fazendo a tokenização de sentenças para o texto original
lista_sentencas = nltk.sent_tokenize(texto_original)
lista_sentencas

['A inteligência artificial é a inteligência similar à humana.',
 'Definem como o estudo de agente artificial com inteligência.',
 'Ciência e engenharia de produzir máquinas com inteligência.',
 'Resolver problemas e possuir inteligência.',
 'Relacionada ao comportamento inteligente.',
 'Construção de máquinas para raciocinar.',
 'Aprender com os erros e acertos.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.']

## Geração do resumo (nota para as sentenças)

In [58]:
# Frenquẽncia já calculada das palavras
frequencia_palavras

FreqDist({'inteligência': 1.0, 'artificial': 0.5, 'máquinas': 0.3333333333333333, 'raciocinar': 0.3333333333333333, 'similar': 0.16666666666666666, 'humana': 0.16666666666666666, 'definem': 0.16666666666666666, 'estudo': 0.16666666666666666, 'agente': 0.16666666666666666, 'ciência': 0.16666666666666666, ...})

In [63]:
# Cria um dicionário, tendo com chaves as sentenças e inicialmente com valor zero
nota_sentencas = dict.fromkeys(lista_sentencas, 0)

# Passa por cada frase verificando as palavras e somando o peso para cada sentença
for sentenca in lista_sentencas:
  for palavra in nltk.word_tokenize(sentenca.lower()):
    if palavra in frequencia_palavras.keys():
        nota_sentencas[sentenca] += frequencia_palavras[palavra]

In [64]:
nota_sentencas

{'A inteligência artificial é a inteligência similar à humana.': 2.833333333333333,
 'Definem como o estudo de agente artificial com inteligência.': 2.0,
 'Ciência e engenharia de produzir máquinas com inteligência.': 1.8333333333333333,
 'Resolver problemas e possuir inteligência.': 1.5,
 'Relacionada ao comportamento inteligente.': 0.5,
 'Construção de máquinas para raciocinar.': 0.8333333333333333,
 'Aprender com os erros e acertos.': 0.5,
 'Inteligência artificial é raciocinar nas situações do cotidiano.': 2.1666666666666665}

In [80]:
# Uma maneira de ordenar decrescentemente por valor o dicionário
dict(sorted(nota_sentencas.items(), key=lambda item: item[1], reverse=True))

{'A inteligência artificial é a inteligência similar à humana.': 2.833333333333333,
 'Inteligência artificial é raciocinar nas situações do cotidiano.': 2.1666666666666665,
 'Definem como o estudo de agente artificial com inteligência.': 2.0,
 'Ciência e engenharia de produzir máquinas com inteligência.': 1.8333333333333333,
 'Resolver problemas e possuir inteligência.': 1.5,
 'Construção de máquinas para raciocinar.': 0.8333333333333333,
 'Relacionada ao comportamento inteligente.': 0.5,
 'Aprender com os erros e acertos.': 0.5}

In [81]:
import heapq

# Busca as 3 melhores sentenças (mais pontuadas) no dicionário
melhores_sentencas = heapq.nlargest(3, nota_sentencas, key=nota_sentencas.get)
melhores_sentencas

['A inteligência artificial é a inteligência similar à humana.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.',
 'Definem como o estudo de agente artificial com inteligência.']

In [77]:
# Concatena as 3 sentenças com maiores notas em uma único texto
resumo = ' '.join(melhores_sentencas)
resumo

'A inteligência artificial é a inteligência similar à humana. Inteligência artificial é raciocinar nas situações do cotidiano. Definem como o estudo de agente artificial com inteligência.'

In [78]:
# Comparalção o texto original
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

## Visualização do resumo

In [87]:
# Uma maneira de mostrar o texto com realce nas frases mais pontuadas

from IPython.core.display import HTML
texto = ''

# Título
display(HTML(f'<h1>Resumo do texto</h1>'))

# Percorre a lista de sentenças e identifica as mais pontias e mostra elas de outras forma
for sentenca in lista_sentencas:
  texto += f"<mark>{sentenca}</mark>" if sentenca in melhores_sentencas else sentenca

# Resultado
display(HTML(f"""{texto}"""))

## Extração de texto da internet

In [88]:
!pip install goose3

Collecting goose3
  Downloading goose3-3.1.17-py3-none-any.whl (88 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/88.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m88.7/88.7 kB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m
Collecting cssselect (from goose3)
  Downloading cssselect-1.2.0-py2.py3-none-any.whl (18 kB)
Collecting langdetect (from goose3)
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m13.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pyahocorasick (from goose3)
  Downloading pyahocorasick-2.0.0-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (110 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m110.8/110.8 kB[0m [31m15.9 MB/s[0m eta [36m0:00:00[0m
Building wheels for collected pac

In [89]:
# Chamando a biblioteca de extração de texto da internet
from goose3 import Goose

In [105]:
# Acessa uma página para obter as informação dela
g = Goose()
url = 'https://iaexpert.academy/2020/11/09/ia-preve-resultado-das-eleicoes-americanas/'
artigo = g.extract(url)

In [106]:
artigo.infos

{'meta': {'description': '',
  'lang': 'pt',
  'keywords': '',
  'favicon': 'https://cdn.shortpixel.ai/spai/q_+ret_img+to_webp/https://iaexpert.academy/wp-content/uploads/2020/06/cropped-favicon-1-32x32.png',
  'canonical': 'https://iaexpert.academy/2020/11/09/ia-preve-resultado-das-eleicoes-americanas/',
  'encoding': 'UTF-8'},
 'image': None,
 'domain': 'iaexpert.academy',
 'title': 'IA prevê resultado das eleições americanas',
 'cleaned_text': 'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton. Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos. Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados. Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.\n\nO modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, bas

In [107]:
# Título da página
artigo.title

'IA prevê resultado das eleições americanas'

In [108]:
# Links da página
artigo.links

['https://www.ccny.cuny.edu/profiles/hernan-makse',
 'https://www.express.co.uk/news/science/1355192/artificial-intelligence-ai-news-twitter-us-election-2020-prediction-trump-biden-evg']

In [110]:
# Se houver tags
artigo.tags

[]

In [117]:
# Atribui o texto principal da página
artigo_original = artigo.cleaned_text
artigo_original

'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton. Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos. Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados. Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.\n\nO modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais. O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito. No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.\n\nO Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina ano passado. Desta vez, o mode

In [118]:
# Passa o texto da página na função de préprocessamento
artigo_formatado = preprocessamento(artigo_original)
artigo_formatado

'eleições presidenciais americanas maioria predições apontavam vitória hillary clinton entretanto história mostrou resultado oposto donald trump presidente últimos anos desta vez estatísticos reexaminaram modelos aumentar grau confiabilidade resultados nesta tentativa otimização predições inteligência artificial certamente ficou modelo desenvolvido dr. hernan makse físico estatístico universidade cidade nova york baseou predições rede neural treinada processar sentimentos expressos redes sociais algoritmo fez análise cerca bilhão tweets chegar estimativa resultados pleito dia eleição novembro modelo indicando vitória joe biden dr. makse disse trabalho começou eleição testado novamente eleições argentina ano passado desta vez modelo treinando cerca vezes dados eleições americanas anteriores trabalho depende apenas coleta dados tratamento estatístico adequado levar consideração duas variáveis externas viés amostragem taxa comparecimento primeiro fator refere fato redes sociais necessaria

In [121]:
# Comparando o tamanho dos textos
print('Original: %d\nProcessado: %d' %(len(artigo_formatado), len(artigo.cleaned_text)))

Original: 1901
Processado: 2638


In [122]:
# Função das partes já vistas, somente para facilitar e fazer tudo de uma vez só
def sumarizar(texto, quantidade_sentencas):
  texto_original = texto
  texto_formatado = preprocessamento(texto_original)

  frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
  frequencia_maxima = max(frequencia_palavras.values())
  for palavra in frequencia_palavras.keys():
    frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)
  lista_sentencas = nltk.sent_tokenize(texto_original)

  nota_sentencas = dict.fromkeys(lista_sentencas, 0)
  for sentenca in lista_sentencas:
    for palavra in nltk.word_tokenize(sentenca.lower()):
      if palavra in frequencia_palavras.keys():
          nota_sentencas[sentenca] += frequencia_palavras[palavra]

  melhores_sentencas = heapq.nlargest(quantidade_sentencas, nota_sentencas, key=nota_sentencas.get)

  return lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas

In [125]:
# Chamando essa função para reber os valores de retorno
lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas = sumarizar(artigo_original, 5)

In [126]:
lista_sentencas, len(lista_sentencas)

(['Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton.',
  'Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos.',
  'Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados.',
  'Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.',
  'O modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais.',
  'O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito.',
  'No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.',
  'O Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina

In [127]:
melhores_sentencas

['O modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais.',
 'A participação em redes sociais costuma ser maior nas cidades grandes, que de fato têm preferência por um dos candidatos, e o modelo deve ser corrigido para levar em consideração também a opinião das pessoas que não são ativas neste ambiente virtual.',
 'Quando seu modelo foi usado para predizer os resultados da eleição corrente usando dados brutos, Joe Biden apareceu como vencedor com larga vantagem.',
 'O trabalho não depende apenas da coleta dos dados, mas também de um tratamento estatístico adequado para levar em consideração duas variáveis externas: o viés de amostragem e a taxa de comparecimento.',
 'Desta vez, o modelo está treinando com cerca de 5 vezes mais dados que nas eleições americanas anteriores.']

In [128]:
frequencia_palavras

FreqDist({'modelo': 1.0, 'eleições': 0.6666666666666666, 'predições': 0.6666666666666666, 'vez': 0.6666666666666666, 'eleição': 0.6666666666666666, 'desta': 0.5, 'resultados': 0.5, 'dr.': 0.5, 'makse': 0.5, 'redes': 0.5, ...})

In [129]:
nota_sentencas

{'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton.': 2.833333333333333,
 'Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos.': 1.6666666666666667,
 'Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados.': 2.833333333333333,
 'Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.': 1.8333333333333335,
 'O modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais.': 6.333333333333335,
 'O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito.': 2.1666666666666665,
 'No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.': 3.333333

In [142]:
# Função para formatação das sentenças, como já visto
def visualiza_resumo(titulo, lista_sentencas, melhores_sentencas):
  texto = ''

  display(HTML(f'<h1>{titulo}</h1>'))

  for sentenca in lista_sentencas:
    texto += f"<mark>{sentenca}</mark>" if sentenca in melhores_sentencas else sentenca

  display(HTML(f"""{texto}"""))

In [144]:
visualiza_resumo(artigo.title, lista_sentencas, melhores_sentencas)

## Sumarização de mais textos

In [138]:
# Outras páginas para fazer sumarização
lista_artigos = ['https://iaexpert.academy/2020/11/06/ia-detecta-deep-fakes-produzidos-com-tecnicas-recentes/',
                 'https://iaexpert.academy/2020/11/13/facebook-apresenta-novo-algoritmo-deteccao-fake-news/',
                 'https://iaexpert.academy/2020/11/16/automl-aspectos-aplicacoes/']

In [143]:
# Fazendo as sumarização para cada página
for url in lista_artigos:
  g = Goose()
  artigo = g.extract(url)
  lista_sentencas, melhores_sentencas, _, _ = sumarizar(artigo.cleaned_text, 5)
  visualiza_resumo(artigo.title, lista_sentencas, melhores_sentencas)

## Solução para o exercício - lematização

In [165]:
!pip install spacy
#!pip install spacy==2.2.3 #Atualizado 18/05/2021 - Utilizar essa versão



In [174]:
# Baixando a parte em português
!python -m spacy download pt_core_news_sm

2023-12-25 14:47:02.536452: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-25 14:47:02.536515: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-25 14:47:02.537440: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
Collecting pt-core-news-sm==3.6.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.6.0/pt_core_news_sm-3.6.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m39.9 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now l

In [175]:
# Importando a biblioteca para para lematização e a parte em português
import spacy
from spacy.lang.pt.examples import sentences

In [176]:
# Carregando a parte em português
pln = spacy.load('pt_core_news_sm')
pln

<spacy.lang.pt.Portuguese at 0x7ba3a13d6200>

In [177]:
# Fazendo o teste para extrair a lematização das palavras
documento = pln('inteligentes inteligente inteligência corrida corrido correr correndo correstes')
for token in documento:
  print(token.text, token.lemma_)

inteligentes inteligente
inteligente inteligente
inteligência inteligência
corrida corrida
corrido correr
correr correr
correndo correr
correstes correste


In [183]:
# Juntando o processamento e a lematização em uma mesma função
def preprocessamento_lematizacao(texto):
  texto = texto.lower()
  texto = re.sub(r" +", ' ', texto)

  documento = pln(texto)
  tokens = []
  for token in documento:
    tokens.append(token.lemma_)

  tokens = [palavra for palavra in tokens if palavra not in stopwords and palavra not in string.punctuation]
  texto_formatado = ' '.join([str(elemento) for elemento in tokens if not elemento.isdigit()])

  return texto_formatado

In [181]:
preprocessamento_lematizacao(texto_original)

'inteligência artificial inteligência similar a o humana definem estudo agente artificial inteligência ciência engenharia produzir máquina inteligência resolver problema possuir inteligência relacionar a o comportamento inteligente construção máquina raciocinar aprender erro acerto inteligência artificial raciocinar em o situação de o cotidiano'

In [182]:
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

In [184]:
# Agora sumarizando e fazendo a lematização numa mesma fução
def sumarizar_lematizacao(texto, quantidade_sentencas):
  texto_original = texto
  texto_formatado = preprocessamento_lematizacao(texto_original)

  frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
  frequencia_maxima = max(frequencia_palavras.values())
  for palavra in frequencia_palavras.keys():
    frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)
  lista_sentencas = nltk.sent_tokenize(texto_original)

  nota_sentencas = dict.fromkeys(lista_sentencas, 0)
  for sentenca in lista_sentencas:
    for palavra in nltk.word_tokenize(sentenca.lower()):
      if palavra in frequencia_palavras.keys():
          nota_sentencas[sentenca] += frequencia_palavras[palavra]

  melhores_sentencas = heapq.nlargest(quantidade_sentencas, nota_sentencas, key=nota_sentencas.get)

  return lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas

In [186]:
# Fazendo o mesmo resumo da lista de artigos anteriormente
for url in lista_artigos:
  g = Goose()
  artigo = g.extract(url)
  lista_sentencas, melhores_sentencas, _, _ = sumarizar_lematizacao(artigo.cleaned_text, 5)
  visualiza_resumo(artigo.title, lista_sentencas, melhores_sentencas)