<a href="https://colab.research.google.com/github/derektorquette/pln-com-deep-learning-ia-expert/blob/main/sumarizacao_algoritmo_frequencia.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Algoritmo básico baseado em frequência

## Pré-processamento do texto

In [1]:
import re # expressão regular
import nltk # pln
import string

In [2]:
# as três aspas indica que podemos colocar um texto abaixo do outro
texto_original = """A inteligência artificial é a inteligência similar à humana.
                    Definem como o estudo de agente artificial com inteligência.
                    Ciência e engenharia de produzir máquinas com inteligência.
                    Resolver problemas e possuir inteligência.
                    Relacionada ao comportamento inteligente.
                    Construção de máquinas para raciocinar.
                    Aprender com os erros e acertos.
                    Inteligência artificial é raciocinar nas situações do cotidiano."""

In [3]:
texto_original

'A inteligência artificial é a inteligência similar à humana.\n                    Definem como o estudo de agente artificial com inteligência.\n                    Ciência e engenharia de produzir máquinas com inteligência.\n                    Resolver problemas e possuir inteligência.\n                    Relacionada ao comportamento inteligente.\n                    Construção de máquinas para raciocinar.\n                    Aprender com os erros e acertos.\n                    Inteligência artificial é raciocinar nas situações do cotidiano.'

In [4]:
texto_original = re.sub(r'\s+', ' ', texto_original) # remover os espaços e o \n

In [5]:
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

In [6]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [7]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [8]:
stopwords = nltk.corpus.stopwords.words('portuguese')
print(stopwords)

['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houvessem', 'houvésse

In [9]:
len(stopwords) # quantidade de stopwords

207

In [10]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [11]:
def preprocessamento(texto):
  texto_formatado = texto.lower() # deixar todo o texto em minúsculo
  tokens = []
  for token in nltk.word_tokenize(texto_formatado): # buscar cada token existente no texto
    tokens.append(token)

  tokens = [palavra for palavra in tokens if palavra not in stopwords and palavra not in string.punctuation]
  texto_formatado = ' '.join([str(elemento) for elemento in tokens if not elemento.isdigit()]) # retornar em formato de texto

  return texto_formatado

In [12]:
texto_formatado = preprocessamento(texto_original)
texto_formatado

'inteligência artificial inteligência similar humana definem estudo agente artificial inteligência ciência engenharia produzir máquinas inteligência resolver problemas possuir inteligência relacionada comportamento inteligente construção máquinas raciocinar aprender erros acertos inteligência artificial raciocinar situações cotidiano'

## Frequência das palavras

In [13]:
frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado)) # buscando apenas as palavras, sem os espaços
frequencia_palavras #formato de dicionário, chave e valor

FreqDist({'inteligência': 6, 'artificial': 3, 'máquinas': 2, 'raciocinar': 2, 'similar': 1, 'humana': 1, 'definem': 1, 'estudo': 1, 'agente': 1, 'ciência': 1, ...})

In [14]:
frequencia_palavras['artificial']

3

In [15]:
frequencia_palavras.keys() # todas as chaves do dicionário, palavras únicas

dict_keys(['inteligência', 'artificial', 'similar', 'humana', 'definem', 'estudo', 'agente', 'ciência', 'engenharia', 'produzir', 'máquinas', 'resolver', 'problemas', 'possuir', 'relacionada', 'comportamento', 'inteligente', 'construção', 'raciocinar', 'aprender', 'erros', 'acertos', 'situações', 'cotidiano'])

In [16]:
frequencia_maxima = max(frequencia_palavras.values())

In [17]:
frequencia_maxima

6

In [18]:
for palavra in frequencia_palavras.keys():
  frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)

In [19]:
frequencia_palavras

FreqDist({'inteligência': 1.0, 'artificial': 0.5, 'máquinas': 0.3333333333333333, 'raciocinar': 0.3333333333333333, 'similar': 0.16666666666666666, 'humana': 0.16666666666666666, 'definem': 0.16666666666666666, 'estudo': 0.16666666666666666, 'agente': 0.16666666666666666, 'ciência': 0.16666666666666666, ...})

## Tokenização de sentenças

In [20]:
'o dr. joão foi para casa. Ele chegou cedo'.split('.') # errado

['o dr', ' joão foi para casa', ' Ele chegou cedo']

In [21]:
nltk.word_tokenize('o dr. joão foi para casa. Ele chegou cedo')

['o', 'dr.', 'joão', 'foi', 'para', 'casa', '.', 'Ele', 'chegou', 'cedo']

In [22]:
nltk.sent_tokenize('o dr. joão foi para casa. Ele chegou cedo')

['o dr. joão foi para casa.', 'Ele chegou cedo']

In [23]:
lista_sentencas = nltk.sent_tokenize(texto_original)
lista_sentencas

['A inteligência artificial é a inteligência similar à humana.',
 'Definem como o estudo de agente artificial com inteligência.',
 'Ciência e engenharia de produzir máquinas com inteligência.',
 'Resolver problemas e possuir inteligência.',
 'Relacionada ao comportamento inteligente.',
 'Construção de máquinas para raciocinar.',
 'Aprender com os erros e acertos.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.']

## Geração do resumo (nota para as sentenças)

In [24]:
frequencia_palavras

FreqDist({'inteligência': 1.0, 'artificial': 0.5, 'máquinas': 0.3333333333333333, 'raciocinar': 0.3333333333333333, 'similar': 0.16666666666666666, 'humana': 0.16666666666666666, 'definem': 0.16666666666666666, 'estudo': 0.16666666666666666, 'agente': 0.16666666666666666, 'ciência': 0.16666666666666666, ...})

In [25]:
nota_sentencas = {}
for sentenca in lista_sentencas: # é a lista sem remoção dos stopwords
  #print(sentenca)
  for palavra in nltk.word_tokenize(sentenca.lower()):
    #print(palavra)
    if palavra in frequencia_palavras.keys():
      if sentenca not in nota_sentencas.keys():
        nota_sentencas[sentenca] = frequencia_palavras[palavra]
      else:
        nota_sentencas[sentenca] += frequencia_palavras[palavra]

In [26]:
nota_sentencas

{'A inteligência artificial é a inteligência similar à humana.': 2.833333333333333,
 'Definem como o estudo de agente artificial com inteligência.': 2.0,
 'Ciência e engenharia de produzir máquinas com inteligência.': 1.8333333333333333,
 'Resolver problemas e possuir inteligência.': 1.5,
 'Relacionada ao comportamento inteligente.': 0.5,
 'Construção de máquinas para raciocinar.': 0.8333333333333333,
 'Aprender com os erros e acertos.': 0.5,
 'Inteligência artificial é raciocinar nas situações do cotidiano.': 2.1666666666666665}

In [27]:
import heapq # ordenação das sentenças
melhores_sentencas = heapq.nlargest(3, nota_sentencas, key=nota_sentencas.get)

In [28]:
melhores_sentencas

['A inteligência artificial é a inteligência similar à humana.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.',
 'Definem como o estudo de agente artificial com inteligência.']

In [29]:
resumo = ' '.join(melhores_sentencas)
resumo

'A inteligência artificial é a inteligência similar à humana. Inteligência artificial é raciocinar nas situações do cotidiano. Definem como o estudo de agente artificial com inteligência.'

In [30]:
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

## Visualização do resumo - melhorar a visualização dos resultados

In [33]:
from IPython.core.display import HTML
texto = ''

display(HTML(f'<h2>Resumo do texto</h2>'))
for sentenca in lista_sentencas:
  #texto += sentenca
  if sentenca in melhores_sentencas:
    texto += str(sentenca).replace(sentenca, f"<mark>{sentenca}</mark>")
  else:
    texto += sentenca
display(HTML(f"""{texto}"""))

## Extração de texto da internet

In [None]:
!pip install goose3

In [35]:
from goose3 import Goose

In [36]:
g = Goose()
url = 'https://iaexpert.academy/2020/11/09/ia-preve-resultado-das-eleicoes-americanas/'
artigo = g.extract(url)

In [None]:
artigo.infos

In [38]:
artigo.title

'IA prevê resultado das eleições americanas'

In [39]:
artigo.links

['https://www.ccny.cuny.edu/profiles/hernan-makse',
 'https://www.express.co.uk/news/science/1355192/artificial-intelligence-ai-news-twitter-us-election-2020-prediction-trump-biden-evg']

In [41]:
artigo.links.append('https://www.ocupacoes.com.br/cbo-mte/251205-economista&#8221')
artigo.links.append('https://www.ocupacoes.com.br/cbo-mte/251405-filosofo&#8221')

In [42]:
artigo.tags

[]

In [44]:
artigo.cleaned_text

'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton. Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos. Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados. Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.\n\nO modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais. O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito. No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.\n\nO Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina ano passado. Desta vez, o mode

In [43]:
len(artigo.cleaned_text)

2638

In [48]:
artigo_original = artigo.cleaned_text
artigo_original

'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton. Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos. Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados. Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.\n\nO modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais. O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito. No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.\n\nO Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina ano passado. Desta vez, o mode

In [47]:
artigo_formatado = preprocessamento(artigo_original)
artigo_formatado

'eleições presidenciais americanas maioria predições apontavam vitória hillary clinton entretanto história mostrou resultado oposto donald trump presidente últimos anos desta vez estatísticos reexaminaram modelos aumentar grau confiabilidade resultados nesta tentativa otimização predições inteligência artificial certamente ficou modelo desenvolvido dr. hernan makse físico estatístico universidade cidade nova york baseou predições rede neural treinada processar sentimentos expressos redes sociais algoritmo fez análise cerca bilhão tweets chegar estimativa resultados pleito dia eleição novembro modelo indicando vitória joe biden dr. makse disse trabalho começou eleição testado novamente eleições argentina ano passado desta vez modelo treinando cerca vezes dados eleições americanas anteriores trabalho depende apenas coleta dados tratamento estatístico adequado levar consideração duas variáveis externas viés amostragem taxa comparecimento primeiro fator refere fato redes sociais necessaria

In [49]:
len(artigo_formatado)

1901

In [50]:
def sumarizar(texto, quantidade_sentencas):
  texto_original = texto
  texto_formatado = preprocessamento(texto_original)

  frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
  frequencia_maxima = max(frequencia_palavras.values())
  for palavra in frequencia_palavras.keys():
    frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)
  lista_sentencas = nltk.sent_tokenize(texto_original)

  nota_sentencas = {}
  for sentenca in lista_sentencas:
    for palavra in nltk.word_tokenize(sentenca):
      if palavra in frequencia_palavras.keys():
        if sentenca not in nota_sentencas.keys():
          nota_sentencas[sentenca] = frequencia_palavras[palavra]
        else:
          nota_sentencas[sentenca] += frequencia_palavras[palavra]

  import heapq
  melhores_sentencas = heapq.nlargest(quantidade_sentencas, nota_sentencas, key=nota_sentencas.get)

  return lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas

In [51]:
lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas = sumarizar(artigo_original, 5)

In [54]:
lista_sentencas, len(lista_sentencas) # todas as sentenças e quantidade de sentenças

(['Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton.',
  'Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos.',
  'Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados.',
  'Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.',
  'O modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais.',
  'O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito.',
  'No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.',
  'O Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina

In [55]:
melhores_sentencas

['A participação em redes sociais costuma ser maior nas cidades grandes, que de fato têm preferência por um dos candidatos, e o modelo deve ser corrigido para levar em consideração também a opinião das pessoas que não são ativas neste ambiente virtual.',
 'O trabalho não depende apenas da coleta dos dados, mas também de um tratamento estatístico adequado para levar em consideração duas variáveis externas: o viés de amostragem e a taxa de comparecimento.',
 'O modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais.',
 'Quando seu modelo foi usado para predizer os resultados da eleição corrente usando dados brutos, Joe Biden apareceu como vencedor com larga vantagem.',
 'Desta vez, o modelo está treinando com cerca de 5 vezes mais dados que nas eleições americanas anteriores.']

In [56]:
frequencia_palavras

FreqDist({'modelo': 1.0, 'eleições': 0.6666666666666666, 'predições': 0.6666666666666666, 'vez': 0.6666666666666666, 'eleição': 0.6666666666666666, 'desta': 0.5, 'resultados': 0.5, 'dr.': 0.5, 'makse': 0.5, 'redes': 0.5, ...})

In [57]:
nota_sentencas

{'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton.': 2.5,
 'Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos.': 1.1666666666666665,
 'Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados.': 2.3333333333333335,
 'Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.': 1.666666666666667,
 'O modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais.': 4.499999999999999,
 'O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito.': 2.1666666666666665,
 'No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.': 2.5,
 'O Dr. Makse dis

In [58]:
def visualiza_resumo(titulo, lista_sentencas, melhores_sentencas):
  from IPython.core.display import HTML
  texto = ''

  display(HTML(f'<h1>Resumo do texto - {titulo}</h1>'))
  for i in lista_sentencas:
    if i in melhores_sentencas:
      texto += str(i).replace(i, f"<mark>{i}</mark>")
    else:
      texto += i
  display(HTML(f""" {texto} """))

In [59]:
visualiza_resumo('Eleições', lista_sentencas, melhores_sentencas)

## Sumarização de mais textos

In [60]:
lista_artigos = ['https://iaexpert.academy/2020/11/06/ia-detecta-deep-fakes-produzidos-com-tecnicas-recentes/',
                 'https://iaexpert.academy/2020/11/13/facebook-apresenta-novo-algoritmo-deteccao-fake-news/',
                 'https://iaexpert.academy/2020/11/16/automl-aspectos-aplicacoes/']

In [None]:
for url in lista_artigos:
  #print(url)
  g = Goose()
  artigo = g.extract(url)
  lista_sentencas, melhores_sentencas, _, _ = sumarizar(artigo.cleaned_text, 5)
  visualiza_resumo(artigo.title, lista_sentencas, melhores_sentencas)

## Solução para o exercício - lematização

In [None]:
!pip install spacy==2.2.3 #Atualizado 18/05/2021 - Utilizar essa versão

In [63]:
import spacy

In [None]:
!python -m spacy download pt

In [68]:
pln = spacy.load("pt_core_news_sm")
pln

<spacy.lang.pt.Portuguese at 0x7db3aa91f670>

https://spacy.io/models

In [69]:
documento = pln('inteligentes inteligente inteligência corrida corrido correr correndo correstes')
for token in documento:
  print(token.text, token.lemma_)

inteligentes inteligente
inteligente inteligente
inteligência inteligência
corrida corrida
corrido correr
correr correr
correndo correr
correstes correste


In [70]:
def preprocessamento_lematizacao(texto):
  texto = texto.lower()
  texto = re.sub(r" +", ' ', texto)

  documento = pln(texto)
  tokens = []
  for token in documento:
    tokens.append(token.lemma_)

  tokens = [palavra for palavra in tokens if palavra not in stopwords and palavra not in string.punctuation]
  texto_formatado = ' '.join([str(elemento) for elemento in tokens if not elemento.isdigit()])

  return texto_formatado

In [71]:
preprocessamento_lematizacao(texto_original)

'inteligência artificial inteligência similar a o humana definem estudo agente artificial inteligência ciência engenharia produzir máquina inteligência resolver problema possuir inteligência relacionar a o comportamento inteligente construção máquina raciocinar aprender erro acerto inteligência artificial raciocinar em o situação de o cotidiano'

In [72]:
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

In [73]:
def sumarizar_lematizacao(texto, quantidade_sentencas):
  texto_original = texto
  # Chamada para a outra função de pré-processamento
  texto_formatado = preprocessamento_lematizacao(texto_original)

  frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
  frequencia_maxima = max(frequencia_palavras.values())
  for palavra in frequencia_palavras.keys():
    frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)
  lista_sentencas = nltk.sent_tokenize(texto_original)

  nota_sentencas = {}
  for sentenca in lista_sentencas:
    for palavra in nltk.word_tokenize(sentenca):
      if palavra in frequencia_palavras.keys():
        if sentenca not in nota_sentencas.keys():
          nota_sentencas[sentenca] = frequencia_palavras[palavra]
        else:
          nota_sentencas[sentenca] += frequencia_palavras[palavra]

  import heapq
  melhores_sentencas = heapq.nlargest(quantidade_sentencas, nota_sentencas, key=nota_sentencas.get)

  return lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas

In [74]:
for url in lista_artigos:
  #print(url)
  g = Goose()
  artigo = g.extract(url)
  lista_sentencas, melhores_sentencas, _, _ = sumarizar_lematizacao(artigo.cleaned_text, 5)
  visualiza_resumo(artigo.title, lista_sentencas, melhores_sentencas)