<a href="https://colab.research.google.com/github/ernestojr-7/Sumarizacao-de-textos/blob/main/Alg_baseado_em_freq_para__sumarizar.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Projeto básico de sumarização de textos baseado em frequência de palavras

## Pré-processamento do texto

In [1]:
import re
import nltk
import string

In [2]:
texto_original = """A inteligência artificial é a inteligência similar à humana. 
                    Definem como o estudo de agente artificial com inteligência. 
                    Ciência e engenharia de produzir máquinas com inteligência. 
                    Resolver problemas e possuir inteligência. 
                    Relacionada ao comportamento inteligente. 
                    Construção de máquinas para raciocinar. 
                    Aprender com os erros e acertos. 
                    Inteligência artificial é raciocinar nas situações do cotidiano."""

In [3]:
texto_original

'A inteligência artificial é a inteligência similar à humana. \n                    Definem como o estudo de agente artificial com inteligência. \n                    Ciência e engenharia de produzir máquinas com inteligência. \n                    Resolver problemas e possuir inteligência. \n                    Relacionada ao comportamento inteligente. \n                    Construção de máquinas para raciocinar. \n                    Aprender com os erros e acertos. \n                    Inteligência artificial é raciocinar nas situações do cotidiano.'

In [4]:
texto_original = re.sub(r'  +', ' ', texto_original)

In [5]:
texto_original

'A inteligência artificial é a inteligência similar à humana. \n Definem como o estudo de agente artificial com inteligência. \n Ciência e engenharia de produzir máquinas com inteligência. \n Resolver problemas e possuir inteligência. \n Relacionada ao comportamento inteligente. \n Construção de máquinas para raciocinar. \n Aprender com os erros e acertos. \n Inteligência artificial é raciocinar nas situações do cotidiano.'

In [6]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [7]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [8]:
stopwords = nltk.corpus.stopwords.words('portuguese')
print(stopwords)

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estiv

In [9]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [10]:
def pre_processamento(texto):
  texto_formatado = texto.lower()
  tokens = []
  for token in nltk.word_tokenize(texto_formatado):
    tokens.append(token)

  tokens = [palavra for palavra in tokens if palavra not in stopwords and palavra not in string.punctuation]
  texto_formatado = ' '.join([str(elemento) for elemento in tokens if not elemento.isdigit()])

  return texto_formatado

In [11]:
texto_formatado = pre_processamento(texto_original)
texto_formatado

'inteligência artificial inteligência similar humana definem estudo agente artificial inteligência ciência engenharia produzir máquinas inteligência resolver problemas possuir inteligência relacionada comportamento inteligente construção máquinas raciocinar aprender erros acertos inteligência artificial raciocinar situações cotidiano'

## Frequência das palavras

In [12]:
frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
frequencia_palavras

FreqDist({'acertos': 1,
          'agente': 1,
          'aprender': 1,
          'artificial': 3,
          'ciência': 1,
          'comportamento': 1,
          'construção': 1,
          'cotidiano': 1,
          'definem': 1,
          'engenharia': 1,
          'erros': 1,
          'estudo': 1,
          'humana': 1,
          'inteligente': 1,
          'inteligência': 6,
          'máquinas': 2,
          'possuir': 1,
          'problemas': 1,
          'produzir': 1,
          'raciocinar': 2,
          'relacionada': 1,
          'resolver': 1,
          'similar': 1,
          'situações': 1})

In [13]:
frequencia_palavras.keys()

dict_keys(['inteligência', 'artificial', 'similar', 'humana', 'definem', 'estudo', 'agente', 'ciência', 'engenharia', 'produzir', 'máquinas', 'resolver', 'problemas', 'possuir', 'relacionada', 'comportamento', 'inteligente', 'construção', 'raciocinar', 'aprender', 'erros', 'acertos', 'situações', 'cotidiano'])

In [14]:
frequencia_maxima = max(frequencia_palavras.values())
frequencia_maxima

6

In [15]:
for palavra in frequencia_palavras.keys():
  frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)
frequencia_palavras

FreqDist({'acertos': 0.16666666666666666,
          'agente': 0.16666666666666666,
          'aprender': 0.16666666666666666,
          'artificial': 0.5,
          'ciência': 0.16666666666666666,
          'comportamento': 0.16666666666666666,
          'construção': 0.16666666666666666,
          'cotidiano': 0.16666666666666666,
          'definem': 0.16666666666666666,
          'engenharia': 0.16666666666666666,
          'erros': 0.16666666666666666,
          'estudo': 0.16666666666666666,
          'humana': 0.16666666666666666,
          'inteligente': 0.16666666666666666,
          'inteligência': 1.0,
          'máquinas': 0.3333333333333333,
          'possuir': 0.16666666666666666,
          'problemas': 0.16666666666666666,
          'produzir': 0.16666666666666666,
          'raciocinar': 0.3333333333333333,
          'relacionada': 0.16666666666666666,
          'resolver': 0.16666666666666666,
          'similar': 0.16666666666666666,
          'situações': 0.166666666

## Tokenização de sentenças

In [16]:
# essa nao e uma boa tatica
'o dr. joão foi para casa. Ele chegou cedo'.split('.')

['o dr', ' joão foi para casa', ' Ele chegou cedo']

In [17]:
nltk.word_tokenize('o dr. joão foi para casa. Ele chegou cedo')

['o', 'dr.', 'joão', 'foi', 'para', 'casa', '.', 'Ele', 'chegou', 'cedo']

In [18]:
nltk.sent_tokenize('o dr. joão foi para casa. Ele chegou cedo')

['o dr. joão foi para casa.', 'Ele chegou cedo']

In [19]:
lista_sentencas = nltk.sent_tokenize(texto_original)
lista_sentencas

['A inteligência artificial é a inteligência similar à humana.',
 'Definem como o estudo de agente artificial com inteligência.',
 'Ciência e engenharia de produzir máquinas com inteligência.',
 'Resolver problemas e possuir inteligência.',
 'Relacionada ao comportamento inteligente.',
 'Construção de máquinas para raciocinar.',
 'Aprender com os erros e acertos.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.']

## Geração do resumo (nota para cada sentença)

In [20]:
frequencia_palavras

FreqDist({'acertos': 0.16666666666666666,
          'agente': 0.16666666666666666,
          'aprender': 0.16666666666666666,
          'artificial': 0.5,
          'ciência': 0.16666666666666666,
          'comportamento': 0.16666666666666666,
          'construção': 0.16666666666666666,
          'cotidiano': 0.16666666666666666,
          'definem': 0.16666666666666666,
          'engenharia': 0.16666666666666666,
          'erros': 0.16666666666666666,
          'estudo': 0.16666666666666666,
          'humana': 0.16666666666666666,
          'inteligente': 0.16666666666666666,
          'inteligência': 1.0,
          'máquinas': 0.3333333333333333,
          'possuir': 0.16666666666666666,
          'problemas': 0.16666666666666666,
          'produzir': 0.16666666666666666,
          'raciocinar': 0.3333333333333333,
          'relacionada': 0.16666666666666666,
          'resolver': 0.16666666666666666,
          'similar': 0.16666666666666666,
          'situações': 0.166666666

In [21]:
nota_sentencas = {}
for sentenca in lista_sentencas:
  for palavra in nltk.word_tokenize(sentenca.lower()):
    if palavra in frequencia_palavras.keys():
      if sentenca not in nota_sentencas.keys():
        nota_sentencas[sentenca] = frequencia_palavras[palavra]
      else:
        nota_sentencas[sentenca] += frequencia_palavras[palavra]

In [22]:
nota_sentencas

{'A inteligência artificial é a inteligência similar à humana.': 2.833333333333333,
 'Aprender com os erros e acertos.': 0.5,
 'Ciência e engenharia de produzir máquinas com inteligência.': 1.8333333333333333,
 'Construção de máquinas para raciocinar.': 0.8333333333333333,
 'Definem como o estudo de agente artificial com inteligência.': 2.0,
 'Inteligência artificial é raciocinar nas situações do cotidiano.': 2.1666666666666665,
 'Relacionada ao comportamento inteligente.': 0.5,
 'Resolver problemas e possuir inteligência.': 1.5}

In [23]:
import heapq
melhores_sentencas = heapq.nlargest(3, nota_sentencas, key=nota_sentencas.get)

In [24]:
melhores_sentencas

['A inteligência artificial é a inteligência similar à humana.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.',
 'Definem como o estudo de agente artificial com inteligência.']

In [25]:
resumo = ' '.join(melhores_sentencas)
resumo

'A inteligência artificial é a inteligência similar à humana. Inteligência artificial é raciocinar nas situações do cotidiano. Definem como o estudo de agente artificial com inteligência.'

In [26]:
texto_original

'A inteligência artificial é a inteligência similar à humana. \n Definem como o estudo de agente artificial com inteligência. \n Ciência e engenharia de produzir máquinas com inteligência. \n Resolver problemas e possuir inteligência. \n Relacionada ao comportamento inteligente. \n Construção de máquinas para raciocinar. \n Aprender com os erros e acertos. \n Inteligência artificial é raciocinar nas situações do cotidiano.'

## Visualização do resumo

In [27]:
from IPython.core.display import HTML
texto = ''

display(HTML(f'<h1>Resumo do texto</h1>'))
for sentenca in lista_sentencas:
  if sentenca in melhores_sentencas:
    texto += str(sentenca).replace(sentenca, f'<mark>{sentenca}</mark>')
  else:
    texto += sentenca
display(HTML(f"""{texto}"""))

# Extração de texto da internet

In [28]:
!pip install goose3

Collecting goose3
  Downloading goose3-3.1.10-py3-none-any.whl (86 kB)
[?25l[K     |███▊                            | 10 kB 17.4 MB/s eta 0:00:01[K     |███████▌                        | 20 kB 11.2 MB/s eta 0:00:01[K     |███████████▎                    | 30 kB 9.0 MB/s eta 0:00:01[K     |███████████████                 | 40 kB 8.5 MB/s eta 0:00:01[K     |██████████████████▉             | 51 kB 5.3 MB/s eta 0:00:01[K     |██████████████████████▋         | 61 kB 5.7 MB/s eta 0:00:01[K     |██████████████████████████▍     | 71 kB 5.6 MB/s eta 0:00:01[K     |██████████████████████████████▏ | 81 kB 6.2 MB/s eta 0:00:01[K     |████████████████████████████████| 86 kB 2.6 MB/s 
Collecting cssselect
  Downloading cssselect-1.1.0-py2.py3-none-any.whl (16 kB)
Collecting langdetect
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[K     |████████████████████████████████| 981 kB 36.6 MB/s 
Building wheels for collected packages: langdetect
  Building wheel for langdetect (setup.p

In [29]:
from goose3 import Goose

In [30]:
g = Goose()
url = 'https://iaexpert.academy/2020/11/09/ia-preve-resultado-das-eleicoes-americanas/'
artigo = g.extract(url)

In [31]:
artigo.infos

{'authors': ['Denny Ceccon'],
 'cleaned_text': 'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton. Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos. Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados. Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.\n\nO modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais. O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito. No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.\n\nO Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleiç

In [32]:
artigo.cleaned_text

'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton. Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos. Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados. Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.\n\nO modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais. O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito. No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.\n\nO Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina ano passado. Desta vez, o mode

In [33]:
artigo_original = artigo.cleaned_text
artigo_original

'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton. Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos. Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados. Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.\n\nO modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais. O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito. No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.\n\nO Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina ano passado. Desta vez, o mode

In [34]:
artigo_formatado = pre_processamento(artigo_original)
artigo_formatado

'eleições presidenciais americanas maioria predições apontavam vitória hillary clinton entretanto história mostrou resultado oposto donald trump presidente últimos anos desta vez estatísticos reexaminaram modelos aumentar grau confiabilidade resultados nesta tentativa otimização predições inteligência artificial certamente ficou modelo desenvolvido dr. hernan makse físico estatístico universidade cidade nova york baseou predições rede neural treinada processar sentimentos expressos redes sociais algoritmo fez análise cerca bilhão tweets chegar estimativa resultados pleito dia eleição novembro modelo indicando vitória joe biden dr. makse disse trabalho começou eleição testado novamente eleições argentina ano passado desta vez modelo treinando cerca vezes dados eleições americanas anteriores trabalho depende apenas coleta dados tratamento estatístico adequado levar consideração duas variáveis externas viés amostragem taxa comparecimento primeiro fator refere fato redes sociais necessaria

In [35]:
import heapq
def sumarizar(texto, porcent_resumo):
  texto_original = texto
  texto_formatado = pre_processamento(texto_original)

  frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
  frequencia_maxima = max(frequencia_palavras.values())
  for palavra in frequencia_palavras.keys():
    frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)
  lista_sentencas = nltk.sent_tokenize(texto_original)
  
  nota_sentencas = {}
  for sentenca in lista_sentencas:
    for palavra in nltk.word_tokenize(sentenca):
      if palavra in frequencia_palavras.keys():
        if sentenca not in nota_sentencas.keys():
          nota_sentencas[sentenca] = frequencia_palavras[palavra]
        else:
          nota_sentencas[sentenca] += frequencia_palavras[palavra]
  melhores_sentencas = heapq.nlargest(int((porcent_resumo/100)*len(lista_sentencas)), nota_sentencas, key=nota_sentencas.get)
  return lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas

In [36]:
lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas = sumarizar(artigo_original, 40)

In [37]:
lista_sentencas

['Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton.',
 'Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos.',
 'Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados.',
 'Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.',
 'O modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais.',
 'O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito.',
 'No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.',
 'O Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina ano pas

In [38]:
melhores_sentencas

['A participação em redes sociais costuma ser maior nas cidades grandes, que de fato têm preferência por um dos candidatos, e o modelo deve ser corrigido para levar em consideração também a opinião das pessoas que não são ativas neste ambiente virtual.',
 'O trabalho não depende apenas da coleta dos dados, mas também de um tratamento estatístico adequado para levar em consideração duas variáveis externas: o viés de amostragem e a taxa de comparecimento.',
 'O modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais.',
 'Quando seu modelo foi usado para predizer os resultados da eleição corrente usando dados brutos, Joe Biden apareceu como vencedor com larga vantagem.',
 'Desta vez, o modelo está treinando com cerca de 5 vezes mais dados que nas eleições americanas anteriores.',
 'O segundo fator se deve à não-obrigatoriedade de votação

In [39]:
frequencia_palavras

FreqDist({'acompanhou': 0.16666666666666666,
          'acredita': 0.16666666666666666,
          'adequado': 0.16666666666666666,
          'ainda': 0.16666666666666666,
          'algoritmo': 0.16666666666666666,
          'algoritmos': 0.16666666666666666,
          'ambiente': 0.16666666666666666,
          'americana': 0.16666666666666666,
          'americanas': 0.3333333333333333,
          'amostragem': 0.16666666666666666,
          'ano': 0.16666666666666666,
          'anos': 0.16666666666666666,
          'anteriores': 0.16666666666666666,
          'análise': 0.16666666666666666,
          'apareceu': 0.16666666666666666,
          'apenas': 0.16666666666666666,
          'aplicar': 0.16666666666666666,
          'apontavam': 0.16666666666666666,
          'apresentadas': 0.16666666666666666,
          'após': 0.16666666666666666,
          'argentina': 0.16666666666666666,
          'artificial': 0.16666666666666666,
          'ativas': 0.16666666666666666,
          'aum

In [40]:
nota_sentencas

{'A participação em redes sociais costuma ser maior nas cidades grandes, que de fato têm preferência por um dos candidatos, e o modelo deve ser corrigido para levar em consideração também a opinião das pessoas que não são ativas neste ambiente virtual.': 7.500000000000001,
 'Após aplicar os mecanismos de correção para os dois vieses identificados, a vantagem diminuiu, mas Biden ainda é indicado como favorito.': 2.0,
 'Desta vez, o modelo está treinando com cerca de 5 vezes mais dados que nas eleições americanas anteriores.': 3.9999999999999996,
 'Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados.': 2.3333333333333335,
 'Ele acredita ser esta uma das razões para que as estimativas da última eleição, baseadas em métodos tradicionais de coleta de informação, terem falhado.': 3.3333333333333326,
 'Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos.': 1.1666666666666665,
 'N

In [41]:
def visualiza_resumo(titulo, lista_sentencas, melhores_sentencas):
  from IPython.core.display import HTML
  texto = ''

  display(HTML(f'<h1>Resumo do texto - {titulo}</h1>'))
  for i in lista_sentencas:
    if i in melhores_sentencas:
      texto += str(i).replace(i, f"<mark>{i}</mark>")
    else:
      texto += i
  display(HTML(f""" {texto} """))

In [42]:
visualiza_resumo('Eleições', lista_sentencas, melhores_sentencas)

## Sumarização de mais textos

In [47]:
lista_artigos = ['https://computerworld.com.br/carreira/python-10-motivos-para-aprender-a-linguagem-em-2019/',
                 'https://super.abril.com.br/tecnologia/afinal-o-que-sao-deepfakes/',
                 'https://blog.cronapp.io/algoritmos-de-machine-learning/']
                #  'https://iaexpert.academy/2020/11/16/automl-aspectos-aplicacoes/']

In [48]:
for url in lista_artigos:
  g = Goose()
  artigo = g.extract(url)
  lista_sentencas, melhores_sentencas, _, _ = sumarizar(artigo.cleaned_text, 40)
  visualiza_resumo(artigo.title, lista_sentencas, melhores_sentencas)

# Considerando lematização

In [49]:
!pip install spacy==2.2.3

Collecting spacy==2.2.3
  Downloading spacy-2.2.3-cp37-cp37m-manylinux1_x86_64.whl (10.4 MB)
[K     |████████████████████████████████| 10.4 MB 4.9 MB/s 
Collecting thinc<7.4.0,>=7.3.0
  Downloading thinc-7.3.1-cp37-cp37m-manylinux1_x86_64.whl (2.2 MB)
[K     |████████████████████████████████| 2.2 MB 45.0 MB/s 
Installing collected packages: thinc, spacy
  Attempting uninstall: thinc
    Found existing installation: thinc 7.4.0
    Uninstalling thinc-7.4.0:
      Successfully uninstalled thinc-7.4.0
  Attempting uninstall: spacy
    Found existing installation: spacy 2.2.4
    Uninstalling spacy-2.2.4:
      Successfully uninstalled spacy-2.2.4
Successfully installed spacy-2.2.3 thinc-7.3.1


In [50]:
import spacy

In [51]:
!python -m spacy download pt

Collecting pt_core_news_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-2.2.5/pt_core_news_sm-2.2.5.tar.gz (21.2 MB)
[K     |████████████████████████████████| 21.2 MB 1.2 MB/s 
Building wheels for collected packages: pt-core-news-sm
  Building wheel for pt-core-news-sm (setup.py) ... [?25l[?25hdone
  Created wheel for pt-core-news-sm: filename=pt_core_news_sm-2.2.5-py3-none-any.whl size=21186282 sha256=717f4e388528c2e12bf288b69e7a5578f640b2c40b75c8a6f2c0c2a39d65ffcb
  Stored in directory: /tmp/pip-ephem-wheel-cache-i647b0ir/wheels/c3/f9/0c/5c014a36941a00f5df5fc0756cb961d7c457a978e697a6ce3b
Successfully built pt-core-news-sm
Installing collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-2.2.5
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')
[38;5;2m✔ Linking successful[0m
/usr/local/lib/python3.7/dist-packages/pt_core_news_sm -->
/usr/local/lib/

In [52]:
pln = spacy.load('pt')
pln

<spacy.lang.pt.Portuguese at 0x7fcac351ebd0>

In [53]:
documento = pln('inteligentes inteligente inteligência corrida corrido correr correndo correstes')
for token in documento:
  print(token.text, token.lemma_)

inteligentes inteligente
inteligente inteligente
inteligência inteligência
corrida corrido
corrido correr
correr correr
correndo correr
correstes correr


In [54]:
def pre_processamento_lematizacao(texto):
  texto = texto.lower()
  texto = re.sub(r" +", ' ', texto)

  documento = pln(texto)
  tokens = []
  for token in documento:
    tokens.append(token.lemma_)
  
  tokens = [palavra for palavra in tokens if palavra not in stopwords and palavra not in string.punctuation]
  texto_formatado = ' '.join([str(elemento) for elemento in tokens if not elemento.isdigit()])
  
  return texto_formatado

In [55]:
pre_processamento_lematizacao(texto_original)

'inteligência artificial ser inteligência similar humano \n  definir comer estudar agente artificial inteligência \n  ciência engenhar produzir máquina inteligência \n  resolver problema possuir inteligência \n  relacionar comportamento inteligente \n  construção máquina parir raciocinar \n  aprender erro acerto \n  inteligência artificial ser raciocinar situação cotidiano'

In [56]:
texto_original

'A inteligência artificial é a inteligência similar à humana. \n Definem como o estudo de agente artificial com inteligência. \n Ciência e engenharia de produzir máquinas com inteligência. \n Resolver problemas e possuir inteligência. \n Relacionada ao comportamento inteligente. \n Construção de máquinas para raciocinar. \n Aprender com os erros e acertos. \n Inteligência artificial é raciocinar nas situações do cotidiano.'

In [57]:
import heapq
def sumarizar_lematizacao(texto, porcent_resumo):
  texto_original = texto
  # Chamada para a outra função de pré-processamento
  texto_formatado = pre_processamento_lematizacao(texto_original)

  frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
  frequencia_maxima = max(frequencia_palavras.values())
  for palavra in frequencia_palavras.keys():
    frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)
  lista_sentencas = nltk.sent_tokenize(texto_original)
  
  nota_sentencas = {}
  for sentenca in lista_sentencas:
    for palavra in nltk.word_tokenize(sentenca):
      if palavra in frequencia_palavras.keys():
        if sentenca not in nota_sentencas.keys():
          nota_sentencas[sentenca] = frequencia_palavras[palavra]
        else:
          nota_sentencas[sentenca] += frequencia_palavras[palavra]
  melhores_sentencas = heapq.nlargest(int((porcent_resumo/100)*len(lista_sentencas)), nota_sentencas, key=nota_sentencas.get)
  return lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas

In [58]:
for url in lista_artigos:
  g = Goose()
  artigo = g.extract(url)
  lista_sentencas, melhores_sentencas, _, _ = sumarizar_lematizacao(artigo.cleaned_text, 40)
  visualiza_resumo(artigo.title, lista_sentencas, melhores_sentencas)