<a href="https://colab.research.google.com/github/oliveiraprg/text-summarization-with-python/blob/main/Algoritimo_b%C3%A1sico_para_sumariza%C3%A7%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sumarização de textos com processamento de linguagem natural

## Pré-processamento do texto

In [1]:
import re
import nltk
import string

In [2]:
texto_original = """A inteligência artificial é a inteligência similar à humana.
                    Definem como o estudo de agente artificial com inteligência.
                    Ciência e engenharia de produzir máquinas com inteligência.
                    Resolver problemas e possuir inteligência. 
                    Relacionada ao comportamento inteligente. 
                    Construção de máquinas para raciocinar. 
                    Aprender com os erros e acertos. 
                    Inteligência artificial é raciocinar nas situações do cotidiano."""

In [3]:
texto_original = re.sub(r'\s+', ' ', texto_original)

In [5]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [6]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [7]:
stop_words = nltk.corpus.stopwords.words('portuguese')

In [8]:
def pre_processamento(texto):
  texto_formatado = texto.lower()
  tokens = []
  for token in nltk.word_tokenize(texto_formatado):
    tokens.append(token)
  tokens = [palavra for palavra in tokens if palavra not in stop_words and palavra not in string.punctuation]
  texto_formatado = ' '.join([str(elemento) for elemento in tokens if not elemento.isdigit()])

  return texto_formatado

In [9]:
texto_formatado = pre_processamento(texto_original)

## Frência das palavras

In [10]:
frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
frequencia_palavras

FreqDist({'inteligência': 6, 'artificial': 3, 'máquinas': 2, 'raciocinar': 2, 'similar': 1, 'humana': 1, 'definem': 1, 'estudo': 1, 'agente': 1, 'ciência': 1, ...})

In [11]:
frequencia_maxima = max(frequencia_palavras.values())

In [12]:
for palavra in frequencia_palavras.keys():
  frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima )

## Tokenização de sentenças

In [13]:
lista_sentencas = nltk.sent_tokenize(texto_original)

## Geração do resumo (nota para as sentenças)

In [14]:
nota_sentencas = {}
for sentenca in lista_sentencas:
  for palavra in nltk.word_tokenize(sentenca.lower()):
    if palavra in frequencia_palavras.keys():
      if sentenca not in nota_sentencas.keys():
        nota_sentencas[sentenca] = frequencia_palavras[palavra]
      else:
        nota_sentencas[sentenca] += frequencia_palavras[palavra]

In [15]:
nota_sentencas

{'A inteligência artificial é a inteligência similar à humana.': 2.833333333333333,
 'Definem como o estudo de agente artificial com inteligência.': 2.0,
 'Ciência e engenharia de produzir máquinas com inteligência.': 1.8333333333333333,
 'Resolver problemas e possuir inteligência.': 1.5,
 'Relacionada ao comportamento inteligente.': 0.5,
 'Construção de máquinas para raciocinar.': 0.8333333333333333,
 'Aprender com os erros e acertos.': 0.5,
 'Inteligência artificial é raciocinar nas situações do cotidiano.': 2.1666666666666665}

In [16]:
import heapq
melhores_sentencas = heapq.nlargest(3, nota_sentencas, key=nota_sentencas.get)

In [17]:
melhores_sentencas

['A inteligência artificial é a inteligência similar à humana.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.',
 'Definem como o estudo de agente artificial com inteligência.']

In [18]:
resumo = ' '.join(melhores_sentencas)
resumo

'A inteligência artificial é a inteligência similar à humana. Inteligência artificial é raciocinar nas situações do cotidiano. Definem como o estudo de agente artificial com inteligência.'

## Vizualização do resumo

In [19]:
from IPython.core.display import HTML
texto = ''

display(HTML(f'<h1>Resumo do texto</h1>'))
for sentenca in lista_sentencas:
  #texto += sentenca
  if sentenca in melhores_sentencas:
    texto += str(sentenca).replace(sentenca, f'<mark>{sentenca}</mark>')
  else:
    texto += sentenca
display(HTML(f'{texto}'))


## Extração de texto da internet

In [20]:
!pip install goose3

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting goose3
  Downloading goose3-3.1.12-py3-none-any.whl (88 kB)
[K     |████████████████████████████████| 88 kB 4.2 MB/s 
[?25hCollecting cssselect
  Downloading cssselect-1.1.0-py2.py3-none-any.whl (16 kB)
Collecting pyahocorasick
  Downloading pyahocorasick-1.4.4-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (106 kB)
[K     |████████████████████████████████| 106 kB 60.5 MB/s 
Collecting langdetect
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[K     |████████████████████████████████| 981 kB 65.8 MB/s 
Building wheels for collected packages: langdetect
  Building wheel for langdetect (setup.py) ... [?25l[?25hdone
  Created wheel for langdetect: filename=langdetect-1.0.9-py3-none-any.whl size=993242 sha256=35327767710371925b4cdb4a8f96ba750156edf43a52534ef395257f6473986f
  Stored in directory: /root/.cache/pip/wheels/c5/96/8a/f90c59ed25d75e50a8c10a1b1c2d4c402e4dac

In [21]:
from goose3 import Goose

In [22]:
g = Goose()
url = 'https://iaexpert.academy/2020/11/09/ia-preve-resultado-das-eleicoes-americanas/'
artigo = g.extract(url)

In [35]:
artigo.cleaned_text

'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton. Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos. Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados. Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.\n\nO modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais. O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito. No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.\n\nO Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina ano passado. Desta vez, o mode

In [24]:
titulo_artigo = artigo.title or 'Sem titulo'
artigo_original = artigo.cleaned_text

In [39]:
def sumarizar(texto):
  import heapq
  import re
  texto_original = texto
  texto_original = re.sub(r'\s+', ' ', texto_original)
  texto_formatado = pre_processamento(texto_original)
  
  frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
  frequencia_maxima = max(frequencia_palavras.values())
  for palavra in frequencia_palavras.keys():
    frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)
    lista_sentencas = nltk.sent_tokenize(texto_original)
  quantidade_sentencas = int(len(lista_sentencas) / 3)
  notas_sentencas = {}
  for sentenca in lista_sentencas:
    for palavra in nltk.word_tokenize(sentenca):
      if palavra in frequencia_palavras.keys():
        if sentenca not in notas_sentencas.keys():
          notas_sentencas[sentenca] = frequencia_palavras[sentenca]
        else:
          notas_sentencas[sentenca] += frequencia_palavras[palavra]
  
  melhores_sentencas = heapq.nlargest(quantidade_sentencas, notas_sentencas, key=notas_sentencas.get)

  return lista_sentencas, melhores_sentencas, frequencia_palavras, notas_sentencas

In [40]:
lista_sentencas_sumarizadas, melhores_sentencas_sumarizadas, frequencia_palavras_sumarizadas, nota_sentencas_sumarizadas = sumarizar(artigo_original)

In [27]:
nota_sentencas_sumarizadas

{'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton.': 1.8333333333333333,
 'Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos.': 0.9999999999999999,
 'Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados.': 1.6666666666666665,
 'Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.': 1.5,
 'O modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais.': 3.4999999999999996,
 'O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito.': 2.0,
 'No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.': 2.3333333333333335,
 'O Dr. Makse d

In [51]:
def visualizar_resumo(titulo, lista_sentencas, melhores_sentencas):
  from IPython.core.display import HTML
  texto = ''
  resumo = ''
  display(HTML(f'<h1>{titulo}</h1>'))
  display(HTML(f'<h2>Texto com resumo destacado - {titulo}</h2>'))
  for sentenca in lista_sentencas:
    if sentenca in melhores_sentencas:
      texto += str(sentenca).replace(sentenca, f'<mark>{sentenca} </mark>')
      resumo += str(sentenca).replace(sentenca, f'{sentenca} ')
    else:
      texto += f'{sentenca} '
  display(HTML(f'{texto}'))
  display(HTML(f'<h2>Resumo de - {titulo}</h2>'))
  display(HTML(f'{resumo}'))


In [52]:
visualizar_resumo(titulo_artigo, lista_sentencas_sumarizadas, melhores_sentencas_sumarizadas)

## Sumarização de mais textos

In [53]:
lista_artigos = ['https://iaexpert.academy/2022/09/14/ia-identifica-vocalizacoes-roedores-usam-para-comunicar/',
                 'https://iaexpert.academy/2022/09/28/openai-apresenta-whisper-sistema-transcricao-audio-desempenho-humano/',
                 'https://iaexpert.academy/2022/09/21/trabalho-expoe-redes-neurais-robustas-arquitetura-diferente-funcionam-forma-similar/',
                 'https://iaexpert.academy/2022/09/07/governo-frances-usa-ia-identificar-piscinas-nao-declaradas/',
                 'https://iaexpert.academy/2022/08/31/ia-diagnostica-mal-parkinson-a-partir-padrao-respiratorio/',
                 'https://iaexpert.academy/2022/08/03/ia-preve-estruturas-rna-base-sua-sequencia/']

In [55]:
for url in lista_artigos:
  g = Goose()
  artigo = g.extract(url)
  lista_sentencas, melhores_sentencas, _, _ = sumarizar (artigo.cleaned_text)
  visualizar_resumo(artigo.title, lista_sentencas, melhores_sentencas)



## Exercício de lematização

In [56]:
import spacy

In [58]:
!python -m spacy download pt_core_news_sm

2022-10-01 22:20:50.983058: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pt-core-news-sm==3.4.0
  Using cached https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.4.0/pt_core_news_sm-3.4.0-py3-none-any.whl (13.0 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


In [59]:
pln = spacy.load('pt_core_news_sm')

<spacy.lang.pt.Portuguese at 0x7f8090f1ce90>

In [60]:
def pre_processamento_lematizacao(texto):
  texto = texto.lower()
  texto = re.sub(" +", ' ', texto)
  documento = pln(texto)
  tokens = []
  for token in documento:
    tokens.append(token.lemma_)
  tokens = [palavra for palavra in tokens if palavra not in stop_words and palavra not in string.punctuation]
  texto_formatado = ' '.join([str(elemento) for elemento in tokens if not elemento.isdigit()])
  return texto_formatado

In [63]:
def sumarizar_lematizacao(texto):
  import heapq
  import re
  texto_original = texto
  texto_original = re.sub(r'\s+', ' ', texto_original)
  texto_formatado = pre_processamento_lematizacao(texto_original)
  
  frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
  frequencia_maxima = max(frequencia_palavras.values())
  for palavra in frequencia_palavras.keys():
    frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)
    lista_sentencas = nltk.sent_tokenize(texto_original)
  quantidade_sentencas = int(len(lista_sentencas) / 3)
  notas_sentencas = {}
  for sentenca in lista_sentencas:
    for palavra in nltk.word_tokenize(sentenca):
      if palavra in frequencia_palavras.keys():
        if sentenca not in notas_sentencas.keys():
          notas_sentencas[sentenca] = frequencia_palavras[sentenca]
        else:
          notas_sentencas[sentenca] += frequencia_palavras[palavra]
  
  melhores_sentencas = heapq.nlargest(quantidade_sentencas, notas_sentencas, key=notas_sentencas.get)

  return lista_sentencas, melhores_sentencas, frequencia_palavras, notas_sentencas

In [64]:
for url in lista_artigos:
  g = Goose()
  artigo = g.extract(url)
  lista_sentencas, melhores_sentencas, _, _ = sumarizar_lematizacao(artigo.cleaned_text)
  visualizar_resumo(artigo.title, lista_sentencas, melhores_sentencas)

