# Algoritmo baseado para Sumarização de Textos

- Teoria e Cálculos passo a passo
- Implementação do algoritmo
- Geração de resumos
- Exercício

### Sumarização de textos

- 1 - Pré-processamento do texto
- 2 - Frequência das palavras
- 3 - Frequência proporcional das palavras(pesos)
- 4 - Tokenização das sentenças
- 5 - Nota para as sentenças
- 6 - Ordenação das melhores sentenças
- 7 - Gerando o resumo

#### 1 - Pré-processamento do texto

Faremos 3 tipos de pré-processamento:

- Converter todo o texto para minúsculo
- Remoção das stopwords
- Remoção da pontuação

#### 2 - Frequência das palavras

Vamos verificar quantas vezes cada palavra aparece.

#### 3 - Frequência proporcional das palavras(pesos)

Vamos dividir as ocorrências da palavras com o valor da palavra que mais apareceu em nosso texto. No exemplo, vamos usar a palavra inteligência como maior ocorrência, 6 e dividir todas as demais por ela.  

![image](https://user-images.githubusercontent.com/6373438/233171538-c84e39e9-463a-4ba6-8f13-b8e685c7e918.png)

#### 4 - Tokenização das sentenças

![image](https://user-images.githubusercontent.com/6373438/233172214-3d7c9eab-82f1-4607-a0ea-96ca5a2e8265.png)

#### 5 - Nota para as sentenças

![image](https://user-images.githubusercontent.com/6373438/233172389-8f983227-eb8a-411a-b250-9ec0622a0fc8.png)


#### 6 - Ordenação das melhores sentenças

![image](https://user-images.githubusercontent.com/6373438/233172389-8f983227-eb8a-411a-b250-9ec0622a0fc8.png)

#### 7 - Gerando o resumo

![image](https://user-images.githubusercontent.com/6373438/233172752-03642386-a286-4d70-b474-62a3b2a7f712.png)

## Pré-processamento do texto

In [1]:
# Importando as libs
import re
import nltk
import string

In [4]:
texto_original = """A inteligência artificial é a inteligência similar a humana. 
                    Definem como o estudo de agente artificial com inteligência.
                    Ciência e engenharia de produzir máquinas com inteligência.
                    Resolver problemas e possuir inteligência.
                    Relacionada ao comportamento inteligente.
                    Construção de máquinas para raciocinar.
                    Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano."""

In [5]:
texto_original

'A inteligência artificial é a inteligência similar a humana. \n                    Definem como o estudo de agente artificial com inteligência.\n                    Ciência e engenharia de produzir máquinas com inteligência.\n                    Resolver problemas e possuir inteligência.\n                    Relacionada ao comportamento inteligente.\n                    Construção de máquinas para raciocinar.\n                    Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

In [6]:
texto_original = re.sub(r'\s+', ' ', texto_original)

In [7]:
texto_original

'A inteligência artificial é a inteligência similar a humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

In [10]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\adria\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [16]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\adria\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [17]:
stopwords = nltk.corpus.stopwords.words("portuguese")
print(stopwords)

['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houvessem', 'houvésse

In [18]:
len(stopwords)

207

In [22]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [25]:
def preprocessamento(texto):
    # Convertendo tudo para minus
    texto_formatado = texto.lower()
    
    # Gerando os Tokens
    tokens = []
    for token in nltk.word_tokenize(texto_formatado):
        tokens.append(token)
        
    # Removendo as stopwords
    tokens = [palavra for palavra in tokens if palavra not in stopwords and palavra not in string.punctuation]
    
    # Gerando o texto em formato correto
    texto_formatado = " ".join([str(elemento) for elemento in tokens])
    
    return texto_formatado
    # return tokens

In [26]:
texto_formatado = preprocessamento(texto_original)
texto_formatado

'inteligência artificial inteligência similar humana definem estudo agente artificial inteligência ciência engenharia produzir máquinas inteligência resolver problemas possuir inteligência relacionada comportamento inteligente construção máquinas raciocinar aprender erros acertos inteligência artificial raciocinar situações cotidiano'

## Frequência das Palavras

In [30]:
# Exibe quantas vezes cada letra foi exibida no código
frequencia_palavras = nltk.FreqDist(texto_formatado)

# Na verdade queremos as palavras, ai usaremos o word_tokenize
frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
frequencia_palavras

FreqDist({'inteligência': 6, 'artificial': 3, 'máquinas': 2, 'raciocinar': 2, 'similar': 1, 'humana': 1, 'definem': 1, 'estudo': 1, 'agente': 1, 'ciência': 1, ...})

In [36]:
frequencia_palavras['inteligência']

6

In [37]:
frequencia_palavras.keys()

dict_keys(['inteligência', 'artificial', 'similar', 'humana', 'definem', 'estudo', 'agente', 'ciência', 'engenharia', 'produzir', 'máquinas', 'resolver', 'problemas', 'possuir', 'relacionada', 'comportamento', 'inteligente', 'construção', 'raciocinar', 'aprender', 'erros', 'acertos', 'situações', 'cotidiano'])

## Frequência Proporcional

In [35]:
frequencia_maxima = max(frequencia_palavras.values())
frequencia_maxima

6

In [38]:
for palavra in frequencia_palavras.keys():
    frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)

In [39]:
frequencia_palavras

FreqDist({'inteligência': 1.0, 'artificial': 0.5, 'máquinas': 0.3333333333333333, 'raciocinar': 0.3333333333333333, 'similar': 0.16666666666666666, 'humana': 0.16666666666666666, 'definem': 0.16666666666666666, 'estudo': 0.16666666666666666, 'agente': 0.16666666666666666, 'ciência': 0.16666666666666666, ...})

## Tokenização das Sentenças

In [41]:
'o dr. joão foi pra casa. Ele chegou cedo.'.split('.')

['o dr', ' joão foi pra casa', ' Ele chegou cedo', '']

In [42]:
nltk.word_tokenize('o dr. joão foi pra casa. Ele chegou cedo.')

['o', 'dr.', 'joão', 'foi', 'pra', 'casa', '.', 'Ele', 'chegou', 'cedo', '.']

In [43]:
nltk.sent_tokenize('o dr. joão foi pra casa. Ele chegou cedo.')

['o dr. joão foi pra casa.', 'Ele chegou cedo.']

Agora vamos trabalhar com a geração das sentenças. Mas antes vou mostrar a forma incorreta de se fazer isso.

In [44]:
lista_sentencas = nltk.sent_tokenize(texto_formatado)
lista_sentencas

['inteligência artificial inteligência similar humana definem estudo agente artificial inteligência ciência engenharia produzir máquinas inteligência resolver problemas possuir inteligência relacionada comportamento inteligente construção máquinas raciocinar aprender erros acertos inteligência artificial raciocinar situações cotidiano']

Agora a forma correta

In [52]:
lista_sentencas = nltk.sent_tokenize(texto_original)
lista_sentencas

['A inteligência artificial é a inteligência similar a humana.',
 'Definem como o estudo de agente artificial com inteligência.',
 'Ciência e engenharia de produzir máquinas com inteligência.',
 'Resolver problemas e possuir inteligência.',
 'Relacionada ao comportamento inteligente.',
 'Construção de máquinas para raciocinar.',
 'Aprender com os erros e acertos.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.']

## Gerando o Resumo - Nota para as Sentenças

In [54]:
notas_sentencas = {}

for sentenca in lista_sentencas:
    #print(sentenca)
    for palavra in nltk.word_tokenize(sentenca.lower()):
        #print(palavra)
        if palavra in frequencia_palavras.keys():
            if sentenca not in notas_sentencas.keys():
                notas_sentencas[sentenca] = frequencia_palavras[palavra]
            else:
                notas_sentencas[sentenca] += frequencia_palavras[palavra]

In [56]:
notas_sentencas

{'A inteligência artificial é a inteligência similar a humana.': 2.833333333333333,
 'Definem como o estudo de agente artificial com inteligência.': 2.0,
 'Ciência e engenharia de produzir máquinas com inteligência.': 1.8333333333333333,
 'Resolver problemas e possuir inteligência.': 1.5,
 'Relacionada ao comportamento inteligente.': 0.5,
 'Construção de máquinas para raciocinar.': 0.8333333333333333,
 'Aprender com os erros e acertos.': 0.5,
 'Inteligência artificial é raciocinar nas situações do cotidiano.': 2.1666666666666665}

Ordenando as sentenças pelas notas maiores

In [57]:
import heapq

In [59]:
melhores_sentencas = heapq.nlargest(3, notas_sentencas, key = notas_sentencas.get)

In [60]:
melhores_sentencas

['A inteligência artificial é a inteligência similar a humana.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.',
 'Definem como o estudo de agente artificial com inteligência.']

## Visualização do Resumo

In [62]:
resumo = " ".join(melhores_sentencas)
print("Texto original: ", texto_original)
print()
print("Texto resumido:", resumo)

Texto original:  A inteligência artificial é a inteligência similar a humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.

Texto resumido: A inteligência artificial é a inteligência similar a humana. Inteligência artificial é raciocinar nas situações do cotidiano. Definem como o estudo de agente artificial com inteligência.


## Visualizando o resumo com HTML

In [64]:
from IPython.core.display import HTML

In [65]:
texto = ''

In [67]:
display(HTML(f'<h2>Resumo</h2>'))

for sentenca in lista_sentencas:
    #texto += sentenca
    if sentenca in melhores_sentencas:
        texto += str(sentenca).replace(sentenca, f"<mark>{sentenca}</mark>")
    else: 
        texto += sentenca
display(HTML(f"""{texto}"""))

# Resumindo textos da Internet

In [68]:
!pip install goose3

Defaulting to user installation because normal site-packages is not writeable
Collecting goose3
  Downloading goose3-3.1.13-py3-none-any.whl (88 kB)
     ---------------------------------------- 88.2/88.2 kB 4.9 MB/s eta 0:00:00
Collecting pyahocorasick
  Downloading pyahocorasick-2.0.0-cp39-cp39-win_amd64.whl (39 kB)
Collecting langdetect
  Downloading langdetect-1.0.9.tar.gz (981 kB)
     ------------------------------------- 981.5/981.5 kB 12.3 MB/s eta 0:00:00
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Building wheels for collected packages: langdetect
  Building wheel for langdetect (setup.py): started
  Building wheel for langdetect (setup.py): finished with status 'done'
  Created wheel for langdetect: filename=langdetect-1.0.9-py3-none-any.whl size=993225 sha256=a9b34aa8ae4e7aec6f3698909a8aef0548e1c82df5c5161ad9a35b0f0dd063d0
  Stored in directory: c:\users\adria\appdata\local\pip\cache\wheels\d1\c1\d9\7e068de779d863bc8

In [69]:
from goose3 import Goose

In [70]:
g = Goose()
url = "https://tecnoblog.net/noticias/2023/04/19/spotify-fica-fora-do-ar-e-nao-toca-musicas-ou-podcasts-na-quarta-feira-19/"
artigo = g.extract(url)

Publish date 19/04/2023 às 09:30 could not be resolved to UTC


In [72]:
artigo.infos

{'meta': {'description': 'Plataforma caiu repentinamente na manhã da quarta-feira; usuários ficaram impossibilitados de escutar músicas ou podcasts',
  'lang': 'pt',
  'keywords': '',
  'favicon': 'https://tecnoblog.net/wp-content/themes/tb/img/apple-icon-57x57.png',
  'canonical': 'https://tecnoblog.net/noticias/2023/04/19/spotify-fica-fora-do-ar-e-nao-toca-musicas-ou-podcasts-na-quarta-feira-19/',
  'encoding': 'utf-8'},
 'image': None,
 'domain': 'tecnoblog.net',
 'title': 'Spotify fica fora do ar e não toca músicas ou podcasts na quarta-feira (19) –',
 'cleaned_text': 'Usuários do Spotify apontaram lentidão e problemas na plataforma na quarta-feira (19), tanto para a versão web quanto no aplicativo. Quando tentamos abrir um álbum ou algum episódio, vemos apenas a movimentação de carregamento e, em seguida, a mensagem: “Algo deu errado ao carregar o artista”. A dor de cabeça já afetou milhares de indivíduos ao redor do mundo.\n\nOs problemas começaram a partir das 09h, com álbuns de

In [73]:
artigo.title

'Spotify fica fora do ar e não toca músicas ou podcasts na quarta-feira (19) –'

In [74]:
artigo.tags

['EUA', 'Discord', 'Twitter', 'DownDetector', 'Brasil', 'Spotify']

In [75]:
artigo.cleaned_text

'Usuários do Spotify apontaram lentidão e problemas na plataforma na quarta-feira (19), tanto para a versão web quanto no aplicativo. Quando tentamos abrir um álbum ou algum episódio, vemos apenas a movimentação de carregamento e, em seguida, a mensagem: “Algo deu errado ao carregar o artista”. A dor de cabeça já afetou milhares de indivíduos ao redor do mundo.\n\nOs problemas começaram a partir das 09h, com álbuns desaparecendo da playlist dos usuários, por exemplo. Depois, nada mais carregava, impossibilitando a audição de todo tipo de conteúdo.\n\nNo DownDetector, os relatos subiram rapidamente, alcançando em menos de 10 minutos mais de 500 notificações. No Twitter, as reclamações vieram de países diferentes, como os Estados Unidos e o Brasil. Pessoas apontaram que não era possível realizar buscas e que as mesmas faixas apareciam de forma seguida, mas que não era possível tocá-las.\n\nO perfil oficial de status do Spotify confirmou os problemas às 09h18 e afirmou que estão trabalhan

In [76]:
len(artigo.cleaned_text)

1987

In [77]:
artigo_original = artigo.cleaned_text
artigo_original

'Usuários do Spotify apontaram lentidão e problemas na plataforma na quarta-feira (19), tanto para a versão web quanto no aplicativo. Quando tentamos abrir um álbum ou algum episódio, vemos apenas a movimentação de carregamento e, em seguida, a mensagem: “Algo deu errado ao carregar o artista”. A dor de cabeça já afetou milhares de indivíduos ao redor do mundo.\n\nOs problemas começaram a partir das 09h, com álbuns desaparecendo da playlist dos usuários, por exemplo. Depois, nada mais carregava, impossibilitando a audição de todo tipo de conteúdo.\n\nNo DownDetector, os relatos subiram rapidamente, alcançando em menos de 10 minutos mais de 500 notificações. No Twitter, as reclamações vieram de países diferentes, como os Estados Unidos e o Brasil. Pessoas apontaram que não era possível realizar buscas e que as mesmas faixas apareciam de forma seguida, mas que não era possível tocá-las.\n\nO perfil oficial de status do Spotify confirmou os problemas às 09h18 e afirmou que estão trabalhan

In [79]:
artigo_formatado = preprocessamento(artigo_original)
artigo_formatado

'usuários spotify apontaram lentidão problemas plataforma quarta-feira 19 tanto versão web quanto aplicativo tentamos abrir álbum algum episódio vemos apenas movimentação carregamento seguida mensagem “ algo deu errado carregar artista ” dor cabeça afetou milhares indivíduos redor mundo problemas começaram partir 09h álbuns desaparecendo playlist usuários exemplo nada carregava impossibilitando audição todo tipo conteúdo downdetector relatos subiram rapidamente alcançando menos 10 minutos 500 notificações twitter reclamações vieram países diferentes estados unidos brasil pessoas apontaram possível realizar buscas mesmas faixas apareciam forma seguida possível tocá-las perfil oficial status spotify confirmou problemas 09h18 afirmou trabalhando nessa questão demorou nada grande quantidade respostas tuíte surgirem muitos brincando enquanto outros mostravam descontentamento recente possível informar quanto tempo levará tudo normalize últimas vezes plataforma caiu 2022 spotify ficou ar lado

In [80]:
len(artigo_formatado)

1477

### Função sumarizar

In [81]:
def sumarizar(texto, quantidade_sentencas):
    texto_original = texto
    texto_formatado = preprocessamento(texto_original)

    frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
    frequencia_maxima = max(frequencia_palavras.values())
    
    for palavra in frequencia_palavras.keys():
        frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)
        lista_sentencas = nltk.sent_tokenize(texto_original)
  
    nota_sentencas = {}
    for sentenca in lista_sentencas:
        for palavra in nltk.word_tokenize(sentenca):
            if palavra in frequencia_palavras.keys():
                if sentenca not in nota_sentencas.keys():
                    nota_sentencas[sentenca] = frequencia_palavras[palavra]
                else:
                    nota_sentencas[sentenca] += frequencia_palavras[palavra]

    import heapq
    melhores_sentencas = heapq.nlargest(quantidade_sentencas, nota_sentencas, key=nota_sentencas.get)

    return lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas

In [82]:
lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas = sumarizar(artigo_original, 5)

In [83]:
lista_sentencas, len(lista_sentencas)

(['Usuários do Spotify apontaram lentidão e problemas na plataforma na quarta-feira (19), tanto para a versão web quanto no aplicativo.',
  'Quando tentamos abrir um álbum ou algum episódio, vemos apenas a movimentação de carregamento e, em seguida, a mensagem: “Algo deu errado ao carregar o artista”.',
  'A dor de cabeça já afetou milhares de indivíduos ao redor do mundo.',
  'Os problemas começaram a partir das 09h, com álbuns desaparecendo da playlist dos usuários, por exemplo.',
  'Depois, nada mais carregava, impossibilitando a audição de todo tipo de conteúdo.',
  'No DownDetector, os relatos subiram rapidamente, alcançando em menos de 10 minutos mais de 500 notificações.',
  'No Twitter, as reclamações vieram de países diferentes, como os Estados Unidos e o Brasil.',
  'Pessoas apontaram que não era possível realizar buscas e que as mesmas faixas apareciam de forma seguida, mas que não era possível tocá-las.',
  'O perfil oficial de status do Spotify confirmou os problemas às 09

In [84]:
melhores_sentencas

['Segundo o perfil do Twitter de status da plataforma, tudo foi normalizado, mas se alguém se deparasse com novas lentidões, é possível avisar através do SpotifyCares na rede social do passarinho.',
 'Pessoas apontaram que não era possível realizar buscas e que as mesmas faixas apareciam de forma seguida, mas que não era possível tocá-las.',
 'Usuários do Spotify apontaram lentidão e problemas na plataforma na quarta-feira (19), tanto para a versão web quanto no aplicativo.',
 'Quando tentamos abrir um álbum ou algum episódio, vemos apenas a movimentação de carregamento e, em seguida, a mensagem: “Algo deu errado ao carregar o artista”.',
 'A plataforma de streaming de áudio agradeceu os relatos das pessoas nas redes sociais, destacando o suporte dos usuários.']

In [85]:
frequencia_palavras

FreqDist({'spotify': 1.0, 'possível': 1.0, 'plataforma': 0.8, 'usuários': 0.6, 'problemas': 0.6, 'apontaram': 0.4, 'lentidão': 0.4, 'quarta-feira': 0.4, '19': 0.4, 'quanto': 0.4, ...})

In [86]:
nota_sentencas

{'Usuários do Spotify apontaram lentidão e problemas na plataforma na quarta-feira (19), tanto para a versão web quanto no aplicativo.': 4.200000000000001,
 'Quando tentamos abrir um álbum ou algum episódio, vemos apenas a movimentação de carregamento e, em seguida, a mensagem: “Algo deu errado ao carregar o artista”.': 3.600000000000001,
 'A dor de cabeça já afetou milhares de indivíduos ao redor do mundo.': 1.7999999999999998,
 'Os problemas começaram a partir das 09h, com álbuns desaparecendo da playlist dos usuários, por exemplo.': 2.6,
 'Depois, nada mais carregava, impossibilitando a audição de todo tipo de conteúdo.': 2.0,
 'No DownDetector, os relatos subiram rapidamente, alcançando em menos de 10 minutos mais de 500 notificações.': 1.9999999999999998,
 'No Twitter, as reclamações vieram de países diferentes, como os Estados Unidos e o Brasil.': 0.8,
 'Pessoas apontaram que não era possível realizar buscas e que as mesmas faixas apareciam de forma seguida, mas que não era possí

In [87]:
def visualiza_resumo(titulo, lista_sentencas, melhores_sentencas):
    from IPython.core.display import HTML
    texto = ''

    display(HTML(f'<h1>Resumo do texto - {titulo}</h1>'))
    for i in lista_sentencas:
        if i in melhores_sentencas:
            texto += str(i).replace(i, f"<mark>{i}</mark>")
        else:
            texto += i
            
    display(HTML(f""" {texto} """))

In [88]:
visualiza_resumo('Spotify', lista_sentencas, melhores_sentencas)