# Sumarização com similaridade do cosseno

## Preparação do texto de exemplo

In [3]:
import re
import nltk
import string
import numpy as np
from nltk.cluster.util import cosine_distance
import networkx as nx

In [4]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /home/derpy/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/derpy/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [5]:
stopwords = nltk.corpus.stopwords.words('portuguese')
print(stopwords)

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estiv

In [6]:
def preprocessamento(texto):
    texto_formatado = texto.lower()
    tokens = []
    for token in nltk.word_tokenize(texto_formatado):
        tokens.append(token)

    tokens = [palavra for palavra in tokens if palavra not in stopwords and palavra not in string.punctuation]
    texto_formatado = ' '.join([str(elemento) for elemento in tokens if not elemento.isdigit()])

    return texto_formatado

In [7]:
texto_original = """A inteligência artificial é a inteligência similar à humana máquinas. 
                    Definem como o estudo de agente artificial com inteligência. 
                    Ciência e engenharia de produzir máquinas com inteligência. 
                    Resolver problemas e possuir inteligência. 
                    Relacionada ao comportamento inteligente. 
                    Construção de máquinas para raciocinar. 
                    Aprender com os erros e acertos. 
                    Inteligência artificial é raciocinar nas situações do cotidiano."""
texto_original = re.sub(r'\s+', ' ', texto_original)
texto_original

'A inteligência artificial é a inteligência similar à humana máquinas. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

## Função para calcular a similaridade entre sentenças

- Link: https://en.wikipedia.org/wiki/Cosine_similarity
- Cálculos passo a passo: https://janav.wordpress.com/2013/10/27/tf-idf-and-cosine-similarity/

In [8]:
sentencas_originais = [sentenca for sentenca in nltk.sent_tokenize(texto_original)]
sentencas_formatadas = [preprocessamento(sentenca_original) for sentenca_original in sentencas_originais]

In [9]:
sentencas_originais

['A inteligência artificial é a inteligência similar à humana máquinas.',
 'Definem como o estudo de agente artificial com inteligência.',
 'Ciência e engenharia de produzir máquinas com inteligência.',
 'Resolver problemas e possuir inteligência.',
 'Relacionada ao comportamento inteligente.',
 'Construção de máquinas para raciocinar.',
 'Aprender com os erros e acertos.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.']

In [10]:
sentencas_formatadas

['inteligência artificial inteligência similar humana máquinas',
 'definem estudo agente artificial inteligência',
 'ciência engenharia produzir máquinas inteligência',
 'resolver problemas possuir inteligência',
 'relacionada comportamento inteligente',
 'construção máquinas raciocinar',
 'aprender erros acertos',
 'inteligência artificial raciocinar situações cotidiano']

In [11]:
def calcula_similaridade_sentencas(sentenca1, sentenca2):
    palavras1 = [palavra for palavra in nltk.word_tokenize(sentenca1)]
    palavras2 = [palavra for palavra in nltk.word_tokenize(sentenca2)]

    todas_palavras = list(set(palavras1 + palavras2))

    vetor1 = [0] * len(todas_palavras)
    vetor2 = [0] * len(todas_palavras)

    for palavra in palavras1:
        vetor1[todas_palavras.index(palavra)] += 1
    for palavra in palavras2:
        vetor2[todas_palavras.index(palavra)] += 1

    return 1 - cosine_distance(vetor1, vetor2)

In [12]:
calcula_similaridade_sentencas(sentencas_formatadas[0], sentencas_formatadas[0])

0.9999999999999998

## Função para gerar a matriz de similaridade

In [13]:
def calcula_matriz_similaridade(sentencas):
    matriz_similaridade = np.zeros((len(sentencas), len(sentencas)))
    for i in range(len(sentencas)):
        for j in range(len(sentencas)):
            if i == j:
                continue
        matriz_similaridade[i][j] = calcula_similaridade_sentencas(sentencas[i], sentencas[j])

    return matriz_similaridade

In [14]:
calcula_matriz_similaridade(sentencas_formatadas)

array([[0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.47434165],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.4       ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.2       ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.2236068 ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.25819889],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 1.        ]])

## Função para sumarizar

- Algoritmo Page Rank: https://www.youtube.com/watch?v=YfDNI1jp5sM e https://www.youtube.com/watch?v=YplmCue8XJU

In [15]:
def sumarizar(texto, quantidade_sentencas):
    sentencas_originais = [sentenca for sentenca in nltk.sent_tokenize(texto)]
    sentencas_formatadas = [preprocessamento(sentenca_original) for sentenca_original in sentencas_originais]
    matriz_similaridade = calcula_matriz_similaridade(sentencas_formatadas)
    #print(matriz_similaridade)
    grafo_similaridade = nx.from_numpy_array(matriz_similaridade)
    #print(grafo_similaridade.nodes)
    #print(grafo_similaridade.edges)
    notas = nx.pagerank(grafo_similaridade)
    #print(notas)
    notas_ordenadas = sorted(((notas[i], nota) for i, nota in enumerate(sentencas_originais)), reverse=True)
    #print(notas_ordenadas)
    melhores_sentencas = []
    for i in range(quantidade_sentencas):
        melhores_sentencas.append(notas_ordenadas[i][1])

    return sentencas_originais, melhores_sentencas, notas_ordenadas

In [19]:
sentencas_originais, melhores_sentencas, notas_sentencas = sumarizar(texto_original, 3)

In [20]:
sentencas_originais

['A inteligência artificial é a inteligência similar à humana máquinas.',
 'Definem como o estudo de agente artificial com inteligência.',
 'Ciência e engenharia de produzir máquinas com inteligência.',
 'Resolver problemas e possuir inteligência.',
 'Relacionada ao comportamento inteligente.',
 'Construção de máquinas para raciocinar.',
 'Aprender com os erros e acertos.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.']

In [21]:
melhores_sentencas

['Inteligência artificial é raciocinar nas situações do cotidiano.',
 'A inteligência artificial é a inteligência similar à humana máquinas.',
 'Definem como o estudo de agente artificial com inteligência.']

In [22]:
notas_sentencas

[(0.549161086650965,
  'Inteligência artificial é raciocinar nas situações do cotidiano.'),
 (0.11043032695257972,
  'A inteligência artificial é a inteligência similar à humana máquinas.'),
 (0.09685459865889406,
  'Definem como o estudo de agente artificial com inteligência.'),
 (0.07095991687854397, 'Construção de máquinas para raciocinar.'),
 (0.06464296200571924, 'Resolver problemas e possuir inteligência.'),
 (0.060332061234217325,
  'Ciência e engenharia de produzir máquinas com inteligência.'),
 (0.0238095238095406, 'Relacionada ao comportamento inteligente.'),
 (0.0238095238095406, 'Aprender com os erros e acertos.')]

## Visualização do resumo

In [23]:
def visualiza_resumo(titulo, lista_sentencas, melhores_sentencas):
    from IPython.core.display import HTML
    texto = ''

    display(HTML(f'<h1>Resumo do texto - {titulo}</h1>'))
    for i in lista_sentencas:
        if i in melhores_sentencas:
            texto += str(i).replace(i, f"<mark>{i}</mark>")
        else:
            texto += i
    display(HTML(f""" {texto} """))

In [24]:
visualiza_resumo('Teste', sentencas_originais, melhores_sentencas)

## Extração de texto da internet

In [25]:
from goose3 import Goose
g = Goose()
url = 'https://iaexpert.academy/2020/11/09/ia-preve-resultado-das-eleicoes-americanas/'
artigo = g.extract(url)

In [26]:
artigo.cleaned_text

'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton. Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos. Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados. Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.\n\nO modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais. O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito. No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.\n\nO Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina ano passado. Desta vez, o mode

In [27]:
sentencas_originais, melhores_sentencas, notas_sentencas = sumarizar(artigo.cleaned_text, 5)

In [28]:
sentencas_originais

['Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton.',
 'Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos.',
 'Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados.',
 'Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.',
 'O modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais.',
 'O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito.',
 'No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.',
 'O Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina ano pas

In [29]:
melhores_sentencas

['Parece que, desta vez, os algoritmos estão de fato contribuindo para que as predições sejam mais precisas.',
 'Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados.',
 'Desta vez, o modelo está treinando com cerca de 5 vezes mais dados que nas eleições americanas anteriores.',
 'Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.',
 'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton.']

In [30]:
notas_sentencas

[(0.5166274000805268,
  'Parece que, desta vez, os algoritmos estão de fato contribuindo para que as predições sejam mais precisas.'),
 (0.06446975905274147,
  'Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados.'),
 (0.06189450469479324,
  'Desta vez, o modelo está treinando com cerca de 5 vezes mais dados que nas eleições americanas anteriores.'),
 (0.04090005470385777,
  'Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.'),
 (0.039377983274914,
  'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton.'),
 (0.03809035609593987,
  'O primeiro fator se refere ao fato de que as redes sociais não necessariamente representam a população americana.'),
 (0.03601632274674816,
  'Sua equipe acompanhou as tendências apresentadas nas últimas eleições na Europa, e os modelos estão se revelando cada vez melhores.'),
 (0.03071

In [31]:
visualiza_resumo('Teste', sentencas_originais, melhores_sentencas)

## Solução para o exercício - lematização

In [32]:
import spacy

In [35]:
pln = spacy.load("pt_core_news_sm")


In [None]:
def preprocessamento_lematizacao(texto):
    texto = texto.lower()
    texto = re.sub(r" +", ' ', texto)

    documento = pln(texto)
    tokens = []
    for token in documento:
        tokens.append(token.lemma_)
  
    tokens = [palavra for palavra in tokens if palavra not in stopwords and palavra not in string.punctuation]
    texto_formatado = ' '.join([str(elemento) for elemento in tokens if not elemento.isdigit()])
  
    return texto_formatado

In [None]:
def sumarizar_lematizacao(texto, quantidade_sentencas):
    sentencas_originais = [sentenca for sentenca in nltk.sent_tokenize(texto)]
    sentencas_formatadas = [preprocessamento_lematizacao(sentenca_original) for sentenca_original in sentencas_originais]
    matriz_similaridade = calcula_matriz_similaridade(sentencas_formatadas)
    grafo_similaridade = nx.from_numpy_array(matriz_similaridade)
    notas = nx.pagerank(grafo_similaridade)
    notas_ordenadas = sorted(((notas[i], nota) for i, nota in enumerate(sentencas_originais)), reverse=True)    
    melhores_sentencas = []
    for i in range(quantidade_sentencas):
        melhores_sentencas.append(notas_ordenadas[i][1])

    return sentencas_originais, melhores_sentencas, notas_ordenadas

In [None]:
artigo.cleaned_text

'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton. Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos. Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados. Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.\n\nO modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais. O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito. No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.\n\nO Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina ano passado. Desta vez, o mode

In [None]:
sentencas_originais, melhores_sentencas, _ = sumarizar(artigo.cleaned_text, 5)
visualiza_resumo(artigo.title, sentencas_originais, melhores_sentencas)

In [None]:
sentencas_originais, melhores_sentencas, _ = sumarizar_lematizacao(artigo.cleaned_text, 5)
visualiza_resumo(artigo.title, sentencas_originais, melhores_sentencas)