# Imports

In [None]:
import nltk
import string

from IPython.core.display import HTML

from goose3 import Goose
from dstoolkit.nlp import WordFreqSummarizer

## Functions

In [2]:
stopwords = nltk.corpus.stopwords.words('portuguese')

In [3]:
def visualize_resumo(titulo, lista_sentencas, melhores_sentencas):
    from IPython.core.display import HTML
    texto = ''

    display(HTML(f'<h1>Resumo do texto - {titulo}</h1>'))
    for i in lista_sentencas:
        if i in melhores_sentencas:
            texto += str(i).replace(i, f"<mark>{i}</mark>")
        else:
            texto += i
    display(HTML(f""" {texto} """))


def preprocessamento(texto):
  
    texto_formatado = texto.lower()
    tokens = []

    for token in nltk.word_tokenize(texto_formatado):
        tokens.append(token)

    tokens = [palavra for palavra in tokens if palavra not in stopwords and palavra not in string.punctuation]
    texto_formatado = ' '.join([str(elemento) for elemento in tokens if not elemento.isdigit()])

    return texto_formatado

# Word Frequency

In [4]:
g = Goose()
url = 'https://iaexpert.academy/2020/11/09/ia-preve-resultado-das-eleicoes-americanas/'
artigo = g.extract(url)

In [5]:
artigo.links

['https://www.ccny.cuny.edu/profiles/hernan-makse',
 'https://www.express.co.uk/news/science/1355192/artificial-intelligence-ai-news-twitter-us-election-2020-prediction-trump-biden-evg']

In [6]:
artigo.links.append('https://www.ocupacoes.com.br/cbo-mte/251205-economista&#8221')
artigo.links.append('https://www.ocupacoes.com.br/cbo-mte/251405-filosofo&#8221')

In [7]:
artigo.cleaned_text

'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton. Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos. Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados. Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.\n\nO modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais. O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito. No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.\n\nO Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina ano passado. Desta vez, o mode

In [8]:
artigo_original = artigo.cleaned_text
artigo_original

'Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton. Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos. Desta vez, os estatísticos reexaminaram seus modelos, para aumentar o grau de confiabilidade nos seus resultados. Nesta tentativa de otimização das predições, a inteligência artificial certamente não ficou de fora.\n\nO modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais. O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito. No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.\n\nO Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina ano passado. Desta vez, o mode

In [9]:
artigo_formatado = preprocessamento(artigo_original)
artigo_formatado

'eleições presidenciais americanas maioria predições apontavam vitória hillary clinton entretanto história mostrou resultado oposto donald trump presidente últimos anos desta vez estatísticos reexaminaram modelos aumentar grau confiabilidade resultados nesta tentativa otimização predições inteligência artificial certamente ficou modelo desenvolvido dr. hernan makse físico estatístico universidade cidade nova york baseou predições rede neural treinada processar sentimentos expressos redes sociais algoritmo fez análise cerca bilhão tweets chegar estimativa resultados pleito dia eleição novembro modelo indicando vitória joe biden dr. makse disse trabalho começou eleição testado novamente eleições argentina ano passado desta vez modelo treinando cerca vezes dados eleições americanas anteriores trabalho depende apenas coleta dados tratamento estatístico adequado levar consideração duas variáveis externas viés amostragem taxa comparecimento primeiro fator refere fato redes sociais necessaria

In [10]:
len(artigo_formatado)

1901

In [11]:
s = WordFreqSummarizer(n_sentences=5, lemma=False, spacy_model="pt_core_news_lg")

In [12]:
best_sentences = s.summarize(artigo_original)

In [13]:
best_sentences

['A participação em redes sociais costuma ser maior nas cidades grandes, que de fato têm preferência por um dos candidatos, e o modelo deve ser corrigido para levar em consideração também a opinião das pessoas que não são ativas neste ambiente virtual.',
 'O modelo desenvolvido pelo Dr. Hernan Makse, físico estatístico da Universidade da Cidade de Nova York, baseou suas predições em uma rede neural treinada para processar os sentimentos expressos nas redes sociais.',
 'Quando seu modelo foi usado para predizer os resultados da eleição corrente usando dados brutos, Joe Biden apareceu como vencedor com larga vantagem.',
 'O trabalho não depende apenas da coleta dos dados, mas também de um tratamento estatístico adequado para levar em consideração duas variáveis externas: o viés de amostragem e a taxa de comparecimento.',
 'Desta vez, o modelo está treinando com cerca de 5 vezes mais dados que nas eleições americanas anteriores.']

In [14]:
visualize_resumo('Eleições', s.sentences, best_sentences)

## Sumarização de mais textos

In [15]:
lista_artigos = ['https://iaexpert.academy/2020/11/06/ia-detecta-deep-fakes-produzidos-com-tecnicas-recentes/',
                 'https://iaexpert.academy/2020/11/13/facebook-apresenta-novo-algoritmo-deteccao-fake-news/',
                 'https://iaexpert.academy/2020/11/16/automl-aspectos-aplicacoes/']

In [18]:
for url in lista_artigos:
  #print(url)
  g = Goose()
  artigo = g.extract(url)
  best_sentences = s.summarize(artigo.cleaned_text)
  visualize_resumo(artigo.title, s.sentences, best_sentences)

In [19]:
s2 = WordFreqSummarizer(n_sentences=5, lemma=True, spacy_model="pt_core_news_lg")

for url in lista_artigos:
  #print(url)
  g = Goose()
  artigo = g.extract(url)
  melhores_sentencas = s2.summarize(artigo.cleaned_text)
  visualize_resumo(artigo.title, s2.sentences, melhores_sentencas)