<a href="https://colab.research.google.com/github/derektorquette/pln-com-deep-learning-ia-expert/blob/main/sumarizacao_bibliotecas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sumarização de textos com bibliotecas
- Sumy, Pysummarization e BERT summarizer

## Textos de exemplos

In [None]:
import nltk
nltk.download('punkt')

In [None]:
!pip install goose3

In [3]:
from goose3 import Goose
g = Goose()
url = 'https://iaexpert.academy/2020/11/09/ia-preve-resultado-das-eleicoes-americanas/'
artigo_portugues = g.extract(url)

In [4]:
url = 'https://en.wikipedia.org/wiki/Artificial_intelligence'
artigo_ingles = g.extract(url)

In [None]:
artigo_portugues.cleaned_text

In [None]:
artigo_ingles.cleaned_text

## Biblioteca sumy

- https://pypi.org/project/sumy/

In [None]:
!pip install sumy

In [8]:
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.luhn import LuhnSummarizer

In [9]:
parser = PlaintextParser.from_string(artigo_portugues.cleaned_text, Tokenizer('portuguese'))

In [10]:
sumarizador = LuhnSummarizer()

In [11]:
resumo = sumarizador(parser.document, 5)

In [12]:
resumo

(<Sentence: Desta vez, o modelo está treinando com cerca de 5 vezes mais dados que nas eleições americanas anteriores.>,
 <Sentence: O trabalho não depende apenas da coleta dos dados, mas também de um tratamento estatístico adequado para levar em consideração duas variáveis externas: o viés de amostragem e a taxa de comparecimento.>,
 <Sentence: A participação em redes sociais costuma ser maior nas cidades grandes, que de fato têm preferência por um dos candidatos, e o modelo deve ser corrigido para levar em consideração também a opinião das pessoas que não são ativas neste ambiente virtual.>,
 <Sentence: Segundo o Dr. Makse, integrar estas duas variáveis em seu modelo é a parte mais importante do trabalho.>,
 <Sentence: Parece que, desta vez, os algoritmos estão de fato contribuindo para que as predições sejam mais precisas.>)

In [13]:
for sentenca in resumo:
  print(sentenca)

Desta vez, o modelo está treinando com cerca de 5 vezes mais dados que nas eleições americanas anteriores.
O trabalho não depende apenas da coleta dos dados, mas também de um tratamento estatístico adequado para levar em consideração duas variáveis externas: o viés de amostragem e a taxa de comparecimento.
A participação em redes sociais costuma ser maior nas cidades grandes, que de fato têm preferência por um dos candidatos, e o modelo deve ser corrigido para levar em consideração também a opinião das pessoas que não são ativas neste ambiente virtual.
Segundo o Dr. Makse, integrar estas duas variáveis em seu modelo é a parte mais importante do trabalho.
Parece que, desta vez, os algoritmos estão de fato contribuindo para que as predições sejam mais precisas.


## Biblioteca pysummarization

- https://pypi.org/project/pysummarization/
- Redes neurais recorrentes: https://www.youtube.com/watch?v=ZvBJxh5O3H0

In [None]:
!pip install pysummarization

In [15]:
from pysummarization.nlpbase.auto_abstractor import AutoAbstractor
from pysummarization.tokenizabledoc.simple_tokenizer import SimpleTokenizer
from pysummarization.abstractabledoc.top_n_rank_abstractor import TopNRankAbstractor

In [16]:
auto_abstractor = AutoAbstractor()
auto_abstractor.tokenizable_doc = SimpleTokenizer()
auto_abstractor.delimiter_list = [".", "\n"]
abstractable_doc = TopNRankAbstractor()
resumo = auto_abstractor.summarize(artigo_ingles.cleaned_text, abstractable_doc)

In [None]:
resumo

In [18]:
for sentenca in resumo['summarize_result']:
  print(sentenca)

Artificial intelligence (AI), in its broadest sense, is intelligence exhibited by machines, particularly computer systems.

 It is a field of research in computer science that develops and studies methods and software which enable machines to perceive their environment and uses learning and intelligence to take actions that maximize their chances of achieving defined goals.

AI technology is widely used throughout industry, government, and science.

 Some high-profile applications include advanced web search engines (e.

, Google Search); recommendation systems (used by YouTube, Amazon, and Netflix); interacting via human speech (e.

, Google Assistant, Siri, and Alexa); autonomous vehicles (e.

, ChatGPT and AI art); and superhuman play and analysis in strategy games (e.

 However, many AI applications are not perceived as AI: "A lot of cutting edge AI has filtered into general applications, often without being called AI because once something becomes useful enough and common enough i

## Biblioteca - BERT

- https://pypi.org/project/bert-extractive-summarizer/
- Arquitetura BERT: https://www.youtube.com/watch?v=ERA1bjBKqtE

In [None]:
!pip install bert-extractive-summarizer

In [20]:
from summarizer import Summarizer

In [None]:
sumarizador = Summarizer()
resumo = sumarizador(artigo_ingles.cleaned_text)

In [24]:
resumo

'Artificial intelligence (AI), in its broadest sense, is intelligence exhibited by machines, particularly computer systems. It is a field of research in computer science that develops and studies methods and software which enable machines to perceive their environment and uses learning and intelligence to take actions that maximize their chances of achieving defined goals. However, many AI applications are not perceived as AI: "A lot of cutting edge AI has filtered into general applications, often without being called AI because once something becomes useful enough and common enough it\'s not labeled AI anymore. Knowledge representation and knowledge engineering[20] allow AI programs to answer questions intelligently and make deductions about real-world facts. A knowledge base is a body of knowledge represented in a form that can be used by a program. An ontology is the set of objects, relations, concepts, and properties used by a particular domain of knowledge. Knowledge bases need to

In [23]:
len(artigo_ingles.cleaned_text), len(resumo)

(69823, 9754)

## Solução para o exercício - biblioteca sumy

In [None]:
sentencas_originais = [sentenca for sentenca in nltk.sent_tokenize(artigo_portugues.cleaned_text)]
sentencas_originais

In [26]:
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lsa import LsaSummarizer
from sumy.summarizers.lex_rank import LexRankSummarizer
from sumy.summarizers.text_rank import TextRankSummarizer
from sumy.summarizers.sum_basic import SumBasicSummarizer
from sumy.summarizers.kl import KLSummarizer
from sumy.summarizers.reduction import ReductionSummarizer

### LsaSummarizer

In [33]:
parser = PlaintextParser.from_string(artigo_portugues.cleaned_text,Tokenizer('portuguese'))
sumarizador = LsaSummarizer()
resumo = sumarizador(parser.document, 5)
melhores_sentencas = []
for sentenca in resumo:
  print(sentenca)

Desta vez, o modelo está treinando com cerca de 5 vezes mais dados que nas eleições americanas anteriores.
O primeiro fator se refere ao fato de que as redes sociais não necessariamente representam a população americana.
A participação em redes sociais costuma ser maior nas cidades grandes, que de fato têm preferência por um dos candidatos, e o modelo deve ser corrigido para levar em consideração também a opinião das pessoas que não são ativas neste ambiente virtual.
Sua equipe acompanhou as tendências apresentadas nas últimas eleições na Europa, e os modelos estão se revelando cada vez melhores.
Quando seu modelo foi usado para predizer os resultados da eleição corrente usando dados brutos, Joe Biden apareceu como vencedor com larga vantagem.


### LexRankSummarizer

In [28]:
parser = PlaintextParser.from_string(artigo_portugues.cleaned_text,Tokenizer('portuguese'))
sumarizador = LexRankSummarizer()
resumo = sumarizador(parser.document, 5)
melhores_sentencas = []
for sentenca in resumo:
  print(sentenca)

Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos.
Desta vez, o modelo está treinando com cerca de 5 vezes mais dados que nas eleições americanas anteriores.
A participação em redes sociais costuma ser maior nas cidades grandes, que de fato têm preferência por um dos candidatos, e o modelo deve ser corrigido para levar em consideração também a opinião das pessoas que não são ativas neste ambiente virtual.
Quando seu modelo foi usado para predizer os resultados da eleição corrente usando dados brutos, Joe Biden apareceu como vencedor com larga vantagem.
Parece que, desta vez, os algoritmos estão de fato contribuindo para que as predições sejam mais precisas.


### TextRankSummarizer

In [29]:
parser = PlaintextParser.from_string(artigo_portugues.cleaned_text,Tokenizer('portuguese'))
sumarizador = TextRankSummarizer()
resumo = sumarizador(parser.document, 5)
melhores_sentencas = []
for sentenca in resumo:
  print(sentenca)

Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton.
O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito.
O trabalho não depende apenas da coleta dos dados, mas também de um tratamento estatístico adequado para levar em consideração duas variáveis externas: o viés de amostragem e a taxa de comparecimento.
A participação em redes sociais costuma ser maior nas cidades grandes, que de fato têm preferência por um dos candidatos, e o modelo deve ser corrigido para levar em consideração também a opinião das pessoas que não são ativas neste ambiente virtual.
O segundo fator se deve à não-obrigatoriedade de votação nos Estados Unidos, ou seja, por mais que uma pessoa tenha sua preferência, pode ser que ela não compareça aos locais de votação para efetivá-la.


### SumBasicSummarizer

In [30]:
parser = PlaintextParser.from_string(artigo_portugues.cleaned_text,Tokenizer('portuguese'))
sumarizador = SumBasicSummarizer()
resumo = sumarizador(parser.document, 5)
melhores_sentencas = []
for sentenca in resumo:
  print(sentenca)

O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito.
O Dr. Makse disse que seu trabalho começou já na eleição de 2016, e foi testado novamente nas eleições na Argentina ano passado.
A participação em redes sociais costuma ser maior nas cidades grandes, que de fato têm preferência por um dos candidatos, e o modelo deve ser corrigido para levar em consideração também a opinião das pessoas que não são ativas neste ambiente virtual.
Quando seu modelo foi usado para predizer os resultados da eleição corrente usando dados brutos, Joe Biden apareceu como vencedor com larga vantagem.
Parece que, desta vez, os algoritmos estão de fato contribuindo para que as predições sejam mais precisas.


### KLSummarizer

In [31]:
parser = PlaintextParser.from_string(artigo_portugues.cleaned_text,Tokenizer('portuguese'))
sumarizador = KLSummarizer()
resumo = sumarizador(parser.document, 5)
melhores_sentencas = []
for sentenca in resumo:
  print(sentenca)

Entretanto, a história nos mostrou o resultado oposto, e Donald Trump foi o presidente nos últimos 4 anos.
O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito.
No dia da eleição, 3 de novembro, o modelo estava indicando a vitória de Joe Biden.
O trabalho não depende apenas da coleta dos dados, mas também de um tratamento estatístico adequado para levar em consideração duas variáveis externas: o viés de amostragem e a taxa de comparecimento.
Segundo o Dr. Makse, integrar estas duas variáveis em seu modelo é a parte mais importante do trabalho.


### ReductionSummarizer

In [32]:
parser = PlaintextParser.from_string(artigo_portugues.cleaned_text,Tokenizer('portuguese'))
sumarizador = ReductionSummarizer()
resumo = sumarizador(parser.document, 5)
melhores_sentencas = []
for sentenca in resumo:
  print(sentenca)

Nas eleições presidenciais americanas de 2016, a maioria das predições apontavam para a vitória de Hillary Clinton.
O algoritmo fez a análise de cerca de 1 bilhão de tweets para chegar a uma estimativa dos resultados do pleito.
O trabalho não depende apenas da coleta dos dados, mas também de um tratamento estatístico adequado para levar em consideração duas variáveis externas: o viés de amostragem e a taxa de comparecimento.
A participação em redes sociais costuma ser maior nas cidades grandes, que de fato têm preferência por um dos candidatos, e o modelo deve ser corrigido para levar em consideração também a opinião das pessoas que não são ativas neste ambiente virtual.
O segundo fator se deve à não-obrigatoriedade de votação nos Estados Unidos, ou seja, por mais que uma pessoa tenha sua preferência, pode ser que ela não compareça aos locais de votação para efetivá-la.
