# Sumarização de textos com bibliotecas

## Textos de exemplos

In [None]:
# Documentação: https://www.nltk.org/
import nltk
nltk.download('punkt')

In [None]:
# https://pypi.org/project/goose3/
!pip install goose3

In [None]:
from goose3 import Goose
g = Goose()
url = 'https://cienciahoje.org.br/artigo/a-era-da-inteligencia-artificial/'
artigo_portugues = g.extract(url)

In [None]:
url = 'https://en.wikipedia.org/wiki/Artificial_intelligence'
artigo_ingles = g.extract(url)

In [None]:
artigo_portugues.cleaned_text

In [None]:
artigo_ingles.cleaned_text

## Biblioteca sumy

- https://pypi.org/project/sumy/

In [None]:
!pip install sumy

In [None]:
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.luhn import LuhnSummarizer

In [None]:
parser = PlaintextParser.from_string(artigo_portugues.cleaned_text, Tokenizer('portuguese'))

In [None]:
sumarizador = LuhnSummarizer()

In [None]:
resumo = sumarizador(parser.document, 3)

In [None]:
resumo

In [None]:
for sentenca in resumo:
  print(sentenca)

## Biblioteca pysummarization

- https://pypi.org/project/pysummarization/
- Redes neurais recorrentes: https://www.youtube.com/watch?v=ZvBJxh5O3H0

In [None]:
# Instalação da biblioteca pysummarization
!pip install pysummarization

In [None]:
# Importando dos pacotes e classes
from pysummarization.nlpbase.auto_abstractor import AutoAbstractor
from pysummarization.tokenizabledoc.simple_tokenizer import SimpleTokenizer
from pysummarization.abstractabledoc.top_n_rank_abstractor import TopNRankAbstractor

In [None]:
# Criação dos objetos para geração dos resumos.
auto_abstractor = AutoAbstractor()
auto_abstractor.tokenizable_doc = SimpleTokenizer()

# Lista dos delimitadores (separadores de trechos do texto).
auto_abstractor.delimiter_list = [".", "\n"]
abstractable_doc = TopNRankAbstractor()

# Criação da variação do resumo do texto.
resumo = auto_abstractor.summarize(artigo_ingles.cleaned_text, abstractable_doc)

In [None]:
resumo

In [None]:
for sentenca in resumo['summarize_result']:
  print(sentenca)

## Biblioteca - BERT

- https://pypi.org/project/bert-extractive-summarizer/
- Arquitetura BERT: https://www.youtube.com/watch?v=ERA1bjBKqtE

In [None]:
!pip install bert-extractive-summarizer

In [None]:
from summarizer import Summarizer

In [None]:
sumarizador = Summarizer()
resumo = sumarizador(artigo_ingles.cleaned_text)

In [None]:
resumo

In [None]:
len(artigo_ingles.cleaned_text), len(resumo)

## Solução para o exercício - biblioteca sumy

In [None]:
sentencas_originais = [sentenca for sentenca in nltk.sent_tokenize(artigo_portugues.cleaned_text)]
sentencas_originais

In [None]:
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lsa import LsaSummarizer
from sumy.summarizers.lex_rank import LexRankSummarizer
from sumy.summarizers.text_rank import TextRankSummarizer
from sumy.summarizers.sum_basic import SumBasicSummarizer
from sumy.summarizers.kl import KLSummarizer
from sumy.summarizers.reduction import ReductionSummarizer

### LsaSummarizer

In [None]:
parser = PlaintextParser.from_string(artigo_portugues.cleaned_text,Tokenizer('portuguese'))
sumarizador = LsaSummarizer()
resumo = sumarizador(parser.document, 5)
melhores_sentencas = []
for sentenca in resumo:
  print(sentenca)

### LexRankSummarizer

In [None]:
parser = PlaintextParser.from_string(artigo_portugues.cleaned_text,Tokenizer('portuguese'))
sumarizador = LexRankSummarizer()
resumo = sumarizador(parser.document, 5)
melhores_sentencas = []
for sentenca in resumo:
  print(sentenca)

### TextRankSummarizer

In [None]:
parser = PlaintextParser.from_string(artigo_portugues.cleaned_text,Tokenizer('portuguese'))
sumarizador = TextRankSummarizer()
resumo = sumarizador(parser.document, 3)
melhores_sentencas = []
for sentenca in resumo:
  print(sentenca)

### SumBasicSummarizer

In [None]:
parser = PlaintextParser.from_string(artigo_portugues.cleaned_text,Tokenizer('portuguese'))
sumarizador = SumBasicSummarizer()
resumo = sumarizador(parser.document, 5)
melhores_sentencas = []
for sentenca in resumo:
  print(sentenca)

### KLSummarizer

In [None]:
parser = PlaintextParser.from_string(artigo_portugues.cleaned_text,Tokenizer('portuguese'))
sumarizador = KLSummarizer()
resumo = sumarizador(parser.document, 3)
melhores_sentencas = []
for sentenca in resumo:
  print(sentenca)

### ReductionSummarizer

In [None]:
parser = PlaintextParser.from_string(artigo_portugues.cleaned_text,Tokenizer('portuguese'))
sumarizador = ReductionSummarizer()
resumo = sumarizador(parser.document, 5)
melhores_sentencas = []
for sentenca in resumo:
  print(sentenca)