# Atividade Aula 06 - Sumariza√ß√£o Autom√°tica


Alunos: Artur Revollo; Bruno Santos; Gabriel Dutra; Luccas Lohan

### 1. Sumariza√ß√£o baseada em Frequ√™ncia de Palavras
Objetivo: Criar um resumo de um texto usando a frequ√™ncia das palavras. Passos:

‚Ä¢ Carregar um texto grande.

‚Ä¢ Tokenizar o texto em frases e palavras.

‚Ä¢ Calcular a frequ√™ncia das palavras ignorando stopwords.

‚Ä¢ Criar uma pontua√ß√£o para cada frase com base nas palavras mais frequentes.

‚Ä¢ Selecionar as frases mais importantes para formar o resumo.

üìå Dica: Utilize NLTK para tokeniza√ß√£o e stopwords.

In [1]:
# 1 Passo - Instalar e importar bibliotecas
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, sent_tokenize
from collections import defaultdict

# S√≥ precisa rodar uma vez para baixar os recursos do NLTK
nltk.download("punkt")
nltk.download("punkt_tab")
nltk.download("stopwords")


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [8]:
# 2 Passo - Carregar o texto
texto = """
Doce Lar Pet √© uma plataforma desenvolvida para conectar donos de animais a anfitri√µes confi√°veis que oferecem hospedagem para pets com conforto e seguran√ßa.
Permitir√° que tutores encontrem op√ß√µes personalizadas de estadia para seus animais, com base em localiza√ß√£o, tipo de pet, datas e prefer√™ncias espec√≠ficas.
O objetivo √© oferecer tranquilidade aos donos e bem-estar aos pets, promovendo uma experi√™ncia acolhedora e supervisionada.
A plataforma tamb√©m contar√° com perfis avaliados, fotos do ambiente, atualiza√ß√µes em tempo real e um painel de controle para gerenciar reservas e comunica√ß√µes.
Com isso, espera-se fortalecer a rede de cuidado animal, promovendo confian√ßa, praticidade e carinho durante a aus√™ncia dos tutores.
"""

In [9]:
# 3 Passo ‚Äì Tokenizar em frases e palavras

# Divide em frases
frases = sent_tokenize(texto, language="portuguese")

# Stopwords em portugu√™s
stop_words = set(stopwords.words("portuguese"))

# Cria frequ√™ncia das palavras
frequencia_palavras = defaultdict(int)

for palavra in word_tokenize(texto.lower(), language="portuguese"):
    if palavra.isalpha() and palavra not in stop_words:
        frequencia_palavras[palavra] += 1

In [10]:
# 4 Passo  ‚Äì Pontuar frases

# Calcula pontua√ß√£o das frases com base na soma das frequ√™ncias das palavras
pontuacao_frases = defaultdict(int)

for frase in frases:
    for palavra in word_tokenize(frase.lower(), language="portuguese"):
        if palavra in frequencia_palavras:
            pontuacao_frases[frase] += frequencia_palavras[palavra]


In [11]:
# 5 Passo  ‚Äì Selecionar frases mais importantes

# Seleciona 2 frases mais importantes
num_frases = 2
resumo = sorted(pontuacao_frases, key=pontuacao_frases.get, reverse=True)[:num_frases]

print("=== Resumo ===\n")
for r in resumo:
    print(r)


=== Resumo ===


Doce Lar Pet √© uma plataforma desenvolvida para conectar donos de animais a anfitri√µes confi√°veis que oferecem hospedagem para pets com conforto e seguran√ßa.
Permitir√° que tutores encontrem op√ß√µes personalizadas de estadia para seus animais, com base em localiza√ß√£o, tipo de pet, datas e prefer√™ncias espec√≠ficas.


### 2. Sumariza√ß√£o usando Algoritmo TextRank
Objetivo: Implementar uma sumariza√ß√£o autom√°tica utilizando o algoritmo TextRank.

Passos:

‚Ä¢ Pesquisar e utilizar a biblioteca sumy para gerar um resumo.

‚Ä¢ Aplicar o algoritmo TextRank.

‚Ä¢ Comparar o resumo gerado com o texto original.

üìå Dica: Utilize sumy.parsers.plaintext.PlaintextParser e sumy.summarizers.text_rank.TextRankSummarizer.


## Pesquisa Sobre a Biblioteca Sumy

# Sobre a biblioteca Sumy

Realizamos uma pesquisa no artigo do GeeksforGeeks:  
[Mastering Text Summarization with Sumy: A Python Library Overview](https://www.geeksforgeeks.org/nlp/mastering-text-summarization-with-sumy-a-python-library-overview/)



## O que √© o Sumy?
O **Sumy** √© uma biblioteca em Python projetada para **sumariza√ß√£o autom√°tica de textos**.  
Ela oferece diversos algoritmos prontos, permitindo escolher o mais adequado para cada caso.



## Algoritmos dispon√≠veis
- **Luhn** ‚Üí baseado em frequ√™ncia de palavras (simples e r√°pido).  
- **Edmundson** ‚Üí usa pesos para dar mais import√¢ncia ou menos import√¢ncia a certas palavras.  
- **LSA (Latent Semantic Analysis)** ‚Üí identifica rela√ß√µes sem√¢nticas, produzindo resumos mais ‚Äúinteligentes‚Äù.  
- **LexRank** ‚Üí similar ao PageRank, baseia-se em similaridade entre frases.  
- **KL-Summarizer** ‚Üí utiliza diverg√™ncia de Kullback-Leibler.  
- **TextRank** ‚Üí algoritmo popular baseado em grafos, que seleciona frases mais relevantes.  



## Recursos internos
- **Tokeniza√ß√£o** em frases e palavras.  
- **Stopwords** para remover termos irrelevantes.  
- **Stemming/normaliza√ß√£o** para agrupar palavras semelhantes.  



## Casos de uso
- Artigos de not√≠cias  
- Postagens de blog  
- Documentos t√©cnicos e legais  



## Pontos de aten√ß√£o
- **Textos curtos** podem gerar resumos pobres.  
- O **custo de processamento** depende do algoritmo escolhido (ex.: LSA √© mais pesado).  
- √â importante **ajustar o n√∫mero de frases** no resumo para cada contexto.  



Conclus√£o: O **Sumy** √© uma ferramenta pr√°tica e flex√≠vel para experimentar diferentes m√©todos de sumariza√ß√£o em projetos de PLN.


In [6]:
# Passo 1 ‚Äì Instalar a biblioteca
!pip install sumy

Collecting sumy
  Downloading sumy-0.11.0-py2.py3-none-any.whl.metadata (7.5 kB)
Collecting docopt<0.7,>=0.6.1 (from sumy)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting breadability>=0.1.20 (from sumy)
  Downloading breadability-0.1.20.tar.gz (32 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pycountry>=18.2.23 (from sumy)
  Downloading pycountry-24.6.1-py3-none-any.whl.metadata (12 kB)
Downloading sumy-0.11.0-py2.py3-none-any.whl (97 kB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m97.3/97.3 kB[0m [31m8.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pycountry-24.6.1-py3-none-any.whl (6.3 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m6.3/6.3 MB[0m [31m121.8 MB/s[0m eta [36m0:00:00[0m
[?25hBuilding whee

In [7]:
# Passo 2 ‚Äì Importar m√≥dulos necess√°rios
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.text_rank import TextRankSummarizer

In [12]:
# 2 Passo - Carregar o texto
texto = """
Doce Lar Pet √© uma plataforma desenvolvida para conectar donos de animais a anfitri√µes confi√°veis que oferecem hospedagem para pets com conforto e seguran√ßa.
Permitir√° que tutores encontrem op√ß√µes personalizadas de estadia para seus animais, com base em localiza√ß√£o, tipo de pet, datas e prefer√™ncias espec√≠ficas.
O objetivo √© oferecer tranquilidade aos donos e bem-estar aos pets, promovendo uma experi√™ncia acolhedora e supervisionada.
A plataforma tamb√©m contar√° com perfis avaliados, fotos do ambiente, atualiza√ß√µes em tempo real e um painel de controle para gerenciar reservas e comunica√ß√µes.
Com isso, espera-se fortalecer a rede de cuidado animal, promovendo confian√ßa, praticidade e carinho durante a aus√™ncia dos tutores.
"""

In [13]:
# Passo 4 ‚Äì Preparar o parser

# Usa o parser de texto simples (PlaintextParser)
parser = PlaintextParser.from_string(texto, Tokenizer("portuguese"))

In [14]:
# Passo 5 ‚Äì Aplicar o TextRank

# Inicializa o sumarizador TextRank
summarizer = TextRankSummarizer()

# Define o n√∫mero de frases do resumo
num_frases = 2

# Gera o resumo
resumo = summarizer(parser.document, num_frases)

print("=== Resumo TextRank ===\n")
for sent in resumo:
    print(sent)


=== Resumo TextRank ===

Doce Lar Pet √© uma plataforma desenvolvida para conectar donos de animais a anfitri√µes confi√°veis que oferecem hospedagem para pets com conforto e seguran√ßa.
A plataforma tamb√©m contar√° com perfis avaliados, fotos do ambiente, atualiza√ß√µes em tempo real e um painel de controle para gerenciar reservas e comunica√ß√µes.


### 3. Sumariza√ß√£o com Modelos Pr√©-treinados (BART ou T5)

Objetivo: Utilizar modelos de Deep Learning da Hugging Face para realizar sumariza√ß√£o.

Passos:

‚Ä¢	Carregar um modelo de sumariza√ß√£o (facebook/bart-large-cnn ou t5-small).

‚Ä¢	Fornecer um texto longo como entrada.

‚Ä¢	Gerar o resumo automaticamente e comparar com o texto original.

üìå Dica: Utilize a biblioteca transformers e o m√©todo pipeline() para infer√™ncia.


In [15]:
# Passo 1 - Instalar a biblioteca
!pip install transformers



In [17]:
# Passo 2 - Importar pipeline
from transformers import pipeline

In [18]:
# Passo 3 - Carregar o modelo de sumariza√ß√£o
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

Device set to use cpu


In [20]:
# Passo 4 - Texto de entrada
texto = """
Jogos digitais s√£o uma das formas de entretenimento mais influentes da atualidade.
Mais do que simples passatempos, eles envolvem elementos complexos de design, narrativa,
interatividade e tecnologia. Com o avan√ßo de recursos gr√°ficos, intelig√™ncia artificial
e conectividade online, os jogos digitais se tornaram experi√™ncias imersivas que atraem
jogadores de todas as idades ao redor do mundo. Al√©m do entretenimento, eles tamb√©m t√™m
ganhado espa√ßo em √°reas como educa√ß√£o, treinamento profissional, reabilita√ß√£o e socializa√ß√£o.
√Ä medida que a tecnologia continua a evoluir, espera-se que os jogos digitais desempenhem
um papel cada vez mais significativo na cultura, na economia e na vida cotidiana das pessoas.
"""

In [21]:
# Passo 5 - Gerar o resumo
resumo = summarizer(texto, max_length=60, min_length=25, do_sample=False)

In [22]:
# Passo 6 - Exibir os resultados
print("Texto original:\n", texto)
print("\nResumo gerado:\n", resumo[0]['summary_text'])

Texto original:
 
Jogos digitais s√£o uma das formas de entretenimento mais influentes da atualidade.
Mais do que simples passatempos, eles envolvem elementos complexos de design, narrativa,
interatividade e tecnologia. Com o avan√ßo de recursos gr√°ficos, intelig√™ncia artificial
e conectividade online, os jogos digitais se tornaram experi√™ncias imersivas que atraem
jogadores de todas as idades ao redor do mundo. Al√©m do entretenimento, eles tamb√©m t√™m
ganhado espa√ßo em √°reas como educa√ß√£o, treinamento profissional, reabilita√ß√£o e socializa√ß√£o.
√Ä medida que a tecnologia continua a evoluir, espera-se que os jogos digitais desempenhem
um papel cada vez mais significativo na cultura, na economia e na vida cotidiana das pessoas.


Resumo gerado:
 Jogos digitais s√£o uma das formas de entretenimento mais influentes da atualidade. Eles envolvem elementos complexos de design, narrativa,interatividade e tecnologia.


### 4. Avalia√ß√£o Autom√°tica de Resumos com ROUGE

Objetivo: Utilizar a m√©trica ROUGE para avaliar resumos gerados automaticamente.

Passos:

‚Ä¢	Gerar um resumo usando qualquer m√©todo.

‚Ä¢	Comparar com um resumo humano.

‚Ä¢	Utilizar rouge-score para calcular ROUGE-1, ROUGE-2 e ROUGE-L.

üìå Dica: Instale a biblioteca rouge-score (pip install rouge-score) e use rouge_scorer para calcular as m√©tricas.


In [23]:
# Passo 1 ‚Äì Instalar a biblioteca
!pip install rouge-score

Collecting rouge-score
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: rouge-score
  Building wheel for rouge-score (setup.py) ... [?25l[?25hdone
  Created wheel for rouge-score: filename=rouge_score-0.1.2-py3-none-any.whl size=24934 sha256=5b6a02b7fc68709be980f75fa4eb658db7d9c085378d1a8afceedf9bb4f25021
  Stored in directory: /root/.cache/pip/wheels/85/9d/af/01feefbe7d55ef5468796f0c68225b6788e85d9d0a281e7a70
Successfully built rouge-score
Installing collected packages: rouge-score
Successfully installed rouge-score-0.1.2


In [24]:
# Passo 2 ‚Äì Importar e configurar
from rouge_score import rouge_scorer

In [25]:
# Passo 3 ‚Äì Definir os resumos

# Resumo humano
resumo_humano = "A pesquisa discute a biblioteca Sumy, que fornece diferentes m√©todos de sumariza√ß√£o de textos em Python."

# Resumo gerado automaticamente
resumo_automatico = "Sumy √© uma biblioteca Python que implementa v√°rios algoritmos de sumariza√ß√£o, como LSA, LexRank e TextRank."


In [26]:
# Passo 4 ‚Äì Calcular m√©tricas ROUGE

# Criar o avaliador
scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)

# Calcular as m√©tricas
scores = scorer.score(resumo_humano, resumo_automatico)

print(scores)


{'rouge1': Score(precision=0.4117647058823529, recall=0.3888888888888889, fmeasure=0.39999999999999997), 'rouge2': Score(precision=0.125, recall=0.11764705882352941, fmeasure=0.12121212121212122), 'rougeL': Score(precision=0.29411764705882354, recall=0.2777777777777778, fmeasure=0.28571428571428575)}
