# Atividade Aula 06 - Sumarização Automática


Alunos: Artur Revollo; Bruno Santos; Gabriel Dutra; Luccas Lohan

### 1. Sumarização baseada em Frequência de Palavras
Objetivo: Criar um resumo de um texto usando a frequência das palavras. Passos:

• Carregar um texto grande.

• Tokenizar o texto em frases e palavras.

• Calcular a frequência das palavras ignorando stopwords.

• Criar uma pontuação para cada frase com base nas palavras mais frequentes.

• Selecionar as frases mais importantes para formar o resumo.

📌 Dica: Utilize NLTK para tokenização e stopwords.

In [1]:
# 1 Passo - Instalar e importar bibliotecas
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, sent_tokenize
from collections import defaultdict

# Só precisa rodar uma vez para baixar os recursos do NLTK
nltk.download("punkt")
nltk.download("punkt_tab")
nltk.download("stopwords")


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [8]:
# 2 Passo - Carregar o texto
texto = """
Doce Lar Pet é uma plataforma desenvolvida para conectar donos de animais a anfitriões confiáveis que oferecem hospedagem para pets com conforto e segurança.
Permitirá que tutores encontrem opções personalizadas de estadia para seus animais, com base em localização, tipo de pet, datas e preferências específicas.
O objetivo é oferecer tranquilidade aos donos e bem-estar aos pets, promovendo uma experiência acolhedora e supervisionada.
A plataforma também contará com perfis avaliados, fotos do ambiente, atualizações em tempo real e um painel de controle para gerenciar reservas e comunicações.
Com isso, espera-se fortalecer a rede de cuidado animal, promovendo confiança, praticidade e carinho durante a ausência dos tutores.
"""

In [9]:
# 3 Passo – Tokenizar em frases e palavras

# Divide em frases
frases = sent_tokenize(texto, language="portuguese")

# Stopwords em português
stop_words = set(stopwords.words("portuguese"))

# Cria frequência das palavras
frequencia_palavras = defaultdict(int)

for palavra in word_tokenize(texto.lower(), language="portuguese"):
    if palavra.isalpha() and palavra not in stop_words:
        frequencia_palavras[palavra] += 1

In [10]:
# 4 Passo  – Pontuar frases

# Calcula pontuação das frases com base na soma das frequências das palavras
pontuacao_frases = defaultdict(int)

for frase in frases:
    for palavra in word_tokenize(frase.lower(), language="portuguese"):
        if palavra in frequencia_palavras:
            pontuacao_frases[frase] += frequencia_palavras[palavra]


In [11]:
# 5 Passo  – Selecionar frases mais importantes

# Seleciona 2 frases mais importantes
num_frases = 2
resumo = sorted(pontuacao_frases, key=pontuacao_frases.get, reverse=True)[:num_frases]

print("=== Resumo ===\n")
for r in resumo:
    print(r)


=== Resumo ===


Doce Lar Pet é uma plataforma desenvolvida para conectar donos de animais a anfitriões confiáveis que oferecem hospedagem para pets com conforto e segurança.
Permitirá que tutores encontrem opções personalizadas de estadia para seus animais, com base em localização, tipo de pet, datas e preferências específicas.


### 2. Sumarização usando Algoritmo TextRank
Objetivo: Implementar uma sumarização automática utilizando o algoritmo TextRank.

Passos:

• Pesquisar e utilizar a biblioteca sumy para gerar um resumo.

• Aplicar o algoritmo TextRank.

• Comparar o resumo gerado com o texto original.

📌 Dica: Utilize sumy.parsers.plaintext.PlaintextParser e sumy.summarizers.text_rank.TextRankSummarizer.


## Pesquisa Sobre a Biblioteca Sumy

# Sobre a biblioteca Sumy

Realizamos uma pesquisa no artigo do GeeksforGeeks:  
[Mastering Text Summarization with Sumy: A Python Library Overview](https://www.geeksforgeeks.org/nlp/mastering-text-summarization-with-sumy-a-python-library-overview/)



## O que é o Sumy?
O **Sumy** é uma biblioteca em Python projetada para **sumarização automática de textos**.  
Ela oferece diversos algoritmos prontos, permitindo escolher o mais adequado para cada caso.



## Algoritmos disponíveis
- **Luhn** → baseado em frequência de palavras (simples e rápido).  
- **Edmundson** → usa pesos para dar mais importância ou menos importância a certas palavras.  
- **LSA (Latent Semantic Analysis)** → identifica relações semânticas, produzindo resumos mais “inteligentes”.  
- **LexRank** → similar ao PageRank, baseia-se em similaridade entre frases.  
- **KL-Summarizer** → utiliza divergência de Kullback-Leibler.  
- **TextRank** → algoritmo popular baseado em grafos, que seleciona frases mais relevantes.  



## Recursos internos
- **Tokenização** em frases e palavras.  
- **Stopwords** para remover termos irrelevantes.  
- **Stemming/normalização** para agrupar palavras semelhantes.  



## Casos de uso
- Artigos de notícias  
- Postagens de blog  
- Documentos técnicos e legais  



## Pontos de atenção
- **Textos curtos** podem gerar resumos pobres.  
- O **custo de processamento** depende do algoritmo escolhido (ex.: LSA é mais pesado).  
- É importante **ajustar o número de frases** no resumo para cada contexto.  



Conclusão: O **Sumy** é uma ferramenta prática e flexível para experimentar diferentes métodos de sumarização em projetos de PLN.


In [6]:
# Passo 1 – Instalar a biblioteca
!pip install sumy

Collecting sumy
  Downloading sumy-0.11.0-py2.py3-none-any.whl.metadata (7.5 kB)
Collecting docopt<0.7,>=0.6.1 (from sumy)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting breadability>=0.1.20 (from sumy)
  Downloading breadability-0.1.20.tar.gz (32 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pycountry>=18.2.23 (from sumy)
  Downloading pycountry-24.6.1-py3-none-any.whl.metadata (12 kB)
Downloading sumy-0.11.0-py2.py3-none-any.whl (97 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m97.3/97.3 kB[0m [31m8.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pycountry-24.6.1-py3-none-any.whl (6.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.3/6.3 MB[0m [31m121.8 MB/s[0m eta [36m0:00:00[0m
[?25hBuilding wheels for collected packages: breadability, docopt
  Building wheel for breadability (setup.py) ... [?25l[?25hdone
  Created wheel for breadability: filename=bre

In [7]:
# Passo 2 – Importar módulos necessários
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.text_rank import TextRankSummarizer

In [12]:
# 2 Passo - Carregar o texto
texto = """
Doce Lar Pet é uma plataforma desenvolvida para conectar donos de animais a anfitriões confiáveis que oferecem hospedagem para pets com conforto e segurança.
Permitirá que tutores encontrem opções personalizadas de estadia para seus animais, com base em localização, tipo de pet, datas e preferências específicas.
O objetivo é oferecer tranquilidade aos donos e bem-estar aos pets, promovendo uma experiência acolhedora e supervisionada.
A plataforma também contará com perfis avaliados, fotos do ambiente, atualizações em tempo real e um painel de controle para gerenciar reservas e comunicações.
Com isso, espera-se fortalecer a rede de cuidado animal, promovendo confiança, praticidade e carinho durante a ausência dos tutores.
"""

In [13]:
# Passo 4 – Preparar o parser

# Usa o parser de texto simples (PlaintextParser)
parser = PlaintextParser.from_string(texto, Tokenizer("portuguese"))

In [14]:
# Passo 5 – Aplicar o TextRank

# Inicializa o sumarizador TextRank
summarizer = TextRankSummarizer()

# Define o número de frases do resumo
num_frases = 2

# Gera o resumo
resumo = summarizer(parser.document, num_frases)

print("=== Resumo TextRank ===\n")
for sent in resumo:
    print(sent)


=== Resumo TextRank ===

Doce Lar Pet é uma plataforma desenvolvida para conectar donos de animais a anfitriões confiáveis que oferecem hospedagem para pets com conforto e segurança.
A plataforma também contará com perfis avaliados, fotos do ambiente, atualizações em tempo real e um painel de controle para gerenciar reservas e comunicações.


### 3. Sumarização com Modelos Pré-treinados (BART ou T5)

Objetivo: Utilizar modelos de Deep Learning da Hugging Face para realizar sumarização.

Passos:

•	Carregar um modelo de sumarização (facebook/bart-large-cnn ou t5-small).

•	Fornecer um texto longo como entrada.

•	Gerar o resumo automaticamente e comparar com o texto original.

📌 Dica: Utilize a biblioteca transformers e o método pipeline() para inferência.


In [15]:
# Passo 1 - Instalar a biblioteca
!pip install transformers



In [17]:
# Passo 2 - Importar pipeline
from transformers import pipeline

In [18]:
# Passo 3 - Carregar o modelo de sumarização
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

Device set to use cpu


In [20]:
# Passo 4 - Texto de entrada
texto = """
Jogos digitais são uma das formas de entretenimento mais influentes da atualidade.
Mais do que simples passatempos, eles envolvem elementos complexos de design, narrativa,
interatividade e tecnologia. Com o avanço de recursos gráficos, inteligência artificial
e conectividade online, os jogos digitais se tornaram experiências imersivas que atraem
jogadores de todas as idades ao redor do mundo. Além do entretenimento, eles também têm
ganhado espaço em áreas como educação, treinamento profissional, reabilitação e socialização.
À medida que a tecnologia continua a evoluir, espera-se que os jogos digitais desempenhem
um papel cada vez mais significativo na cultura, na economia e na vida cotidiana das pessoas.
"""

In [21]:
# Passo 5 - Gerar o resumo
resumo = summarizer(texto, max_length=60, min_length=25, do_sample=False)

In [22]:
# Passo 6 - Exibir os resultados
print("Texto original:\n", texto)
print("\nResumo gerado:\n", resumo[0]['summary_text'])

Texto original:
 
Jogos digitais são uma das formas de entretenimento mais influentes da atualidade.
Mais do que simples passatempos, eles envolvem elementos complexos de design, narrativa,
interatividade e tecnologia. Com o avanço de recursos gráficos, inteligência artificial
e conectividade online, os jogos digitais se tornaram experiências imersivas que atraem
jogadores de todas as idades ao redor do mundo. Além do entretenimento, eles também têm
ganhado espaço em áreas como educação, treinamento profissional, reabilitação e socialização.
À medida que a tecnologia continua a evoluir, espera-se que os jogos digitais desempenhem
um papel cada vez mais significativo na cultura, na economia e na vida cotidiana das pessoas.


Resumo gerado:
 Jogos digitais são uma das formas de entretenimento mais influentes da atualidade. Eles envolvem elementos complexos de design, narrativa,interatividade e tecnologia.


### 4. Avaliação Automática de Resumos com ROUGE

Objetivo: Utilizar a métrica ROUGE para avaliar resumos gerados automaticamente.

Passos:

•	Gerar um resumo usando qualquer método.

•	Comparar com um resumo humano.

•	Utilizar rouge-score para calcular ROUGE-1, ROUGE-2 e ROUGE-L.

📌 Dica: Instale a biblioteca rouge-score (pip install rouge-score) e use rouge_scorer para calcular as métricas.


In [23]:
# Passo 1 – Instalar a biblioteca
!pip install rouge-score

Collecting rouge-score
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: rouge-score
  Building wheel for rouge-score (setup.py) ... [?25l[?25hdone
  Created wheel for rouge-score: filename=rouge_score-0.1.2-py3-none-any.whl size=24934 sha256=5b6a02b7fc68709be980f75fa4eb658db7d9c085378d1a8afceedf9bb4f25021
  Stored in directory: /root/.cache/pip/wheels/85/9d/af/01feefbe7d55ef5468796f0c68225b6788e85d9d0a281e7a70
Successfully built rouge-score
Installing collected packages: rouge-score
Successfully installed rouge-score-0.1.2


In [24]:
# Passo 2 – Importar e configurar
from rouge_score import rouge_scorer

In [25]:
# Passo 3 – Definir os resumos

# Resumo humano
resumo_humano = "A pesquisa discute a biblioteca Sumy, que fornece diferentes métodos de sumarização de textos em Python."

# Resumo gerado automaticamente
resumo_automatico = "Sumy é uma biblioteca Python que implementa vários algoritmos de sumarização, como LSA, LexRank e TextRank."


In [26]:
# Passo 4 – Calcular métricas ROUGE

# Criar o avaliador
scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)

# Calcular as métricas
scores = scorer.score(resumo_humano, resumo_automatico)

print(scores)


{'rouge1': Score(precision=0.4117647058823529, recall=0.3888888888888889, fmeasure=0.39999999999999997), 'rouge2': Score(precision=0.125, recall=0.11764705882352941, fmeasure=0.12121212121212122), 'rougeL': Score(precision=0.29411764705882354, recall=0.2777777777777778, fmeasure=0.28571428571428575)}
