Extrair texto do PDF

Biblioteca: PyPDF2 (para PDFs simples) ou pdfplumber (melhor para tabelas/formatações).

Código mínimo:

In [None]:
import pdfplumber
with pdfplumber.open("arquivo.pdf") as pdf:
    text = " ".join([page.extract_text() for page in pdf.pages])

Pré-processamento do texto

Limpeza: Remover quebras de linha múltiplas, caracteres especiais, headers/footers.

Divisão: Separar o texto em sentenças (usando nltk ou spaCy).

Exemplo:

In [None]:
import re
text = re.sub(r'\s+', ' ', text)  # Normaliza espaços

In [None]:
print(text[:1000])  # Mostra os primeiros 1000 caracteres

Sumarização

Abordagem 1 (Extrativa - mais fácil):

Selecionar as sentenças mais importantes com base em frequência de palavras (TF-IDF) ou embeddings (BERT).

Biblioteca: sklearn para TF-IDF ou sentence-transformers (ex.: all-MiniLM-L6-v2 para embeddings).

Exemplo com TF-IDF:

In [None]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

Tentativa de Limpar o Texto

In [None]:
import re

# Remove múltiplos espaços/quebras de linha
text_clean = re.sub(r'\s+', ' ', text).strip()

Importanto Pacotes do Tokenize

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.tokenize import sent_tokenize
# Seleciona as sentenças com maior pontuação média de TF-IDF

In [None]:
sentences = sent_tokenize(text_clean)

In [None]:
vectorizer = TfidfVectorizer()

In [None]:
X = vectorizer.fit_transform(sentences)

Abordagem 2 (Abstrativa - mais avançada):

Usar modelos pré-treinados como BERTimbau (para português) ou T5-small (ex.: unicamp-dl/ptt5-base-summarization-portuguese-vocab).

Exemplo com Hugging Face:

In [None]:
from transformers import pipeline

In [None]:
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

In [None]:
summary = summarizer(text_clean, max_length=150, min_length=30, truncation=True)  # Ative o truncamento

In [None]:
print("Resumo:")
print(summary[0]['summary_text'])