# üß† Sumariza√ß√£o de Texto com LLMs ‚Äî Execu√ß√£o M√≠nima

Este roteiro mostra como aplicar um modelo LLM pr√©-treinado para gerar resumos de textos em portugu√™s, usando a biblioteca ü§ó Hugging Face.

---

# üì• Carregar modelo T5 adaptado para portugu√™s

In [None]:
from transformers import pipeline

# Modelo adaptado para sumariza√ß√£o em portugu√™s
modelo = "unicamp-dl/ptt5-base-portuguese-vocab"

# Pipeline de sumariza√ß√£o
sumarizador = pipeline("summarization", model=modelo, tokenizer=modelo)


# üìù Texto de entrada

In [None]:
texto = (
    "O presidente da rep√∫blica discursou na abertura da confer√™ncia sobre mudan√ßas clim√°ticas "
    "e afirmou que o Brasil ir√° cumprir as metas estabelecidas no Acordo de Paris. Ele destacou "
    "a import√¢ncia da preserva√ß√£o da Amaz√¥nia e o compromisso com fontes renov√°veis de energia."
)


# üöÄ Gerar resumo

In [None]:
resumo = sumarizador(
    texto,
    max_length=80,
    min_length=20,
    do_sample=False
)

print("Resumo:", resumo[0]['summary_text'])


# ‚úÖ Sa√≠da esperada


Resumo: O presidente reafirmou o compromisso do Brasil com o Acordo de Paris e destacou a preserva√ß√£o da Amaz√¥nia.

# üìå Observa√ß√µes
Esse exemplo utiliza infer√™ncia direta com modelo pr√©-treinado (sem fine-tuning).

O modelo ptt5-base foi treinado especificamente para tarefas em portugu√™s.

Para textos mais longos, ajuste os par√¢metros max_length, min_length e ative truncation=True se necess√°rio.



# üß† Fine-Tuning de Sumariza√ß√£o com T5 em Portugu√™s üáßüá∑

Este roteiro mostra como realizar o fine-tuning de um modelo T5 adaptado para a l√≠ngua portuguesa, utilizando a biblioteca ü§ó Hugging Face Transformers e o dataset XLSum (vers√£o em portugu√™s).


# üìö Carregar dataset de exemplo

In [None]:
from datasets import load_dataset

# Dataset multil√≠ngue com textos e resumos jornal√≠sticos
dataset = load_dataset("csebuetnlp/xlsum", "portuguese")
dataset = dataset.train_test_split(test_size=0.2)
dataset["validation"] = dataset["test"]


# üßπ Pr√©-processamento e tokeniza√ß√£o

In [None]:
from transformers import AutoTokenizer

checkpoint = "unicamp-dl/ptt5-base-portuguese-vocab"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

max_input_length = 512
max_target_length = 128

def preprocess_function(examples):
    inputs = ["sumarize: " + doc for doc in examples["text"]]
    model_inputs = tokenizer(inputs, max_length=max_input_length, truncation=True)

    with tokenizer.as_target_tokenizer():
        labels = tokenizer(examples["summary"], max_length=max_target_length, truncation=True)

    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

tokenized_datasets = dataset.map(preprocess_function, batched=True)


# üß† Carregar modelo T5 para sumariza√ß√£o

In [None]:
from transformers import AutoModelForSeq2SeqLM

model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)


# ‚öôÔ∏è Configura√ß√£o do treinamento

In [None]:
from transformers import TrainingArguments

args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=2e-4,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    weight_decay=0.01,
    save_total_limit=2,
    num_train_epochs=3,
    predict_with_generate=True,
    fp16=False  # Ativar se estiver usando GPU com suporte
)


# üìä Avalia√ß√£o com ROUGE

In [None]:
import evaluate

rouge = evaluate.load("rouge")

def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)

    return rouge.compute(predictions=decoded_preds, references=decoded_labels, use_stemmer=True)


# üèãÔ∏è Treinar o modelo

In [None]:
from transformers import Trainer, DataCollatorForSeq2Seq

data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=model)

trainer = Trainer(
    model=model,
    args=args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    tokenizer=tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics
)

trainer.train()


# ‚úÖ Avalia√ß√£o final no conjunto de valida√ß√£o

In [None]:
trainer.evaluate()


# üìå Observa√ß√µes
O modelo unicamp-dl/ptt5-base-portuguese-vocab √© otimizado para tarefas como sumariza√ß√£o, tradu√ß√£o e gera√ß√£o de texto em portugu√™s.

O dataset XLSum cont√©m pares (texto, resumo) para dezenas de idiomas, incluindo o portugu√™s.

O par√¢metro predict_with_generate=True permite gerar sequ√™ncias durante a avalia√ß√£o, o que √© essencial para calcular ROUGE.

