# üß† Gera√ß√£o de Texto com LLMs em Portugu√™s
Exemplo com pipeline `text-generation` e fine-tuning m√≠nimo com base em t√≥picos.


## ü§ñ Gera√ß√£o de texto com `pipeline` (modelo GPT-2 em portugu√™s)


In [None]:
from transformers import pipeline

gerador = pipeline("text-generation", model="pierreguillou/gpt2-small-portuguese")
entrada = "Descri√ß√£o de um notebook potente para programadores:"
saida = gerador(entrada, max_length=80, num_return_sequences=1)
print(saida[0]["generated_text"])

## üìö Dataset de t√≥picos e textos curtos para fine-tuning

In [None]:
from datasets import Dataset

dados = {
    "entrada": ["cadeira gamer confort√°vel", "celular com boa c√¢mera e bateria"],
    "texto": [
        "Cadeira gamer com apoio lombar, encosto reclin√°vel e espuma de alta densidade.",
        "Celular com c√¢mera de 108MP, bateria de longa dura√ß√£o e carregamento r√°pido."
    ]
}

dataset = Dataset.from_dict(dados)
dataset = dataset.train_test_split(test_size=0.5)

## üî§ Tokeniza√ß√£o com modelo T5 em portugu√™s

In [None]:
from transformers import AutoTokenizer

modelo = "unicamp-dl/ptt5-base-portuguese-vocab"
tokenizer = AutoTokenizer.from_pretrained(modelo)

def preprocess(example):
    input_text = ["gerar: " + x for x in example["entrada"]]
    model_inputs = tokenizer(input_text, padding="max_length", truncation=True, max_length=128)
    with tokenizer.as_target_tokenizer():
        labels = tokenizer(example["texto"], padding="max_length", truncation=True, max_length=128)
    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

tokenized_dataset = dataset.map(preprocess, batched=True)

## üß† Carregar modelo e configurar treinamento


In [None]:
from transformers import AutoModelForSeq2SeqLM, TrainingArguments, Trainer, DataCollatorForSeq2Seq

model = AutoModelForSeq2SeqLM.from_pretrained(modelo)

args = TrainingArguments(
    output_dir="./modelo-gerador",
    evaluation_strategy="epoch",
    per_device_train_batch_size=2,
    num_train_epochs=3,
    logging_steps=10,
    predict_with_generate=True
)

trainer = Trainer(
    model=model,
    args=args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["test"],
    tokenizer=tokenizer,
    data_collator=DataCollatorForSeq2Seq(tokenizer, model)
)

trainer.train()

## ‚úÖ Gera√ß√£o de novos textos com modelo ajustado

In [None]:
entrada = "gerar: fone bluetooth resistente √† √°gua e com cancelamento de ru√≠do"
tokens = tokenizer(entrada, return_tensors="pt")
output = model.generate(**tokens, max_new_tokens=60)
print(tokenizer.decode(output[0], skip_special_tokens=True))