# üß† Roadmap ‚Äî Sistema de Perguntas e Respostas com Transformers

---

# ü§ó Pipeline de QA com modelo treinado em portugu√™s

In [None]:
from transformers import pipeline

# Modelo BERT em portugu√™s treinado em QA
qa_pipeline = pipeline(
    task="question-answering",
    model="mrm8488/bert-base-portuguese-cased-finetuned-squad-v1",
    tokenizer="mrm8488/bert-base-portuguese-cased-finetuned-squad-v1"
)

contexto = """
A Amaz√¥nia √© a maior floresta tropical do mundo. Ela cobre nove pa√≠ses e representa uma das maiores reservas de biodiversidade do planeta.
"""

pergunta = "Qual √© a maior floresta tropical do mundo?"

resposta = qa_pipeline(question=pergunta, context=contexto)
print("Resposta:", resposta["answer"])


# ‚úÖ Parte 2 ‚Äî Fine-Tuning com modelo extractivo (SQuAD em portugu√™s)

In [None]:
from datasets import load_dataset

dataset = load_dataset("squad", split="train[:1000]")
dataset = dataset.train_test_split(test_size=0.1)
dataset["validation"] = dataset["test"]


# üî§ Tokeniza√ß√£o e alinhamento de contexto/pergunta

In [None]:
from transformers import AutoTokenizer

checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

def preprocess(examples):
    return tokenizer(
        examples["question"],
        examples["context"],
        truncation=True,
        padding="max_length",
        max_length=384
    )

tokenized_datasets = dataset.map(preprocess, batched=True)


# üß† Carregar modelo para QA extractivo

In [None]:
from transformers import AutoModelForQuestionAnswering

model = AutoModelForQuestionAnswering.from_pretrained(checkpoint)


# ‚öôÔ∏è Configurar treinamento

In [None]:
from transformers import TrainingArguments

args = TrainingArguments(
    output_dir="./qa-model",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=2,
    weight_decay=0.01
)


# üß™ Avalia√ß√£o com F1 e EM

In [None]:
import evaluate

metric = evaluate.load("squad")

def compute_metrics(p):
    return metric.compute(predictions=p.predictions, references=p.label_ids)


# üèãÔ∏è Treinamento com Trainer

In [None]:
from transformers import Trainer, DefaultDataCollator

trainer = Trainer(
    model=model,
    args=args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    tokenizer=tokenizer,
    data_collator=DefaultDataCollator(),
    compute_metrics=compute_metrics
)

trainer.train()


# ‚úÖ Avalia√ß√£o final

In [None]:
trainer.evaluate()


# üìå Observa√ß√µes
* A tarefa de QA extractivo assume que a resposta est√° contida literalmente no contexto.

* Para QA generativo (ex.: com T5), use o prefixo "pergunte:" e modelo de gera√ß√£o seq2seq.

* M√©tricas como Exact Match (EM) e F1-score s√£o as mais usadas para QA.