# Aula 03 – Modelos BERT, GPT, T5 + Pipeline com Hugging Face

Notebook com **duas formas** de utilizar modelos de linguagem:

1. **Modo básico**: usando `transformers` diretamente com `AutoTokenizer` e `AutoModel`
2. **Modo simplificado**: usando `pipeline` com modelos pré-treinados e `datasets`

Vamos abordar:
- BERT (Masked Language Modeling)
- GPT (Causal Language Modeling)
- T5 (Text-to-Text)
- Zero-shot Classification
- Named Entity Recognition (NER)

In [None]:
# Instalação necessária (caso ainda não tenha)
# !pip install transformers datasets torch

## BERT - Preenchendo Máscaras (Masked Language Model)

In [None]:
from transformers import AutoTokenizer, AutoModelForMaskedLM
import torch

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForMaskedLM.from_pretrained("bert-base-uncased")

frase = "The student went to the [MASK] to study."
tokens = tokenizer(frase, return_tensors="pt")
with torch.no_grad():
    outputs = model(**tokens)

predicted_token_id = outputs.logits[0, tokens['input_ids'][0].tolist().index(tokenizer.mask_token_id)].argmax().item()
predicted_word = tokenizer.decode([predicted_token_id])

print("Frase original:", frase)
print("Palavra predita:", predicted_word)

## GPT - Geração de Texto (Causal Language Model)

In [None]:
from transformers import AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("gpt2")
model = AutoModelForCausalLM.from_pretrained("gpt2")

entrada = tokenizer("Once upon a time", return_tensors="pt")
saida = model.generate(**entrada, max_length=20)

print(tokenizer.decode(saida[0], skip_special_tokens=True))

## T5 - Tradução de Tarefa para Texto (Text-to-Text Transfer Transformer)

In [None]:
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("t5-small")
model = T5ForConditionalGeneration.from_pretrained("t5-small")

entrada = tokenizer("translate English to Portuguese: I love natural language processing", return_tensors="pt")
saida = model.generate(**entrada)

print(tokenizer.decode(saida[0], skip_special_tokens=True))

## Zero-shot Classification com Pipeline

In [None]:
from transformers import pipeline

classificador = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")
resultado = classificador(
    "Esse curso ensina como treinar modelos de linguagem",
    candidate_labels=["esporte", "tecnologia", "culinária"]
)
print(resultado)

## NER (Reconhecimento de Entidades Nomeadas) com Pipeline

In [None]:
ner = pipeline("ner", grouped_entities=True)
texto = "Barack Obama foi presidente dos Estados Unidos."
entidades = ner(texto)
print(entidades)