In [None]:
# 1. Instalar dependências
!pip install -q --upgrade transformers==4.30.2 datasets

# 2. Verificar versão
import torch
import transformers
print(f"✅ Versão do Transformers: {transformers.__version__}")

# 3. Imports
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

# 4. Carregar modelo e tokenizer
model_rubuntu = "rubuntu/guarani-jopara-llm"
tokenizer = AutoTokenizer.from_pretrained(model_rubuntu)
model = AutoModelForCausalLM.from_pretrained(model_rubuntu)

# 5. Criar pipeline de geração com controle
translator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    return_full_text=False  # só retorna a resposta
)

# 6. Função para formatar prompts
def format_prompt(instruction, input_text=""):
    return f"{instruction.strip()}\n{input_text.strip()}\n"

# 7. Casos de teste
test_cases = [
    ("Traduza para o guarani:", "O rio está limpo"),
    ("Como se diz em Guarani:", "floresta"),
    ("Traduza para o português:", "Yvyrareta")
]

# 8. Geração de traduções
for instruction, input_text in test_cases:
    prompt = format_prompt(instruction, input_text)
    result = translator(
        prompt,
        max_new_tokens=40,
        do_sample=True,
        temperature=0.7,
        top_p=0.9
    )
    print(f"\n🗣️ Prompt: {prompt.strip()}")
    print(f"📝 Tradução: {result[0]['generated_text']}")