In [2]:
from transformers import BertTokenizer, EncoderDecoderModel

# Carregar o tokenizer e o modelo treinado
model_name = 'bert-base-multilingual-cased'
tokenizer = BertTokenizer.from_pretrained("./results/model/bert-tokenizer-translation-en-pt-v1")
model = EncoderDecoderModel.from_pretrained('./results/model/bert-translation-en-pt-v1')

# Definir o decoder_start_token_id e pad_token_id
model.config.decoder_start_token_id = tokenizer.cls_token_id
model.config.pad_token_id = tokenizer.pad_token_id
model.config.bos_token_id = tokenizer.cls_token_id
model.config.eos_token_id = tokenizer.sep_token_id


In [3]:
# Função de tradução
def translate(text, max_length=50):
    # Codifique o texto
    input_ids = tokenizer.encode(text, return_tensors="pt")

    # Defina o bos_token_id e o decoder_start_token_id
    bos_token_id = tokenizer.bos_token_id
    decoder_start_token_id = tokenizer.cls_token_id

    # Prepare as entradas para geração
    inputs = {
        "input_ids": input_ids,
        "decoder_start_token_id": decoder_start_token_id,
    }

    # Gere a saída
    outputs = model.generate(**inputs, max_length=100, num_return_sequences=1, do_sample=True, temperature=0.3)

    # Decodifique a saída gerada
    decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return decoded_output

In [4]:
print(f"decoder_start_token_id: {model.config.decoder_start_token_id}", tokenizer.cls_token_id)
print(f"pad_token_id: {model.config.pad_token_id}", tokenizer.pad_token_id)
print(f"bos_token_id: {model.config.bos_token_id}", tokenizer.cls_token_id)
print(f"eos_token_id: {model.config.eos_token_id}", tokenizer.sep_token_id)

decoder_start_token_id: 101 101
pad_token_id: 0 0
bos_token_id: 101 101
eos_token_id: 102 102


In [21]:
# Texto de exemplo para tradução
text = "Que susto!"

print(f"Texto original: {text}")
print(f"Texto traduzido: {translate(text)}")


Texto original: Que susto!
Texto traduzido: What a crazy!
