# Tradução automática

Da biblioteca do Hugging Face, importamos "mBART-50 many to many multilingual machine translation" para carregar o modelo pré treinado e o seu tokenizador correspondente. Como o nome do modelo sugere, é possivel traduzir diretamente entre qualquer par de 50 idiomas.

In [None]:
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast

model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")

Aqui é inserido o texto que é desejada a tradução.

In [None]:
text = "The life is like a box of chocolates."

Sobre o código a seguir, temos dois trechos semelhantes, um traduzindo para português e outro para espanhol.



As linhas quem contém "tokenizer.src_lang = " servem para informar a linguagem de origem do texto.

Nas linhas com ``encoded_text = tokenizer(article_pt, return_tensors="pt")``, estamos usando o tokenizador para converter o texto inserido para uma representação númerica em tensores PyTorch.

Aqui ``generated_tokens = model.generate(**encoded_text, forced_bos_token_id=tokenizer.lang_code_to_id["pt_XX"])``, estamos usando o modelo para gerar tokens. Estamos forçando o ID do token de início ``("forced_bos_token_id")`` para inglês ``("pt_XX")``. Isso significa que o modelo gerará a tradução começando com o token correspondente ao início de uma sequência em português.

Finalmente, na hora de imprimir na tela, temos ``tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)`` significando que queremos pular a decodificação de tokens especiais durante o processo de reconversão dos tokens gerados de volta para texto legível.

In [None]:
tokenizer.src_lang = "en_US"

encoded_text = tokenizer(text, return_tensors="pt")

generated_tokens = model.generate(
    **encoded_text,
    forced_bos_token_id=tokenizer.lang_code_to_id["pt_XX"]
)

print(tokenizer.batch_decode(generated_tokens, skip_special_tokens=True))

generated_tokens = model.generate(
    **encoded_text,
    forced_bos_token_id=tokenizer.lang_code_to_id["es_XX"]
)

print(tokenizer.batch_decode(generated_tokens, skip_special_tokens=True))

['A vida é como uma caixa de chocolates.']
['La vida es como una caja de chocolates.']


Aqui carregamos um tokenizador e um modelo da biblioteca Hugging Face Transformers, específicos para tarefas de sequência para sequência (seq2seq).

In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("facebook/nllb-200-distilled-600M")
model = AutoModelForSeq2SeqLM.from_pretrained("facebook/nllb-200-distilled-600M")

In [None]:
tokenizer.src_lang = "pt_BR"


text_to_translate = "A vida é como uma caixa de chocolates"
model_inputs = tokenizer(text_to_translate, return_tensors="pt")


gen_tokens = model.generate(**model_inputs, forced_bos_token_id=tokenizer.lang_code_to_id["eng_Latn"])

print(tokenizer.batch_decode(gen_tokens, skip_special_tokens=True))

gen_tokens = model.generate(**model_inputs, forced_bos_token_id=tokenizer.lang_code_to_id['spa_Latn'])

print(tokenizer.batch_decode(gen_tokens, skip_special_tokens=True))

['Life is like a box of chocolates.']
['La vida es como una caja de chocolate.']
