In [3]:
from transformers import pipeline
fugu_translator = pipeline('translation', model='staka/fugumt-ja-en')
fugu_translator('こんにちは、今日はいい天気ですね。私は日本語を勉強しています。日本語は難しいけれど、面白いです')



[{'translation_text': "Hello, today is a nice day. I'm studying Japanese. Japanese is difficult, but interesting."}]

In [4]:
from transformers import (
    MBartForConditionalGeneration, MBartTokenizer
)

tokenizer = MBartTokenizer.from_pretrained("ken11/mbart-ja-en")
model = MBartForConditionalGeneration.from_pretrained("ken11/mbart-ja-en")

Downloading (…)tencepiece.bpe.model:   0%|          | 0.00/1.43M [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


Downloading (…)cial_tokens_map.json:   0%|          | 0.00/494 [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/502 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.26k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/1.68G [00:00<?, ?B/s]

这段代码是用于机器翻译任务的一个例子，它使用了一个预训练的模型将日语文本（"こんにちは"）翻译成英语。以下是代码的详细解释：

inputs = tokenizer("こんにちは", return_tensors="pt")：这一行将日语文本 "こんにちは" 作为输入，并使用 tokenizer 对其进行编码。return_tensors="pt" 表示返回的张量类型为 PyTorch 张量。

translated_tokens = model.generate(**inputs, decoder_start_token_id=tokenizer.lang_code_to_id["en_XX"], early_stopping=True, max_length=48)：这一行使用预训练的模型 (model) 对输入进行翻译。decoder_start_token_id 参数表示翻译目标语言的起始 token ID（在这个例子中，目标语言是英语）。early_stopping=True 表示当翻译过程满足某个停止条件时，会提前结束翻译。max_length=48 限制了翻译结果的最大长度。

pred = tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]：这一行将翻译后的 token 序列解码为英语文本。skip_special_tokens=True 表示在解码过程中跳过特殊 token（如起始、结束、填充等 token）。

总结：这段代码使用了一个预训练的机器翻译模型，将日语文本 "こんにちは" 翻译成英语文本。

In [6]:
inputs = tokenizer("こんにちは、今日はいい天気ですね。私は日本語を勉強しています。日本語は難しいけれど、面白いです", return_tensors="pt")
translated_tokens = model.generate(**inputs, decoder_start_token_id=tokenizer.lang_code_to_id["en_XX"], early_stopping=True, max_length=48)
pred = tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]
print(pred)

hello, nice weather today. i'm studying japanese. japanese is difficult, but interesting.
