# 第10章: 機械翻訳

## 90. データの準備
機械翻訳のデータセットをダウンロードせよ．訓練データ，開発データ，評価データを整形し，必要に応じてトークン化などの前処理を行うこと．ただし，この段階ではトークンの単位として形態素（日本語）および単語（英語）を採用せよ．

In [1]:
import spacy
from tqdm import tqdm

In [2]:
nlp_ja = spacy.load('ja_ginza')
nlp_en = spacy.load('en_core_web_sm')



In [3]:
doc = nlp_ja('私は昨日寿司を食べました。')
for sent in doc.sents:
    for token in sent:
        print(token.i, token.orth_, token.lemma_, token.pos_, 
              token.tag_, token.dep_, token.head.i)

0 私 私 PRON 代名詞 iobj 5
1 は は ADP 助詞-係助詞 case 0
2 昨日 昨日 ADV 名詞-普通名詞-副詞可能 advmod 5
3 寿司 寿司 NOUN 名詞-普通名詞-一般 obj 5
4 を を ADP 助詞-格助詞 case 3
5 食べ 食べる VERB 動詞-一般 ROOT 5
6 まし ます AUX 助動詞 aux 5
7 た た AUX 助動詞 aux 5
8 。 。 PUNCT 補助記号-句点 punct 5


In [6]:
!wget -q http://www.phontron.com/kftt/download/kftt-data-1.0.tar.gz

In [8]:
!tar xzvf kftt-data-1.0.tar.gz

kftt-data-1.0/
kftt-data-1.0/data/
kftt-data-1.0/data/orig/
kftt-data-1.0/data/orig/kyoto-tune.en
kftt-data-1.0/data/orig/kyoto-dev.ja
kftt-data-1.0/data/orig/kyoto-dev.en
kftt-data-1.0/data/orig/kyoto-train.en
kftt-data-1.0/data/orig/kyoto-tune.ja
kftt-data-1.0/data/orig/kyoto-train.ja
kftt-data-1.0/data/orig/kyoto-test.ja
kftt-data-1.0/data/orig/kyoto-test.en
kftt-data-1.0/data/tok/
kftt-data-1.0/data/tok/kyoto-tune.en
kftt-data-1.0/data/tok/kyoto-dev.ja
kftt-data-1.0/data/tok/kyoto-train.cln.en
kftt-data-1.0/data/tok/kyoto-dev.en
kftt-data-1.0/data/tok/kyoto-train.en
kftt-data-1.0/data/tok/kyoto-tune.ja
kftt-data-1.0/data/tok/kyoto-train.cln.ja
kftt-data-1.0/data/tok/kyoto-train.ja
kftt-data-1.0/data/tok/kyoto-test.ja
kftt-data-1.0/data/tok/kyoto-test.en
kftt-data-1.0/README.txt


In [11]:
files = ["train","test", "dev"]

for fname in files:
    with open('./kftt-data-1.0/data/orig/kyoto-'+fname+'.ja', "r") as intxt, open("./"+fname+".ja", "w") as out:
        txts = intxt.readlines()
        for txt in tqdm(txts):
            txt = txt.strip("\n")
            doc = nlp_ja(txt)
            mrphs = [token.orth_ for sent in doc.sents for token in sent]
            print(" ".join(mrphs), file=out)

100%|██████████| 440288/440288 [1:13:14<00:00, 100.20it/s]
100%|██████████| 1160/1160 [00:10<00:00, 106.19it/s]
100%|██████████| 1166/1166 [00:10<00:00, 110.14it/s]


In [12]:
files = ["train","test", "dev"]

for fname in files:
    with open('./kftt-data-1.0/data/orig/kyoto-'+fname+'.en', "r") as intxt, open("./"+fname+".en", "w") as out:
        txts = intxt.readlines()
        for txt in tqdm(txts):
            txt = txt.strip("\n")
            pt = nlp_en.make_doc(txt)
            mrphs = [doc.text for doc in pt]
            print(" ".join(mrphs), file=out)

100%|██████████| 440288/440288 [01:38<00:00, 4476.23it/s]
100%|██████████| 1160/1160 [00:00<00:00, 4554.35it/s]
100%|██████████| 1166/1166 [00:00<00:00, 5201.26it/s]


In [4]:
!head train.ja

雪舟 （ せっ しゅう 、 1420 年 （ 応永 27 年 ） - 1506 年 （ 永正 3 年 ） ） は 号 で 、 15 世紀 後半 室町 時代 に 活躍 し た 水墨 画家 ・ 禅僧 で 、 画聖 と も 称え られる 。
日本 の 水墨画 を 一変 さ せ た 。
諱 は 「 等楊 （ とう よう ） 」 、 もしくは 「 拙 宗 （ せっ しゅう ） 」 と 号し た 。
備中 国 に 生まれ 、 京都 ・ 相国 寺 に 入っ て から 周防 国 に 移る 。
その 後 遣明 使 に 随行 し て 中国 （ 明 ） に 渡っ て 中国 の 水墨画 を 学ん だ 。
作品 は 数多く 、 中国 風 の 山水画 だけ で なく 人物画 や 花鳥画 も よく し た 。
大胆 な 構図 と 力強い 筆線 は 非常 に 個性的 な 画風 を 作り出し て いる 。
現存 する 作品 の うち 6 点 が 国宝 に 指定 さ れ て おり 、 日本 の 画家 の なか で も 別格 の 評価 を 受け て いる と いえる 。
この ため 、 花鳥 図 屏風 など に 「 伝 雪舟 筆 」 さ れる 作品 は 大変 多い 。
真筆 で ある か 専門家 の 間 で も 意見 の 分かれる もの も 多々 ある 。


In [5]:
!head train.en

Known as Sesshu ( 1420 - 1506 ) , he was an ink painter and Zen monk active in the Muromachi period in the latter half of the 15th century , and was called a master painter .
He revolutionized the Japanese ink painting .
He was given the posthumous name " Toyo " or " Sesshu ( 拙宗 ) . "
Born in Bicchu Province , he moved to Suo Province after entering SShokoku - ji Temple in Kyoto .
Later he accompanied a mission to Ming Dynasty China and learned Chinese ink painting .
His works were many , including not only Chinese - style landscape paintings , but also portraits and pictures of flowers and birds .
His bold compositions and strong brush strokes constituted an extremely distinctive style .
6 of his extant works are designated national treasures . Indeed , he is considered to be extraordinary among Japanese painters .
For this reason , there are a great many artworks that are attributed to him , such as folding screens with pictures of flowers and that birds are painted on them .
There a

## 91. 機械翻訳モデルの訓練
90で準備したデータを用いて，ニューラル機械翻訳のモデルを学習せよ（ニューラルネットワークのモデルはTransformerやLSTMなど適当に選んでよい）．

In [7]:
!fairseq-preprocess --source-lang ja --target-lang en \
    --trainpref train \
    --validpref dev \
    --testpref test \
    --destdir ch10  \
    --thresholdsrc 5 \
    --thresholdtgt 5 \
    --workers 5

Namespace(align_suffix=None, alignfile=None, bpe=None, cpu=False, criterion='cross_entropy', dataset_impl='mmap', destdir='ch10', empty_cache_freq=0, fp16=False, fp16_init_scale=128, fp16_scale_tolerance=0.0, fp16_scale_window=None, joined_dictionary=False, log_format=None, log_interval=1000, lr_scheduler='fixed', memory_efficient_fp16=False, min_loss_scale=0.0001, no_progress_bar=False, nwordssrc=-1, nwordstgt=-1, only_source=False, optimizer='nag', padding_factor=8, seed=1, source_lang='ja', srcdict=None, target_lang='en', task='translation', tensorboard_logdir='', testpref='test', tgtdict=None, threshold_loss_scale=None, thresholdsrc=5, thresholdtgt=5, tokenizer=None, trainpref='train', user_dir=None, validpref='dev', workers=5)
| [ja] Dictionary: 60247 types
| [ja] train.ja: 440288 sents, 11273745 tokens, 1.43% replaced by <unk>
| [ja] Dictionary: 60247 types
| [ja] dev.ja: 1166 sents, 25519 tokens, 1.55% replaced by <unk>
| [ja] Dictionary: 60247 types
| [ja] test.ja: 1160 sents, 

In [8]:
! CUDA_VISIBLE_DEVICES=5,6,7,8 fairseq-train ch10 \
    --fp16 \
    --save-dir ch10-save \
    --max-epoch 10 \
    --arch transformer --share-decoder-input-output-embed \
    --optimizer adam --clip-norm 1.0 \
    --lr 1e-3 --lr-scheduler inverse_sqrt --warmup-updates 2000 \
    --update-freq 1 \
    --dropout 0.2 --weight-decay 0.0001 \
    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \
    --max-tokens 2000 > 91.log

Traceback (most recent call last):
  File "/home/miyazaki.k/kemvenv/bin/fairseq-train", line 11, in <module>
    load_entry_point('fairseq==0.9.0', 'console_scripts', 'fairseq-train')()
  File "/home/miyazaki.k/kemvenv/lib/python3.7/site-packages/fairseq_cli/train.py", line 329, in cli_main
    nprocs=args.distributed_world_size,
  File "/home/miyazaki.k/kemvenv/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 171, in spawn
    while not spawn_context.join():
  File "/home/miyazaki.k/kemvenv/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 118, in join
    raise Exception(msg)
Exception: 

-- Process 3 terminated with the following error:
Traceback (most recent call last):
  File "/home/miyazaki.k/kemvenv/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 19, in _wrap
    fn(i, *args)
  File "/home/miyazaki.k/kemvenv/lib/python3.7/site-packages/fairseq_cli/train.py", line 296, in distributed_main
    main(args, init_distributed=True)
  F

## 92. 機械翻訳モデルの適用
91で学習したニューラル機械翻訳モデルを用い，与えられた（任意の）日本語の文を英語に翻訳するプログラムを実装せよ．

In [9]:
!fairseq-interactive --path ch10-save/checkpoint10.pt ch10 < test.ja | grep '^H' | cut -f3 > 92.out

In [9]:
!fairseq-generate ch10 --path ch10-save/checkpoint10.pt \
    --batch-size 128 --beam 4 > honyaku-out

                                                                                

In [12]:
!cat honyaku-out | grep ^T | cut -f2- > target.txt
!cat honyaku-out | grep ^H | cut -f3- > hypothesis.txt

In [13]:
!head target.txt

1866
1864
1867
Land - based Digital Television Broadcasting Facilities
Japanese National Railways Steam Locomotive Class <<unk>>
<<unk>> in 1925 by Hitachi , Ltd.
<<unk>> in 1948 by Hitachi , Ltd.
Transferred from the Miyazaki Engine Depot .
Volume 4 consists of 32 chapters .
Volume 1 consists of 107 chapters .


In [14]:
!head hypothesis.txt

1866
1864
1867
<unk> TV broadcasting facilities
JNR / JR ( JNR ) <unk> steam locomotive
It was manufactured by Hitachi Hitachi in 1925 .
It was manufactured by Hitachi Hitachi in 1948 .
He was transferred from Miyazaki Depot .
It consists of four stories and 32 stories .
One volume , 107 stories .


In [15]:
!git clone https://github.com/moses-smt/mosesdecoder.git

Cloning into 'mosesdecoder'...
remote: Enumerating objects: 46, done.[K
remote: Counting objects: 100% (46/46), done.[K
remote: Compressing objects: 100% (38/38), done.[K
remote: Total 147560 (delta 20), reused 18 (delta 7), pack-reused 147514[K
Receiving objects: 100% (147560/147560), 129.76 MiB | 16.32 MiB/s, done.
Resolving deltas: 100% (114006/114006), done.
Checking out files: 100% (3467/3467), done.


In [16]:
!perl ./mosesdecoder/scripts/generic/multi-bleu.perl target.txt < hypothesis.txt

BLEU = 21.98, 53.3/27.2/16.0/10.1 (BP=1.000, ratio=1.021, hyp_len=28218, ref_len=27628)
It is not advisable to publish scores from multi-bleu.perl.  The scores depend on your tokenizer, which is unlikely to be reproducible from your paper or consistent across research groups.  Instead you should detokenize then use mteval-v14.pl, which has a standard tokenization.  Scores from multi-bleu.perl can still be used for internal purposes when you have a consistent tokenizer.


## 93. BLEUスコアの計測
91で学習したニューラル機械翻訳モデルの品質を調べるため，評価データにおけるBLEUスコアを測定せよ．

In [10]:
!fairseq-score --sys 92.out --ref test.en

Namespace(ignore_case=False, order=4, ref='test.en', sacrebleu=False, sentence_bleu=False, sys='92.out')
BLEU4 = 21.99, 53.1/27.2/16.0/10.1 (BP=1.000, ratio=1.026, syslen=28360, reflen=27628)


## 94. ビーム探索
91で学習したニューラル機械翻訳モデルで翻訳文をデコードする際に，ビーム探索を導入せよ．ビーム幅を1から100くらいまで適当に変化させながら，開発セット上のBLEUスコアの変化をプロットせよ．

## 95. サブワード化
トークンの単位を単語や形態素からサブワードに変更し，91-94の実験を再度実施せよ．

In [17]:
!mkdir ch10_bpe

In [19]:
%%bash

DIR=ch10_bpe
TRAIN=$DIR/train.ja-en
cat train.ja > $TRAIN
cat train.en >> $TRAIN

git clone https://github.com/rsennrich/subword-nmt.git
BPEROOT=subword-nmt/subword_nmt
BPE_TOKENS=40000
BPE_CODE=$DIR/learn_bpe.jaen
python $BPEROOT/learn_bpe.py -s $BPE_TOKENS < $TRAIN > $BPE_CODE

Cloning into 'subword-nmt'...


In [24]:
%%bash

DIR=ch10_bpe
BPEROOT=subword-nmt/subword_nmt
BPE_TOKENS=40000
BPE_CODE=$DIR/learn_bpe.jaen
python $BPEROOT/apply_bpe.py -c $BPE_CODE < train.ja > $DIR/train.ja
python $BPEROOT/apply_bpe.py -c $BPE_CODE < train.en > $DIR/train.en
python $BPEROOT/apply_bpe.py -c $BPE_CODE < test.ja > $DIR/test.ja
python $BPEROOT/apply_bpe.py -c $BPE_CODE < test.en > $DIR/test.en
python $BPEROOT/apply_bpe.py -c $BPE_CODE < dev.ja > $DIR/valid.ja
python $BPEROOT/apply_bpe.py -c $BPE_CODE < dev.en > $DIR/valid.en

In [26]:
!fairseq-preprocess --source-lang ja --target-lang en \
    --trainpref ch10_bpe/train \
    --validpref ch10_bpe/valid \
    --testpref ch10_bpe/test \
    --destdir ch10_bpe_pp  \
    --thresholdsrc 5 \
    --thresholdtgt 5 \
    --workers 5

Namespace(align_suffix=None, alignfile=None, bpe=None, cpu=False, criterion='cross_entropy', dataset_impl='mmap', destdir='ch10_bpe_pp', empty_cache_freq=0, fp16=False, fp16_init_scale=128, fp16_scale_tolerance=0.0, fp16_scale_window=None, joined_dictionary=False, log_format=None, log_interval=1000, lr_scheduler='fixed', memory_efficient_fp16=False, min_loss_scale=0.0001, no_progress_bar=False, nwordssrc=-1, nwordstgt=-1, only_source=False, optimizer='nag', padding_factor=8, seed=1, source_lang='ja', srcdict=None, target_lang='en', task='translation', tensorboard_logdir='', testpref='ch10_bpe/test', tgtdict=None, threshold_loss_scale=None, thresholdsrc=5, thresholdtgt=5, tokenizer=None, trainpref='ch10_bpe/train', user_dir=None, validpref='ch10_bpe/valid', workers=5)
| [ja] Dictionary: 24583 types
| [ja] ch10_bpe/train.ja: 440288 sents, 12200780 tokens, 0.077% replaced by <unk>
| [ja] Dictionary: 24583 types
| [ja] ch10_bpe/valid.ja: 1166 sents, 27704 tokens, 0.0794% replaced by <unk>


In [27]:
! CUDA_VISIBLE_DEVICES=5,6,7,8 fairseq-train ch10_bpe_pp \
    --fp16 \
    --save-dir ch10_bpe-save \
    --max-epoch 10 \
    --arch transformer --share-decoder-input-output-embed \
    --optimizer adam --clip-norm 1.0 \
    --lr 1e-3 --lr-scheduler inverse_sqrt --warmup-updates 2000 \
    --update-freq 1 \
    --dropout 0.2 --weight-decay 0.0001 \
    --criterion label_smoothed_cross_entropy --label-smoothing 0.1 \
    --max-tokens 2000 > 95.log

Traceback (most recent call last):
  File "/home/miyazaki.k/kemvenv/bin/fairseq-train", line 11, in <module>
    load_entry_point('fairseq==0.9.0', 'console_scripts', 'fairseq-train')()
  File "/home/miyazaki.k/kemvenv/lib/python3.7/site-packages/fairseq_cli/train.py", line 329, in cli_main
    nprocs=args.distributed_world_size,
  File "/home/miyazaki.k/kemvenv/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 171, in spawn
    while not spawn_context.join():
  File "/home/miyazaki.k/kemvenv/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 118, in join
    raise Exception(msg)
Exception: 

-- Process 3 terminated with the following error:
Traceback (most recent call last):
  File "/home/miyazaki.k/kemvenv/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 19, in _wrap
    fn(i, *args)
  File "/home/miyazaki.k/kemvenv/lib/python3.7/site-packages/fairseq_cli/train.py", line 296, in distributed_main
    main(args, init_distributed=True)
  F

## 96. 学習過程の可視化
Tensorboardなどのツールを用い，ニューラル機械翻訳モデルが学習されていく過程を可視化せよ．可視化する項目としては，学習データにおける損失関数の値とBLEUスコア，開発データにおける損失関数の値とBLEUスコアなどを採用せよ．

## 97. ハイパー・パラメータの調整
ニューラルネットワークのモデルや，そのハイパーパラメータを変更しつつ，開発データにおけるBLEUスコアが最大となるモデルとハイパーパラメータを求めよ．

## 98. ドメイン適応
Japanese-English Subtitle Corpus (JESC)やJParaCrawlなどの翻訳データを活用し，KFTTのテストデータの性能向上を試みよ．

## 99. 翻訳サーバの構築
ユーザが翻訳したい文を入力すると，その翻訳結果がウェブブラウザ上で表示されるデモシステムを構築せよ．