# 90. データの準備
機械翻訳のデータセットをダウンロードせよ．訓練データ，開発データ，評価データを整形し，必要に応じてトークン化などの前処理を行うこと．ただし，この段階ではトークンの単位として形態素（日本語）および単語（英語）を採用せよ．

## トークン化
1. 日本語のトークン化関数 (形態素)
2. 英語のトークン化関数 (単語)
3. テキストのトークン化
4. データの保存

In [31]:
# MeCab ipadic NEologdによる形態素分割
import MeCab

wakati = MeCab.Tagger("/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd -Owakati")

def ja_tokenizer(fname):
    '''
    input :fname
    output:list(token)
    '''
    with open(fname, encoding='utf-8') as f1:
        lines = f1.readlines()
    
    tokens = [wakati.parse(line) for line in lines]

    return tokens

In [32]:
# mosestokenizerによる単語分割
from mosestokenizer import *

tokenizer = MosesTokenizer('en')

def en_tokenizer(fname):
    '''
    input :fname
    output:list(token)
    '''
    with open(fname, encoding='utf-8') as f2:
        lines = f2.readlines()
    
    tokens = [' '.join(tokenizer(line)) + '\n' for line in lines]

    return tokens

In [33]:
# ja_tokenizerによるトークン化
train_ja_tokens = ja_tokenizer('../data/ch10/kftt-data-1.0/data/orig/kyoto-train.ja')
dev_ja_tokens   = ja_tokenizer('../data/ch10/kftt-data-1.0/data/orig/kyoto-dev.ja')
test_ja_tokens  = ja_tokenizer('../data/ch10/kftt-data-1.0/data/orig/kyoto-test.ja')

# en_tokenizerによるトークン化
train_en_tokens = en_tokenizer('../data/ch10/kftt-data-1.0/data/orig/kyoto-train.en')
dev_en_tokens   = en_tokenizer('../data/ch10/kftt-data-1.0/data/orig/kyoto-dev.en')
test_en_tokens  = en_tokenizer('../data/ch10/kftt-data-1.0/data/orig/kyoto-test.en')

In [35]:
# データの保存
def save_token(token, fname):
    with open(fname, 'w') as f:
        f.writelines(token)

save_token(train_ja_tokens, '../data/ch10/90_train_tokens.ja')
save_token(dev_ja_tokens, '../data/ch10/90_dev_tokens.ja')
save_token(test_ja_tokens, '../data/ch10/90_test_tokens.ja')
save_token(train_en_tokens, '../data/ch10/90_train_tokens.en')
save_token(dev_en_tokens, '../data/ch10/90_dev_tokens.en')
save_token(test_en_tokens, '../data/ch10/90_test_tokens.en')