<a href="https://colab.research.google.com/github/ShinAsakawa/2019cnps/blob/master/notebooks/2019cnps_addtion_rnn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 足し算を行う seq2seq モデルの実装

入力 "535+61"
出力 "596"

埋め草文字として空白の繰り返しを用いる

入力はオプションで反転させることができる。
これは，多くの課題で成績が向上することが知られている。

文献としては，[Learning to Execute](http://arxiv.org/abs/1410.4615) と
[Sequence to Sequence Learning with Neural Networks](http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf)

理論的には、ソースとターゲットの間に短期的な依存関係が導入される。
以下実行結果の要約

* 2 桁 反転 足し算
+ 1 層 LSTM 訓練データ 99% 正解率，

*  3 桁 反転 足し算
+ 1 層LSTM 訓練データ 99% 正解率

* 4 桁 反転 足し算。
+ 1 層 LSTM  99% 正解率

* 5 桁 反転。
+ 1 層 LSTM (128 HN)99% 


In [1]:
from keras.models import Sequential
from keras import layers
import numpy as np
# from six.moves import range

In [2]:
class CharacterTable(object):
    """任意の文字集合が問題として与えられた時に
    1. ワンホット 整数表現に符号化
    2. ワンホット 整数表現をその文字出力に復号化
    3. 出力として得られた確率ベクトルを，対応する文字に復号化
    """
    def __init__(self, chars):
        """文字表の初期化

        引数
            chars: 入力信号に現れる全文字集合
        """
        self.chars = sorted(set(chars))
        self.char_indices = dict((c, i) for i, c in enumerate(self.chars))
        self.indices_char = dict((i, c) for i, c in enumerate(self.chars))

    def encode(self, C, num_rows):
        """文字列 C のワンホット表現

        引数
            num_rows: ワンホット表現ベクトルを返す行数
        """
        x = np.zeros((num_rows, len(self.chars)))
        for i, c in enumerate(C):
            x[i, self.char_indices[c]] = 1
        return x

    def decode(self, x, calc_argmax=True):
        if calc_argmax:
            x = x.argmax(axis=-1)
        return ''.join(self.indices_char[x] for x in x)

In [3]:
class colors:
    ok = '\033[92m'    # 正解表示用の色を指定
    fail = '\033[91m'  # 失敗表示用の色を指定
    close = '\033[0m'  # 表示色をデフォルトに戻す

# 訓練に用いるパラメータ
TRAINING_SIZE = 50000
DIGITS = 3
INVERT = True

# 入力の最大長は `数字+数字` で表す
MAXLEN = DIGITS + 1 + DIGITS

# 入力に用いる文字と埋め草文字(空白)を指定
chars = '0123456789+ '
ctable = CharacterTable(chars)

In [None]:
questions = []
expected = []
seen = set()
print('データの生成...')
while len(questions) < TRAINING_SIZE:
    f = lambda: int(''.join(np.random.choice(list('0123456789'))
                    for i in range(np.random.randint(1, DIGITS + 1))))
    a, b = f(), f()

    # 既知の足し算問題をスキップ
    # 同様に x+Y == Y+x のような問題もスキップ。ソートもする。
    key = tuple(sorted((a, b)))
    if key in seen:
        continue
    seen.add(key)

    # 常にMAXLENになるようにデータを空白で埋める
    q = '{}+{}'.format(a, b)
    query = q + ' ' * (MAXLEN - len(q))
    ans = str(a + b)
    # 回答 `ans` は最大で DIGITS + 1 のサイズ
    ans += ' ' * (DIGITS + 1 - len(ans))
    if INVERT:
        # 例えば '12+345 ' は ' 543+21' となる。
        # 埋め草文字の空白注意
        query = query[::-1]
    questions.append(query)
    expected.append(ans)
print(f'総問題数: {len(questions)}')

In [None]:
print('ベクトル化...')
x = np.zeros((len(questions), MAXLEN, len(chars)), dtype=np.bool_)
y = np.zeros((len(questions), DIGITS + 1, len(chars)), dtype=np.bool_)
for i, sentence in enumerate(questions):
    x[i] = ctable.encode(sentence, MAXLEN)
for i, sentence in enumerate(expected):
    y[i] = ctable.encode(sentence, DIGITS + 1)

In [7]:
# x の後半部分はほとんど大きな数字になるためデータ (x, y) をシャッフル
indices = np.arange(len(y))
np.random.shuffle(indices)
x = x[indices]
y = y[indices]

In [None]:
# データセットの 10% を検証データセットとして設定。検証データセットでは学習を行わない
split_at = len(x) - len(x) // 10
(x_train, x_val) = x[:split_at], x[split_at:]
(y_train, y_val) = y[:split_at], y[split_at:]

print('訓練データセット数:')
print(f'入力データサイズ: {x_train.shape}')
print(f'教師データサイズ:{y_train.shape}')

print('検証データセット数:')
print(f'入力データサイズ: {x_val.shape}')
print(f'教師データサイズ: {y_val.shape}')

In [12]:
# GRU や SimpleRNN を置き換えて実行してみること
RNN = layers.LSTM
HIDDEN_SIZE = 128
BATCH_SIZE = 128
LAYERS = 1

In [13]:
print('モデル作成...')
model = Sequential()

# RNN を使って入力配列を符号化し，HIDDEN_SIZE の出力を生成
# 注：入力系列が可変長の場合には `input_shape=(None, num_feature)` を使用
model.add(RNN(HIDDEN_SIZE, input_shape=(MAXLEN, len(chars))))

# 復号化器 RNN の入力として，最終時刻の隠れ層の状態を繰り返し与える。
# RNN の最終時刻の隠れ層の状態を，各時間ステップで繰り返し提供。
# すなわち，DIGITS + 1 回繰り返す。
# 例えば DIGITS=3 の場合，最大出力は999+999=1998 となる。
model.add(layers.RepeatVector(DIGITS + 1))

# 復号化器 RNN は，複数層を重ねることも，単層にすることも可能
for _ in range(LAYERS):
    # `return_sequences=True` にすると，最後の出力だけでなく，これまでの全出力を (num_samples, timesteps, output_dim) という形で返す。
    # これは，下記  `TimeDistributed` が最初の次元を `timesteps` と想定しているため，必要となる。
    model.add(RNN(HIDDEN_SIZE, return_sequences=True))

# 入力の各時間スライスに全結合層を適用する。
# 出力系列の各時刻に対して，どの文字を選択するかを決定するため
model.add(layers.TimeDistributed(layers.Dense(len(chars))))
model.add(layers.Activation('softmax'))
model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])
model.summary()

モデル作成...
Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 lstm (LSTM)                 (None, 128)               72192     
                                                                 
 repeat_vector (RepeatVector  (None, 4, 128)           0         
 )                                                               
                                                                 
 lstm_1 (LSTM)               (None, 4, 128)            131584    
                                                                 
 time_distributed (TimeDistr  (None, 4, 12)            1548      
 ibuted)                                                         
                                                                 
 activation (Activation)     (None, 4, 12)             0         
                                                                 
Total params: 205,324
Trainable params: 205,324

In [None]:
# モデルを世代ごとに学習させ，検証用データセットに対する予測値を表示する。
for iteration in range(1, 200):
    print()
    print('-' * 50)
    print('反復回数', iteration)
    model.fit(x_train, y_train,
              batch_size=BATCH_SIZE,
              epochs=1, validation_data=(x_val, y_val))
    
    # ランダムに 10 個事例をサンプリングして表示
    for i in range(10):
        ind = np.random.randint(0, len(x_val))
        rowx, rowy = x_val[np.array([ind])], y_val[np.array([ind])]

        preds = np.argmax(model.predict(rowx), axis=-1)
        q = ctable.decode(rowx[0])
        correct = ctable.decode(rowy[0])
        guess = ctable.decode(preds[0], calc_argmax=False)
        print('問:', q[::-1] if INVERT else q)
        print('答:', correct)
        if correct == guess:
            print(colors.ok + '正' + colors.close, end=" ")
        else:
            print(colors.fail + '誤' + colors.close, end=" ")
        print(guess)
        print('---')


--------------------------------------------------
反復回数 1
問: 35+276 
答: 311 
[91m誤[0m 139 
---
問: 54+691 
答: 745 
[91m誤[0m 109 
---
問: 2+691  
答: 693 
[91m誤[0m 138 
---
問: 549+52 
答: 601 
[91m誤[0m 109 
---
問: 355+94 
答: 449 
[91m誤[0m 109 
---
問: 337+298
答: 635 
[91m誤[0m 104 
---
問: 36+382 
答: 418 
[91m誤[0m 139 
---
問: 767+600
答: 1367
[91m誤[0m 107 
---
問: 87+153 
答: 240 
[91m誤[0m 108 
---
問: 71+746 
答: 817 
[91m誤[0m 108 
---

--------------------------------------------------
反復回数 2
問: 30+678 
答: 708 
[91m誤[0m 771 
---
問: 78+65  
答: 143 
[91m誤[0m 171 
---
問: 642+56 
答: 698 
[91m誤[0m 606 
---
問: 984+38 
答: 1022
[91m誤[0m 901 
---
問: 188+48 
答: 236 
[91m誤[0m 891 
---
問: 365+16 
答: 381 
[91m誤[0m 666 
---
問: 850+812
答: 1662
[91m誤[0m 1299
---
問: 730+971
答: 1701
[91m誤[0m 1519
---
問: 151+976
答: 1127
[91m誤[0m 1201
---
問: 69+320 
答: 389 
[91m誤[0m 391 
---

--------------------------------------------------
反復回数 3
問: 299+549
答: 848 
[91m誤[0m 800 
---
問: 5