# LSTMのお勉強

*20170621６　Mitsuhiro Ito*

自分で書いてみよう！  
目標　LSTMを利用して夏目漱石っぽい文章を書いてみよう

* [MXnetのRNNの公式チュートリアル](http://mxnet.io/tutorials/r/charRnnModel.html)
* [TJOさんの記事](http://tjo.hatenablog.com/entry/2016/11/08/190000)
* [aidiaryさんの記事](http://qiita.com/elm200/items/6f84d3a42eebe6c47caa)

# 1. 前準備

In [1]:
from __future__ import print_function
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.layers import LSTM
from keras.optimizers import RMSprop
from keras.utils.data_utils import get_file
import numpy as np
import random
import sys

Using TensorFlow backend.


# 2. 文章ファイルの入手

下記サイトから上の記事で共有してくれている夏目漱石のテキストをダウンロード  
https://github.com/elm200/ltsm_soseki/tree/master


In [2]:
path = "souseki_all_hiragana2.txt"
text = open(path).read().lower() #lowerは参考元が英語だったため残っているだけで、ひらがな文章では必要ない？
print('corpus length:', len(text)) 
print(text[0:400])

corpus length: 6578167
さんじやまみちをのぼりながら、こうかんがえた。
さとしちにはたらけばかくかどがたつ。じょうじょうにさおさおさせばながされる。いじをつうとおせばきゅうくつきゅうくつだ。とかくにひとのよはすみにくい。
すみにくさがこうこうじると、やすいところへひきこしたくなる。どこへこし�


---
# 3. 文章ファイルをデータ化

まずはdict化する

In [3]:
chars = sorted(list(set(text))) # set :重複しない順序なしコレクション
char_indices = dict((c, i) for i, c in enumerate(chars))#  文字　：　番号
indices_char = dict((i, c) for i, c in enumerate(chars))#　　番号：　文字
print('nb chars:', len(chars))

print (char_indices)
print (indices_char)

nb chars: 66
{'\x81': 2, '\x80': 1, '\x83': 4, '\x82': 3, '\x85': 6, '\x84': 5, '\x87': 8, '\x86': 7, '\x89': 10, '\x88': 9, '\x8b': 12, '\n': 0, '\x8d': 14, '\x8c': 13, '\x8f': 16, '\x8e': 15, '\x91': 18, '\x90': 17, '\x93': 20, '\x92': 19, '\x95': 22, '\x94': 21, '\x97': 24, '\x96': 23, '\x99': 26, '\x98': 25, '\x9b': 28, '\x9a': 27, '\x9d': 30, '\x9c': 29, '\x9f': 32, '\x9e': 31, '\xa1': 34, '\xa0': 33, '\xa3': 36, '\xa2': 35, '\xa5': 38, '\xa4': 37, '\xa7': 40, '\xa6': 39, '\xa9': 42, '\xa8': 41, '\xab': 44, '\xaa': 43, '\xad': 46, '\xac': 45, '\xaf': 48, '\xae': 47, '\xb1': 50, '\xb0': 49, '\xb3': 52, '\xb2': 51, '\xb5': 54, '\xb4': 53, '\xb7': 56, '\xb6': 55, '\xb9': 58, '\xb8': 57, '\xbb': 60, '\xba': 59, '\xbd': 62, '\xbc': 61, '\xbf': 64, '\xbe': 63, '\x8a': 11, '\xe3': 65}
{0: '\n', 1: '\x80', 2: '\x81', 3: '\x82', 4: '\x83', 5: '\x84', 6: '\x85', 7: '\x86', 8: '\x87', 9: '\x88', 10: '\x89', 11: '\x8a', 12: '\x8b', 13: '\x8c', 14: '\x8d', 15: '\x8e', 16: '\x8f', 17: '\x90', 1

---
ひらがなはタプルやセットに入れるとUTF-8コードに変わる   
``` $ s = ('あ','い','う','え','お','か')
$ s
('\xe3\x81\x82',
 '\xe3\x81\x84',
 '\xe3\x81\x86',
 '\xe3\x81\x88',
 '\xe3\x81\x8a',
 '\xe3\x81\x8b')``` 
 
 ---
 
 次に学習用に４０個の連続した文字のかたまりとその次の文字のデータを抽出する

In [4]:
maxlen = 40 
step = 3
sentences = []
next_chars = []
for i in range(0, len(text) - maxlen, step):
    sentences.append(text[i: i + maxlen])
    next_chars.append(text[i + maxlen])
print('nb sequences:', len(sentences))
print('nb next_chars:', len(next_chars))

nb sequences: 2192709
nb next_chars: 2192709


---
```$ print(tuple(text[0:41]))```　最初の４１文字から...  
('\xe3', '\x81', '\x95', '\xe3', '\x82', '\x93', '\xe3', '\x81', '\x98', '\xe3', '\x82', '\x84', '\xe3', '\x81', '\xbe', '\xe3', '\x81', '\xbf', '\xe3', '\x81', '\xa1', '\xe3', '\x82', '\x92', '\xe3', '\x81', '\xae', '\xe3', '\x81', '\xbc', '\xe3', '\x82', '\x8a', '\xe3', '\x81', '\xaa', '\xe3', '\x81', '\x8c', '\xe3', '\x82')   

```$　print(sentences[0:1])```   sentenceに最初の４０文字を格納
['\xe3\x81\x95\xe3\x82\x93\xe3\x81\x98\xe3\x82\x84\xe3\x81\xbe\xe3\x81\xbf\xe3\x81\xa1\xe3\x82\x92\xe3\x81\xae\xe3\x81\xbc\xe3\x82\x8a\xe3\x81\xaa\xe3\x81\x8c\xe3']

```$　print(next_chars[0:1])```   next_charsに次の文字（４１番目の文字）を格納  
['\x82']

文字３個分ずらして格納していく

---

次に機械学習ができるように行列化する

In [5]:
X = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool)
#  sentenceのリストサイズ　×　 1sentenceの文字数　×　　文字の種類　　のゼロ行列 
# 0:False 1: True
y = np.zeros((len(sentences), len(chars)), dtype=np.bool)# sentenceのリストサイズ　　×　　文字の種類 のゼロ行列　  
for i, sentence in enumerate(sentences):
    for t, char in enumerate(sentence):
        X[i, t, char_indices[char]] = 1
    y[i, char_indices[next_chars[i]]] = 1


In [6]:
X.shape, y.shape

((2192709, 40, 66), (2192709, 66))

---
Xについて 

```$　print (char_indices)```   
{'\x81': 2, '\x80': 1, '\x83': 4, '\x82': 3, '\x85': 6, '\x84': 5, '\x87': 8, '\x86': 7, '\x89': 10, '\x88': 9, '\x8b': 12, '\n': 0, '\x8d': 14, '\x8c': 13, '\x8f': 16, '\x8e': 15, '\x91': 18, '\x90': 17, '\x93': 20, '\x92': 19, '\x95': 22, '\x94': 21, '\x97': 24, '\x96': 23, '\x99': 26, '\x98': 25, '\x9b': 28, '\x9a': 27, '\x9d': 30, '\x9c': 29, '\x9f': 32, '\x9e': 31, '\xa1': 34, '\xa0': 33, '\xa3': 36, '\xa2': 35, '\xa5': 38, '\xa4': 37, '\xa7': 40, '\xa6': 39, '\xa9': 42, '\xa8': 41, '\xab': 44, '\xaa': 43, '\xad': 46, '\xac': 45, '\xaf': 48, '\xae': 47, '\xb1': 50, '\xb0': 49, '\xb3': 52, '\xb2': 51, '\xb5': 54, '\xb4': 53, '\xb7': 56, '\xb6': 55, '\xb9': 58, '\xb8': 57, '\xbb': 60, '\xba': 59, '\xbd': 62, '\xbc': 61, '\xbf': 64, '\xbe': 63, '\x8a': 11, '\xe3': 65}　　

```$　print(sentences[0:2])``` 
['\xe3\x81\x95\xe3\x82\x93\xe3\x81\x98\xe3\x82\x84\xe3\x81\xbe\xe3\x81\xbf\xe3\x81\xa1\xe3\x82\x92\xe3\x81\xae\xe3\x81\xbc\xe3\x82\x8a\xe3\x81\xaa\xe3\x81\x8c\xe3', '\xe3\x82\x93\xe3\x81\x98\xe3\x82\x84\xe3\x81\xbe\xe3\x81\xbf\xe3\x81\xa1\xe3\x82\x92\xe3\x81\xae\xe3\x81\xbc\xe3\x82\x8a\xe3\x81\xaa\xe3\x81\x8c\xe3\x82\x89\xe3']

上の値からわかるように  
i =0、t=0、char=sentence[0]の0番目 \xe3      char_indices[\xe3]=65   
i =0、t=1、char=sentence[0]の1番目 \x81      char_indices[\x81]=2   
i =0、t=2、char=sentence[0]の2番目 \x95       char_indices[\x95]=22   
...   
i =0、t=39、char=sentence[0]の39番目 \xe3   char_indices[\x95]=65
       
i =1、t=0、char=sentence[1]の0番目 \xe3    char_indices[\xe3]=65  
i =1、t=1、char=sentence[1]の1番目 \x82   char_indices[\x81]=3   
i =1、t=2、char=sentence[1]の2番目 \x93   char_indices[\x93]=20   
...   
i =1、t=39、char=sentence[1]の39番目 \xe3   char_indices[\x95]=65

$ print(X[0,0,65],X[0,1,2],X[0,2,22],X[1,0,65],X[1,1,3],X[1,2,20])   
True True True True True True

よって　　X =   
[[0,0,0,.......,1],[0,0,1,0,....,0],[0,0,0,.. 0,1,0..,0],....[0,0,0,......,1],   
[0,0,0,.......,1],[0,0,0,1,....,0],[0,0,0,.. 0,1,0..,0],....[0,0,0,......,1],..   
.....]]
              

つまり４０文字の集合がonehot表現で2192709個集まったもの
          


yについて 

```$ print(next_chars[0:10])```   
['\x82', '\x80', '\x81', '\x81', '\x81', '\x82', '\x81', '\x81', '\x81', '\x80']　　

```$　print (char_indices)```   
{'\x81': 2, '\x80': 1, '\x83': 4, '\x82': 3, '\x85': 6, '\x84': 5, '\x87': 8, '\x86': 7, '\x89': 10, '\x88': 9, '\x8b': 12, '\n': 0, '\x8d': 14, '\x8c': 13, '\x8f': 16, '\x8e': 15, '\x91': 18, '\x90': 17, '\x93': 20, '\x92': 19, '\x95': 22, '\x94': 21, '\x97': 24, '\x96': 23, '\x99': 26, '\x98': 25, '\x9b': 28, '\x9a': 27, '\x9d': 30, '\x9c': 29, '\x9f': 32, '\x9e': 31, '\xa1': 34, '\xa0': 33, '\xa3': 36, '\xa2': 35, '\xa5': 38, '\xa4': 37, '\xa7': 40, '\xa6': 39, '\xa9': 42, '\xa8': 41, '\xab': 44, '\xaa': 43, '\xad': 46, '\xac': 45, '\xaf': 48, '\xae': 47, '\xb1': 50, '\xb0': 49, '\xb3': 52, '\xb2': 51, '\xb5': 54, '\xb4': 53, '\xb7': 56, '\xb6': 55, '\xb9': 58, '\xb8': 57, '\xbb': 60, '\xba': 59, '\xbd': 62, '\xbc': 61, '\xbf': 64, '\xbe': 63, '\x8a': 11, '\xe3': 65}　　

上の値からわかるように   
i =0のとき   
next_chars[0]=\x82   
char_indices[next_chars[0]]=char_indices[\x82]=3   

i =1のとき   
next_chars[1]=\x80   
char_indices[next_chars[0]]=char_indices[\x82]=1 

 $ print(y[0,3],y[1,1])   
 True  True

よって　　y = [[0,0,0,1,0,0,.......,0],[0,1,0....,0],....]  
つまり次の文字の集合がonehot表現で2192709個集まったもの
          

 
 
 ---

 # ４. LSTMを用いた学習と予測

In [7]:
model = Sequential()
model.add(LSTM(128, input_shape=(maxlen, len(chars))))#１２８：ユニット数
model.add(Dense(len(chars)))#ユニット数は文字の種類だけ
model.add(Activation('softmax'))

optimizer = RMSprop(lr=0.01)
model.compile(loss='categorical_crossentropy', optimizer=optimizer)

 LSTM(self, units, activation='tanh', recurrent_activation='hard_sigmoid', use_bias=True, kernel_initializer='glorot_uniform', recurrent_initializer='orthogonal', bias_initializer='zeros', unit_forget_bias=True, kernel_regularizer=None, recurrent_regularizer=None, bias_regularizer=None, activity_regularizer=None, kernel_constraint=None, recurrent_constraint=None, bias_constraint=None, dropout=0.0, recurrent_dropout=0.0, **kwargs)

In [8]:
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
lstm_1 (LSTM)                (None, 128)               99840     
_________________________________________________________________
dense_1 (Dense)              (None, 66)                8514      
_________________________________________________________________
activation_1 (Activation)    (None, 66)                0         
Total params: 108,354.0
Trainable params: 108,354.0
Non-trainable params: 0.0
_________________________________________________________________


In [9]:
print(128*65*12) # ユニット数　×　文字の種類　×　（出力、入力、忘却ゲートそれぞれ4個ずつ）？

99840


In [10]:
import sys
from utils import save_model_viz, save_weights, save_hist, plot_hist

In [11]:
RUN_ID = 'LSTM'
save_model_viz(RUN_ID, model)

In [12]:
def sample(preds, temperature=1.0):
    preds = np.asarray(preds).astype('float64')#予測した値を行列化
    preds = np.log(preds) / temperature#log表示に
    exp_preds = np.exp(preds)
    preds = exp_preds / np.sum(exp_preds)
    probas = np.random.multinomial(1, preds, 1)#多項分布で確率表現
    return np.argmax(probas)

In [13]:
for iteration in range(1, 3):
    hist = model.fit(X, y,batch_size=512,epochs=1) 
    start_index = random.randint(0, len(text) - maxlen - 1)# ランダムにスタートのインデックスを決める

    for diversity in [0.2, 0.5, 1.0, 1.2]:
        generated = ''
        sentence = text[start_index: start_index + maxlen]#ランダムに決めたスタートから４０文字を選び、
        generated += sentence# 文章を作成していく
        sys.stdout.write(generated)#自動で入るスペースや改行を無視

        for i in range(400):
            x = np.zeros((1, maxlen, len(chars)))# １×40×66のゼロ行列を作成
            for t, char in enumerate(sentence):#上で作ったsentenceを予測に使うように行列化
                x[0, t, char_indices[char]] = 1.

            preds = model.predict(x, verbose=0)[0]#入力x（sentenceの行列表現）に対して次の文字を予測
            next_index = sample(preds, diversity)#予測した文字をindex表現に
            next_char = indices_char[next_index]# index表示（onehot）を文字表示に

            generated += next_char
            sentence = sentence[1:] + next_char

            sys.stdout.write(next_char)
            sys.stdout.flush()
print()

save_weights(RUN_ID, model)
save_hist(RUN_ID, hist)
        


Epoch 1/1
�まきねまきのうえにもきのか�����������

  app.launch_new_instance()


����������������������������������������������������������
������������������������������������������������������������������������������
������������������������������������������������������������������������������������������������������������������������
���������������������
���������������������������������������������������������������������������������������������
���������������まきねまきのうえにもきのか�����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������まきねまきのうえにもきのか���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

In [14]:
plot_hist(RUN_ID)

KeyError: 'acc'

In [None]:
from IPython.display import Image
Image("model/LSTM_vis.png")

---
Memo


In [None]:
from keras.utils.data_utils import get_file

In [None]:
get_file( '/Users/mitsuhiro/Work/Study/souseki_all','https://github.com/elm200/ltsm_soseki/blob/master/souseki_all_hiragana2.txt')