In [40]:
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.layers import LSTM
from keras.optimizers import RMSprop
from keras.utils.data_utils import get_file
import numpy as np
import random
import sys
import neologdn

from classification.tools.parser import MessageManager, CabochaParser
from classification.tools.loader import BookManager

In [79]:
bookmanager = BookManager()
manager = MessageManager(parser=CabochaParser())
urls = bookmanager.load('101')
text = ''
for i, url in enumerate(urls):
    if i>20:
        break
    with open(url, 'rt') as f:
        temp = f.read()
    data = manager.extract_message(temp)
    parsed = data.text.replace('\n', '')
    result = neologdn.normalize(parsed)
    text += result
    print(i)

0
1


2


3
4


5


6
7


8
9


10


11


12
13
14


15


16
17


18


19
20


In [81]:
# 文書生成
path = get_file('nietzsche.txt', origin='https://s3.amazonaws.com/text-datasets/nietzsche.txt')
#text = open(path).read().lower()
print('corpus length:', len(text))

chars = sorted(list(set(text)))
print('total chars:', len(chars))
char_indices = dict((c, i) for i, c in enumerate(chars))
indices_char = dict((i, c) for i, c in enumerate(chars))


corpus length: 100908
total chars: 1855


In [82]:
maxlen = 40
step = 3
sentences = [] # 40文字のセンテンス
next_chars = [] # 'あ'などの1文字
for i in range(0, len(text) - maxlen, step):
    sentences.append(text[i: i + maxlen])
    next_chars.append(text[i + maxlen])
print('nb sentences:', len(sentences))

nb sentences: 33623


In [83]:
x = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool)
y = np.zeros((len(sentences), len(chars)), dtype=np.bool)
for i, sentence in enumerate(sentences):
    for t, char in enumerate(sentence):
        x[i, t, char_indices[char]] = 1
    y[i, char_indices[next_chars[i]]] = 1

'よ'

In [84]:
# Model
model = Sequential()
model.add(LSTM(128, input_shape=(maxlen, len(chars))))
model.add(Dense(len(chars)))
model.add(Activation('softmax'))

optimizer = RMSprop(lr=0.01)
model.compile(loss='categorical_crossentropy', optimizer=optimizer)

In [85]:
def sample(preds, temperature=1.0):
    preds = np.asarray(preds).astype('float64')
    preds = np.log(preds) / temperature
    exp_preds = np.exp(preds)
    preds = exp_preds / np.sum(exp_preds)
    probas = np.random.multinomial(1, preds, 1)
    return np.argmax(probas)

In [88]:
# Train
for iteration in range(1, 10):
    print()
    print('-' * 50)
    print('Iteration', iteration)
    model.fit(x, y, batch_size=128, epochs=1, verbose=False)
    
    



--------------------------------------------------
Iteration 1



--------------------------------------------------
Iteration 2



--------------------------------------------------
Iteration 3



--------------------------------------------------
Iteration 4



--------------------------------------------------
Iteration 5



--------------------------------------------------
Iteration 6



--------------------------------------------------
Iteration 7



--------------------------------------------------
Iteration 8



--------------------------------------------------
Iteration 9


In [89]:
start_index = random.randint(0, len(text) - maxlen - 1)
print(start_index)

for diversity in [1.0, 1.2, 1.5]:
    print()
    print('---- diversity:', diversity)
    
    generated = ''
    sentence = text[start_index: start_index + maxlen]
    generated += sentence
    print('----- Generating with seed: "' + sentence + '"')
    sys.stdout.write(generated)
    
    for i in range(200):
        x_pred = np.zeros((1, maxlen, len(chars)))
        for t, char in enumerate(sentence):
            x_pred[0, t, char_indices[char]] = 1.
            
        preds = model.predict(x_pred, verbose=0)[0]
        next_index = sample(preds, diversity)
        next_char = indices_char[next_index]
        
        generated += next_char
        sentence = sentence[1:] + next_char
        
        sys.stdout.write(next_char)
        sys.stdout.flush()
    print()


57395

---- diversity: 1.0
----- Generating with seed: "風が発生し、その音が耳を駆け抜けて行きます。私はもう一度手を伸ばしました。今度は"
風が発生し、その音が耳を駆け抜けて行きます。私はもう一度手を伸ばしました。今度は地

メ

な

い

ん

だ

?

な

っ

て

」

?

変

わ

り

と

な

に

象

…

は

…

」

「

家

は

ス

ー

ス

』

っ

て

ブ

ン

す

る

プ

目

ゲ

ー

・

・

・

ラ

・

・

・

お

亀

み

目

す

た

。

初

の

高

は

神

様

に

使

え

て

綺

本

だ

っ

た

。

自

分

で

言

私

と

そ

う

だ

ろ

う

か

。

親

聞

こ

え

い

い

い

の

か

も

し

か

っ

た

。

「

う

ぎ

指

び

好

き

攻

さ

う

。

」

っ

か

ら

ぬ

俺

を

青

わ

違

っ

て

く

る

。

は

良

か

し

い

だ

ろ

う

だ

。

「

あ

ぁ

、

防

ょ

っ

嘘

お

少

し

い

る

!

欲

言

い

だ

と

思

わ

れ

た

の

?

自

分

が

シ

ー

ル

か

と

言

っ

て

情

け

で

お

乗

ら

な

い

瞳

、

方

だ

と

し

た

聞

こ

え

る

の

で

分

け

な

は

言

っ

た

。

さ



---- diversity: 1.2
----- Generating with seed: "風が発生し、その音が耳を駆け抜けて行きます。私はもう一度手を伸ばしました。今度は"
風が発生し、その音が耳を駆け抜けて行きます。私はもう一度手を伸ばしました。今度は

通

ろ

し

ん

初

?

と

う

と

は

全

暗

1

聞

く

見

す

る

。

昨

し

ば

手

変

チ

い

。

集

ば

、

ず

こ

通

な

お

は

見

て

の

人

の

人

の

無

度

色

ボ

女

だ

け

る

1

言

帰

唱

出

た

々

会

今

の

よ

う

に

闇

に

最

合

の

腕

に

な

く

、

そ

う

聞

こ

え

な

い

。

対

目

に

奏

多

を

そ

っ

て

も

ら

で

静

に

ま

た

ら

ね

番

流

ら

ず

!

!

こ

の

あ

り

合

ち

倒

!

!

」

魔

物

が

約

い

わ

り

し

い

事

を

見

て

お

ま

す

。

』

っ

無

さ

か

」

む

散

目

を

俺

を

草

一

ぎ

で

ッ

近

く

。

先

輩

の

を

惑

い

た

体

伝

示

し

た

無

や

、

木

目

を

覚

る

か

ら

e

行

む

イ

フ

と

見

出

ら

く

る

「

ル

ク

レ

。

.

.

.

.

人

。

」

「

そ



---- diversity: 1.5
----- Generating with seed: "風が発生し、その音が耳を駆け抜けて行きます。私はもう一度手を伸ばしました。今度は"
風が発生し、その音が耳を駆け抜けて行きます。私はもう一度手を伸ばしました。今度は

、

貴

歩

隷

て

し

た

声

が

見

て

る

に

2

気

。

せ

な

い

。

成

か

へ

頃

チ

こ

と

も

び

の

な

い

か

も

備

し

し

白

放

さ

れ

る

受

現

少

物

と

(

あ

ん

だ

2

俺

達

腹

作

顔

相

き

に

う

ん

で

す

よ

ぐ

何

抑

が

休

け

た

。

ブ

だ

フ

ざ

者

て

く

ら

問

他

瞳

な

声

ら

さ

ろ

に

和

服

。

・

・

・

」

き

に

先

っ

と

女

と

と

し

重

.

.

.

を

と

ど

そ

し

声

の

息

つ

ョ

家

を

あ

る

う

し

て

酷

く

』

と

テ

ィ

ご

「

ホ

デ

っ

た

り

僕

歩

口

を

嬢

達

に

ア

場

を

し

お

少

し

本

中

す

売

線

受

先

ぎ

の

文

字

と

所

へ

あ

る

。

択

ん

か

国

重

き

、

行

ベ

ベ

止

と

真

思

い

私

を

バ

ッ

ク

に

音

が

す

る

私

。

大

き




In [97]:
sentence = text[start_index: start_index + maxlen]
for i in range(140):
    x_pred = np.zeros((1, maxlen, len(chars)))
    for t, char in enumerate(sentence):
        x_pred[0, t, char_indices[char]] = 1.
        
    preds = model.predict(x_pred, verbose=0)[0]
    next_index = sample(preds, 1.2)
    next_char = indices_char[next_index]
    
    generated += next_char
    sentence = sentence[1:] + next_char
    
    sys.stdout.write(next_char)
    sys.stdout.flush()

の

プ

ロ

ー

別

意

ュ

。

よ

く

朝

タ

イ

…

隣

ノ

を

魔

物

ッ

わ

た

少

で

も

.

.

.

す

_

す

き

ま

し

た

、

死

ん

じ

ゃ

腹

私

な

い

料

何

か

然

る

の

も

過

わ

か

い

っ

て

ょ

う

&

出

て

う

い

意

味

一

お

む

と

こ

の

タ

コ

神

取

に

ャ

ン

し

の

馬

年

意

要

本

食

話

で

か

り

、

話

表

ウ

ヒ

ラ

ノ

ョ

ラ

を

明

た

・

イ

み

に

車

を

見

聞

こ

と

「

ク

そ

く

ぁ

…

ド

ラ

ク

ピ

。

結

び

っ

く

も

っ

と

出

知

り

ま

し

た

飛

ん

で