In [1]:
import numpy as np
import matplotlib.pyplot as plt
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense,SimpleRNN,LSTM,GRU
from tensorflow.keras.callbacks import LambdaCallback
from google.colab import drive
import re
drive.mount("/content/drive")



Mounted at /content/drive


In [2]:
%cd /content/drive/MyDrive/Project2/Data/Yoru/
# %cd Yoru
%ls

/content/drive/MyDrive/Project2/Data/Yoru
gingatetsudono_yoru.txt  MakeNobel_rnn.h5


In [3]:
text_split = []
text = ''

In [4]:
# fileLoading
import glob
files = glob.glob("./*txt")
file = files[0]
print(len(files),files)

1 ['./gingatetsudono_yoru.txt']


In [5]:

with open(file,mode='r',errors='ignone') as f:
  base_text = f.read()

text = re.sub(r"《.*?》","",base_text)#《》の削除
text = re.sub(r"［.*?］", "", text)#[]内削除
text = re.sub("[| ]","",text)# |削除
print("文字数",len(text))



文字数 38921


In [6]:
# RNN設定
n_rnn = 10 # 時系列の数
batch_size = 128
epochs = 60
n_mid = 1024 # 中間層のニューロンの数

In [7]:
chars = sorted(list(set(text))) # setで文字の重複を無くしてから，リストに代入
print("文字数(重複なし)",len(chars))
char_indices = {} #文字がKeyでインデックスが値
# 中身は同じでIndexとKeyが入れ違いになってる
for i,char in enumerate(chars):
  char_indices[char] = i
indices_char = {} # Indexがキーで文字が値
for i,char in enumerate(chars): 
  indices_char[i] = char
# ==============================


# 時系列に並んだ文字と，それから予測すべき文字を取り出す
time_chars = [] #時系列に並んだ文字
next_chars = [] #予測すべき文字
for i in range(0,len(text)-n_rnn):
  time_chars.append(text[i:i+n_rnn])
  next_chars.append(text[i+n_rnn])

#  Inputと正解をOne Hotベクトル化
x = np.zeros((len(time_chars),n_rnn,len(chars)),dtype=bool)
t = np.zeros((len(time_chars),len(chars)),dtype=bool)

for i,t_cs in enumerate(time_chars):
  t[i,char_indices[next_chars[i]]] = i # 正解をOneHot表現で表す
  for j,char in enumerate(t_cs):
    x[i,j,char_indices[char] ] = 1# InputをOne-Hotベクトル形式で表す

print("x_shape",x.shape)
print("t_shape",t.shape)

文字数(重複なし) 1051
x_shape (38911, 10, 1051)
t_shape (38911, 1051)


In [8]:
# rnn
model_rnn = Sequential()
model_rnn.add(SimpleRNN(n_mid,input_shape=(n_rnn,len(chars))))
model_rnn.add(Dense(len(chars),activation="softmax"))
model_rnn.compile(loss="categorical_crossentropy",optimizer="adam")
print(model_rnn.summary())


Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn (SimpleRNN)      (None, 1024)              2125824   
                                                                 
 dense (Dense)               (None, 1051)              1077275   
                                                                 
Total params: 3,203,099
Trainable params: 3,203,099
Non-trainable params: 0
_________________________________________________________________
None


In [9]:
model_lstm = Sequential()
model_lstm.add(LSTM(n_mid,input_shape=(n_rnn,len(chars))))
model_lstm.add(Dense(len(chars),activation="softmax"))
model_lstm.compile(loss="categorical_crossentropy",optimizer="adam")
print(model_lstm.summary())

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 lstm (LSTM)                 (None, 1024)              8503296   
                                                                 
 dense_1 (Dense)             (None, 1051)              1077275   
                                                                 
Total params: 9,580,571
Trainable params: 9,580,571
Non-trainable params: 0
_________________________________________________________________
None


In [10]:
# GRU
model_gru = Sequential()
model_gru.add(GRU(n_mid,input_shape=(n_rnn,len(chars))))
model_gru.add(Dense(len(chars),activation="softmax"))
model_gru.compile(loss="categorical_crossentropy",optimizer="adam")
print(model_gru.summary())

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 gru (GRU)                   (None, 1024)              6380544   
                                                                 
 dense_2 (Dense)             (None, 1051)              1077275   
                                                                 
Total params: 7,457,819
Trainable params: 7,457,819
Non-trainable params: 0
_________________________________________________________________
None


In [11]:
def on_epoch_end(epoch,logs):
  print("エポック：",epoch)

  beta = 5 #確率分布調整用定数
  prev_text = text[0:n_rnn] # 入力に使う文字
  created_text = prev_text # 生成されるテキスト
  print("シード：",created_text)
  global str_list
  str_list = [created_text]
  for i in range(400): # ４００文字生成
    #inputをOne-Hotに変換
    x_pred = np.zeros((1,n_rnn,len(chars)))
    for j,char in enumerate(prev_text):
      x_pred[0,j,char_indices[char]] =1
    # 予測 
    y= model.predict(x_pred)
    p_power = y[0] ** beta #確率分布の調整
    next_index = np.random.choice(len(p_power),p=p_power/np.sum(p_power))
    next_char = indices_char[next_index]
    str_list.append(next_char)
    created_text += next_char
    prev_text = prev_text[1:]+ next_char

  print(created_text)
  print()

# epoch終了後に実行される関数を設定
epoch_end_callback = LambdaCallback(on_epoch_end=on_epoch_end)

In [None]:
# RNN
model= model_rnn
history_rnn = model_rnn.fit(x,t,batch_size=batch_size,epochs=epochs,callbacks =[epoch_end_callback])
model.save("MakeNobel_rnn.h5")
rnn = str_list
print(rnn)

[1;30;43mストリーミング出力は最後の 5000 行に切り捨てられました。[0m
「ではみなさんは、その川のように、そのです。」
　ジョバンニは、そうに、その書きました。
　その嫌きました。
　ジョバンニは、そうに、その融きました。
　ジョバンニは、ぼくに、その嫌きました。
　ジョバンニは、そうに、その書きました。
　ジョバンニは、そのです。それどこっていました。
　ジョバンニは、そうに、その隣きました。
　ジョバンニは、そのです。」
　ジョバンニは、ジョバンニは書いました。
「そっていました。
　ジョバンニは、そうに、そっていました。
　ジョバンニは、そうに、ジョバンニは、そうに、その隣きました。
　ジョバンニは、きっぱいました。
　ジョバンニは、そうに、その嫌きました。
　ジョバンニは、ジョバンニは書いました。
「その嫌のように、ジョバンニは、そうに、ジョバンニは、そのです。それどこっていました。
　ジョバンニは、そのです。」
　そのです。」
　ジョバンニは、ジョバンニは書いました。


Epoch 19/60
シード： 「ではみなさんは、そ
「ではみなさんは、その中に、私の子の子の子の子が、あって、車の子の中を、あって、車の中に、私の川の前の子のよ。」
「あれて、車れて、車の子が、私の折の中に、私の中に、軽た。
「、それからうに、誰の子の折の子を、そうに、私の子の子の子が、私の子の子の子のンニは、あって、車の中に、私の子の子の子のように、、、その子の子を、その中を、あから、その子の中に、私の子の子の子の子が、私の子の子の子のでした。
「あれて、車に、その子の折れて見ているに、車の折した。
「、それているとも、その子に、私の方を見て、誰から、その中に、、折のよ。」
「、その農車さんだんだ。」
「あって、車の中に、私の子の子を見て、その中に、車の中に、私の子の子の子の子は、あって、車の中に、その子の人を見て、青年の子を見て、そのでした。
「、私の子の折の中に、私の子の子が、あれて、車の子の前の子が、私の子の子の子のン私の子の子の車の子の子の子が、あれ

Epoch 20/60
シード： 「ではみなさんは、そ
「ではみなさんは、その人は、おっていました。
　ジョバンニは、おうといていました。
　ジョバンニは見えないていました。
　ジョバンニは見ていました。

In [None]:
# LSTM
model = model_lstm
history_lstm = model_lstm.fit(x,t,batch_size=batch_size,epochs=epochs,callbacks=[epoch_end_callback])
model.save("MakeNobel_lstm.h5")
lstm = str_list
print(lstm)

Epoch 1/60
シード： 「ではみなさんは、そ
「ではみなさんは、そらなっていした。
「「は、んんんんにいうにした。
「うあはいんらにのていた。そのの、、のと、した。。のは、も、いののとのうんとかのいのいた。。
「はがは、た。んののっは、にのだかした。。
「はと、、とものんっていた。。
「「うとうないん。。
「どはも、ものんのにって、ってい。した。
「は、のののはうののからいって、た。いた。
「はののんいんした。
「バははののは、のかうののんの、にのいのいのいいいました。
「「は、ののの、ものとは、もってい、した。。「バはあののいいた。
「どはのらからいた。。」「はは、うのもののののたののんのうかのした。
「はのうのまた。。「はははんだ。した。はこんんのんは、うん、うした。
「のうんうのたの。ののはははいんのた。のんののはのののののました。
「はとう、いした。。
「は、はんんとんした。
「は、のはもののうがいからるのた。。
「のはった。」ののはは、かって、

Epoch 2/60
シード： 「ではみなさんは、そ
「ではみなさんは、そのでは、いのです。」
「ああ、そうにはいました。
「ああ、もうからのです。」
「あっていました。
「ああ、そうですから、もうにっていっていました。
「そうにはいました。
「あって、こんです。」
「ああ、そのですから、ジョバンニは、いうにに見ていました。
「ああ、そのです。
「あのです。」
「ああ、そのでは、いんです。」
「ああ、そのですから、そのでした。
「あのように、こんですからいのです。」
「ああ、そのですから、そのでした。
「あっていました。
「ああ、そのですから、もうに見ていっていました。
「ああ、そのですから、そのでした。
「あのように、いるとうにがっているとに見ていました。
「ああ、そのですから、こんでした。
「あのです。」
「ああ、そのですから、そのでした。
「あのですか。」
　そうに、いのでした。
「あっているのです。
「あって、ジョバンニは、いんでした。
「ああ、そのです

Epoch 3/60
シード： 「ではみなさんは、そ
「ではみなさんは、そうになって、そうに、いっぱりにした。
「ああ、こうなって、そうになって、そうになっているのでした。
　ジョバンニは、そうにはいました。
「ああ、こうない。」
「ああ、ここ

In [None]:
# GRN
model = model_gru
history_gru = model_gru.fit(x,t,batch_size=batch_size,epochs=epochs,callbacks=[epoch_end_callback])
model.save("MakeNobel_gru.h5")
gru = str_list
print(gru)

In [None]:
loss_rnn =history_rnn.history['loss']
loss_lstm =history_lstm.history['loss']
loss_gru =history_gru.history['loss']


plt.plot(np.arange(len(loss_rnn)),loss_rnn,label="RNN")
plt.plot(np.arange(len(loss_lstm)),loss_lstm,label="LSTM")
plt.plot(np.arange(len(loss_gru)),loss_gru,label="GRU")

plt.legend()
plt.show()


In [None]:

base = list(text)
base = base[:300]
print(base)


In [None]:
from nltk.translate.bleu_score import sentence_bleu
print('BLEU score for rnn-> {}'.format(sentence_bleu(base, rnn)))
print('BLEU score for lstm-> {}'.format(sentence_bleu(base, lstm)))
print('BLEU score for gru-> {}'.format(sentence_bleu(base, gru)))


In [None]:
# !pip install nltk