In [1]:
from __future__ import print_function
import io
import random
import re
import string
import sys

import matplotlib.pyplot as plt
import MeCab
import numpy as np
from tensorflow.keras.callbacks import LambdaCallback,EarlyStopping
from keras.models import Sequential, load_model
from keras.layers import Dense, LSTM, Bidirectional, Dropout
from keras.optimizers import RMSprop
from keras.utils.data_utils import get_file
import pandas as pd
import pickle

In [2]:
# pickleからデータを読み取る
f = open('./lyrics_list.txt', 'rb')
lyrics = pickle.load(f)

# 辞書作成
tagger = MeCab.Tagger('/usr/local/lib/mecab/dic/mecab-ipadic-neologd/')

def wakatigaki(text):
    word_list = []
    for word_id, elm in enumerate(tagger.parse(text).split('\n')):
        if elm and elm != 'EOS':
            elm = elm.split('\t')
            info = elm[1].split(',')
            word_list.append(elm[0])
    return word_list
lyrics = [wakatigaki(lyric) for lyric in lyrics]

words = []
for lyric in lyrics:
    for word in lyric:
        if word not in words:
            words.append(word)
word = sorted(set(words))
word_indices = dict((c, i) for i, c in enumerate(words))
indices_word = dict((i, c) for i, c in enumerate(words))

all_lyric = []
for lyric in lyrics:
    for word in lyric:
        all_lyric.append(word)

In [6]:
# x(3文字ずつずらして5文字分のx)とy(5文字のxの次の文字)を準備
maxlen = 5
step = 3
sentences = []
next_words = []
for lyric in lyrics:
    for i in range(0, len(lyric) - maxlen, step):
        sentences.append(lyric[i: i + maxlen])
        next_words.append(lyric[i + maxlen])
print('nb sequences:', len(sentences))

# ベクトル化
x = np.zeros((len(sentences), maxlen, len(words)), dtype=np.bool)
y = np.zeros((len(sentences), len(words)), dtype=np.bool)
for i, sentence in enumerate(sentences):
    for t, word in enumerate(sentence):
        x[i, t, word_indices[word]] = 1
    y[i, word_indices[next_words[i]]] = 1
    
print(x.shape)

nb sequences: 31637


In [9]:
#モデルの構築
model = Sequential()
model.add(Bidirectional(LSTM(128, return_sequences=True), input_shape=(maxlen, len(words))))
model.add(Bidirectional(LSTM(64)))
model.add(Dense(128, activation='linear'))
model.add(Dense(len(words), activation='softmax'))

optimizer = RMSprop(lr=0.01)
model.compile(loss='categorical_crossentropy', optimizer=optimizer)
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 bidirectional (Bidirectiona  (None, 5, 256)           7485440   
 l)                                                              
                                                                 
 bidirectional_1 (Bidirectio  (None, 128)              164352    
 nal)                                                            
                                                                 
 dense (Dense)               (None, 128)               16512     
                                                                 
 dense_1 (Dense)             (None, 7181)              926349    
                                                                 
Total params: 8,592,653
Trainable params: 8,592,653
Non-trainable params: 0
_________________________________________________________________


  super(RMSprop, self).__init__(name, **kwargs)


In [15]:
# 確率の高い単語を抽出
def sample(preds, temperature=1.0):
    # helper function to sample an index from a probability array
    preds = np.asarray(preds).astype('float64')
    preds = np.log(preds) / temperature
    exp_preds = np.exp(preds)
    preds = exp_preds / np.sum(exp_preds)
    probas = np.random.multinomial(1, preds, 1)
    return np.argmax(probas)

# 予測を行う
def generate_lyric(_sentence=None, maxlen = 5):
    if _sentence is None:
        start_index = random.randint(0, len(all_lyric) - maxlen - 1)
        start_index = random.randint(0, len(all_lyric) - maxlen - 1)
        _sentence = all_lyric[start_index: start_index + maxlen]
    for diversity in [0.2, 0.5, 1.0, 1.2]:
        sentence = _sentence
        print('----- diversity:', diversity)

        generated = ''
        generated += "".join(sentence)
        print('----- Generating with seed: "' + "".join(sentence) + '"')
        sys.stdout.write(generated)

        for i in range(400):
            x_pred = np.zeros((1, maxlen, len(words)))
            for t, word in enumerate(sentence):
                x_pred[0, t, word_indices[word]] = 1.

            preds = model.predict(x_pred, verbose=0)[0]
            next_index = sample(preds, diversity)
            next_word = indices_word[next_index]

            generated += next_word
            sentence = sentence[1:]
            sentence.append(next_word)

            sys.stdout.write(next_word)
            sys.stdout.write(' ')
            sys.stdout.flush()
        print()

In [14]:
# Generate_Miyukiを呼び出す。
model = load_model('Generate_Miyuki.h5', compile=False)

In [16]:
generate_lyric() # ランダムワード

----- diversity: 0.2
----- Generating with seed: "見つけたつもりで近づけ"
見つけたつもりで近づけ気 が 逃げる あり 返れ へ あり たり それ が あり 誰 か 等 何 を 見 誰 も ない 旅 たち 知ら た 子供 に です いつ まで も あいつ を 貴方 だって 六 が 逃げる まだ 探し た 消え 見 三 ゆけ ない 愛 に 私 は 思い出 を ばり 冬 を 今夜 は 風 でし と な ど それ なら 風 に なら なけれ ば かまわ ない の 誰 ね 私 の が 月日 へ 夢 の 中 私 の 人 の 国 まで も なり ながら 目 を 見 て 私 は あたし 旅 の 外 街 は ゆけ 歌 が 旅 に 行く 縁 慣れ 返れ 誰 笑っ て も ない 心 も 見 た 人 が それ で あて も ところ 別人 に 誰 が 誰 も です 冬 に つい て あたし 見 た 私 たち へ 知ら ない いい こと と 誰 だ は あたし ため 月 の 限り 私 の 白い 愛 を 狩り に 淋し 心 と 私 たち が 知ら 見 た 何 も も ない 気 に し ない わ 気 が つい て いる わ と 街 で のに お いい な でき ぬ 誰 何 を 探し て 私 まで は 目 の 水 別れ も みせ 気 に 心 へ 夢 の 中 から 人 を 見 て い た せい ない ね や 真似 し てる わ わ 誰 明日 を 眠り へ 欠ける 気 が 夏 あの あの 娘 から 風 が 大好き かい と どく どく あたし が 外 旅人 へ を ため に 愛 涙 が わけ 思い出さ 笑っ て あげよ う は 遠い 昔 の ため に 誰 が まだ 飛べ ない みんな 好き だっ た 奴 空 の や あり 真似 思い出し た 私 きり が こんな 人 わ 人 あり た こと が です 気 空 を ある い ない もう 歌っ てる 定義 ある の 水 に 知ら くる 君 が い なかっ た と 言え ない 真夜中 忘れ て 冬 を 探し ながら あの それ まで 名前 も プラス 私 私 の が 誰 も この 付く ため ながら 子供 たち と 風 が 殴る 忘れ た 知ら 見 て くれる なんて 見 ない わ あたし が 待っ てる も

In [None]:
sentence = ['夢',  'の',  '中',  '夜', 'に']
generate_lyric(sentence)