In [1]:
'''
1.データの読み込み
'''
import os
import json

# コーパスのディレクトリを設定
file_path = './projectnextnlp-chat-dialogue-corpus/json/rest1046/'
# ファイルの一覧を取得
file_dir = os.listdir(file_path)
# 人間の発話を保持するリスト
utterance_txt = []
# システムの応答を保持するリスト
system_txt = []
# 正解ラベルを保持するリスト
label = []

# ファイルごとに対話データを整形する
for file in file_dir:
    # JSONファイルの読み込み
    r = open(file_path + file, 'r', encoding='utf-8')
    json_data = json.load(r)
        
    # 発話データ配列から発話テキストと破綻かどうかの正解データを抽出
    for turn in json_data['turns']:
        turn_index = turn['turn-index'] # turn-indexキー(対話のインデックス)
        speaker = turn['speaker']       # speakerキー("U"人間、"S"システム)
        utterance = turn['utterance']   # utteranceキー(発話テキスト)
        
        # 先頭行(システムの冒頭の発話)以外を処理
        if turn_index != 0:
            # 人間の発話（質問）のテキストを抽出
            if speaker == 'U':
                #u_text = ''
                u_text = utterance

            # システムの応答内容が破綻かどうかを抽出
            else:
                a = ''
                sys = turn['utterance'] # システムの発話（応答）を抽出
                t = turn['annotations'][0] # １つ目のアノテーションを抽出                
                a = t['breakdown']      # アノテーションのフラグを抽出
                if a == 'O':            # O（破綻していない）を0で置換
                    val = 0
                elif a == 'T':          # T（破綻していないが違和感がある）を1で置換
                    val = 1
                else:                   # 上記以外のX（破綻している）は2で置換
                    val = 2
                # 人間の発話をリストに追加
                utterance_txt.append(u_text)
                # システムの応答をリストに追加
                system_txt.append(sys)
                # 正解ラベルをリストに追加
                label.append(str(val))

In [2]:
'''
2. 読み込んだデータのサイズを出力
'''
print(len(utterance_txt)) # 人間の発話のサイズ
print(len(system_txt))    # システムの応答のサイズ
print(len(label))         # 正解ラベルのサイズ

10460
10460
10460


In [3]:
'''
3. 人間の発話を出力
'''
utterance_txt

['こんにちは',
 '分からない',
 '昼ごはんは何を食べましたか',
 'へー',
 'へー',
 'それで夕食は何を食べるのですか',
 '日本語として変です',
 'ばいばい',
 'さようなら',
 'それでそれで',
 'そうだね。でもまだ食べてないや。',
 'よくわからないよ',
 'そうかな？私は旦那さんと買い物するよ。',
 '一緒にね',
 'そう',
 'そうです',
 'なんでわかるの？',
 '何を使うのかしら？',
 'まずはフランス語を勉強してね！',
 'なにをですか？',
 'こんばんは。最近暑い日が続いていて、熱中症で倒れる人も多いみたいですね。',
 'ええ、僕もこまめに水分補給をするようにしています。',
 'はい。あなたは何か熱中症対策をしていますか？',
 'そういえば、梅雨が明けましたね。',
 '転ばぬ先の杖というやつですね。',
 'まったくですねー。',
 'いえいえ、気にする必要はありませんよ。',
 '分かってはいても、ついつい怠ってしまうんですよね。',
 'はい。子供は炎天下の中で遊びまわるので、大人が気を付けてあげないとですね。',
 'ええ、運動部等では倒れる人も多いそうです。',
 '待ってくれてたのね。ありがとう！',
 'そうなんですか？知らなかったです。',
 'Facebookはやっていませんよ',
 'そうですね。あなたはやってますか？',
 'そうですね。',
 '口調がかわる人ですね？',
 'そうですね。そういうときもありますね。',
 '私のことでしょうか？',
 '誰の口調ですか？',
 'わからないです。もう一度おしえてください。',
 'こんにちは',
 '昼ごはん食べました？',
 'いや黄色くはない',
 'まあそうだけど．昼はサンドイッチとおにぎりを食べましたよ',
 'おにぎりの具は何が好きですか？',
 '香ばしいというと何ですかね',
 '食べにくいものはないかなあ',
 '何をですか？具を包むんですか',
 'そうなの',
 'いやいや',
 'ありがとう．でも今日は曇りだから大丈夫そうですよ',
 '曇りで，日が照っていないから',
 'そんなことはないですよ．熱中症はこわいですよ',
 'どこの方言ですか？',
 'そうなんですか',
 '明日の天気はどう

In [4]:
'''
4. システムの応答を出力
'''
system_txt

['こんー',
 'そっか',
 'ごはんはあったかいです',
 'えー',
 'えー',
 '夕食がいってないかもです',
 '日本語は早いです',
 'ばいばーい',
 'どうした',
 'ですよねー',
 'スイカで買い物できてるのですか？',
 '買い物は女同士がいいですね',
 '旦那が行きますか？',
 '一緒に',
 'そうか',
 'やっぱり',
 'パリで使います',
 'パリをはじめます',
 'フランス語で歌われるのです',
 'フランス語を覚えるのです',
 '予防が大切ですね',
 '予防は完璧ですね',
 '予防が肝心です',
 '日頃から予防を心掛けるかもしれない',
 '予防は大切なんですよねー',
 'ごめんなさい',
 '予防は大切です',
 '予防は大切ですね',
 '炎天下は辛いですか',
 '運動部は無理か？？',
 'ところで、フェイスブックに、ウクライナでのマレーシア航空機墜落について詳細を掲載していると偽り、詐欺サイトに誘導したりウイルスに感染させるメッセージが出回っているそうです。',
 'フェイスブックに登録されるんです',
 'FaceBookに登録していないようです',
 'Facebookに登録していないようです',
 'ねー',
 '口調は子供っぽいですよねえ',
 '口調は子供っぽいです',
 '口調は明るいですよねえ',
 '口調でしゃべります',
 '口調でしゃべりますか',
 'こんにちはこんにちは',
 'ごはんは黄色いです',
 'ごはんは鍋で炊くのです',
 '具がおいしいですね',
 '具は香ばしいですね',
 '具は食べやすそうですよ',
 '皮で包むんです',
 '皮で包んでるんです',
 'なにが',
 'えー',
 '熱中症は大丈夫ですね',
 '熱中症はいいですね',
 '熱中症に気をつけないな',
 '方言はすごいらしいです',
 'うん',
 'そうなのー！',
 '晴れが多いそうですよ',
 '晴れは多いそうです',
 '晴れの日は多とか',
 '気温は多いらしい',
 'かき氷はイチゴが好きですね',
 '嬉しいです',
 'イチゴは可愛いですね',
 'あざーす',
 'スイカはプランターで育ててますねぇ',
 'なに',
 'スイカを叩きます',
 'スイカにかぶりつき

In [5]:
'''
5. 正解ラベルを出力
'''
label

['0',
 '0',
 '0',
 '0',
 '0',
 '2',
 '1',
 '0',
 '0',
 '0',
 '2',
 '0',
 '1',
 '0',
 '0',
 '1',
 '2',
 '2',
 '1',
 '0',
 '0',
 '0',
 '2',
 '2',
 '0',
 '2',
 '1',
 '0',
 '0',
 '2',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '1',
 '1',
 '1',
 '0',
 '1',
 '0',
 '0',
 '1',
 '1',
 '2',
 '2',
 '2',
 '1',
 '0',
 '1',
 '1',
 '1',
 '0',
 '1',
 '0',
 '0',
 '1',
 '2',
 '0',
 '0',
 '1',
 '1',
 '1',
 '2',
 '1',
 '1',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '1',
 '0',
 '0',
 '1',
 '1',
 '1',
 '0',
 '0',
 '0',
 '1',
 '1',
 '1',
 '2',
 '2',
 '0',
 '1',
 '1',
 '1',
 '1',
 '1',
 '0',
 '0',
 '0',
 '2',
 '0',
 '0',
 '0',
 '1',
 '2',
 '2',
 '2',
 '0',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '1',
 '1',
 '0',
 '0',
 '1',
 '0',
 '1',
 '1',
 '1',
 '1',
 '2',
 '2',
 '1',
 '2',
 '1',
 '1',
 '2',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '1',
 '0',
 '0',
 '0',
 '1',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '2',
 '2'

In [6]:
'''
6. 人間の発話、システムの応答、正解ラベルをデータフレームにまとめる
''' 
import pandas as pd
df = pd.DataFrame({'utterance_txt' : utterance_txt,
                   'system_txt' : system_txt,
                   'label' : label}
                 )
df   # 出力

Unnamed: 0,utterance_txt,system_txt,label
0,こんにちは,こんー,0
1,分からない,そっか,0
2,昼ごはんは何を食べましたか,ごはんはあったかいです,0
3,へー,えー,0
4,へー,えー,0
...,...,...,...
10455,秋も近いですね,気分は穏やかですね,0
10456,行楽シーズンになります,行楽シーズンに入りますか？,0
10457,ええ,どうした,2
10458,いえ、どうもしませんよ,行楽シーズンに行きます,1


In [7]:
'''
7. 破綻していない(0)、破綻していないが違和感(1)、破綻(2)をカウント
''' 
df['label'].value_counts()

0    5329
1    2937
2    2194
Name: label, dtype: int64

In [8]:
'''
8. 形態素への分解
''' 
from janome.tokenizer import Tokenizer # janomeのパッケージをインポート
import re                              # 正規表現ライブラリ

def parse(utterance_txt):
    '''
    分かち書きを行って形態素に分解する
    '''
    t = Tokenizer()                     # Tokenizerクラスのオブジェクトを生成
    separation_tmp = []                 # 形態素を一時保存するリスト
    # 形態素に分解
    for row in utterance_txt:
        # リストから発話テキストの部分を抽出して形態素解析を実行
        tokens = t.tokenize(row)
        # 形態素の見出しの部分を取得してseparation_tmpに追加
        separation_tmp.append(
            [token.surface for token in tokens if (
                not re.match('記号', token.part_of_speech)             # 記号を除外
                and (not re.match('助詞', token.part_of_speech))       # 助詞を除外
                and (not re.match('助動詞', token.part_of_speech))     # 助動詞を除外
                )
             ])
        # 空の要素があれば取り除く
        while separation_tmp.count('') > 0:
            separation_tmp.remove('')
    return separation_tmp

# 人間の発話を形態素に分解する
df['utterance_token'] = parse(df['utterance_txt'])
# システムの応答を形態素に分解する
df['system_token'] = parse(df['system_txt'])

# 形態素への分解後のデータフレームを出力
df

Unnamed: 0,utterance_txt,system_txt,label,utterance_token,system_token
0,こんにちは,こんー,0,[こんにちは],"[こん, ー]"
1,分からない,そっか,0,[分から],[そっ]
2,昼ごはんは何を食べましたか,ごはんはあったかいです,0,"[昼, ごはん, 何, 食べ]","[ごはん, あったかい]"
3,へー,えー,0,[へー],[えー]
4,へー,えー,0,[へー],[えー]
...,...,...,...,...,...
10455,秋も近いですね,気分は穏やかですね,0,"[秋, 近い]","[気分, 穏やか]"
10456,行楽シーズンになります,行楽シーズンに入りますか？,0,"[行楽, シーズン, なり]","[行楽, シーズン, 入り]"
10457,ええ,どうした,2,[ええ],"[どう, し]"
10458,いえ、どうもしませんよ,行楽シーズンに行きます,1,"[いえ, どうも, し]","[行楽, シーズン, 行き]"


In [9]:
'''
9. 発話と応答それぞれの形態素の数をデータフレームに登録する
''' 
df['u_token_len'] = df['utterance_token'].apply(len)
df['s_token_len'] = df['system_token'].apply(len)
df

Unnamed: 0,utterance_txt,system_txt,label,utterance_token,system_token,u_token_len,s_token_len
0,こんにちは,こんー,0,[こんにちは],"[こん, ー]",1,2
1,分からない,そっか,0,[分から],[そっ],1,1
2,昼ごはんは何を食べましたか,ごはんはあったかいです,0,"[昼, ごはん, 何, 食べ]","[ごはん, あったかい]",4,2
3,へー,えー,0,[へー],[えー],1,1
4,へー,えー,0,[へー],[えー],1,1
...,...,...,...,...,...,...,...
10455,秋も近いですね,気分は穏やかですね,0,"[秋, 近い]","[気分, 穏やか]",2,2
10456,行楽シーズンになります,行楽シーズンに入りますか？,0,"[行楽, シーズン, なり]","[行楽, シーズン, 入り]",3,3
10457,ええ,どうした,2,[ええ],"[どう, し]",1,2
10458,いえ、どうもしませんよ,行楽シーズンに行きます,1,"[いえ, どうも, し]","[行楽, シーズン, 行き]",3,3


In [10]:
'''
10. 単語の出現回数を記録して辞書を作成
'''
from collections import Counter   # カウント処理のためのライブラリ
import itertools                   # イテレーションのためのライブラリ

# {単語：出現回数}の辞書を作成
def makedictionary(data):
    return Counter(itertools.chain(* data))

In [11]:
'''
11. 単語を出現回数順(降順)に並べ替えて連番をふる関数
'''
def update_word_dictionary(worddic):
    word_list = []
    word_dic = {}
    # most_common()で出現回数順に要素を取得しword_listに追加
    for w in worddic.most_common():
        word_list.append(w[0])

    # 頻度順に並べた単語をキーに、1から始まる連番を値に設定
    for i, word in enumerate(word_list, start=1):
        word_dic.update({word: i})
        
    return word_dic

In [12]:
'''
12. 単語を出現頻度の数値に置き替える関数
'''
def bagOfWords(word_dic, token):
    return [[ word_dic[word] for word in sp] for sp in token]

In [13]:
'''
13.発話を{単語：出現回数}の辞書にする
'''
utter_word_frequency = makedictionary(df['utterance_token'])
utter_word_frequency

Counter({'こんにちは': 187,
         '分から': 15,
         '昼': 16,
         'ごはん': 11,
         '何': 488,
         '食べ': 273,
         'へー': 13,
         'それで': 11,
         '夕食': 10,
         '食べる': 52,
         'の': 598,
         '日本語': 7,
         '変': 6,
         'ばい': 8,
         'さようなら': 5,
         'そう': 691,
         'でも': 107,
         'まだ': 43,
         'て': 117,
         'よく': 159,
         'わから': 32,
         '私': 356,
         '旦那': 2,
         'さん': 34,
         '買い物': 20,
         'する': 172,
         '一緒': 68,
         'なんで': 27,
         'わかる': 9,
         '使う': 13,
         'まずは': 4,
         'フランス語': 1,
         '勉強': 12,
         'し': 739,
         'なに': 46,
         'こんばんは': 74,
         '最近': 170,
         '暑い': 141,
         '日': 43,
         '続い': 1,
         'い': 351,
         '熱中': 77,
         '症': 77,
         '倒れる': 3,
         '人': 153,
         '多い': 81,
         'みたい': 66,
         'ええ': 26,
         '僕': 120,
         'こまめ': 10,
         '水分': 56,
         '補給

In [14]:
'''
14.応答を{単語：出現回数}の辞書にする
'''
system_word_frequency = makedictionary(df['system_token'])
system_word_frequency

Counter({'こん': 17,
         'ー': 153,
         'そっ': 4,
         'ごはん': 11,
         'あったかい': 2,
         'えー': 20,
         '夕食': 26,
         'いっ': 8,
         'て': 104,
         '日本語': 11,
         '早い': 22,
         'ばい': 15,
         'い': 96,
         'どう': 38,
         'し': 171,
         'スイカ': 337,
         '買い物': 69,
         'でき': 59,
         'てる': 184,
         'の': 712,
         '女': 17,
         '同士': 8,
         'いい': 847,
         '旦那': 13,
         '行き': 167,
         '一緒': 114,
         'そう': 365,
         'やっぱり': 6,
         'パリ': 4,
         '使い': 17,
         'はじめ': 4,
         'フランス語': 2,
         '歌わ': 3,
         'れる': 32,
         '覚える': 7,
         '予防': 82,
         '大切': 82,
         '完璧': 9,
         '肝心': 10,
         '日頃': 9,
         '心掛ける': 4,
         'しれ': 104,
         'ん': 432,
         'ごめんなさい': 16,
         '炎天下': 2,
         '辛い': 19,
         '運動': 10,
         '部': 8,
         '無理': 19,
         'ところで': 18,
         'フェイス': 2,
         'ブック': 2,

In [15]:
'''
15.発話の単語辞書を単語の頻度順（降順）で並べ替えて連番を割り当てる
'''
utter_word_dic = update_word_dictionary(utter_word_frequency)
utter_word_dic

{'ん': 1,
 'し': 2,
 'そう': 3,
 '好き': 4,
 'の': 5,
 'いい': 6,
 '何': 7,
 'こと': 8,
 '私': 9,
 'い': 10,
 'あり': 11,
 'そうですね': 12,
 '行き': 13,
 '食べ': 14,
 'スイカ': 15,
 '海': 16,
 'てる': 17,
 'それ': 18,
 'お': 19,
 'はい': 20,
 'こんにちは': 21,
 'ある': 22,
 '気': 23,
 'する': 24,
 'いる': 25,
 '最近': 26,
 'あなた': 27,
 'よく': 28,
 'どこ': 29,
 'どう': 30,
 '見': 31,
 '夏': 32,
 'どんな': 33,
 '人': 34,
 'ない': 35,
 '今日': 36,
 '思い': 37,
 '暑い': 38,
 'ー': 39,
 'もの': 40,
 '行っ': 41,
 '良い': 42,
 '僕': 43,
 '楽しい': 44,
 'て': 45,
 'なり': 46,
 'おいしい': 47,
 '方': 48,
 '退屈': 49,
 'でも': 50,
 'なっ': 51,
 '行く': 52,
 '今': 53,
 'ほう': 54,
 'つけ': 55,
 'いや': 56,
 '大丈夫': 57,
 'ありがとう': 58,
 'さ': 59,
 'うん': 60,
 '多い': 61,
 'ください': 62,
 '仕事': 63,
 'れ': 64,
 '熱中': 65,
 '症': 66,
 '大変': 67,
 '美味しい': 68,
 'こんばんは': 69,
 'なる': 70,
 'き': 71,
 'でき': 72,
 'もう': 73,
 'よう': 74,
 'いえ': 75,
 '雨': 76,
 'やっ': 77,
 '一緒': 78,
 'とき': 79,
 '話': 80,
 '嫌い': 81,
 '確か': 82,
 'みたい': 83,
 'ゲーム': 84,
 '山': 85,
 'ちょっと': 86,
 'あまり': 87,
 '見る': 88,
 '他': 89,
 'まあ': 90,
 'しれ': 91,
 '今年'

In [16]:
'''
16.応答の単語辞書を単語の頻度順（降順）で並べ替えて連番を割り当てる
'''
system_word_dic = update_word_dictionary(system_word_frequency)
system_word_dic

{'いい': 1,
 'の': 2,
 '好き': 3,
 'ん': 4,
 '海': 5,
 'そう': 6,
 'スイカ': 7,
 '退屈': 8,
 '症': 9,
 '熱中': 10,
 'てる': 11,
 '大好き': 12,
 'し': 13,
 '行き': 14,
 '気': 15,
 '良い': 16,
 'うん': 17,
 '多い': 18,
 'ー': 19,
 'つけ': 20,
 '楽しい': 21,
 'こと': 22,
 '欲しい': 23,
 'お': 24,
 'よう': 25,
 '心': 26,
 '雨': 27,
 '美味しい': 28,
 '人': 29,
 '大丈夫': 30,
 '一緒': 31,
 '気持ち': 32,
 '有名': 33,
 'ありがとう': 34,
 'あり': 35,
 'て': 36,
 'しれ': 37,
 '見': 38,
 'さ': 39,
 '哲学': 40,
 'い': 41,
 'はい': 42,
 'れ': 43,
 '何': 44,
 'ない': 45,
 '予防': 46,
 '大切': 47,
 '面白い': 48,
 '朝': 49,
 'する': 50,
 '趣味': 51,
 '映画': 52,
 '行く': 53,
 '高い': 54,
 '仕事': 55,
 'うまい': 56,
 '食べ': 57,
 '楽しみ': 58,
 '買い物': 59,
 '旅行': 60,
 '一': 61,
 '実': 62,
 '天気': 63,
 '行っ': 64,
 '深い': 65,
 '食べる': 66,
 'でき': 67,
 'ゲーム': 68,
 'なり': 69,
 '見る': 70,
 '行か': 71,
 '大事': 72,
 '花火': 73,
 '奥': 74,
 '音楽': 75,
 '必要': 76,
 'テレビ': 77,
 '大きい': 78,
 'とり': 79,
 '悪い': 80,
 '強い': 81,
 'プール': 82,
 '味': 83,
 '予定': 84,
 'スポーツ': 85,
 'しり': 86,
 '綺麗': 87,
 'でる': 88,
 '気分': 89,
 'どう': 90,
 'ありがと': 91,
 'クラゲ'

In [17]:
'''
17. 辞書のサイズを変数に登録
'''
utter_dic_size = len(utter_word_dic)
system_dic_size = len(system_word_dic)
print(utter_dic_size)
print(system_dic_size)

5330
4428


In [18]:
'''
18. 単語を出現頻度順の数値に置き換える
'''
train_utter = bagOfWords(utter_word_dic, df['utterance_token'])
train_system = bagOfWords(system_word_dic, df['system_token'])

In [19]:
'''
19. 数値に置き換えた発話をを出力
'''
train_utter

[[21],
 [354],
 [335, 471, 7, 14],
 [405],
 [405],
 [472, 515, 7, 102, 5],
 [661, 740],
 [601, 601],
 [868],
 [472, 472],
 [3, 50, 126, 14, 45],
 [28, 166],
 [3, 9, 1737, 159, 273, 24],
 [78],
 [3],
 [3],
 [208, 557],
 [7, 406, 5],
 [1034, 2624, 433, 2],
 [114],
 [69, 26, 38, 127, 2625, 10, 65, 66, 1270, 34, 61, 83],
 [218, 43, 516, 93, 167, 24, 74, 2, 10],
 [20, 27, 7, 65, 66, 202, 2, 10],
 [3, 75, 869, 1738],
 [2626, 517, 2627, 255],
 [741],
 [374, 23, 24, 131, 11],
 [473, 10, 1271, 2628, 602, 1],
 [20, 323, 1739, 137, 244, 2629, 558, 23, 115, 518],
 [218, 274, 519, 1740, 1270, 34, 61, 3],
 [434, 232, 45, 58],
 [3, 1, 245],
 [2630, 77, 10],
 [12, 27, 77],
 [12],
 [1741, 2631, 34],
 [12, 145, 79, 11],
 [9, 8],
 [107, 1741],
 [166, 1742, 2632, 62],
 [21],
 [335, 471, 14],
 [56, 2633, 35],
 [90, 3, 335, 1743, 742, 14],
 [742, 743, 7, 4],
 [2634, 186, 7],
 [14, 1035, 40],
 [7, 743, 2635, 1],
 [3],
 [56, 56],
 [58, 50, 36, 870, 57, 3],
 [870, 127, 2636, 10],
 [116, 8, 65, 66, 1036],
 [29,

In [20]:
'''
20.数値に置き換えた応答を出力 
'''
train_system

[[240, 19],
 [1008],
 [388, 1738],
 [198],
 [198],
 [144, 504, 36],
 [389, 184],
 [274, 19, 41],
 [90, 13],
 [],
 [7, 59, 67, 11, 2],
 [59, 241, 505, 1],
 [321, 14],
 [31],
 [6],
 [681],
 [1009, 242],
 [1009, 1010],
 [1739, 1287, 107, 2],
 [1739, 575, 2],
 [46, 47],
 [46, 456],
 [46, 423],
 [457, 46, 1011, 37],
 [46, 47, 4],
 [255],
 [46, 47],
 [46, 47],
 [1740, 209],
 [424, 506, 210],
 [222,
  1741,
  1742,
  2582,
  2583,
  2584,
  2585,
  2586,
  2587,
  13,
  128,
  2588,
  2589,
  2590,
  2591,
  13,
  2592,
  1288,
  39,
  322,
  2593,
  2594,
  128,
  6],
 [1741, 1742, 1289, 39, 107, 4],
 [2595, 1289, 13, 41, 25],
 [2596, 1289, 13, 41, 25],
 [],
 [807, 507, 1290],
 [807, 507, 1290],
 [807, 1743],
 [807, 1291],
 [807, 1291],
 [149, 149],
 [388, 1292],
 [388, 808, 2597, 2],
 [682, 97],
 [682, 1293],
 [682, 57, 6],
 [458, 2598, 4],
 [458, 1744, 88, 4],
 [102],
 [198],
 [10, 9, 30],
 [10, 9, 1],
 [10, 9, 15, 20],
 [2599, 150],
 [17],
 [6, 19],
 [256, 18, 6],
 [256, 18, 6],
 [256, 15

In [21]:
'''
21. 発話と応答それぞれの形態素の最大数を取得
'''
UTTER_MAX_SIZE = len(sorted(train_utter, key=len, reverse=True)[0])
SYSTEM_MAX_SIZE = len(sorted(train_system, key=len, reverse=True)[0])
print(UTTER_MAX_SIZE)
print(SYSTEM_MAX_SIZE)

18
41


In [22]:
'''
22. 単語データの配列を同一のサイズに揃える関数
'''
from tensorflow.keras.preprocessing import sequence

def padding_sequences(data, max_len):
    '''最長のサイズになるまでゼロを埋め込む
    Parameters:
      data(array): 操作対象の配列
      max_len(int): 配列のサイズ
    '''
    return sequence.pad_sequences(
        data, maxlen=max_len, padding='post',value=0.0)

In [23]:
'''
23. 発話の単語配列のサイズを最長サイズに合わせる
'''
train_U = padding_sequences(train_utter, UTTER_MAX_SIZE)
print(train_U.shape)
print(train_U)

(10460, 18)
[[  21    0    0 ...    0    0    0]
 [ 354    0    0 ...    0    0    0]
 [ 335  471    7 ...    0    0    0]
 ...
 [ 218    0    0 ...    0    0    0]
 [  75  368    2 ...    0    0    0]
 [1734  417   30 ...    0    0    0]]


In [24]:
'''
24. 応答の単語配列のサイズを最長サイズに合わせる
'''
train_S = padding_sequences(train_system, SYSTEM_MAX_SIZE)
print(train_S.shape)
print(train_S)

(10460, 41)
[[ 240   19    0 ...    0    0    0]
 [1008    0    0 ...    0    0    0]
 [ 388 1738    0 ...    0    0    0]
 ...
 [  90   13    0 ...    0    0    0]
 [1736 1737   14 ...    0    0    0]
 [ 455  392    1 ...    0    0    0]]


In [25]:
'''
25. RNNモデルの構築
'''
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense, concatenate, GRU, Embedding, Flatten, Dropout
from tensorflow.keras import models, layers, optimizers, regularizers

## ------入力層------
# 人間の発話:ユニット数は単語配列の最長サイズと同じ
utterance = Input(shape=(UTTER_MAX_SIZE,), name='utterance')
# システムの応答:ユニット数は単語配列の最長サイズと同じ
system = Input(shape=(SYSTEM_MAX_SIZE,), name='system')
# 人間の発話の単語数:ユニット数は1
u_token_len = Input(shape=[1], name="u_token_len")
# システムの応答の単語数:ユニット数は1
s_token_len = Input(shape=[1], name="s_token_len")

# ------Embedding層------
# 人間の発話: 入力は単語の総数+100、出力の次元数は128
emb_utterance = Embedding(
    input_dim=utter_dic_size+100,  # 発話の単語数+100
    output_dim=128,                # 出力の次元数はRecurrent層のユニット数
    )(utterance)
# システムの応答: 入力は単語の総数+100、出力の次元数は128
emb_system = Embedding(
    input_dim=system_dic_size+100, # 応答の単語数+100
    output_dim=128                  # 出力の次元数はRecuurrent層のユニット数
    )(system)
# 人間の発話の単語数のEmbedding
emb_u_len = Embedding(             # 入力の次元は発話の形態素数の最大値+1
    input_dim=UTTER_MAX_SIZE+1,    # 出力は5
    output_dim=5
    )(u_token_len)
# システムの応答の単語数のEmbedding
emb_s_len = Embedding(
    input_dim=SYSTEM_MAX_SIZE+1,   # 入力の次元は応答の形態素数の最大値+1
    output_dim=5                   # 出力は5
    )(s_token_len)

# ------Recurrent層------
# 人間の発話: GRUユニット×128×3段
rnn_layer1_1 = GRU(128, return_sequences=True
                  )(emb_utterance)
rnn_layer1_2 = GRU(128, return_sequences=True
                  )(rnn_layer1_1)
rnn_layer1_3 = GRU(128, return_sequences=False
                  )(rnn_layer1_2)

# システムの応答: GRUユニット×128×3段
rnn_layer2_1 = GRU(128, return_sequences=True
                  )(emb_system)
rnn_layer2_2 = GRU(128, return_sequences=True
                  )(rnn_layer2_1)
rnn_layer2_3 = GRU(128, return_sequences=False
                  )(rnn_layer2_2)

# ------全結合層------
main_l = concatenate([
    Flatten()(emb_u_len), # 人間の発話の単語数のEmbedding
    Flatten()(emb_s_len), # 商品名の単語数のEmbedding
    rnn_layer1_3,         # 人間の発話のGRUユニット
    rnn_layer2_3          # システム応答のGRUユニット
])

# ------512、256、128ユニットの層を追加------
main_l = Dropout(0.2)(
    Dense(512,kernel_initializer='normal',activation='relu')(main_l))
main_l = Dropout(0.2)(
    Dense(256,kernel_initializer='normal',activation='relu')(main_l))
main_l = Dropout(0.2)(
    Dense(128,kernel_initializer='normal',activation='relu')(main_l))

# ------出力層(1ユニット)------
output = Dense(units=3,              # 出力層のニューロン数＝2
                activation='softmax' # 活性化はソフトマックス関数
               )(main_l)


# Modelオブジェクトの生成
model = models.Model(
    # 入力層はマルチ入力モデルなのでリストにする
    inputs=[utterance, system,
            u_token_len, s_token_len
           ],
    # 出力層
    outputs=output
)

# Sequentialオブジェクをコンパイル
model.compile(
    loss='categorical_crossentropy', # 誤差関数はクロスエントロピー
    optimizer=optimizers.Adam(),     # Adamオプティマイザー
    metrics=['accuracy']             # 学習評価として正解率を指定
    )

model.summary()                      # RNNのサマリー（概要）を出力

Model: "model"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
utterance (InputLayer)          [(None, 18)]         0                                            
__________________________________________________________________________________________________
system (InputLayer)             [(None, 41)]         0                                            
__________________________________________________________________________________________________
embedding (Embedding)           (None, 18, 128)      695040      utterance[0][0]                  
__________________________________________________________________________________________________
embedding_1 (Embedding)         (None, 41, 128)      579584      system[0][0]                     
______________________________________________________________________________________________

In [26]:
'''
26. 訓練データと正解ラベルの用意
'''
import numpy as np
from tensorflow.keras.utils import to_categorical

trainX = {
    # 人間の発話
    'utterance': train_U,
    # システムの応答
    'system': train_S,
    
    # 人間の発話の形態素の数(int)
    'u_token_len': np.array(df[['u_token_len']]),
    # システムの応答の形態素の数(int)
    's_token_len': np.array(df[['s_token_len']])
}

# 正解ラベルをOne-hot表現にする
trainY = to_categorical(df['label'], 3)

In [27]:
%%time
'''
27.学習の実行
'''
import math
from tensorflow.keras.callbacks import LearningRateScheduler

batch_size = 32            # ミニバッチのサイズ
lr_min = 0.0001            # 最小学習率
lr_max = 0.001             # 最大学習率

# 学習率をスケジューリングする
def step_decay(epoch):
    initial_lrate = 0.001 # 学習率の初期値
    drop = 0.25            # 減衰率は25%
    epochs_drop = 10.0    # 10エポック毎に減衰する
    lrate = initial_lrate * math.pow(
        drop,
        math.floor((epoch)/epochs_drop)
    )
    return lrate

# 学習率のコールバック
lrate = LearningRateScheduler(step_decay)

# エポック数
epoch = 40

# 学習を開始
history = model.fit(trainX, trainY,        # 訓練データ、正解ラベル
                    batch_size=batch_size, # ミニバッチのサイズ
                    epochs=epoch,          # 学習回数
                    verbose=1,             # 学習の進捗状況を出力する
                    validation_split=0.2,  # 訓練データの20%を検証データにする
                    shuffle=True,         # 検証データ抽出後にシャッフル
                    callbacks=[lrate]
                    )

Train on 8368 samples, validate on 2092 samples
Epoch 1/40
Epoch 2/40
Epoch 3/40
Epoch 4/40
Epoch 5/40
Epoch 6/40
Epoch 7/40
Epoch 8/40
Epoch 9/40
Epoch 10/40
Epoch 11/40
Epoch 12/40
Epoch 13/40
Epoch 14/40
Epoch 15/40
Epoch 16/40
Epoch 17/40
Epoch 18/40
Epoch 19/40
Epoch 20/40
Epoch 21/40
Epoch 22/40
Epoch 23/40
Epoch 24/40
Epoch 25/40
Epoch 26/40
Epoch 27/40
Epoch 28/40
Epoch 29/40
Epoch 30/40
Epoch 31/40
Epoch 32/40
Epoch 33/40
Epoch 34/40
Epoch 35/40
Epoch 36/40
Epoch 37/40
Epoch 38/40
Epoch 39/40
Epoch 40/40
Wall time: 31min 40s
