## データの読み込み

In [1]:
import os 
import json

# コーパスのディレクトリを指定
file_path = "./projectnextnlp-chat-dialogue-corpus/json/rest1046/"
# ファイルの一覧を取得
file_dir = os.listdir(file_path)
# 人間の発話を保持するリスト
utterance_txt = []
# システムの応答を保持するリスト
system_txt = []
# 正解ラベルを保持するリスト
label = []

# ファイルごとに対話データを整形する
for file in file_dir:
    # read json
    r = open(file_path + file, "r", encoding="utf-8")
    json_data = json.load(r)
    
    # 発話データ配列から発話テキストと破綻かどうかの正解データの抽出
    for turn in json_data["turns"]:
        turn_index = turn["turn-index"] # turn-indexキー（対話のインデックス）
        speaker = turn["speaker"] # speakerキー（”U"人間、”S"システム）
        utterance = turn["utterance"] # utteranceキー（発話テキスト）
        
        # 先頭行（システムの冒頭の発話）以外の処理
        if turn_index != 0:
            # 人間の発話テキストを抽出
            if speaker == "U":
                # u_text = ""
                u_text = utterance
            # システムの応答内容が破綻かどうかを抽出
            else:
                a = ""
                sys = turn["utterance"] # システムの発話（応答）を抽出
                t = turn["annotations"][0] # 1つ目のアノテーションを抽出
                a = t["breakdown"] # アノテーションのフラグを抽出
                if a == "O": # O(破綻していない)を0で置換
                    val = 0
                elif a == "T": # T(破綻していないが違和感がある）を1で置換
                    val = 1
                else:
                    val = 2
                # 人間の発話をリストに追加
                utterance_txt.append(u_text)
                # システムの応答をリストに追加
                system_txt.append(sys)
                label.append(str(val))

## 読み込んだデータのサイズを出力

In [2]:
print(len(utterance_txt))
print(len(system_txt))
print(len(label))

10460
10460
10460


## utterance_txtに格納されたテキストを出力する

In [3]:
utterance_txt

['ありがとうございます。今日も暑いですね。',
 'もちろん気をつけますよ',
 '気をつけますよ',
 '気をつけてくださいね',
 '暑い日もあれば、雨がたくさん降る日もありますね。',
 'そうなんですか？',
 '何が大丈夫なんですか？',
 'なぜですか？',
 '雨が心配ないというのはなぜですか？',
 'さっき言ってたことと違いますよ',
 'こんにちは。今日は風があって助かりますね。',
 '真夏は風はいいですね。',
 'はい。プールとか海にも行きたいです。',
 '風がないとジリジリ暑いです。',
 'はい。髪は乱れますが。',
 '冬は風があると寒いです。',
 '爽やかなのが一番です。',
 '洗濯物も良く乾きます。',
 'そよ風がいいですね。',
 '早く涼しくなるといいです。',
 'ありがとう！',
 'わーい！',
 'いやーん',
 '何やってんの！',
 'あははは。てきとうだ。',
 '使ってませんよ！',
 'どうぞどうぞ。',
 '使ってみて。',
 'うん。待ってるから、使ってみて。',
 'それは難しい質問です。',
 '海は良いですね？行く予定はありますか？',
 '私も好きですがプールの方が良いですかね。',
 '海だとクラゲがいるので。',
 'クラゲは刺されると痛くないですか？',
 '水族館でもクラゲを見るんですか？',
 'どこの水族館に行けばクラゲが見られますか？',
 '水族館は好きですか？',
 'なるほど。ちょっと高いですよね。',
 'イルカショーとかをやっている水族館も多いですが好きですか？',
 'イルカとクラゲだとどちらが好きですか？',
 'どーぞ、ご自由に。',
 'やだね。',
 '嫌いだもん。',
 'だから。',
 '空は？',
 '山は？',
 '山は？って聞いてるのに。',
 '山のことだよ、このどあほ',
 '山のことだよ、このどあ',
 '知りません。',
 '退屈してた？',
 'ねー',
 'いや、疲れてるんだ',
 'ありがとう',
 'めでたくはないかな。',
 'つらいというほどじゃないけど。',
 '残念なのかよ',
 'まあね',
 'だよ',
 'うん',
 'こんにちは。スイカ、メロン、ネクタリン、ソルダム、夏は美味しい果物いっぱいだね',
 '有名なの

## システムの応答を出力

In [4]:
system_txt

['熱中症に気をつけないんですか？',
 '熱中症に気をつけか？？',
 'ありがと',
 'はーい',
 '雨は大丈夫ですね',
 'そうだよ',
 '雨は心配ないらしい',
 'どした',
 '雨は心配してますよ',
 '雨は大丈夫だそうです',
 '風は欲しいですね',
 '気持ちがいいですね',
 '風は心地よいですね',
 '風が心地良いですよねえ',
 '風が心地良いですね',
 '風は爽やかですね',
 '風は清々しいですね',
 '風は穏やかですね',
 'そよ風が心地よいですね',
 'そよ風はいいですね',
 'あーい',
 'ぎゅー',
 'あはーん',
 'あなたのことを考えていました。',
 'あはーんを使ってますか？',
 'あはーんを使います',
 'どうも',
 'あはーんを使いますよねえ',
 'あはーんを使ったことありますか？',
 'あはーんを使ったなぁ',
 '気持ちがいいですね',
 'プールはいいですね',
 'クラゲは好きですね',
 'クラゲが大好きですね',
 'クラゲで有名です',
 'クラゲは多いです',
 '水族館は入館料が高いです',
 '入場料が高いです',
 '水族館が良いですね',
 '人気が高いですね',
 '海に行きませんか？？',
 'なんでよ',
 '海は騒がしいです',
 '海は荒いです',
 '空は青いです',
 '空は真っ青です',
 '空は気持ちがいいらしいですよ',
 'どんな内容なんですか？',
 'そのことについて教えてください。',
 'えー',
 '退屈で疲れますよねー',
 'どした',
 'なでなで',
 'おめでとーう',
 'それはつらいですね',
 '残念です！',
 '大変でしたね',
 'でしょ',
 'だよ',
 'だよなー',
 'スイカで有名ですね',
 'スイカはすごいですよねー',
 '体温は怖いですよねー',
 '予防が大切ですね',
 'まじで',
 'まじだよ',
 '対策に励むのです',
 '対策は大切です',
 'うん笑',
 '多分いい意味の笑っ',
 'しりとりでもしましょうか',
 'しりとりは面白いですね',
 '暇つぶしに最適ですね',
 '暇つぶしを探しますよねえ',
 '暇つぶしは欲しいですね',
 '暇つぶしを持ちますよねえ',

## 正解ラベルを出力

In [5]:
label

['0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '1',
 '1',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '0',
 '1',
 '0',
 '0',
 '1',
 '1',
 '0',
 '1',
 '0',
 '0',
 '1',
 '1',
 '1',
 '1',
 '0',
 '1',
 '2',
 '0',
 '0',
 '2',
 '2',
 '0',
 '2',
 '2',
 '2',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '1',
 '2',
 '0',
 '0',
 '1',
 '1',
 '1',
 '1',
 '0',
 '0',
 '1',
 '0',
 '0',
 '1',
 '1',
 '1',
 '2',
 '2',
 '2',
 '1',
 '0',
 '0',
 '0',
 '1',
 '1',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '2',
 '1',
 '2',
 '0',
 '0',
 '2',
 '2',
 '1',
 '1',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '2',
 '0',
 '1',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '1',
 '1',
 '1',
 '0',
 '0',
 '2',
 '2',
 '1',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '2',
 '1',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '1',
 '1',
 '1',
 '2',
 '1',
 '2',
 '1'

## データフレームにまとめる

In [6]:
import pandas as pd
df = pd.DataFrame({"utterance_txt": utterance_txt,
                                  "system_txt": system_txt,
                                  "label": label}
                                 )
df

Unnamed: 0,utterance_txt,system_txt,label
0,ありがとうございます。今日も暑いですね。,熱中症に気をつけないんですか？,0
1,もちろん気をつけますよ,熱中症に気をつけか？？,0
2,気をつけますよ,ありがと,0
3,気をつけてくださいね,はーい,0
4,暑い日もあれば、雨がたくさん降る日もありますね。,雨は大丈夫ですね,0
...,...,...,...
10455,スカイプは便利ですね,スカイプがいいですね,0
10456,最近はラインも有名ですね,ラインは良いですね,0
10457,メールと電話どちらが好きですか？,ラインは重要ですね,2
10458,ところで、このイカスミパスタおいしいです,ラインはわかりやすいですね,2


## カウントする

In [7]:
df["label"].value_counts()

0    5329
1    2937
2    2194
Name: label, dtype: int64

## 形態素への分解

In [9]:
from janome.tokenizer import Tokenizer
import re

def parse(utterance_txt):
    t = Tokenizer() # Tokenizerクラスのオブジェクトを生成
    separation_tmp = [] # 形態素を一時保存するリスト
    # 形態素に分解
    for row in utterance_txt:
        # リストから発話テキストの部分を抽出して形態素解析を実行
        tokens = t.tokenize(row)
        # 形態素の見出しの部分を取得してseparation_tmpに追加
        separation_tmp.append(
                [token.surface for token in tokens if(
                        not re.match("記号", token.part_of_speech) # 記号を除外
                        and (not re.match("助詞", token.part_of_speech)) # 助詞を除外
                        and (not re.match("助動詞", token.part_of_speech)) # 助動詞を除外
                        )
                ])
        # 空の要素があれば取り除く
        while separation_tmp.count("") > 0:
            separation_tmp.remove("")
    return separation_tmp
    
# 人間の発話を形態素に分解する
df["utterance_token"] = parse(df["utterance_txt"])
# システムの応答を形態素に分解する
df["system_token"] = parse(df["system_txt"])
# 形態素への分解後のデータフレームを出力
df

Unnamed: 0,utterance_txt,system_txt,label,utterance_token,system_token
0,ありがとうございます。今日も暑いですね。,熱中症に気をつけないんですか？,0,"[ありがとう, 今日, 暑い]","[熱中, 症, 気, つけ, ん]"
1,もちろん気をつけますよ,熱中症に気をつけか？？,0,"[もちろん, 気, つけ]","[熱中, 症, 気, つけ]"
2,気をつけますよ,ありがと,0,"[気, つけ]",[ありがと]
3,気をつけてくださいね,はーい,0,"[気, つけ, ください]",[はーい]
4,暑い日もあれば、雨がたくさん降る日もありますね。,雨は大丈夫ですね,0,"[暑い, 日, あれ, 雨, たくさん, 降る, 日, あり]","[雨, 大丈夫]"
...,...,...,...,...,...
10455,スカイプは便利ですね,スカイプがいいですね,0,"[スカイプ, 便利]","[スカイプ, いい]"
10456,最近はラインも有名ですね,ラインは良いですね,0,"[最近, ライン, 有名]","[ライン, 良い]"
10457,メールと電話どちらが好きですか？,ラインは重要ですね,2,"[メール, 電話, どちら, 好き]","[ライン, 重要]"
10458,ところで、このイカスミパスタおいしいです,ラインはわかりやすいですね,2,"[ところで, この, イカ, スミ, パスタ, おいしい]","[ライン, わかり, やすい]"


## 形態素の数をデータフレームに登録

In [10]:
df["u_token_len"] = df["utterance_token"].apply(len)
df["s_token_len"] = df["system_token"].apply(len)
df

Unnamed: 0,utterance_txt,system_txt,label,utterance_token,system_token,u_token_len,s_token_len
0,ありがとうございます。今日も暑いですね。,熱中症に気をつけないんですか？,0,"[ありがとう, 今日, 暑い]","[熱中, 症, 気, つけ, ん]",3,5
1,もちろん気をつけますよ,熱中症に気をつけか？？,0,"[もちろん, 気, つけ]","[熱中, 症, 気, つけ]",3,4
2,気をつけますよ,ありがと,0,"[気, つけ]",[ありがと],2,1
3,気をつけてくださいね,はーい,0,"[気, つけ, ください]",[はーい],3,1
4,暑い日もあれば、雨がたくさん降る日もありますね。,雨は大丈夫ですね,0,"[暑い, 日, あれ, 雨, たくさん, 降る, 日, あり]","[雨, 大丈夫]",8,2
...,...,...,...,...,...,...,...
10455,スカイプは便利ですね,スカイプがいいですね,0,"[スカイプ, 便利]","[スカイプ, いい]",2,2
10456,最近はラインも有名ですね,ラインは良いですね,0,"[最近, ライン, 有名]","[ライン, 良い]",3,2
10457,メールと電話どちらが好きですか？,ラインは重要ですね,2,"[メール, 電話, どちら, 好き]","[ライン, 重要]",4,2
10458,ところで、このイカスミパスタおいしいです,ラインはわかりやすいですね,2,"[ところで, この, イカ, スミ, パスタ, おいしい]","[ライン, わかり, やすい]",6,3


## 単語の出現回数を記録して辞書を作成

In [11]:
from collections import Counter # カウント処理のためのライブラリ
import itertools # イテレーションのためのライブラリ

# {単語：出現回数}の辞書を作成
def makedictionary(data):
    return Counter(itertools.chain(* data))

## 単語を出現回数順（降順）に並び替えて連番をふる関数

In [12]:
def update_word_dictionary(worddic):
    word_list = []
    word_dic = {}
    # most_common()で出現回数順に要素を取得しword_listに追加
    for w in worddic.most_common():
        word_list.append(w[0])
    
    # 出現回数順に並べた単語をキーに、1から始まる連番を値に設定
    for i, word in enumerate(word_list, start=1):
        word_dic.update({word : i})
    
    return word_dic

## 単語を出現回数の数値に置き換える関数の定義

In [15]:
def bagOfWords(word_dic, token):
    return [[word_dic[word] for word in sp] for sp in token]

## 発話を{単語：出現回数の辞書にする}


In [16]:
utter_word_frequency = makedictionary(df["utterance_token"])
utter_word_frequency

Counter({'ありがとう': 87,
         '今日': 148,
         '暑い': 141,
         'もちろん': 14,
         '気': 176,
         'つけ': 91,
         'ください': 79,
         '日': 43,
         'あれ': 24,
         '雨': 70,
         'たくさん': 42,
         '降る': 7,
         'あり': 336,
         'そう': 691,
         'ん': 777,
         '何': 488,
         '大丈夫': 88,
         'なぜ': 20,
         '心配': 13,
         'ない': 152,
         'の': 598,
         'さっき': 12,
         '言っ': 30,
         'て': 117,
         'こと': 402,
         '違い': 12,
         'こんにちは': 187,
         '風': 23,
         'あっ': 35,
         '助かり': 4,
         '真夏': 4,
         'いい': 566,
         'はい': 193,
         'プール': 47,
         '海': 235,
         '行き': 280,
         'ジリジリ': 1,
         '髪': 4,
         '乱れ': 2,
         '冬': 20,
         'ある': 185,
         '寒い': 12,
         '爽やか': 1,
         '一番': 27,
         '洗濯': 12,
         '物': 13,
         '良く': 38,
         '乾き': 3,
         'そよ風': 1,
         '早く': 19,
         '涼しく': 18,
         'なる':

## 応答を{単語：出現回数}の辞書にする

In [17]:
system_word_frequency = makedictionary(df["system_token"])
system_word_frequency

Counter({'熱中': 215,
         '症': 223,
         '気': 165,
         'つけ': 150,
         'ん': 432,
         'ありがと': 38,
         'はーい': 4,
         '雨': 123,
         '大丈夫': 119,
         'そう': 365,
         '心配': 23,
         'ない': 87,
         'し': 171,
         '風': 22,
         '欲しい': 135,
         '気持ち': 113,
         'いい': 847,
         '心地よい': 31,
         '心地': 10,
         '良い': 162,
         '爽やか': 4,
         '清々しい': 3,
         '穏やか': 23,
         'そよ風': 2,
         'あー': 3,
         'い': 96,
         'ぎゅ': 3,
         'ー': 153,
         'あ': 27,
         'あなた': 14,
         'こと': 140,
         '考え': 15,
         '使っ': 9,
         '使い': 17,
         'どうも': 5,
         'あり': 106,
         'プール': 45,
         'クラゲ': 38,
         '好き': 452,
         '大好き': 179,
         '有名': 107,
         '多い': 155,
         '水族館': 8,
         '入館': 2,
         '料': 9,
         '高い': 78,
         '入場': 1,
         '人気': 6,
         '海': 386,
         '行き': 167,
         'なんで': 18,
         '騒がし

## 発話の単語辞書を単語の出現回数順（降順）で並び替えて連番を割り当てる

In [18]:
utter_word_dic = update_word_dictionary(utter_word_frequency)
utter_word_dic

{'ん': 1,
 'し': 2,
 'そう': 3,
 '好き': 4,
 'の': 5,
 'いい': 6,
 '何': 7,
 'こと': 8,
 '私': 9,
 'い': 10,
 'あり': 11,
 'そうですね': 12,
 '行き': 13,
 '食べ': 14,
 '海': 15,
 'スイカ': 16,
 'てる': 17,
 'それ': 18,
 'お': 19,
 'はい': 20,
 'こんにちは': 21,
 'ある': 22,
 '気': 23,
 'する': 24,
 'いる': 25,
 '最近': 26,
 'あなた': 27,
 'よく': 28,
 'どこ': 29,
 'どう': 30,
 '見': 31,
 '夏': 32,
 'どんな': 33,
 '人': 34,
 'ない': 35,
 '今日': 36,
 '思い': 37,
 '暑い': 38,
 'ー': 39,
 'もの': 40,
 '行っ': 41,
 '良い': 42,
 '僕': 43,
 '楽しい': 44,
 'て': 45,
 'なり': 46,
 'おいしい': 47,
 '方': 48,
 '退屈': 49,
 'でも': 50,
 '行く': 51,
 'なっ': 52,
 '今': 53,
 'ほう': 54,
 'つけ': 55,
 '大丈夫': 56,
 'いや': 57,
 'ありがとう': 58,
 'さ': 59,
 'うん': 60,
 '多い': 61,
 'ください': 62,
 '仕事': 63,
 'れ': 64,
 '熱中': 65,
 '症': 66,
 '大変': 67,
 '美味しい': 68,
 'なる': 69,
 'き': 70,
 'こんばんは': 71,
 'でき': 72,
 'もう': 73,
 'よう': 74,
 '雨': 75,
 'いえ': 76,
 'やっ': 77,
 '一緒': 78,
 '嫌い': 79,
 '話': 80,
 'とき': 81,
 '確か': 82,
 'みたい': 83,
 'ゲーム': 84,
 '山': 85,
 'ちょっと': 86,
 '見る': 87,
 'あまり': 88,
 '他': 89,
 'まあ': 90,
 '今年': 91,
 'しれ'

## 応答の単語辞書を単語の出現回数順（降順）で並び替えて連番を割り当てる

In [19]:
system_word_dic = update_word_dictionary(system_word_frequency)
system_word_dic

{'いい': 1,
 'の': 2,
 '好き': 3,
 'ん': 4,
 '海': 5,
 'そう': 6,
 'スイカ': 7,
 '退屈': 8,
 '症': 9,
 '熱中': 10,
 'てる': 11,
 '大好き': 12,
 'し': 13,
 '行き': 14,
 '気': 15,
 '良い': 16,
 'うん': 17,
 '多い': 18,
 'ー': 19,
 'つけ': 20,
 '楽しい': 21,
 'こと': 22,
 '欲しい': 23,
 'お': 24,
 'よう': 25,
 '心': 26,
 '雨': 27,
 '人': 28,
 '美味しい': 29,
 '大丈夫': 30,
 '一緒': 31,
 '気持ち': 32,
 '有名': 33,
 'ありがとう': 34,
 'あり': 35,
 'しれ': 36,
 'て': 37,
 '見': 38,
 'さ': 39,
 '哲学': 40,
 'い': 41,
 'はい': 42,
 'れ': 43,
 '何': 44,
 'ない': 45,
 '予防': 46,
 '大切': 47,
 '面白い': 48,
 '朝': 49,
 'する': 50,
 '趣味': 51,
 '行く': 52,
 '映画': 53,
 '高い': 54,
 '仕事': 55,
 'うまい': 56,
 '食べ': 57,
 '楽しみ': 58,
 '買い物': 59,
 '旅行': 60,
 '天気': 61,
 '実': 62,
 '一': 63,
 '行っ': 64,
 '深い': 65,
 '食べる': 66,
 'でき': 67,
 'ゲーム': 68,
 'なり': 69,
 '見る': 70,
 '行か': 71,
 '大事': 72,
 '花火': 73,
 '必要': 74,
 '奥': 75,
 '音楽': 76,
 'テレビ': 77,
 'とり': 78,
 '大きい': 79,
 'プール': 80,
 '悪い': 81,
 '強い': 82,
 '味': 83,
 '予定': 84,
 'スポーツ': 85,
 'しり': 86,
 '綺麗': 87,
 'でる': 88,
 '気分': 89,
 'ありがと': 90,
 'クラゲ': 91,
 'どう'

## 辞書のサイズを変数に登録する

In [20]:
utter_dic_size = len(utter_word_dic)
system_dic_size = len(system_word_dic)
print(utter_dic_size)
print(system_dic_size)

5330
4428


## 単語を出現回数順の数値に置き換える

In [21]:
train_utter = bagOfWords(utter_word_dic, df["utterance_token"])
train_system = bagOfWords(system_word_dic, df["system_token"])

## 数値に置き換えた発話を出力する

In [22]:
train_utter

[[58, 36, 38],
 [374, 23, 55],
 [23, 55],
 [23, 55, 62],
 [38, 126, 232, 75, 130, 661, 126, 11],
 [3, 1],
 [7, 56, 1],
 [273],
 [75, 405, 35, 5, 273],
 [433, 186, 45, 8, 434],
 [21, 36, 244, 156, 1034],
 [1035, 244, 6],
 [20, 112, 15, 13],
 [244, 35, 2624, 38],
 [20, 1036, 1737],
 [274, 244, 22, 435],
 [2625, 5, 208],
 [436, 406, 140, 1270],
 [2626, 6],
 [286, 301, 69, 6],
 [58],
 [1738],
 [1037],
 [7, 77, 1],
 [150, 2627],
 [218],
 [354, 354],
 [218, 109],
 [60, 437, 17, 218, 109],
 [18, 151, 740],
 [15, 42, 51, 255, 11],
 [9, 4, 112, 48, 42],
 [15, 202, 25],
 [202, 1038, 157, 741],
 [471, 202, 87, 1],
 [29, 471, 515, 202, 31, 233],
 [471, 4],
 [195, 86, 166],
 [1739, 2628, 77, 25, 471, 61, 4],
 [1739, 202, 141, 4],
 [2629, 287, 662],
 [1039],
 [79, 106],
 [264],
 [663],
 [85],
 [85, 187, 17],
 [85, 8, 152, 150, 868],
 [85, 8, 152, 150],
 [177],
 [49, 2, 45],
 [],
 [57, 209, 17, 1],
 [58],
 [2630],
 [601, 188],
 [375, 5],
 [90],
 [],
 [60],
 [21, 16, 123, 1740, 1741, 1271, 32, 68, 265

## 数値に置き換えた応答を出力する

In [23]:
train_system

[[10, 9, 15, 20, 4],
 [10, 9, 15, 20],
 [90],
 [1008],
 [27, 30],
 [6],
 [27, 168, 45],
 [],
 [27, 168, 13],
 [27, 30, 6],
 [184, 23],
 [32, 1],
 [184, 113],
 [184, 423, 16],
 [184, 423, 16],
 [184, 1009],
 [184, 1287],
 [184, 169],
 [1738, 113],
 [1738, 1],
 [1288, 41],
 [1289, 19],
 [137, 19],
 [300, 22, 274, 41],
 [137, 19, 4, 456],
 [137, 19, 4, 240],
 [807],
 [137, 19, 4, 240],
 [137, 19, 4, 456, 22, 35],
 [137, 19, 4, 456],
 [32, 1],
 [80, 1],
 [91, 3],
 [91, 12],
 [91, 33],
 [91, 18],
 [504, 1739, 457, 54],
 [2582, 457, 54],
 [504, 16],
 [681, 54],
 [5, 14],
 [222],
 [5, 1290],
 [5, 1291],
 [682, 1292],
 [682, 2583],
 [682, 32, 1],
 [170, 1010, 4],
 [808, 22, 223, 275],
 [198],
 [8, 199],
 [],
 [191, 191],
 [24, 1740, 19],
 [200, 1011],
 [458],
 [505],
 [],
 [],
 [],
 [7, 33],
 [7, 149],
 [2584, 138],
 [46, 47],
 [683],
 [683],
 [424, 1741, 2],
 [424, 47],
 [17, 209],
 [1742, 1, 425, 1293],
 [86, 78, 13],
 [86, 78, 48],
 [506, 426],
 [506, 301],
 [506, 23],
 [506, 241],
 [506, 2

## 発話と応答それぞれの形態素の最大数を取得する

In [24]:
UTTER_MAX_SIZE = len(sorted(train_utter, key=len, reverse=True)[0])
SYSTEM_MAX_SIZE = len(sorted(train_system, key=len, reverse=True)[0])
print(UTTER_MAX_SIZE)
print(SYSTEM_MAX_SIZE)

18
41


## 単語データの配列を同一のサイズに揃える関数を定義する

In [29]:
from tensorflow.keras.preprocessing import sequence

def padding_sequences(data, max_len): # 最長のサイズになるまでゼロを埋め込む
    return sequence.pad_sequences(
            data, maxlen=max_len, padding="post", value=0.0)


## 発話の単語配列のサイズを最長サイズに合わせる

In [31]:
train_U = padding_sequences(train_utter, UTTER_MAX_SIZE)
print(train_U.shape)
print(train_U)

(10460, 18)
[[  58   36   38 ...    0    0    0]
 [ 374   23   55 ...    0    0    0]
 [  23   55    0 ...    0    0    0]
 ...
 [ 859 2413  141 ...    0    0    0]
 [ 192  152 1411 ...    0    0    0]
 [1411 2622 2623 ...    0    0    0]]


## 応答の単語配列のサイズを最長サイズに合わせる

In [33]:
train_S = padding_sequences(train_system, SYSTEM_MAX_SIZE)
print(train_S.shape)
print(train_S)

(10460, 41)
[[  10    9   15 ...    0    0    0]
 [  10    9   15 ...    0    0    0]
 [  90    0    0 ...    0    0    0]
 ...
 [1286  205    0 ...    0    0    0]
 [1286  150  101 ...    0    0    0]
 [1286 2154    0 ...    0    0    0]]


## RNNモデルの構築

In [41]:
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense, concatenate,  GRU, Embedding, Flatten, Dropout
from tensorflow.keras.optimizers import Adam

## -----入力層-----
# 人間の発話：ユニット数は単語配列の最長サイズと同じ
utterance = Input(shape=(UTTER_MAX_SIZE, ), name="utterance")
# システムの応答：ユニット数は単語配列の最長サイズと同じ
system= Input(shape=(SYSTEM_MAX_SIZE, ), name="system")
# 人間の発話の単語数：ユニット数は1
u_token_len = Input(shape=[1], name="u_token_len")
# システム応答の単語数：ユニット数は1
s_token_len = Input(shape=[1], name="s_token_len")

# -----Embedding層-----
# 人間の発話：　入力は単語の総数+100、出力の次元数は128
emb_utterance = Embedding(
        input_dim=utter_dic_size+100, # 発話の単語数＋100
        output_dim = 128 # 出力の次元数はReccurrent層のユニット数
        )(utterance)
# システムの応答：　入力は単語の総数+100、出力の次元数は128
emb_system = Embedding(
        input_dim=system_dic_size+100, # 応答の単語数＋100
        output_dim=128 # 出力の次元数はReccurrent層のユニット数
        )(system)
# 人間の発話の単語数のEmbedding
emb_u_len = Embedding(
        input_dim=UTTER_MAX_SIZE+1, # 入力の次元は発話の形態素数の最大値＋1
        output_dim=5 # 出力は5
        )(u_token_len)
# システム応答の単語数のEmbedding
emb_s_len = Embedding(
        input_dim=SYSTEM_MAX_SIZE+1, # 入力の次元は応答の形態素数の最大値＋1
        output_dim = 5 # 出力は5
        )(s_token_len)

# -----Reccurrent層-----
# 人間の発話：　GRUユニット×128×3段
rnn_layer1_1 = GRU(128, return_sequences=True
                              )(emb_utterance)
rnn_layer1_2 = GRU(128, return_sequences=True
                              )(rnn_layer1_1)
rnn_layer1_3 = GRU(128, return_sequences=True
                              )(rnn_layer1_2)

# システムの応答： GRUユニット×128×3段
rnn_layer2_1 = GRU(128, return_sequences=True
                              )(emb_system)
rnn_layer2_2 = GRU(128, return_sequences=True
                              )(rnn_layer2_1)
rnn_layer2_3 = GRU(128, return_sequences=True
                              )(rnn_layer2_2)

# -----全結合層-----
main_1 = concatenate([
        Flatten()(emb_u_len), 
        Flatten()(emb_s_len),
        rnn_layer1_3,
        rnn_layer2_3
])

# -----出力層(3ユニット)-----
output = Dense(unit=3,
                                  activation="softmax"
                              )(mian_l)

# Modelオブジェクトの生成
model = Model(
        # 入力層はマルチ入力モデルなのでリストにする
        inputs=[utterance, system,
                       u_token_len, s_token_len],
        # 出力層
        outputs=output
)

# Sequentialオブジェクトをコンパイル
model.compile(
        loss="categorical_crossentropy", 
        optimizer=Adam(),
        metrics=["accuracy"]
        )

model.summary()

ValueError: A `Concatenate` layer requires inputs with matching shapes except for the concat axis. Got inputs shapes: [(None, 5), (None, 5), (None, 18, 128), (None, 41, 128)]

## 訓練データと正解ラベルの用意

In [None]:
import numpy as np
from tensorflow.keras.utils import to_categorical

trainX = {
    "utterance": train_U,
    "system": train_S,
    "u_token_len": np.array(df[["u_token_len"]]),
    "s_token_len": np.array(df[["s_token_len"]])
}

#正解ラベルをOne -Hot表現にする
trainY = to_categorical(df["label"], 3)


## 学習を実行する

In [None]:
%%time
import math
from tensorflow.keras.callbacks import LearningRateScheduler


training_epochs = 120
batch_size = 32
lr_min = 0.0001
lr_max = 0.001

def step_decay(epoch):
    initial_lrate = 0.001 # 学習率の初期値
    drop = 0.5 # 減衰率は25%
    epochs_drop = 10.0 # 10エポックごとに減衰する
    lrate = initial_lrate * math.pow(
            drop,
            math.floor((epoch)/epochs_drop)
    )
    return lrate

lrate = LearningRateScheduler(step_decay)

epoch = 100

# 学習を行う
history = model.fit(trainX, trainY,
        batch_size=batch_size,
        epochs=epoch,
        verbose=1,
        validation_split=0.2,
        shuffle=True,
        callbacks=[lrate]
)
