In [1]:
import json
import os
import pandas as pd
import numpy as np
from pathlib import Path
import collections
from sklearn.model_selection import train_test_split
from sklearn import metrics

import sys
sys.path.append("../")
from datatools.analyzer import *
from utterance.error_tools import *

from datatools.maneger import DataManager
from datatools.preproc import Preprocessor

In [2]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.nn.modules import loss
import torch.optim as optim

In [3]:
class CaseModel(nn.Module):
    def __init__(self, embedding_dim, tagset_size):
        # 親クラスのコンストラクタ。決まり文句
        super(CaseModel, self).__init__()    
        self.embedding_dim = embedding_dim
        self.hid1= embedding_dim*2
        self.hid2 = embedding_dim//2
        self.fc1 = nn.Linear(self.embedding_dim, self.hid1)
        self.fc2 = nn.Linear(self.hid1, self.hid2)
        self.hidden2tag = nn.Linear(self.hid2, tagset_size)
    
    def forward(self, x):
        y = F.relu(self.fc1(x))
        y = F.relu(self.fc2(y))
        y = self.hidden2tag( y )
        y = F.log_softmax(y, dim=1)
        return y

In [4]:
border=0.8

In [5]:
dict_path = "../models/utterance/"
dict_name = "group_border={0}_2.pickle".format(border)
dictM = DataManager(dict_path)
group_dict = dictM.load_data(dict_name)

success load : ../models/utterance/group_border=0.8_2.pickle


In [6]:
def search_word(word):
    word = clean_text(word)
    found_list = []
    for group_key in group_dict.keys():
        if word in group_dict[group_key]:
            found_list.append(group_key)
    return found_list

In [7]:
from gensim.models import KeyedVectors
w2v_path = "../../corpus/w2v/"
# fasttext
# https://qiita.com/Hironsan/items/513b9f93752ecee9e670
# w2v_name =  "dep-ja-300dim"
w2v_name =  "model.vec"
w2v_model = KeyedVectors.load_word2vec_format(w2v_path+w2v_name)

[514] 2022-01-11 15:20:34,083 Info gensim.models.keyedvectors :loading projection weights from ../../corpus/w2v/model.vec
[514] 2022-01-11 15:21:35,907 Info gensim.utils :KeyedVectors lifecycle event {'msg': 'loaded (351122, 300) matrix of type float32 from ../../corpus/w2v/model.vec', 'binary': False, 'encoding': 'utf8', 'datetime': '2022-01-11T15:21:35.907111', 'gensim': '4.0.1', 'python': '3.6.9 (default, Jan 26 2021, 15:33:00) \n[GCC 8.4.0]', 'platform': 'Linux-5.4.72-microsoft-standard-WSL2-x86_64-with-Ubuntu-18.04-bionic', 'event': 'load_word2vec_format'}


In [8]:
group2index = dict(zip( group_dict.keys(), range(len(group_dict.keys())) ))
index2group = dict(zip(range(len(group_dict.keys())), group_dict.keys() ))

In [9]:
model_path = "../models/utterance/"
model_name = "case_frame_{0}_2.pickle".format(border)
modelM = DataManager(model_path)
cmodel = modelM.load_data(model_name)

success load : ../models/utterance/case_frame_0.8_2.pickle


In [95]:
classify_border=0.75
def classify_word(word, mode="judge"):
    # word = clean_text(word)
    if word not in w2v_model:
        return ""
    with torch.no_grad():
        vector = torch.tensor([w2v_model[word]]).cuda()
        pred = np.exp(np.array(cmodel(vector).cpu()))
        p_argmax = pred.argmax()
        # print(pred[0][p_argmax])
        if mode=="register":
            if pred[0][p_argmax] < classify_border:
                return ""
    return index2group[p_argmax]

In [96]:
word =  "デジカメ"
classify_word(word)

'<もの>'

In [12]:
def register_triple(case_frame:dict, V, C, Noun):
    # 動詞の確認
    if V not in case_frame:
        case_frame[V] = dict()

    # 格の確認
    if C not in case_frame[V]:
        case_frame[V][C] = set()
    
    # 名詞の登録
    case_frame[V][C].add(Noun)

In [13]:
def compound_noun(token):
    base = token.lemma_
    for child in token.children:
        if child.dep_ == "compound":
           base = child.lemma_ + base
    return base

In [42]:
case_set = set("は　が　を　に　で")

def extract_RDF_triple(text, clean_=True):
    if clean_:
        text = clean_text(text)
    doc = nlp(text)
    triple_list = []
    for _, token in enumerate( doc ):
        if token.pos_ in ["VERB", "ADJ"]:
        # if token.pos_=="VERB":
        # if is_declinable(token):
            for c in token.children:
                if c.dep_ in ["nsubj", "obj", "obl"]:
                    noun = c.lemma_
                    for c2 in c.children:
                        if c2.dep_ == "case" and c2.orth_ in case_set:
                        # if c2.dep_ == "case":
                            case = c2.orth_
                            if case == "は":
                                case = "が"
                            triple_list.append( (token.lemma_, case, noun) )
    return triple_list

In [15]:
path = "../hand_labeled/"
datalist = ['DCM', 'DIT', 'IRS']
convs = read_conv(path, datalist)

In [16]:
error = "Semantic error"
sys_utt = []
y = []
for conv in convs:
    for ut in conv:
        # if ut.is_system() and ut.is_exist_error():
        if not ut.is_exist_error():
            sys_utt.append(ut.utt)
            if ut.is_error_included(error):
                y.append(1)
            else:
                y.append(0)

In [98]:
with open("../../corpus/NTT/persona.json", "r", encoding="utf-8") as f:
    convs = json.load(f)
all_utt = []
for did in tqdm( convs["convs"] ) :
    dids = list( did.keys() )[0]
    all_utt += did[dids]

100%|██████████| 5016/5016 [00:00<00:00, 1020450.54it/s]


In [18]:
# all_utt = sys_utt + all_utt
# len(all_utt)

In [19]:
# def read_file(filename, batch_size=10000) -> list:
#     f = open(filename, 'r', encoding='UTF-8')
#     text_list = [  ]
#     concated = ""
#     for i, line in enumerate( f.readlines() ):
#         concated += line.rstrip('\n')
#         if (i+1) % batch_size == 0:
#             text_list.append(concated)
#             concated = ""
#     text_list.append(concated)
#     f.close()
#     return text_list

In [20]:
# filename = "../../corpus/wiki/wiki_normalized.txt"
# # filename = "plain.txt"
# all_list = read_file(filename, batch_size=100)
# print("len of text_list :", len(all_list))

len of text_list : 19060


In [30]:
# all_utt = all_list[::50]

In [None]:
case_frame = dict()

In [99]:

for utt in tqdm( all_utt ):
    is_valid = True

    triples = extract_RDF_triple(utt, clean_=False)
    if len(triples)>0:
        for triple in triples:
            V = triple[0]
            C = triple[1]
            noun = triple[2]
            group_ = search_word(noun)
            if len(group_) > 0:
                for group in group_:
                    register_triple(case_frame, V, C, group)
            else:
                group = classify_word(noun, mode="register")
                # ないなら登録するな
                if group != "":
                    register_triple(case_frame, V, C, group)

            register_triple(case_frame, V, C, noun)


100%|██████████| 61781/61781 [17:18<00:00, 59.50it/s]


In [100]:
case_frame_name = "case_frame_ntt_border={}.pickle".format(classify_border)
data_path = "../X_y_data/utterance/"

In [101]:
dataM = DataManager(data_path)
dataM.save_data(case_frame_name, case_frame)

success save : ../X_y_data/utterance/case_frame_ntt_border=0.75.pickle


In [102]:
dataM = DataManager(data_path)
case_frame = dataM.load_data(case_frame_name)

success load : ../X_y_data/utterance/case_frame_ntt_border=0.75.pickle


In [111]:
def search_triple(V, C, N):
    if N in case_frame[V][C]:
        return True
    else:
        return False

# True : 用法は問題ない
# False : 問題あり
def judge_triple(triple):
    V = triple[0]
    C = triple[1]
    noun = triple[2]

    # Vが登録されていないならパスしておくかな(一旦)
    if V not in case_frame:
        # print("not registered V :", V)
        return True
    
    # C が登録されていないなら，アウト
    if C not in case_frame[V]:
        print("not registered V, C :", V, C)
        return False
    
    # そのままの名詞で検索 -> 発見なら正例
    if search_triple(V, C, noun):
        return True

    # 名詞がどこかのグループに属する
    group_ = search_word(noun)
    if len(group_) > 0:
        # 1つでも引っかかればOK
        for group in group_:
            if search_triple(V, C, group):
                return True
        return False
    # グループを推定
    else:
        group = classify_word(noun) 
        return search_triple(V, C, group)

In [104]:
path = "../eval_labeled/"
datalist = ['DCM', 'DIT', 'IRS']
convs = read_conv(path, datalist)

error = "Semantic error"
sys_utt = []
y = []
for conv in convs:
    for ut in conv:
        if ut.is_system() and ut.is_exist_error():
            sys_utt.append(ut.utt)
            if ut.is_error_included(error):
                y.append(1)
            else:
                y.append(0)

In [112]:
y_pred = []
for utt in tqdm(sys_utt):
    is_valid = True

    triples = extract_RDF_triple(utt)
    for triple in triples:
        if not judge_triple(triple):
            print(triple)
            is_valid = False
            break
    if is_valid:
        y_pred.append(0)
    else:
        y_pred.append(1)

  1%|          | 15/1386 [00:00<00:19, 71.45it/s]

('生まれる', 'に', 'お兄さん')
('見る', 'を', '好き')
('深める', 'を', '人間関係')


  3%|▎         | 39/1386 [00:00<00:18, 74.37it/s]

('受ける', 'が', '病院')
('ほしい', 'が', '帽子')
('欲しい', 'が', '帽子')
('泳ぐ', 'で', 'スイミング')


  3%|▎         | 47/1386 [00:00<00:18, 72.70it/s]

not registered V, C : ヘルシー で
('ヘルシー', 'で', '和食')
('落ち着く', 'が', '問題')
not registered V, C : 進める が
('進める', 'が', '北朝鮮')
not registered V, C : 進める が
('進める', 'が', '北朝鮮')
('演奏', 'で', '御自分')


  5%|▍         | 69/1386 [00:00<00:19, 66.95it/s]

('指す', 'で', '日本')
('決める', 'で', '法律')
('生まれる', 'で', '沖縄')
('成り立つ', 'が', '沖縄県')
('取る', 'に', '一緒')
('呼ぶ', 'で', '職場')
('呼ぶ', 'で', '職場')
('だす', 'を', '掛け声')


  6%|▋         | 87/1386 [00:01<00:17, 76.01it/s]

('出す', 'が', '掛け声')
('あげる', 'を', '掛け声')
('上げる', 'で', '大声')
('好き', 'が', '御菓子')
('元気', 'が', '映画')


  8%|▊         | 105/1386 [00:01<00:15, 80.56it/s]

('飾る', 'に', '上')
('感ずる', 'が', '潮風')
('感じる', 'に', '肌')
('いる', 'が', '外食')
('着る', 'が', '普段')
('怖い', 'が', '由紀恵')
('美しい', 'が', '由紀恵')


  9%|▉         | 122/1386 [00:01<00:16, 75.46it/s]

('こだわる', 'に', 'フライパン')
('進む', 'が', '温暖化')
not registered V, C : 起こる で
('起こる', 'で', '世界')
('兼ねる', 'が', '池')


 10%|█         | 139/1386 [00:01<00:16, 77.02it/s]

('暑い', 'が', '暑い')
('飛ばす', 'を', '機')
('出来る', 'が', '西瓜')
('心配', 'が', '熱中症')
('動く', 'に', '左右')
('振る', 'に', '左右')


 11%|█▏        | 158/1386 [00:02<00:15, 78.73it/s]

('かっこいい', 'が', '汗')
not registered V, C : 答える が
('答える', 'が', '今')
('出る', 'で', 'それ')
('おいしい', 'が', 'メニュー')
('プレー', 'が', '人類')
('少ない', 'が', '確率')
('乗る', 'で', '内')


 13%|█▎        | 175/1386 [00:02<00:15, 77.11it/s]

('とれる', 'で', '英語')
('伺う', 'で', '所')
('読める', 'で', 'スマホ')
('いい', 'が', 'エネループ')
('うるさい', 'が', '選挙')
('開発', 'を', '種類')


 14%|█▍        | 192/1386 [00:02<00:15, 77.79it/s]

('少ない', 'が', '補給')
('取る', 'で', 'コンビニ')
('大切', 'が', '予防')
('こだわる', 'に', 'フライパン')
('出来上がる', 'が', '料理')
('つける', 'を', 'テレビ')
('大切', 'が', 'テレビ')
('つける', 'を', 'テレビ')
('有名', 'で', 'スイカ')


 16%|█▌        | 218/1386 [00:02<00:14, 80.29it/s]

('偏る', 'が', '食生活')
('おいしい', 'が', '炊き立て')


 18%|█▊        | 245/1386 [00:03<00:13, 82.97it/s]

('やめる', 'が', '夜')
('面白い', 'が', 'スイカ')
('クール', 'が', '見た目')
('有名', 'で', '小説')
('大好き', 'が', 'テレビ')


 19%|█▉        | 264/1386 [00:03<00:12, 86.49it/s]

('言う', 'で', '所')
('目指す', 'を', '健康美')
('そろう', 'が', '料理')
('有名', 'で', 'スイカ')
('食べる', 'が', '朝御飯')
('欠かせる', 'に', '料理')
('素晴らしい', 'が', '料理')
('素晴らしい', 'が', '料理')


 21%|██        | 285/1386 [00:03<00:13, 79.23it/s]

('嫌', 'が', '梅雨入り')
('不足', 'が', '湿度')
('する', 'が', '塩分')
('つける', 'に', '塩分')
('こだわる', 'に', 'フライパン')
('有名', 'で', 'スイカ')
('有名', 'で', 'スイカ')


 23%|██▎       | 313/1386 [00:04<00:13, 79.99it/s]

('美味しい', 'が', '尻尾')
('仕入れる', 'を', 'ねた')
('落ちる', 'が', '鮮度')
('続く', 'が', '楽しみ')
('有名', 'で', 'スイカ')


 24%|██▍       | 330/1386 [00:04<00:13, 78.56it/s]

('大切', 'で', '嗽')
('兼ねる', 'を', '予防')
('大切', 'で', '嗽')
('怠る', 'を', '予防')
('押す', 'が', '時')
('押す', 'が', '時')
not registered V, C : 重い で
('重い', 'で', '寝不足')
('痛い', 'で', '寝不足')
('使う', 'を', 'ID')


 25%|██▍       | 346/1386 [00:04<00:13, 76.21it/s]

('使える', 'が', '0')
('使える', 'で', 'iPhone')
('わかる', 'で', '逆子')
('求める', 'を', '恋人')
('重い', 'が', '恋人')
('持つ', 'を', '御土産')
not registered V, C : 検索 を
('検索', 'を', '足')


 26%|██▌       | 362/1386 [00:04<00:13, 73.20it/s]

('恋しい', 'が', '天気')
('怪しい', 'が', '天気')
('見せる', 'に', 'メロン')
('教える', 'で', '韓国語')


 27%|██▋       | 378/1386 [00:04<00:13, 72.99it/s]

('絞る', 'を', 'ポイント')
('有名', 'で', 'スイカ')


 28%|██▊       | 395/1386 [00:05<00:13, 72.98it/s]

not registered V, C : 検索 を
('検索', 'を', '物')
('増やせる', 'を', 'アクセス')
not registered V, C : 特殊 が
('特殊', 'が', '学校')
('安全', 'が', '学校')


 29%|██▉       | 403/1386 [00:05<00:15, 62.66it/s]

('愛す', 'に', '方々')
('訪れる', 'に', '旅行')
not registered V, C : 表現 が
('表現', 'が', '0')
not registered V, C : みつける に
('みつける', 'に', '夏')
('ない', 'で', 'サイドメニュー')
not registered V, C : 演ずる が
('演ずる', 'が', 'さん')
('出演', 'に', 'トトロ')


 30%|███       | 416/1386 [00:05<00:18, 51.30it/s]

('素晴らしい', 'が', '作品')
not registered V, C : 創設 が
('創設', 'が', '氏')
not registered V, C : 確認 で
('確認', 'で', 'アメリカ')
('待つ', 'が', '結末')


 30%|███       | 422/1386 [00:05<00:19, 50.48it/s]

('行う', 'が', 'boon')
('演じる', 'が', 'さん')
('検索', 'で', 'ダビンチ')
('載る', 'に', 'ちゃん')
('ある', 'が', '御店')
('有名', 'で', '沖縄')
('可愛らしい', 'が', '飴')


 31%|███       | 433/1386 [00:06<00:19, 48.34it/s]

not registered V, C : 健康的 で
('健康的', 'で', '沖縄')
('とれる', 'を', '野菜')
('選ぶ', 'を', '量')
('する', 'で', '金団')
not registered V, C : 披露 が
('披露', 'が', 'ロボットニットデニムブーツカットパンツ')
not registered V, C : 会話 が
('会話', 'が', '選手権')


 32%|███▏      | 443/1386 [00:06<00:21, 43.60it/s]

('計画', 'に', '月')
('買う', 'に', '御土産')
('行う', 'で', '館')
('発売', 'が', '大阪')
('大好き', 'が', 'チョコレートラテポッキーブレンド')
not registered V, C : 出演 が
('出演', 'が', 'さん')


 33%|███▎      | 453/1386 [00:06<00:22, 41.99it/s]

not registered V, C : 観戦 を
('観戦', 'を', '保険')
('買う', 'に', '御土産')
('ある', 'が', '御店')
('販売', 'で', '限定')


 33%|███▎      | 458/1386 [00:06<00:26, 35.48it/s]

not registered V, C : 提供 で
('提供', 'で', 'マラソン')
('広げる', 'で', '福岡市')
('所属', 'に', 'Microsoft')
('調べる', 'に', 'ニュース')


 34%|███▍      | 472/1386 [00:07<00:23, 38.59it/s]

('挙げる', 'が', 'さん')
('存在', 'に', '街')
('使う', 'が', '石鹸')
('考える', 'が', '姿')
not registered V, C : リリース が
('リリース', 'が', '会社')
('贈る', 'に', '人')


 35%|███▍      | 481/1386 [00:07<00:22, 40.58it/s]

('当選', 'が', 'レプリカ')
('指導', 'で', '女房')
not registered V, C : 提案 が
('提案', 'が', 'さん')
('召し上がる', 'を', 'さん')
('連載', 'が', '保険')


 35%|███▌      | 491/1386 [00:07<00:21, 41.04it/s]

('開催', 'で', 'アルゼンチン')
not registered V, C : 当選 で
('当選', 'で', '大会')
not registered V, C : 提供 が
('提供', 'が', 'Yahoo!')
not registered V, C : 進化 で
('進化', 'で', 'こと')
not registered V, C : 利用 で
('利用', 'で', '問題')
('食べる', 'を', 'リング')
not registered V, C : 出演 が
('出演', 'が', '以前')


 36%|███▌      | 496/1386 [00:07<00:22, 40.33it/s]

('利用', 'を', '熱')
('視聴', 'で', '番組')
('行う', 'で', '街')
('迎える', 'が', 'さん')
('発売', 'を', 'ランドセル')


 37%|███▋      | 506/1386 [00:07<00:21, 41.19it/s]

('発売', 'が', 'ベニマル')
not registered V, C : 利用 で
('利用', 'で', 'ベニマル')
('提供', 'を', '商品')
('選ぶ', 'に', '首位')
('行く', 'が', '以北')


 37%|███▋      | 518/1386 [00:08<00:18, 46.86it/s]

('ない', 'に', '北')
('組む', 'が', 'さん')
('大きい', 'が', 'ケーキ')
('放送', 'が', '回')
('放送', 'が', '回')
not registered V, C : 放送 で
('放送', 'で', 'NHK')
('みる', 'を', '特集番組')
('する', 'が', '結弦')


 38%|███▊      | 529/1386 [00:08<00:18, 45.97it/s]

('応援', 'を', '元気')
('楽しめる', 'が', 'パン')
('焼く', 'で', 'デギュスタシオン')
('掛ける', 'が', 'デリ')
('泊まる', 'に', '年末年始')
not registered V, C : マッチ に
('マッチ', 'に', '場合')


 39%|███▉      | 539/1386 [00:08<00:19, 43.56it/s]

('試す', 'を', 'スパイス')
not registered V, C : 出演 が
('出演', 'が', '日清')
('好き', 'で', 'ラーメン')


 40%|███▉      | 549/1386 [00:08<00:20, 41.31it/s]

('復帰', 'が', '投手')
('思う', 'に', '復帰')
('選ぶ', 'が', '選手')
('開催', 'で', '日')
('走る', 'で', '道路')
('開発', 'が', 'ベンチャー企業')
('出る', 'が', '雰囲気')
('売る', 'が', 'コロッケ')


 40%|████      | 559/1386 [00:09<00:20, 40.59it/s]

('調査', 'が', 'ジャニーズ')
('卒業', 'が', 'さん')
('踊る', 'が', '忘年会')
('なくなる', 'が', '機会')
('購入', 'で', 'イレブン')
('売る', 'で', 'イレブン')
('利用', 'を', 'コピー機')


 41%|████      | 569/1386 [00:09<00:20, 40.37it/s]

('買う', 'が', '中')
('嬉しい', 'が', '組み合わせ')
not registered V, C : 登場 に
('登場', 'に', 'ドラマ')
('販売', 'が', '店')
('販売', 'が', '四季')
('歌う', 'で', '途中')
('誘う', 'を', '蝦煎')
('なる', 'が', '蝦煎')


 42%|████▏     | 579/1386 [00:09<00:19, 41.57it/s]

('見る', 'が', 'オーレ')
('好き', 'が', '海豹')
('泳ぐ', 'を', '水槽')
('見せる', 'が', '動物園')
not registered V, C : 展開 に
('展開', 'に', '中心')
not registered V, C : 展開 に
('展開', 'に', '県')


 42%|████▏     | 589/1386 [00:09<00:19, 41.10it/s]

('使う', 'を', '料理器具')
('増える', 'で', '内')
('かかる', 'で', '車')
not registered V, C : 購入 に
('購入', 'に', '以前')
not registered V, C : 購入 に
('購入', 'に', '以前')
('終える', 'が', '選手')
('ある', 'が', '御店')
('温める', 'を', 'スライスチーズ')
('似る', 'が', 'ソフト')


 43%|████▎     | 599/1386 [00:10<00:19, 40.78it/s]

('濃厚', 'が', '味')
('合わせる', 'を', 'ソフトクリーム')
not registered V, C : 発売 で
('発売', 'で', 'ミニストップ')
('集める', 'が', '選手')
not registered V, C : 受賞 で
('受賞', 'で', '人')


 44%|████▍     | 609/1386 [00:10<00:19, 40.82it/s]

('取る', 'が', '戦')
('届ける', 'を', '球')
('貢献', 'に', '1')
('出現', 'が', '御家')
('集まる', 'が', 'メンバー')
('きつい', 'で', '味')
('復帰', 'に', '野球')
not registered V, C : 観戦 を
('観戦', 'を', '賞')
not registered V, C : 開催 に
('開催', 'に', '年')


 45%|████▍     | 619/1386 [00:10<00:17, 43.42it/s]

('浸透', 'が', '話題')
('開催', 'が', '日本中央競馬会')
('利用', 'を', 'マニア')
('下がる', 'が', '人気')
('抑える', 'を', 'oriconstyle')
('ノミネート', 'に', 'ゴーシーク')


 45%|████▌     | 624/1386 [00:10<00:18, 40.51it/s]

not registered V, C : 出場 で
('出場', 'で', '枠')
not registered V, C : 盛り上げる が
('盛り上げる', 'が', 'ゲスト')
not registered V, C : 優勝 が
('優勝', 'が', '代表')
('期待', 'に', '選手')
('無理', 'が', '優勝')
not registered V, C : 進化 で
('進化', 'で', 'こと')


 46%|████▌     | 635/1386 [00:10<00:18, 40.29it/s]

('つける', 'で', 'リーグ')
('販売', 'が', '保険')
('販売', 'で', '宇治')
('選ぶ', 'で', 'キティー')
('販売', 'が', '雲月')
('販売', 'が', '雲月')


 46%|████▋     | 644/1386 [00:11<00:19, 37.77it/s]

('決まる', 'が', '位')
('演ずる', 'を', '役')
('決める', 'を', '位')
not registered V, C : 放送 で
('放送', 'で', '喜劇')
not registered V, C : 出演 が
('出演', 'が', 'さん')
('行く', 'が', 'クリスマス')
('応募', 'に', '侭')


 47%|████▋     | 653/1386 [00:11<00:18, 38.85it/s]

('食べる', 'に', '解釈')
('参加', 'に', 'ループ')
not registered V, C : 発売 に
('発売', 'に', '日')
('カバー', 'を', '楽曲')
('参加', 'に', '道')
not registered V, C : 受賞 が
('受賞', 'が', 'さん')
('所属', 'が', '選手')
not registered V, C : 盛り上げる に
('盛り上げる', 'に', '投手')
('復帰', 'が', '投手')


 48%|████▊     | 663/1386 [00:11<00:17, 41.32it/s]

('抜ける', 'が', '投手')
('応援', 'で', '東北楽天ゴールデンイーグルス')
('迎える', 'が', 'ミステリー')
('外せる', 'が', '御店')
('わかる', 'が', '大きさ')
not registered V, C : 購入 に
('購入', 'に', '時')


 49%|████▊     | 673/1386 [00:11<00:17, 41.78it/s]

('売る', 'が', 'アイスクリーム')
('開催', 'で', '神戸')
not registered V, C : 渡る に
('渡る', 'に', 'ドイツ')
('似る', 'が', 'パン')
('取る', 'が', '戦')
('入る', 'で', '中')
('行う', 'に', '冬')


 50%|████▉     | 688/1386 [00:12<00:15, 45.41it/s]

('食べる', 'で', 'カウンター')
('見る', 'で', 'ビール')
('見る', 'を', '海豹')
('ハマる', 'が', 'さん')
('ある', 'が', 'ココロココ')


 50%|█████     | 698/1386 [00:12<00:16, 41.26it/s]

('載せる', 'で', 'ココロココ')
('連れる', 'に', 'センター')
('思い出す', 'で', '中止')


 51%|█████     | 708/1386 [00:12<00:15, 44.52it/s]

not registered V, C : 宣伝 が
('宣伝', 'が', 'パン')
('ある', 'が', '重量感')
not registered V, C : 始まる で
('始まる', 'で', '元気')
('元気', 'が', '受け取り')


 52%|█████▏    | 718/1386 [00:12<00:14, 44.68it/s]

('見つける', 'で', 'ブラジル')
('獲る', 'が', '選手')
('購入', 'を', '音楽')
('買う', 'で', '島歌')


 53%|█████▎    | 728/1386 [00:13<00:15, 41.16it/s]

('出場', 'に', '島歌')
('選ぶ', 'で', 'ガーデン')
('やる', 'を', 'けり')
not registered V, C : 栄える で
('栄える', 'で', '町')


 53%|█████▎    | 733/1386 [00:13<00:15, 41.83it/s]

not registered V, C : 放送 で
('放送', 'で', 'フジテレビ')
not registered V, C : 放送 に
('放送', 'に', '火曜日')
not registered V, C : 放送 で
('放送', 'で', '系列')
('見つける', 'を', 'パンチ')
not registered V, C : 出場 で
('出場', 'で', 'フィギュアスケート')


 54%|█████▍    | 748/1386 [00:13<00:14, 42.57it/s]

('挙げる', 'に', '候補')
('整える', 'に', '教訓')
not registered V, C : プレー で
('プレー', 'で', '世界')
('有名', 'に', '他')
('行う', 'が', 'さん')
('アップロード', 'が', 'YouTube')


 54%|█████▍    | 754/1386 [00:13<00:13, 45.63it/s]

('受ける', 'に', 'さん')
('歌う', 'が', 'さん')
('発売', 'が', 'ツイッター')
('発売', 'が', '株式会社')
('好き', 'で', '曲')
not registered V, C : 出場 が
('出場', 'が', 'スターズ')
('する', 'で', '活躍')
('出る', 'が', '地名')


 55%|█████▌    | 765/1386 [00:14<00:13, 47.58it/s]

('好き', 'で', 'FC')
('貢献', 'が', '投手')
('致命傷', 'が', '怪我')
('出る', 'で', '日本人')
('考える', 'で', 'さび')


 56%|█████▌    | 771/1386 [00:14<00:12, 48.81it/s]

not registered V, C : 果たす に
('果たす', 'に', '後')


 56%|█████▋    | 781/1386 [00:14<00:18, 33.52it/s]

not registered V, C : 発売 に
('発売', 'に', '日')
('出演', 'に', 'コーナー')
('踊る', 'に', '人')
('チェック', 'が', 'ブログ')
not registered V, C : 提案 が
('提案', 'が', 'さん')
('指導', 'で', 'イチ')
not registered V, C : 得る が
('得る', 'が', '選手')


 57%|█████▋    | 791/1386 [00:14<00:15, 37.53it/s]

('とれる', 'が', '0')
('やる', 'で', '年齢')
('有利', 'が', '大阪')
('使う', 'を', '資金')
('出す', 'に', '年')
('アレンジ', 'を', 'マッサマンカレー')


 58%|█████▊    | 801/1386 [00:15<00:14, 39.26it/s]

('始める', 'を', '磐梯')
('出演', 'に', '番組')
('勝つ', 'が', 'さん')
not registered V, C : 予定 が
('予定', 'が', '朝日')
('発売', 'が', 'さん')
('行う', 'で', 'ループ')
('カバー', 'が', 'アーチスト')


 59%|█████▊    | 811/1386 [00:15<00:13, 42.96it/s]

('使う', 'を', 'かき')
not registered V, C : 放送 で
('放送', 'で', 'ホールディングス')
not registered V, C : 貫く で
('貫く', 'で', '時')
not registered V, C : 出演 が
('出演', 'が', 'さん')
('参加', 'に', 'beta')
('参加', 'に', 'くま')


 59%|█████▉    | 821/1386 [00:15<00:14, 39.04it/s]

('カバー', 'を', '楽曲')
('歌う', 'が', 'さん')
not registered V, C : 割る に
('割る', 'に', '時')
('プレゼント', 'に', '視聴者')
not registered V, C : 演じる で
('演じる', 'で', '俳優')
('夢中', 'に', '時')


 60%|██████    | 838/1386 [00:15<00:11, 46.35it/s]

('大人気', 'が', '最近')
('購入', 'を', '菓子')
('感心', 'が', '人')
('トッピング', 'に', '卵')
('食べる', 'を', '蝦煎')


 61%|██████    | 848/1386 [00:16<00:12, 42.20it/s]

not registered V, C : 当選 で
('当選', 'で', '大会')
('販売', 'が', 'コロッケ')
not registered V, C : 出店 に
('出店', 'に', 'モール')
('広がる', 'が', '技術')
not registered V, C : 注目 で
('注目', 'で', '最近')
('結ぶ', 'が', '人気')


 62%|██████▏   | 859/1386 [00:16<00:11, 44.74it/s]

not registered V, C : 活躍 に
('活躍', 'に', '早々')
not registered V, C : 優勝 が
('優勝', 'が', '次回')
('いる', 'が', '上着')
('販売', 'が', 'わたし')
('出る', 'が', 'ファミリーマート')
('有名', 'で', '肉饅')
('見る', 'を', 'ココロココ')


 63%|██████▎   | 871/1386 [00:16<00:11, 46.39it/s]

('当たり前', 'で', '病院')
('する', 'が', '啓江')
('応援', 'を', 'letao')
('開発', 'が', '男性')
('楽しめる', 'に', 'ベース')
('読む', 'を', 'カンタビ')


 64%|██████▎   | 881/1386 [00:16<00:11, 44.99it/s]

('経験', 'を', 'ボランティア')
('始める', 'を', '御嶽山')
('書く', 'が', 'さん')
not registered V, C : 拡大 が
('拡大', 'が', 'テレビ東京')


 64%|██████▍   | 892/1386 [00:17<00:10, 46.17it/s]

('書く', 'が', 'さん')
('見る', 'で', '他')
('直撃', 'が', '監督')
('見る', 'で', '他')
('訪れる', 'に', '時期')
('行う', 'で', '王国')
('浸透', 'が', '乃逢')


 65%|██████▌   | 903/1386 [00:17<00:10, 47.67it/s]

('観る', 'に', '他')
not registered V, C : 放送 で
('放送', 'で', 'ハリウッド')
('絡む', 'に', '蒟蒻')
('休む', 'が', 'さん')
('ござる', 'に', '所')


 66%|██████▌   | 916/1386 [00:17<00:09, 50.07it/s]

('かかる', 'が', 'トッピング')
('開催', 'で', '京都')
('できる', 'で', '店頭')
not registered V, C : 提案 が
('提案', 'が', '私')
('知り合う', 'で', 'バー')
('好き', 'で', 'ハンバーガー')


 67%|██████▋   | 928/1386 [00:17<00:10, 44.16it/s]

('遠のく', 'が', '足')
('ランクイン', 'で', 'ランキング')
('素晴らしい', 'が', '歌')
not registered V, C : 恋 で
('恋', 'で', '番組')
('ある', 'に', '0')


 68%|██████▊   | 941/1386 [00:18<00:08, 52.64it/s]

('取得', 'が', '太一')
('くつろぐ', 'で', '部屋')
not registered V, C : 普及 で
('普及', 'で', '日本')
('消える', 'で', '代')


 69%|██████▉   | 955/1386 [00:18<00:07, 58.90it/s]

('なる', 'で', 'バイト')
('言う', 'を', 'スープ')
not registered V, C : 渡る に
('渡る', 'に', '四国')
('下がる', 'が', '年齢')


 70%|██████▉   | 970/1386 [00:18<00:06, 64.09it/s]

('ある', 'で', '名前')
not registered V, C : ドライブ で
('ドライブ', 'で', '一人')
not registered V, C : 描ける で
('描ける', 'で', 'どこ')
('無い', 'が', '円')


 72%|███████▏  | 1001/1386 [00:18<00:05, 69.41it/s]

('使う', 'を', 'スマホ')
('高い', 'が', '冬服')
('いい', 'で', 'どっち')
('みる', 'が', '天気予報')


 73%|███████▎  | 1017/1386 [00:19<00:05, 72.84it/s]

('受ける', 'を', '誤解')
('使える', 'で', 'デジカメ')
('ある', 'で', '名前')
('整理', 'が', '上')


 75%|███████▍  | 1033/1386 [00:19<00:05, 64.97it/s]

('大事', 'で', 'こと')
('進む', 'に', '頃')
('怪しい', 'が', '週間')


 76%|███████▌  | 1047/1386 [00:19<00:05, 62.18it/s]

('出せる', 'で', 'それ')
('呼ぶ', 'を', 'N')
('違う', 'が', '本')
not registered V, C : 弾く に
('弾く', 'に', '他')
('なる', 'に', 'お出掛け')
('なる', 'に', 'やみつく')


 77%|███████▋  | 1061/1386 [00:19<00:04, 65.26it/s]

('聴く', 'を', 'ジャンル')
('正しい', 'が', '番組')
('おいしい', 'に', '割')
('整理', 'が', '上')


 78%|███████▊  | 1077/1386 [00:20<00:04, 70.71it/s]

not registered V, C : 設定 が
('設定', 'が', '目的地')
('撮る', 'を', '枚')
('思う', 'に', '最後')
('撮る', 'を', '枚')


 79%|███████▉  | 1101/1386 [00:20<00:04, 70.73it/s]

not registered V, C : 特殊 が
('特殊', 'が', '時')
('下手', 'が', '方')
('ひどい', 'が', '記')


 81%|████████  | 1118/1386 [00:20<00:03, 69.62it/s]

('無い', 'が', '仕様')
('描く', 'が', '角度')
('気づく', 'で', '御陰')
('きく', 'が', 'クーラー')
('整理', 'が', '上')
('確保', 'が', '踏み場')


 81%|████████▏ | 1127/1386 [00:20<00:03, 73.42it/s]

not registered V, C : もりあがる が
('もりあがる', 'が', '冬')
('なくなる', 'が', '余裕')
('のる', 'が', 'ハンバーグ')
('整理', 'が', '上')


 83%|████████▎ | 1144/1386 [00:20<00:03, 73.87it/s]

('利用', 'が', '目覚まし')
('買い物', 'で', '携帯')


 84%|████████▍ | 1161/1386 [00:21<00:02, 77.05it/s]

('整理', 'が', '上')


 85%|████████▌ | 1180/1386 [00:21<00:02, 78.59it/s]

('もつ', 'を', 'CD')
('組む', 'で', '何人')
('駄目', 'が', 'プール')


 86%|████████▋ | 1198/1386 [00:21<00:02, 80.89it/s]

('好き', 'が', '玄米茶')
('なる', 'に', '猫好き')
('入る', 'が', 'ペペロンチーノ')
('食べる', 'に', '度')
('済む', 'で', '麺類')


 88%|████████▊ | 1225/1386 [00:21<00:01, 82.78it/s]

('食べる', 'で', '室')
('整理', 'が', '上')
('向かう', 'に', '南')


 89%|████████▉ | 1234/1386 [00:22<00:01, 82.78it/s]

('高い', 'が', '冬服')
('ある', 'が', 'あんなん')
('買う', 'に', '前')
('すむ', 'で', '情報')
('分かる', 'が', '頭')


 91%|█████████ | 1259/1386 [00:22<00:01, 70.24it/s]

('観る', 'で', 'それ')
('残す', 'に', '人類')
('必要', 'が', 'クラブ')
('飲める', 'で', '何')


 92%|█████████▏| 1275/1386 [00:22<00:01, 68.19it/s]

('いく', 'に', '平日')
('乗る', 'に', '流れ星')
('足りる', 'が', '自覚')
('買う', 'に', '御店')
('必要', 'が', 'それ')
('重要', 'が', 'こと')
not registered V, C : 浸る が
('浸る', 'が', '鶏肉')


 94%|█████████▎| 1297/1386 [00:23<00:01, 70.44it/s]

('食える', 'が', 'ボール')
('出す', 'に', '一気')
not registered V, C : 休める に
('休める', 'に', '絶対')
('長い', 'が', '回')
('まわる', 'に', '時')


 95%|█████████▍| 1312/1386 [00:23<00:01, 67.63it/s]

('通う', 'が', 'そちら')
('同じ', 'で', '－')
('勉強', 'に', '株式')
('好き', 'が', 'ピンク')


 96%|█████████▋| 1335/1386 [00:23<00:00, 70.77it/s]

('取れる', 'が', '身動き')
('好き', 'が', '玄米茶')
('見る', 'を', 'アイアムレジェンド')
('使いこなせる', 'で', '感じ')
('利用', 'を', 'サイト')


 97%|█████████▋| 1351/1386 [00:23<00:00, 71.28it/s]

('不便', 'が', '手汗')
('作り置き', 'が', '具')
('高い', 'が', '冬服')


 98%|█████████▊| 1359/1386 [00:23<00:00, 61.96it/s]

('撮る', 'で', 'デジカメ')
('育つ', 'で', 'さん')
('小さい', 'が', 'デジカメ')


 99%|█████████▉| 1373/1386 [00:24<00:00, 63.68it/s]

('整理', 'が', '上')
('確保', 'が', '踏み場')
('整理', 'が', '上')
('確保', 'が', '踏み場')
('みかける', 'で', '図書館')


100%|██████████| 1386/1386 [00:24<00:00, 56.88it/s]

('現れる', 'が', '飛行機')





In [106]:
score(y, y_pred)

confusion matrix = 
 [[848 530]
 [  5   3]]
accuracy =  0.613997113997114
precision =  0.005628517823639775
recall =  0.375
f1 score =  0.011090573012939003


In [107]:
word = "一人"
print("group "+classify_word(word))
print(word in w2v_model)

group <ヒト（数）>
True


In [108]:
case_frame["ドライブ"]

{'を': {'<場所>', '<状況>', '四国', '景色'},
 'に': {'<ヒト（役割）>', '<場所>', 'バック', '気晴らし', '温泉'},
 'が': {'<位置>', '<太陽>', '<時期>', '<時間（単位）>', '前', '日'}}

- 学習データのみでやってみた

        confusion matrix = 
        [[716 662]
        [  1   7]]
        accuracy =  0.5216450216450217
        precision =  0.01046337817638266
        recall =  0.875
        f1 score =  0.020679468242245203

    - 再現率は良い！

In [109]:
def judge_triple(triple):
    V = triple[0]
    C = triple[1]
    noun = triple[2]

    # Vが登録されていないならパスしておくかな(一旦)
    if V not in case_frame:
        # print("not registered V :", V)
        return True
    
    # C が登録されていないなら，アウト
    if C not in case_frame[V]:
        # print("not registered V, C :", V, C)
        return False
    
    # そのままの名詞で検索 -> 発見なら正例
    if search_triple(V, C, noun):
        # print("\tfound", V, C, noun)
        return True

    # 名詞がどこかのグループに属する
    group_ = search_word(noun)
    if len(group_) > 0:
        # 1つでも引っかかればOK
        for group in group_:
            if search_triple(V, C, group):
                return True
        return False
    # グループを推定
    else:
        group = classify_word(noun) 
        return search_triple(V, C, group)

In [110]:
for t, p, utt in zip(y, y_pred, sys_utt):
    if t==1:
        print(utt)
        triples = extract_RDF_triple(utt)
        for triple in triples:
            print(triple)
            print( judge_triple(triple) )
        print("--------")

元気ですかは元気です
--------
好きだを見ますよねー
('見る', 'を', '好き')
False
--------
病院は治療を受けましょう
('受ける', 'が', '病院')
False
('受ける', 'を', '治療')
True
--------
好きだは好きですか。お寿司はエンガワが好きですね
('好き', 'が', '縁側')
True
--------
時期から資格を取りますねぇ
('取る', 'を', '資格')
True
--------
手を貯金に出しますねぇ
('出す', 'を', '手')
True
('出す', 'に', '貯金')
True
--------
ところで、テレビでテレビあるって言ってましたが、テレビは民主党支持が多いですね
('ある', 'で', 'テレビ')
True
('言う', 'で', '所')
False
('多い', 'が', '支持')
True
--------
旬ですねぇ。自分もオリンピック書いたし。
--------
