In [1]:
import json
import os
import pandas as pd
import numpy as np
from pathlib import Path
import collections
from sklearn.model_selection import train_test_split
from sklearn import metrics

import sys
sys.path.append("../")
from datatools.analyzer import *
from utterance.error_tools import *

from datatools.maneger import DataManager
from datatools.preproc import Preprocessor

In [2]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.nn.modules import loss
import torch.optim as optim

In [3]:
class CaseModel(nn.Module):
    def __init__(self, embedding_dim, tagset_size):
        # 親クラスのコンストラクタ。決まり文句
        super(CaseModel, self).__init__()    
        self.embedding_dim = embedding_dim
        self.hid1= embedding_dim*2
        self.hid2 = embedding_dim//2
        self.fc1 = nn.Linear(self.embedding_dim, self.hid1)
        self.fc2 = nn.Linear(self.hid1, self.hid2)
        self.hidden2tag = nn.Linear(self.hid2, tagset_size)
    
    def forward(self, x):
        y = F.relu(self.fc1(x))
        y = F.relu(self.fc2(y))
        y = self.hidden2tag( y )
        y = F.log_softmax(y, dim=1)
        return y

In [4]:
border=0.8

In [5]:
dict_path = "../models/utterance/"
dict_name = "group_border={0}_2.pickle".format(border)
dictM = DataManager(dict_path)
group_dict = dictM.load_data(dict_name)

success load : ../models/utterance/group_border=0.8_2.pickle


In [6]:
def search_word(word):
    word = clean_text(word)
    found_list = []
    for group_key in group_dict.keys():
        if word in group_dict[group_key]:
            found_list.append(group_key)
    return found_list

In [7]:
from gensim.models import KeyedVectors
w2v_path = "../../corpus/w2v/"
# fasttext
# https://qiita.com/Hironsan/items/513b9f93752ecee9e670
# w2v_name =  "dep-ja-300dim"
w2v_name =  "model.vec"
w2v_model = KeyedVectors.load_word2vec_format(w2v_path+w2v_name)

[5437] 2022-01-12 19:40:18,335 Info gensim.models.keyedvectors :loading projection weights from ../../corpus/w2v/model.vec
[5437] 2022-01-12 19:41:19,089 Info gensim.utils :KeyedVectors lifecycle event {'msg': 'loaded (351122, 300) matrix of type float32 from ../../corpus/w2v/model.vec', 'binary': False, 'encoding': 'utf8', 'datetime': '2022-01-12T19:41:19.088960', 'gensim': '4.0.1', 'python': '3.6.9 (default, Jan 26 2021, 15:33:00) \n[GCC 8.4.0]', 'platform': 'Linux-5.4.72-microsoft-standard-WSL2-x86_64-with-Ubuntu-18.04-bionic', 'event': 'load_word2vec_format'}


In [8]:
group2index = dict(zip( group_dict.keys(), range(len(group_dict.keys())) ))
index2group = dict(zip(range(len(group_dict.keys())), group_dict.keys() ))

In [9]:
model_path = "../models/utterance/"
model_name = "case_frame_{0}_2.pickle".format(border)
modelM = DataManager(model_path)
cmodel = modelM.load_data(model_name)

success load : ../models/utterance/case_frame_0.8_2.pickle


In [10]:
classify_border=0.75
def classify_word(word, mode="judge"):
    # word = clean_text(word)
    if word not in w2v_model:
        return ""
    with torch.no_grad():
        vector = torch.tensor([w2v_model[word]]).cuda()
        pred = np.exp(np.array(cmodel(vector).cpu()))
        p_argmax = pred.argmax()
        # print(pred[0][p_argmax])
        if mode=="register":
            if pred[0][p_argmax] < classify_border:
                return ""
    return index2group[p_argmax]

In [11]:
word =  "デジカメ"
classify_word(word)

'<もの>'

In [12]:
def register_triple(case_frame:dict, V, C, Noun):
    # 動詞の確認
    if V not in case_frame:
        case_frame[V] = dict()

    # 格の確認
    if C not in case_frame[V]:
        case_frame[V][C] = set()
    
    # 名詞の登録
    case_frame[V][C].add(Noun)

In [13]:
def compound_noun(token):
    base = token.lemma_
    for child in token.children:
        if child.dep_ == "compound":
           base = child.lemma_ + base
    return base

In [14]:
case_set = set("は　が　を　に　で")

def extract_RDF_triple(text, clean_=True):
    if clean_:
        text = clean_text(text)
    doc = nlp(text)
    triple_list = []
    for _, token in enumerate( doc ):
        if token.pos_ in ["VERB", "ADJ"]:
        # if token.pos_=="VERB":
        # if is_declinable(token):
            for c in token.children:
                if c.dep_ in ["nsubj", "obj", "obl"]:
                    noun = c.lemma_
                    for c2 in c.children:
                        if c2.dep_ == "case" and c2.orth_ in case_set:
                        # if c2.dep_ == "case":
                            case = c2.orth_
                            if case == "は":
                                case = "が"
                            triple_list.append( (token.lemma_, case, noun) )
    return triple_list

In [15]:
path = "../hand_labeled/"
datalist = ['DCM', 'DIT', 'IRS']
convs = read_conv(path, datalist)

In [16]:
error = "Semantic error"
sys_utt = []
y = []
for conv in convs:
    for ut in conv:
        # if ut.is_system() and ut.is_exist_error():
        if not ut.is_exist_error():
            sys_utt.append(ut.utt)
            if ut.is_error_included(error):
                y.append(1)
            else:
                y.append(0)

In [17]:
# with open("../../corpus/NTT/persona.json", "r", encoding="utf-8") as f:
#     convs = json.load(f)
# all_utt = []
# for did in tqdm( convs["convs"] ) :
#     dids = list( did.keys() )[0]
#     all_utt += did[dids]

In [18]:
# all_utt = sys_utt + all_utt
# len(all_utt)

In [19]:
def read_file(filename, batch_size=10000) -> list:
    f = open(filename, 'r', encoding='UTF-8')
    text_list = [  ]
    concated = ""
    for i, line in enumerate( f.readlines() ):
        concated += line.rstrip('\n')
        if (i+1) % batch_size == 0:
            text_list.append(concated)
            concated = ""
    text_list.append(concated)
    f.close()
    return text_list

In [22]:
filename = "../../corpus/wiki/wiki_normalized.txt"
filename = "../../corpus/wiki/wiki_40b_train_normal.txt"
# filename = "plain.txt"
all_list = read_file(filename, batch_size=100)
print("len of text_list :", len(all_list))

len of text_list : 18674


In [30]:
all_utt = all_list[::10]

In [31]:
case_frame = dict()

In [32]:
18674/6/60

51.87222222222223

In [33]:

for utt in tqdm( all_utt ):
    is_valid = True

    triples = extract_RDF_triple(utt, clean_=False)
    if len(triples)>0:
        for triple in triples:
            V = triple[0]
            C = triple[1]
            noun = triple[2]
            group_ = search_word(noun)
            if len(group_) > 0:
                for group in group_:
                    register_triple(case_frame, V, C, group)
            else:
                group = classify_word(noun, mode="register")
                # ないなら登録するな
                if group != "":
                    register_triple(case_frame, V, C, group)

            register_triple(case_frame, V, C, noun)


100%|██████████| 1868/1868 [4:35:40<00:00,  8.85s/it]  


In [34]:
case_frame_name = "case_frame_wiki40B_border={}.pickle".format(classify_border)
data_path = "../X_y_data/utterance/"

In [35]:
dataM = DataManager(data_path)
dataM.save_data(case_frame_name, case_frame)

success save : ../X_y_data/utterance/case_frame_wiki40B_border=0.75.pickle


In [36]:
dataM = DataManager(data_path)
case_frame = dataM.load_data(case_frame_name)

success load : ../X_y_data/utterance/case_frame_wiki40B_border=0.75.pickle


In [37]:
def search_triple(V, C, N):
    if N in case_frame[V][C]:
        return True
    else:
        return False

# True : 用法は問題ない
# False : 問題あり
def judge_triple(triple):
    V = triple[0]
    C = triple[1]
    noun = triple[2]

    # Vが登録されていないならパスしておくかな(一旦)
    if V not in case_frame:
        # print("not registered V :", V)
        return True
    
    # C が登録されていないなら，アウト
    if C not in case_frame[V]:
        print("not registered V, C :", V, C)
        return False
    
    # そのままの名詞で検索 -> 発見なら正例
    if search_triple(V, C, noun):
        return True

    # 名詞がどこかのグループに属する
    group_ = search_word(noun)
    if len(group_) > 0:
        # 1つでも引っかかればOK
        for group in group_:
            if search_triple(V, C, group):
                return True
        return False
    # グループを推定
    else:
        group = classify_word(noun) 
        return search_triple(V, C, group)

In [38]:
path = "../eval_labeled/"
datalist = ['DCM', 'DIT', 'IRS']
convs = read_conv(path, datalist)

error = "Semantic error"
sys_utt = []
y = []
for conv in convs:
    for ut in conv:
        if ut.is_system() and ut.is_exist_error():
            sys_utt.append(ut.utt)
            if ut.is_error_included(error):
                y.append(1)
            else:
                y.append(0)

In [39]:
y_pred = []
for utt in tqdm(sys_utt):
    is_valid = True

    triples = extract_RDF_triple(utt)
    for triple in triples:
        if not judge_triple(triple):
            print(triple)
            is_valid = False
            break
    if is_valid:
        y_pred.append(0)
    else:
        y_pred.append(1)

  0%|          | 0/1386 [00:00<?, ?it/s]

('生まれる', 'に', 'お兄さん')


  1%|          | 16/1386 [00:00<00:17, 77.84it/s]

('見る', 'を', '好き')


  3%|▎         | 35/1386 [00:00<00:16, 83.00it/s]

('ほしい', 'が', '帽子')
('大好き', 'が', '帽子')
('得意', 'が', 'クロール')
('泳ぐ', 'で', 'スイミング')
('楽しい', 'が', 'スイミング')


  4%|▍         | 60/1386 [00:00<00:18, 73.14it/s]

('演奏', 'で', '御自分')
('とれる', 'で', '言葉')
('えらぶ', 'を', '服')
('好き', 'が', '縁側')


  6%|▌         | 85/1386 [00:01<00:16, 77.93it/s]

('好き', 'が', '御菓子')
('元気', 'が', '映画')


  8%|▊         | 112/1386 [00:01<00:16, 78.21it/s]

('いる', 'が', '外食')
('怖い', 'が', '由紀恵')
('美しい', 'が', '由紀恵')
('平和', 'が', '南極')


  9%|▉         | 128/1386 [00:01<00:16, 77.85it/s]

not registered V, C : 笑い で
('笑い', 'で', '付き')
('暑い', 'が', '暑い')


 10%|█         | 144/1386 [00:01<00:16, 76.55it/s]

('心配', 'が', '熱中症')
('かっこいい', 'が', '汗')


 12%|█▏        | 169/1386 [00:02<00:16, 72.69it/s]

('おいしい', 'が', 'メニュー')
('伺う', 'で', '所')


 13%|█▎        | 185/1386 [00:02<00:16, 72.61it/s]

('読める', 'で', 'スマホ')
('いい', 'が', 'エネループ')
('好き', 'で', '所')
('うるさい', 'が', '選挙')
('ほしい', 'が', '自動販売機')


 15%|█▍        | 201/1386 [00:02<00:16, 70.48it/s]

('大切', 'が', 'テレビ')
('大好き', 'が', 'イタリア料理')
('有名', 'で', 'イタリア料理')


 16%|█▋        | 226/1386 [00:02<00:15, 74.46it/s]

('おいしい', 'が', '炊き立て')
('やめる', 'が', '夜')


 18%|█▊        | 243/1386 [00:03<00:15, 76.00it/s]

('面白い', 'が', 'スイカ')
not registered V, C : 清楚 が
('清楚', 'が', '見た目')
('大好き', 'が', 'テレビ')


 19%|█▉        | 261/1386 [00:03<00:13, 81.11it/s]

('いい', 'が', 'シャープ')
('目指す', 'を', '健康美')
('食べる', 'が', '朝御飯')


 22%|██▏       | 307/1386 [00:04<00:14, 75.80it/s]

('大好き', 'が', 'チョコレート')
('はまる', 'に', 'アイスクリーム')
('うまい', 'が', 'スイカ')
('美味しい', 'が', '尻尾')
('美味しい', 'が', 'ねた')
('仕入れる', 'を', 'ねた')


 24%|██▍       | 331/1386 [00:04<00:14, 71.87it/s]

('大切', 'で', '嗽')
('大切', 'で', '嗽')
('心掛ける', 'を', '予防')
('重い', 'で', '寝不足')
('痛い', 'で', '寝不足')


 25%|██▌       | 347/1386 [00:04<00:14, 72.10it/s]

('使える', 'で', 'ドコモ')
('わかる', 'で', '逆子')
not registered V, C : おもしろい に
('おもしろい', 'に', '本当')
('持つ', 'を', '御土産')
('検索', 'を', '足')


 26%|██▌       | 357/1386 [00:04<00:13, 77.26it/s]

('恋しい', 'が', '天気')
('怪しい', 'が', '天気')
('見せる', 'に', 'メロン')


 29%|██▊       | 397/1386 [00:05<00:13, 73.12it/s]

('可憐', 'が', '花言葉')
('特殊', 'が', '学校')
('安全', 'が', '学校')
('誕生', 'が', 'ななつ星')


 29%|██▉       | 405/1386 [00:05<00:15, 61.46it/s]

('大成功', 'が', '熊本県')
('みつける', 'に', '夏')


 30%|███       | 418/1386 [00:05<00:17, 54.59it/s]

('連覇', 'で', 'アメリカ')
('確認', 'が', '感染者')
('美味しい', 'に', '本当')
('行う', 'が', 'boon')
('引っ越す', 'が', '和平')


 31%|███       | 430/1386 [00:05<00:20, 47.38it/s]

('検索', 'で', 'ダビンチ')
('ある', 'が', '御店')
('コーティング', 'が', '食材')
('可愛らしい', 'が', '飴')
not registered V, C : 健康的 で
('健康的', 'で', '沖縄')
('想像', 'を', '味')
('する', 'で', '金団')


 32%|███▏      | 440/1386 [00:06<00:20, 45.68it/s]

('披露', 'が', 'ロボットニットデニムブーツカットパンツ')
('会話', 'が', '選手権')
('買う', 'に', '御土産')


 32%|███▏      | 450/1386 [00:06<00:21, 43.17it/s]

('大好き', 'が', 'チョコレートラテポッキーブレンド')
('転げ落ちる', 'に', '末')
('観戦', 'を', '保険')
('買う', 'に', '御土産')
('ある', 'が', '御店')


 33%|███▎      | 460/1386 [00:06<00:25, 36.39it/s]

('ささやく', 'に', '来年')
('提供', 'で', 'マラソン')


 34%|███▍      | 474/1386 [00:07<00:22, 39.81it/s]

('イメージ', 'が', '歴史')
('指導', 'で', '女房')
('見る', 'を', 'お節料理')


 35%|███▍      | 485/1386 [00:07<00:22, 40.01it/s]

('召し上がる', 'を', 'さん')
('添う', 'に', '地図')
('連載', 'が', '保険')


 36%|███▌      | 495/1386 [00:07<00:21, 41.73it/s]

('食べる', 'を', 'リング')
('視聴', 'が', '卵')
('革新', 'が', '理由')


 36%|███▋      | 504/1386 [00:07<00:22, 39.22it/s]

('好き', 'が', '天下一品')
('発売', 'が', 'ベニマル')
('利用', 'で', 'ベニマル')


 37%|███▋      | 514/1386 [00:08<00:20, 42.88it/s]

('食べる', 'を', '刺し身')
('驚愕', 'に', '寿司')
('みる', 'を', '特集番組')


 38%|███▊      | 527/1386 [00:08<00:17, 49.64it/s]

('する', 'が', '結弦')
('応援', 'を', '元気')
('焼く', 'で', 'デギュスタシオン')
('掛ける', 'が', 'デリ')
('泊まる', 'に', '年末年始')
('マッチ', 'に', '場合')


 39%|███▉      | 538/1386 [00:08<00:17, 49.54it/s]

('試す', 'を', 'スパイス')
('好き', 'で', 'ラーメン')


 40%|███▉      | 548/1386 [00:08<00:18, 45.37it/s]

('高まる', 'に', '今後')


 41%|████      | 563/1386 [00:09<00:20, 40.99it/s]

('踊る', 'を', 'クッキー')
('購入', 'で', 'イレブン')
('美味しい', 'が', 'スナック')
('利用', 'を', 'コピー機')


 41%|████▏     | 573/1386 [00:09<00:19, 41.97it/s]

('嬉しい', 'が', '組み合わせ')
('誘う', 'を', '蝦煎')
('なる', 'が', '蝦煎')


 42%|████▏     | 583/1386 [00:09<00:19, 40.51it/s]

('好き', 'が', '海豹')
('泳ぐ', 'を', '水槽')


 43%|████▎     | 594/1386 [00:09<00:18, 43.37it/s]

('使う', 'を', '料理器具')
('購入', 'で', 'グランプリ')
('ある', 'が', '御店')
('温める', 'を', 'スライスチーズ')
('食べる', 'を', '味')


 43%|████▎     | 599/1386 [00:09<00:19, 40.61it/s]

('見かける', 'で', '棚')
('コラボレーション', 'が', 'パステル')
('思い出す', 'で', 'ソフトクリーム')
('二人目', 'が', 'さん')


 44%|████▍     | 614/1386 [00:10<00:19, 39.40it/s]

('見る', 'を', '納豆')
('きつい', 'で', '味')
('観戦', 'を', '賞')
('登場', 'で', 'akiba')


 45%|████▌     | 624/1386 [00:10<00:19, 38.63it/s]

('抑える', 'を', 'oriconstyle')
('ノミネート', 'に', 'ゴーシーク')
('無理', 'が', '優勝')


 46%|████▌     | 633/1386 [00:10<00:19, 39.07it/s]

('勝ち進む', 'が', 'ヤマザキ')
('販売', 'が', '保険')
('選ぶ', 'で', 'キティー')
('販売', 'が', '雲月')
('販売', 'が', '雲月')


 46%|████▌     | 638/1386 [00:11<00:21, 35.59it/s]

('観覧', 'に', '君')


 47%|████▋     | 647/1386 [00:11<00:31, 23.21it/s]

('行く', 'が', 'クリスマス')
('食べる', 'に', '解釈')


 48%|████▊     | 659/1386 [00:11<00:23, 30.33it/s]

('活躍', 'で', '現時点')
('外せる', 'が', '御店')


 49%|████▊     | 674/1386 [00:12<00:18, 39.06it/s]

('施す', 'が', '漆塗り')
('アップ', 'に', '飛躍的')


 49%|████▉     | 686/1386 [00:12<00:15, 46.14it/s]

('多い', 'が', '御店')
('魅力的', 'が', '見る')
('ハマる', 'が', 'さん')
('好き', 'が', 'リング')
('おいしい', 'が', '方')
('ある', 'が', 'ココロココ')
('載せる', 'で', 'ココロココ')


 51%|█████     | 707/1386 [00:12<00:14, 46.07it/s]

('思い出す', 'で', '中止')
('宣伝', 'が', 'パン')
('始まる', 'で', '元気')
('元気', 'が', '受け取り')


 52%|█████▏    | 717/1386 [00:13<00:15, 44.14it/s]

('渡り歩く', 'が', '選手')
('見つける', 'で', 'ブラジル')
('獲る', 'で', '若い')
('ない', 'で', 'イングレス')


 53%|█████▎    | 728/1386 [00:13<00:14, 45.16it/s]

('買う', 'で', '島歌')
('出場', 'に', '島歌')


 53%|█████▎    | 739/1386 [00:13<00:14, 45.04it/s]

('する', 'を', 'manzai')
('買う', 'に', '御土産')
('出場', 'が', '今年')
('急上昇', 'が', '株')
('残念', 'で', 'こと')


 54%|█████▍    | 755/1386 [00:14<00:13, 48.24it/s]

('美味しい', 'に', '本当')
('アップロード', 'に', 'キャンデー')
('発売', 'を', 'tweetbot')


 55%|█████▌    | 766/1386 [00:14<00:12, 50.55it/s]

('破れる', 'で', 'ワールドカップ')
('好き', 'で', 'FC')
('致命傷', 'に', '投手')


 56%|█████▋    | 783/1386 [00:14<00:13, 45.15it/s]

('望ましい', 'で', 'カップ')
('指導', 'で', 'イチ')
('伸ばせる', 'で', '御陰')


 57%|█████▋    | 793/1386 [00:14<00:13, 43.45it/s]

('大事', 'が', '信用')
('アレンジ', 'を', 'マッサマンカレー')


 58%|█████▊    | 803/1386 [00:15<00:13, 42.45it/s]

('決める', 'に', '快挙')
('売り切れる', 'で', '人気')
('発売', 'を', '歌謡祭')


 59%|█████▊    | 814/1386 [00:15<00:12, 44.17it/s]

('歌う', 'が', 'フーズ')


 59%|█████▉    | 824/1386 [00:15<00:13, 40.40it/s]

('楽しめる', 'で', 'これ')
('見かける', 'を', 'エピソード')
('切り離す', 'を', '気持ち')


 60%|██████    | 836/1386 [00:15<00:11, 46.15it/s]

('食べる', 'を', '味')
('大人気', 'が', '最近')
('美味しい', 'に', '他')
('コーティング', 'に', 'ポテトチップス')
('トッピング', 'に', '卵')


 61%|██████    | 846/1386 [00:16<00:13, 40.27it/s]

('食べる', 'を', '蝦煎')
('つく', 'で', 'ブラジル')
('出店', 'が', '御店')


 62%|██████▏   | 861/1386 [00:16<00:12, 41.96it/s]

('優勝', 'が', '次回')
('施す', 'が', '漆塗り')
('有名', 'で', '肉饅')
('見る', 'を', 'ココロココ')


 63%|██████▎   | 873/1386 [00:16<00:11, 46.13it/s]

('する', 'が', '啓江')
('応援', 'を', 'letao')
('開発', 'を', '試作品')
('読む', 'を', 'カンタビ')


 64%|██████▍   | 890/1386 [00:17<00:10, 48.56it/s]

('実演', 'で', '番組')
('直撃', 'に', '今後')


 65%|██████▌   | 901/1386 [00:17<00:10, 48.49it/s]

('続出', 'が', 'リピーター')
('浸透', 'が', '乃逢')
('買う', 'で', 'パン')
('観る', 'に', '他')
('絡む', 'が', '蒟蒻')
('休む', 'が', '今日')


 66%|██████▌   | 913/1386 [00:17<00:09, 50.37it/s]

('ござる', 'に', '所')
('かかる', 'が', 'トッピング')


 67%|██████▋   | 925/1386 [00:17<00:09, 49.17it/s]

('またがる', 'が', '町作り')
('好き', 'で', 'ハンバーガー')
('シンプル', 'が', 'クッキー')
not registered V, C : 恋 で
('恋', 'で', '番組')


 67%|██████▋   | 935/1386 [00:18<00:09, 47.91it/s]

('実演', 'で', '番組')
('消える', 'で', '代')


 69%|██████▉   | 961/1386 [00:18<00:06, 68.28it/s]

('高い', 'が', '通行料金')


 71%|███████   | 985/1386 [00:18<00:05, 73.25it/s]

('汚れる', 'が', '部屋')


 73%|███████▎  | 1010/1386 [00:18<00:04, 78.97it/s]

('高い', 'が', '冬服')
('いい', 'で', 'どっち')
('おもしろい', 'が', '間')


 75%|███████▍  | 1034/1386 [00:19<00:04, 75.84it/s]

('整理', 'が', '上')
('怪しい', 'が', '週間')
('出せる', 'で', 'それ')


 76%|███████▌  | 1050/1386 [00:19<00:04, 73.00it/s]

('弾く', 'に', '他')
('なる', 'に', 'お出掛け')
('グッド', 'が', '今')
('うろつく', 'で', '大須')
('いける', 'に', '外')


 77%|███████▋  | 1066/1386 [00:19<00:04, 70.87it/s]

('おいしい', 'に', '割')
('食べる', 'を', 'なに')
('整理', 'が', '上')


 79%|███████▊  | 1091/1386 [00:20<00:04, 72.68it/s]

('撮る', 'を', '枚')
('撮る', 'を', '枚')
('特殊', 'が', '時')


 80%|███████▉  | 1107/1386 [00:20<00:04, 65.26it/s]

('苦手', 'が', '席')
('装備', 'を', 'かっぱ')
('気づく', 'で', '御陰')
('暑い', 'が', 'ここ')
('暑い', 'が', 'ここ')
('きく', 'が', 'クーラー')


 82%|████████▏ | 1132/1386 [00:20<00:03, 73.58it/s]

('整理', 'が', '上')
('確保', 'が', '踏み場')
('粘る', 'が', '和布蕪')
('のる', 'に', '上')


 83%|████████▎ | 1149/1386 [00:20<00:03, 76.42it/s]

('整理', 'が', '上')
('利用', 'が', '目覚まし')
('かわいそう', 'が', 'それ')
('買い物', 'で', '携帯')


 84%|████████▍ | 1167/1386 [00:21<00:02, 78.81it/s]

('整理', 'が', '上')


 85%|████████▌ | 1183/1386 [00:21<00:02, 77.26it/s]

('聞く', 'が', '本当')
('駄目', 'が', 'プール')


 87%|████████▋ | 1199/1386 [00:21<00:02, 78.08it/s]

('見習う', 'が', '所')
('好き', 'が', '玄米茶')
('かわいい', 'が', '犬')
('なる', 'に', '猫好き')
('入る', 'が', 'ペペロンチーノ')


 88%|████████▊ | 1226/1386 [00:21<00:01, 82.67it/s]

('好き', 'が', 'ダンク')
('整理', 'が', '上')


 89%|████████▉ | 1235/1386 [00:21<00:01, 80.42it/s]

('高い', 'が', '冬服')
('ある', 'が', 'あんなん')
('すむ', 'で', '情報')


 90%|█████████ | 1252/1386 [00:22<00:01, 70.26it/s]

('かっこいい', 'が', '人')
('観る', 'で', 'それ')


 91%|█████████▏| 1268/1386 [00:22<00:01, 68.82it/s]

('飲める', 'で', '何')
('いく', 'に', '平日')


 93%|█████████▎| 1284/1386 [00:22<00:01, 70.37it/s]

('買う', 'に', '御店')
('羨ましい', 'が', '人')
('ゆでる', 'で', '鍋')
('食える', 'が', 'ボール')


 94%|█████████▍| 1308/1386 [00:23<00:01, 68.30it/s]

('休める', 'に', '絶対')
('同じ', 'で', '－')
('勉強', 'が', '最近')
('好き', 'が', 'ピンク')


 96%|█████████▌| 1330/1386 [00:23<00:00, 69.11it/s]

('ゆずる', 'を', '席')
('好き', 'が', '玄米茶')
('見る', 'を', 'アイアムレジェンド')
('使いこなせる', 'で', '感じ')


 97%|█████████▋| 1346/1386 [00:23<00:00, 70.89it/s]

('思い出せる', 'が', '名前')
('不便', 'が', '手汗')
('高い', 'が', '冬服')


 98%|█████████▊| 1362/1386 [00:23<00:00, 66.92it/s]

('育つ', 'で', 'さん')
('整理', 'が', '上')
('確保', 'が', '踏み場')


 99%|█████████▉| 1376/1386 [00:24<00:00, 66.00it/s]

('整理', 'が', '上')
('確保', 'が', '踏み場')
('みかける', 'で', '図書館')


100%|██████████| 1386/1386 [00:24<00:00, 57.23it/s]

('経つ', 'に', 'たち')





In [40]:
score(y, y_pred)

confusion matrix = 
 [[1089  289]
 [   6    2]]
accuracy =  0.7871572871572872
precision =  0.006872852233676976
recall =  0.25
f1 score =  0.013377926421404684


In [41]:
word = "一人"
print("group "+classify_word(word))
print(word in w2v_model)

group <ヒト（数）>
True


In [42]:
case_frame["ドライブ"]

{'が': {'<もの>',
  '<イベント>',
  '<ヒト>',
  '<ヒト（役割）>',
  '<ヒト（数）>',
  '<傾向>',
  '<副詞>',
  '<単位>',
  '<場所>',
  '<敬称>',
  '<時間表現>',
  '<時間（単位）>',
  '<病気>',
  '<道具>',
  '<食べ物（材料）>',
  'Gb',
  'ら',
  'イギリス',
  'ガルベス',
  'グランプリ',
  'グルイヤール',
  'サラザン',
  'シーズン',
  'ジャコメリ',
  'ジャリエ',
  'セベール',
  'ゾルジ',
  'トロフィー',
  'ドライバー',
  'ビルイェル',
  'フォンランテン',
  'フラミニ',
  'ブイヨン',
  'ブランビラ',
  'ベシェ',
  'ベテラン',
  'マギー',
  'マクニッシュ',
  'メディア',
  'メルツァリオ',
  'ライン',
  'ラニョッティ',
  'ラピエール',
  'ルッセル',
  'レブソン',
  'レート',
  'ロバンペラ',
  '一貴',
  '主人公',
  '人',
  '人組',
  '以降',
  '名',
  '実際',
  '年',
  '当時',
  '彼',
  '戦',
  '星野',
  '村松',
  '正美',
  '男性'},
 'で': {'1人',
  '<もの>',
  '<イベント>',
  '<ヒト（役割）>',
  '<ヒト（数）>',
  '<ヒト（組織）>',
  '<乗り物>',
  '<単位>',
  '<場所>',
  'Gb',
  'イギリス',
  'イベント',
  'グランプリ',
  'チャレンジ',
  'チーム',
  'トロフィー',
  'バトル',
  'ムラーノ',
  'ラリー',
  '単位',
  '戦',
  '車',
  '部門'},
 'を': {'0',
  '<イベント>',
  '<ヒト（役割）>',
  '<乗り物>',
  '<乗り物（要素）>',
  '<単位>',
  '<場所>',
  '<数字>',
  '<視覚>',
  'GCM',
  'WRC',
  'c',
  'x',
  'お店',

- 学習データのみでやってみた

        confusion matrix = 
        [[716 662]
        [  1   7]]
        accuracy =  0.5216450216450217
        precision =  0.01046337817638266
        recall =  0.875
        f1 score =  0.020679468242245203

    - 再現率は良い！

In [43]:
def judge_triple(triple):
    V = triple[0]
    C = triple[1]
    noun = triple[2]

    # Vが登録されていないならパスしておくかな(一旦)
    if V not in case_frame:
        # print("not registered V :", V)
        return True
    
    # C が登録されていないなら，アウト
    if C not in case_frame[V]:
        # print("not registered V, C :", V, C)
        return False
    
    # そのままの名詞で検索 -> 発見なら正例
    if search_triple(V, C, noun):
        # print("\tfound", V, C, noun)
        return True

    # 名詞がどこかのグループに属する
    group_ = search_word(noun)
    if len(group_) > 0:
        # 1つでも引っかかればOK
        for group in group_:
            if search_triple(V, C, group):
                return True
        return False
    # グループを推定
    else:
        group = classify_word(noun) 
        return search_triple(V, C, group)

In [44]:
for t, p, utt in zip(y, y_pred, sys_utt):
    if t==1:
        print(utt)
        triples = extract_RDF_triple(utt)
        for triple in triples:
            print(triple)
            print( judge_triple(triple) )
        print("--------")

元気ですかは元気です
--------
好きだを見ますよねー
('見る', 'を', '好き')
False
--------
病院は治療を受けましょう
('受ける', 'が', '病院')
True
('受ける', 'を', '治療')
True
--------
好きだは好きですか。お寿司はエンガワが好きですね
('好き', 'が', '縁側')
False
--------
時期から資格を取りますねぇ
('取る', 'を', '資格')
True
--------
手を貯金に出しますねぇ
('出す', 'を', '手')
True
('出す', 'に', '貯金')
True
--------
ところで、テレビでテレビあるって言ってましたが、テレビは民主党支持が多いですね
('ある', 'で', 'テレビ')
True
('言う', 'で', '所')
True
('多い', 'が', '支持')
True
--------
旬ですねぇ。自分もオリンピック書いたし。
--------
