In [1]:
import json
import os
import pandas as pd
import numpy as np
from pathlib import Path
import collections
from sklearn.model_selection import train_test_split
from sklearn import metrics

import sys
sys.path.append("../")
from datatools.analyzer import *
from utterance.error_tools import *

from datatools.maneger import DataManager
from datatools.preproc import Preprocessor

In [2]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.nn.modules import loss
import torch.optim as optim

In [3]:
class CaseModel(nn.Module):
    def __init__(self, embedding_dim, tagset_size):
        # 親クラスのコンストラクタ。決まり文句
        super(CaseModel, self).__init__()    
        self.embedding_dim = embedding_dim
        self.hid1= embedding_dim*2
        self.hid2 = embedding_dim//2
        self.fc1 = nn.Linear(self.embedding_dim, self.hid1)
        self.fc2 = nn.Linear(self.hid1, self.hid2)
        self.hidden2tag = nn.Linear(self.hid2, tagset_size)
    
    def forward(self, x):
        y = F.relu(self.fc1(x))
        y = F.relu(self.fc2(y))
        y = self.hidden2tag( y )
        y = F.log_softmax(y, dim=1)
        return y

In [4]:
border=0.8

In [5]:
dict_path = "../models/utterance/"
dict_name = "group_border={0}_2.pickle".format(border)
dictM = DataManager(dict_path)
group_dict = dictM.load_data(dict_name)

success load : ../models/utterance/group_border=0.8_2.pickle


In [6]:
def search_word(word):
    word = clean_text(word)
    found_list = []
    for group_key in group_dict.keys():
        if word in group_dict[group_key]:
            found_list.append(group_key)
    return found_list

In [7]:
from gensim.models import KeyedVectors
w2v_path = "../../corpus/w2v/"
# fasttext
# https://qiita.com/Hironsan/items/513b9f93752ecee9e670
# w2v_name =  "dep-ja-300dim"
w2v_name =  "model.vec"
w2v_model = KeyedVectors.load_word2vec_format(w2v_path+w2v_name)

[8692] 2022-01-21 17:19:55,240 Info gensim.models.keyedvectors :loading projection weights from ../../corpus/w2v/model.vec
[8692] 2022-01-21 17:20:55,927 Info gensim.utils :KeyedVectors lifecycle event {'msg': 'loaded (351122, 300) matrix of type float32 from ../../corpus/w2v/model.vec', 'binary': False, 'encoding': 'utf8', 'datetime': '2022-01-21T17:20:55.926958', 'gensim': '4.0.1', 'python': '3.6.9 (default, Jan 26 2021, 15:33:00) \n[GCC 8.4.0]', 'platform': 'Linux-5.4.72-microsoft-standard-WSL2-x86_64-with-Ubuntu-18.04-bionic', 'event': 'load_word2vec_format'}


In [8]:
group2index = dict(zip( group_dict.keys(), range(len(group_dict.keys())) ))
index2group = dict(zip(range(len(group_dict.keys())), group_dict.keys() ))

In [9]:
model_path = "../models/utterance/"
model_name = "case_frame_{0}_2.pickle".format(border)
modelM = DataManager(model_path)
cmodel = modelM.load_data(model_name)

success load : ../models/utterance/case_frame_0.8_2.pickle


In [10]:
classify_border=0.75
def classify_word(word, mode="judge"):
    # word = clean_text(word)
    if word not in w2v_model:
        return ""
    with torch.no_grad():
        vector = torch.tensor([w2v_model[word]]).cuda()
        pred = np.exp(np.array(cmodel(vector).cpu()))
        p_argmax = pred.argmax()
        # print(pred[0][p_argmax])
        if mode=="register":
            if pred[0][p_argmax] < classify_border:
                return ""
    return index2group[p_argmax]

In [11]:
word =  "デジカメ"
classify_word(word)

'<もの>'

In [12]:
def register_triple(case_frame:dict, V, C, Noun):
    # 動詞の確認
    if V not in case_frame:
        case_frame[V] = dict()

    # 格の確認
    if C not in case_frame[V]:
        case_frame[V][C] = set()
    
    # 名詞の登録
    case_frame[V][C].add(Noun)

In [13]:
def compound_noun(token):
    base = token.lemma_
    for child in token.children:
        if child.dep_ == "compound":
           base = child.lemma_ + base
    return base

In [14]:
case_set = set("は　が　を　に　で")

def extract_RDF_triple(text, clean_=True):
    if clean_:
        text = clean_text(text)
    doc = nlp(text)
    triple_list = []
    for _, token in enumerate( doc ):
        if token.pos_ in ["VERB", "ADJ"]:
        # if token.pos_=="VERB":
        # if is_declinable(token):
            for c in token.children:
                if c.dep_ in ["nsubj", "obj", "obl"]:
                    noun = c.lemma_
                    for c2 in c.children:
                        if c2.dep_ == "case" and c2.orth_ in case_set:
                        # if c2.dep_ == "case":
                            case = c2.orth_
                            if case == "は":
                                case = "が"
                            triple_list.append( (token.lemma_, case, noun) )
    return triple_list

In [15]:
path = "../hand_labeled/"
datalist = ['DCM', 'DIT', 'IRS']
convs = read_conv(path, datalist)

In [16]:
error = "Semantic error"
sys_utt = []
y = []
for conv in convs:
    for ut in conv:
        # if ut.is_system() and ut.is_exist_error():
        if not ut.is_exist_error():
            sys_utt.append(ut.utt)
            if ut.is_error_included(error):
                y.append(1)
            else:
                y.append(0)

In [17]:
# with open("../../corpus/NTT/persona.json", "r", encoding="utf-8") as f:
#     convs = json.load(f)
# all_utt = []
# for did in tqdm( convs["convs"] ) :
#     dids = list( did.keys() )[0]
#     all_utt += did[dids]

In [18]:
# all_utt = sys_utt + all_utt
# len(all_utt)

In [19]:
def read_file(filename, batch_size=10000) -> list:
    f = open(filename, 'r', encoding='UTF-8')
    text_list = [  ]
    concated = ""
    for i, line in enumerate( f.readlines() ):
        concated += line.rstrip('\n')
        if (i+1) % batch_size == 0:
            text_list.append(concated)
            concated = ""
    text_list.append(concated)
    f.close()
    return text_list

In [20]:
filename = "../../corpus/wiki/wiki_normalized.txt"
filename = "../../corpus/wiki/wiki_40b_train_normal.txt"
# filename = "plain.txt"
all_list = read_file(filename, batch_size=100)
print("len of text_list :", len(all_list))

len of text_list : 18674


In [21]:
all_utt = all_list[::10]

In [22]:
case_frame = dict()

In [23]:
18674/6/60

51.87222222222223

In [24]:

for utt in tqdm( all_utt ):
    is_valid = True

    triples = extract_RDF_triple(utt, clean_=False)
    if len(triples)>0:
        for triple in triples:
            V = triple[0]
            C = triple[1]
            noun = triple[2]
            group_ = search_word(noun)
            if len(group_) > 0:
                for group in group_:
                    register_triple(case_frame, V, C, group)
            else:
                group = classify_word(noun, mode="register")
                # ないなら登録するな
                if group != "":
                    register_triple(case_frame, V, C, group)

            register_triple(case_frame, V, C, noun)


  1%|          | 19/1868 [02:42<4:23:59,  8.57s/it]


KeyboardInterrupt: 

In [25]:
case_frame_name = "case_frame_wiki40B_border={}.pickle".format(classify_border)
data_path = "../X_y_data/utterance/"

In [None]:
# dataM = DataManager(data_path)
# dataM.save_data(case_frame_name, case_frame)

success save : ../X_y_data/utterance/case_frame_wiki40B_border=0.75.pickle


In [26]:
dataM = DataManager(data_path)
case_frame = dataM.load_data(case_frame_name)

success load : ../X_y_data/utterance/case_frame_wiki40B_border=0.75.pickle


In [35]:
def search_triple(V, C, N):
    if N in case_frame[V][C]:
        return True
    else:
        return False

# True : 用法は問題ない
# False : 問題あり
def judge_triple(triple):
    V = triple[0]
    C = triple[1]
    noun = triple[2]

    # Vが登録されていないならパスしておくかな(一旦)
    if V not in case_frame:
        # print("not registered V :", V)
        return True
    
    # C が登録されていないなら，アウト
    if C not in case_frame[V]:
        print("not registered V, C :", V, C)
        return False
    
    # そのままの名詞で検索 -> 発見なら正例
    if search_triple(V, C, noun):
        return True

    # 名詞がどこかのグループに属する
    group_ = search_word(noun)
    if len(group_) > 0:
        # 1つでも引っかかればOK
        for group in group_:
            if search_triple(V, C, group):
                return True
        return False
    # グループを推定
    else:
        group = classify_word(noun) 
        return search_triple(V, C, group)

In [36]:
path = "../eval_labeled/"
datalist = ['DCM', 'DIT', 'IRS']
convs = read_conv(path, datalist)

error = "Semantic error"
sys_utt = []
y = []
for conv in convs:
    for ut in conv:
        if ut.is_system() and ut.is_exist_error():
            sys_utt.append(ut.utt)
            if ut.is_error_included(error):
                y.append(1)
            else:
                y.append(0)

In [29]:
y_pred = []
for utt in tqdm(sys_utt):
    is_valid = True

    triples = extract_RDF_triple(utt)
    for triple in triples:
        if not judge_triple(triple):
            print(triple)
            is_valid = False
            break
    if is_valid:
        y_pred.append(0)
    else:
        y_pred.append(1)

  1%|          | 15/1386 [00:00<00:19, 70.08it/s]

('生まれる', 'に', 'お兄さん')
('見る', 'を', '好き')


  3%|▎         | 43/1386 [00:00<00:16, 81.53it/s]

('ほしい', 'が', '帽子')
('大好き', 'が', '帽子')
('得意', 'が', 'クロール')
('泳ぐ', 'で', 'スイミング')
('楽しい', 'が', 'スイミング')


  4%|▍         | 60/1386 [00:00<00:17, 74.03it/s]

('演奏', 'で', '御自分')
('とれる', 'で', '言葉')
('えらぶ', 'を', '服')
('好き', 'が', '縁側')


  6%|▌         | 86/1386 [00:01<00:15, 82.72it/s]

('好き', 'が', '御菓子')
('元気', 'が', '映画')


  8%|▊         | 114/1386 [00:01<00:16, 78.08it/s]

('いる', 'が', '外食')
('怖い', 'が', '由紀恵')
('美しい', 'が', '由紀恵')
('平和', 'が', '南極')
not registered V, C : 笑い で
('笑い', 'で', '付き')


 10%|█         | 141/1386 [00:01<00:16, 76.53it/s]

('暑い', 'が', '暑い')
('心配', 'が', '熱中症')


 12%|█▏        | 160/1386 [00:02<00:15, 79.09it/s]

('かっこいい', 'が', '汗')
('おいしい', 'が', 'メニュー')


 13%|█▎        | 177/1386 [00:02<00:15, 75.97it/s]

('伺う', 'で', '所')
('読める', 'で', 'スマホ')
('いい', 'が', 'エネループ')
('好き', 'で', '所')
('うるさい', 'が', '選挙')


 14%|█▍        | 193/1386 [00:02<00:15, 75.70it/s]

('ほしい', 'が', '自動販売機')
('大切', 'が', 'テレビ')
('大好き', 'が', 'イタリア料理')
('有名', 'で', 'イタリア料理')


 17%|█▋        | 229/1386 [00:02<00:14, 81.91it/s]

('おいしい', 'が', '炊き立て')
('やめる', 'が', '夜')
('面白い', 'が', 'スイカ')


 18%|█▊        | 248/1386 [00:03<00:13, 84.36it/s]

not registered V, C : 清楚 が
('清楚', 'が', '見た目')
('大好き', 'が', 'テレビ')
('いい', 'が', 'シャープ')


 19%|█▉        | 267/1386 [00:03<00:12, 87.62it/s]

('目指す', 'を', '健康美')
('食べる', 'が', '朝御飯')


 23%|██▎       | 313/1386 [00:03<00:13, 81.60it/s]

('大好き', 'が', 'チョコレート')
('はまる', 'に', 'アイスクリーム')
('うまい', 'が', 'スイカ')
('美味しい', 'が', '尻尾')
('美味しい', 'が', 'ねた')
('仕入れる', 'を', 'ねた')


 24%|██▍       | 330/1386 [00:04<00:13, 77.57it/s]

('大切', 'で', '嗽')
('大切', 'で', '嗽')
('心掛ける', 'を', '予防')
('重い', 'で', '寝不足')
('痛い', 'で', '寝不足')


 25%|██▍       | 346/1386 [00:04<00:13, 77.54it/s]

('使える', 'で', 'ドコモ')
('わかる', 'で', '逆子')
not registered V, C : おもしろい に
('おもしろい', 'に', '本当')
('持つ', 'を', '御土産')
('検索', 'を', '足')
('恋しい', 'が', '天気')


 26%|██▋       | 364/1386 [00:04<00:12, 79.65it/s]

('怪しい', 'が', '天気')
('見せる', 'に', 'メロン')


 29%|██▊       | 398/1386 [00:05<00:12, 77.63it/s]

('可憐', 'が', '花言葉')
('特殊', 'が', '学校')
('安全', 'が', '学校')
('誕生', 'が', 'ななつ星')
('大成功', 'が', '熊本県')
('みつける', 'に', '夏')


 30%|███       | 420/1386 [00:05<00:17, 55.60it/s]

('連覇', 'で', 'アメリカ')
('確認', 'が', '感染者')
('美味しい', 'に', '本当')
('行う', 'が', 'boon')
('引っ越す', 'が', '和平')
('検索', 'で', 'ダビンチ')


 31%|███       | 432/1386 [00:05<00:18, 50.49it/s]

('ある', 'が', '御店')
('コーティング', 'が', '食材')
('可愛らしい', 'が', '飴')
not registered V, C : 健康的 で
('健康的', 'で', '沖縄')
('想像', 'を', '味')
('する', 'で', '金団')


 32%|███▏      | 443/1386 [00:06<00:20, 45.30it/s]

('披露', 'が', 'ロボットニットデニムブーツカットパンツ')
('会話', 'が', '選手権')
('買う', 'に', '御土産')


 33%|███▎      | 453/1386 [00:06<00:20, 45.03it/s]

('大好き', 'が', 'チョコレートラテポッキーブレンド')
('転げ落ちる', 'に', '末')
('観戦', 'を', '保険')
('買う', 'に', '御土産')
('ある', 'が', '御店')


 33%|███▎      | 458/1386 [00:06<00:24, 38.65it/s]

('ささやく', 'に', '来年')
('提供', 'で', 'マラソン')


 34%|███▍      | 473/1386 [00:06<00:21, 42.13it/s]

('イメージ', 'が', '歴史')
('指導', 'で', '女房')


 35%|███▍      | 483/1386 [00:07<00:22, 39.68it/s]

('見る', 'を', 'お節料理')
('召し上がる', 'を', 'さん')
('添う', 'に', '地図')
('連載', 'が', '保険')


 36%|███▌      | 493/1386 [00:07<00:22, 40.46it/s]

('食べる', 'を', 'リング')
('視聴', 'が', '卵')
('革新', 'が', '理由')


 36%|███▌      | 502/1386 [00:07<00:23, 36.97it/s]

('好き', 'が', '天下一品')
('発売', 'が', 'ベニマル')
('利用', 'で', 'ベニマル')


 37%|███▋      | 513/1386 [00:07<00:20, 42.25it/s]

('食べる', 'を', '刺し身')
('驚愕', 'に', '寿司')
('みる', 'を', '特集番組')


 38%|███▊      | 526/1386 [00:08<00:18, 47.52it/s]

('する', 'が', '結弦')
('応援', 'を', '元気')
('焼く', 'で', 'デギュスタシオン')
('掛ける', 'が', 'デリ')
('泊まる', 'に', '年末年始')
('マッチ', 'に', '場合')


 39%|███▊      | 537/1386 [00:08<00:17, 48.30it/s]

('試す', 'を', 'スパイス')
('好き', 'で', 'ラーメン')


 40%|███▉      | 552/1386 [00:08<00:18, 45.34it/s]

('高まる', 'に', '今後')


 41%|████      | 562/1386 [00:08<00:19, 42.93it/s]

('踊る', 'を', 'クッキー')
('購入', 'で', 'イレブン')
('美味しい', 'が', 'スナック')
('利用', 'を', 'コピー機')


 41%|████▏     | 572/1386 [00:09<00:19, 42.63it/s]

('嬉しい', 'が', '組み合わせ')
('誘う', 'を', '蝦煎')
('なる', 'が', '蝦煎')


 42%|████▏     | 583/1386 [00:09<00:19, 41.32it/s]

('好き', 'が', '海豹')
('泳ぐ', 'を', '水槽')


 42%|████▏     | 588/1386 [00:09<00:19, 40.63it/s]

('使う', 'を', '料理器具')
('購入', 'で', 'グランプリ')
('ある', 'が', '御店')
('温める', 'を', 'スライスチーズ')


 43%|████▎     | 598/1386 [00:09<00:20, 39.18it/s]

('食べる', 'を', '味')
('見かける', 'で', '棚')
('コラボレーション', 'が', 'パステル')
('思い出す', 'で', 'ソフトクリーム')
('二人目', 'が', 'さん')


 44%|████▍     | 611/1386 [00:10<00:19, 38.89it/s]

('見る', 'を', '納豆')
('きつい', 'で', '味')
('観戦', 'を', '賞')
('登場', 'で', 'akiba')


 45%|████▌     | 626/1386 [00:10<00:19, 38.55it/s]

('抑える', 'を', 'oriconstyle')
('ノミネート', 'に', 'ゴーシーク')
('無理', 'が', '優勝')


 46%|████▌     | 635/1386 [00:10<00:18, 39.81it/s]

('勝ち進む', 'が', 'ヤマザキ')
('販売', 'が', '保険')
('選ぶ', 'で', 'キティー')
('販売', 'が', '雲月')
('販売', 'が', '雲月')


 46%|████▋     | 644/1386 [00:10<00:20, 36.13it/s]

('観覧', 'に', '君')
('行く', 'が', 'クリスマス')


 47%|████▋     | 653/1386 [00:11<00:19, 37.86it/s]

('食べる', 'に', '解釈')
('活躍', 'で', '現時点')


 48%|████▊     | 668/1386 [00:11<00:16, 42.59it/s]

('外せる', 'が', '御店')
('施す', 'が', '漆塗り')
('アップ', 'に', '飛躍的')


 50%|████▉     | 690/1386 [00:11<00:13, 49.94it/s]

('多い', 'が', '御店')
('魅力的', 'が', '見る')
('ハマる', 'が', 'さん')
('好き', 'が', 'リング')
('おいしい', 'が', '方')
('ある', 'が', 'ココロココ')
('載せる', 'で', 'ココロココ')


 51%|█████     | 706/1386 [00:12<00:14, 45.81it/s]

('思い出す', 'で', '中止')
('宣伝', 'が', 'パン')
('始まる', 'で', '元気')
('元気', 'が', '受け取り')


 52%|█████▏    | 716/1386 [00:12<00:14, 44.94it/s]

('渡り歩く', 'が', '選手')
('見つける', 'で', 'ブラジル')
('獲る', 'で', '若い')


 52%|█████▏    | 726/1386 [00:13<00:20, 31.43it/s]

('ない', 'で', 'イングレス')
('買う', 'で', '島歌')
('出場', 'に', '島歌')


 53%|█████▎    | 736/1386 [00:13<00:17, 36.95it/s]

('する', 'を', 'manzai')
('買う', 'に', '御土産')
('出場', 'が', '今年')
('急上昇', 'が', '株')
('残念', 'で', 'こと')


 54%|█████▍    | 752/1386 [00:13<00:14, 43.38it/s]

('美味しい', 'に', '本当')
('アップロード', 'に', 'キャンデー')
('発売', 'を', 'tweetbot')


 55%|█████▌    | 764/1386 [00:13<00:12, 48.13it/s]

('破れる', 'で', 'ワールドカップ')
('好き', 'で', 'FC')
('致命傷', 'に', '投手')


 56%|█████▋    | 781/1386 [00:14<00:12, 47.31it/s]

('望ましい', 'で', 'カップ')
('指導', 'で', 'イチ')
('伸ばせる', 'で', '御陰')


 57%|█████▋    | 791/1386 [00:14<00:13, 42.50it/s]

('大事', 'が', '信用')
('アレンジ', 'を', 'マッサマンカレー')


 58%|█████▊    | 801/1386 [00:14<00:15, 37.42it/s]

('決める', 'に', '快挙')
('売り切れる', 'で', '人気')


 58%|█████▊    | 810/1386 [00:14<00:14, 39.87it/s]

('発売', 'を', '歌謡祭')
('歌う', 'が', 'フーズ')


 60%|█████▉    | 826/1386 [00:15<00:14, 39.66it/s]

('楽しめる', 'で', 'これ')
('見かける', 'を', 'エピソード')
('切り離す', 'を', '気持ち')


 60%|██████    | 837/1386 [00:15<00:12, 44.27it/s]

('食べる', 'を', '味')
('大人気', 'が', '最近')
('美味しい', 'に', '他')
('コーティング', 'に', 'ポテトチップス')
('トッピング', 'に', '卵')


 61%|██████    | 847/1386 [00:15<00:13, 40.22it/s]

('食べる', 'を', '蝦煎')
('つく', 'で', 'ブラジル')
('出店', 'が', '御店')


 62%|██████▏   | 857/1386 [00:16<00:12, 42.09it/s]

('優勝', 'が', '次回')
('施す', 'が', '漆塗り')
('有名', 'で', '肉饅')


 63%|██████▎   | 869/1386 [00:16<00:10, 48.01it/s]

('見る', 'を', 'ココロココ')
('する', 'が', '啓江')
('応援', 'を', 'letao')
('開発', 'を', '試作品')


 63%|██████▎   | 879/1386 [00:16<00:11, 44.67it/s]

('読む', 'を', 'カンタビ')
('実演', 'で', '番組')


 64%|██████▍   | 891/1386 [00:16<00:09, 50.36it/s]

('直撃', 'に', '今後')
('続出', 'が', 'リピーター')
('浸透', 'が', '乃逢')


 65%|██████▌   | 903/1386 [00:17<00:10, 46.85it/s]

('買う', 'で', 'パン')
('観る', 'に', '他')
('絡む', 'が', '蒟蒻')
('休む', 'が', '今日')
('ござる', 'に', '所')


 66%|██████▋   | 921/1386 [00:17<00:09, 48.84it/s]

('かかる', 'が', 'トッピング')
('またがる', 'が', '町作り')
('好き', 'で', 'ハンバーガー')


 67%|██████▋   | 931/1386 [00:17<00:09, 47.81it/s]

('シンプル', 'が', 'クッキー')
not registered V, C : 恋 で
('恋', 'で', '番組')
('実演', 'で', '番組')


 69%|██████▊   | 952/1386 [00:17<00:07, 58.80it/s]

('消える', 'で', '代')
('高い', 'が', '通行料金')


 71%|███████   | 985/1386 [00:18<00:05, 72.46it/s]

('汚れる', 'が', '部屋')


 73%|███████▎  | 1010/1386 [00:18<00:04, 76.25it/s]

('高い', 'が', '冬服')
('いい', 'で', 'どっち')
('おもしろい', 'が', '間')


 75%|███████▍  | 1034/1386 [00:19<00:04, 71.75it/s]

('整理', 'が', '上')
('怪しい', 'が', '週間')


 76%|███████▌  | 1050/1386 [00:19<00:04, 72.37it/s]

('出せる', 'で', 'それ')
('弾く', 'に', '他')
('なる', 'に', 'お出掛け')
('グッド', 'が', '今')
('うろつく', 'で', '大須')
('いける', 'に', '外')


 77%|███████▋  | 1066/1386 [00:19<00:04, 72.47it/s]

('おいしい', 'に', '割')
('食べる', 'を', 'なに')
('整理', 'が', '上')


 79%|███████▊  | 1091/1386 [00:19<00:04, 73.15it/s]

('撮る', 'を', '枚')
('撮る', 'を', '枚')
('特殊', 'が', '時')


 80%|███████▉  | 1107/1386 [00:20<00:04, 67.78it/s]

('苦手', 'が', '席')
('装備', 'を', 'かっぱ')
('気づく', 'で', '御陰')
('暑い', 'が', 'ここ')
('暑い', 'が', 'ここ')
('きく', 'が', 'クーラー')


 82%|████████▏ | 1133/1386 [00:20<00:03, 75.93it/s]

('整理', 'が', '上')
('確保', 'が', '踏み場')
('粘る', 'が', '和布蕪')
('のる', 'に', '上')


 83%|████████▎ | 1149/1386 [00:20<00:03, 75.06it/s]

('整理', 'が', '上')
('利用', 'が', '目覚まし')
('かわいそう', 'が', 'それ')
('買い物', 'で', '携帯')


 84%|████████▍ | 1166/1386 [00:20<00:02, 79.17it/s]

('整理', 'が', '上')


 85%|████████▌ | 1183/1386 [00:20<00:02, 78.27it/s]

('聞く', 'が', '本当')
('駄目', 'が', 'プール')
('見習う', 'が', '所')


 87%|████████▋ | 1201/1386 [00:21<00:02, 79.21it/s]

('好き', 'が', '玄米茶')
('かわいい', 'が', '犬')
('なる', 'に', '猫好き')
('入る', 'が', 'ペペロンチーノ')


 88%|████████▊ | 1218/1386 [00:21<00:02, 80.42it/s]

('好き', 'が', 'ダンク')
('整理', 'が', '上')


 89%|████████▉ | 1236/1386 [00:21<00:01, 77.36it/s]

('高い', 'が', '冬服')
('ある', 'が', 'あんなん')
('すむ', 'で', '情報')
('かっこいい', 'が', '人')


 91%|█████████ | 1260/1386 [00:22<00:01, 69.17it/s]

('観る', 'で', 'それ')
('飲める', 'で', '何')


 92%|█████████▏| 1274/1386 [00:22<00:01, 61.57it/s]

('いく', 'に', '平日')
('買う', 'に', '御店')


 93%|█████████▎| 1288/1386 [00:22<00:01, 63.65it/s]

('羨ましい', 'が', '人')
('ゆでる', 'で', '鍋')
('食える', 'が', 'ボール')


 95%|█████████▍| 1311/1386 [00:22<00:01, 69.66it/s]

('休める', 'に', '絶対')
('同じ', 'で', '－')
('勉強', 'が', '最近')
('好き', 'が', 'ピンク')


 96%|█████████▋| 1336/1386 [00:23<00:00, 75.79it/s]

('ゆずる', 'を', '席')
('好き', 'が', '玄米茶')
('見る', 'を', 'アイアムレジェンド')
('使いこなせる', 'で', '感じ')
('思い出せる', 'が', '名前')


 98%|█████████▊| 1353/1386 [00:23<00:00, 78.07it/s]

('不便', 'が', '手汗')
('高い', 'が', '冬服')
('育つ', 'で', 'さん')


 99%|█████████▉| 1378/1386 [00:23<00:00, 77.21it/s]

('整理', 'が', '上')
('確保', 'が', '踏み場')
('整理', 'が', '上')
('確保', 'が', '踏み場')
('みかける', 'で', '図書館')


100%|██████████| 1386/1386 [00:23<00:00, 58.23it/s]

('経つ', 'に', 'たち')





In [30]:
score(y, y_pred)

confusion matrix = 
 [[1089  289]
 [   6    2]]
accuracy =  0.7871572871572872
precision =  0.006872852233676976
recall =  0.25
f1 score =  0.013377926421404684


In [31]:
word = "一人"
print("group "+classify_word(word))
print(word in w2v_model)

group <ヒト（数）>
True


In [37]:
case_frame["整理"]

{'に': {'0',
  '00',
  '<お金（接尾辞）>',
  '<イベント>',
  '<ヒト>',
  '<ヒト（役割）>',
  '<ヒト（組織）>',
  '<ヒト（要素）>',
  '<位置>',
  '<作業>',
  '<傾向>',
  '<副詞>',
  '<単位>',
  '<変化>',
  '<学問>',
  '<家具>',
  '<建物>',
  '<指示代名詞>',
  '<敬称>',
  '<数字>',
  '<文字>',
  '<文書>',
  '<時期>',
  '<時間（単位）>',
  '<植物>',
  '<機械>',
  '<状況>',
  '<管理行動>',
  '<考え>',
  '<複文>',
  '<規則>',
  '<量>',
  'この頃',
  'これ',
  'ごと',
  'つ',
  'とも',
  'アレン',
  'カード',
  'グレード',
  'コンピュータ',
  'コード',
  'トランザクション',
  'ドル',
  'ハドソン',
  '中心',
  '代わり',
  '以外',
  '余',
  '優子',
  '刑法学',
  '別',
  '博物館',
  '史',
  '同時',
  '坊',
  '基礎',
  '寺',
  '年',
  '形',
  '後',
  '悪影響',
  '成立',
  '手',
  '支城',
  '改正',
  '方',
  '本',
  '東久宝寺',
  '根拠',
  '植民地',
  '概念',
  '次第',
  '状',
  '番号',
  '種',
  '簡体字',
  '組織',
  '英松',
  '著書',
  '解析',
  '設計',
  '連番',
  '週',
  '部'},
 'が': {'<もの>',
  '<イベント>',
  '<スポーツ>',
  '<ヒト>',
  '<ヒト（役割）>',
  '<ヒト（組織）>',
  '<乗り物>',
  '<作業>',
  '<傾向>',
  '<副詞>',
  '<単位>',
  '<場所>',
  '<場所（接尾辞）>',
  '<変化>',
  '<存在・関係>',
  '<建物>',
  '<建物（接尾辞）>',
  '<心理>',
  '<敬称>

- 学習データのみでやってみた

        confusion matrix = 
        [[716 662]
        [  1   7]]
        accuracy =  0.5216450216450217
        precision =  0.01046337817638266
        recall =  0.875
        f1 score =  0.020679468242245203

    - 再現率は良い！

In [33]:
def judge_triple(triple):
    V = triple[0]
    C = triple[1]
    noun = triple[2]

    # Vが登録されていないならパスしておくかな(一旦)
    if V not in case_frame:
        # print("not registered V :", V)
        return True
    
    # C が登録されていないなら，アウト
    if C not in case_frame[V]:
        # print("not registered V, C :", V, C)
        return False
    
    # そのままの名詞で検索 -> 発見なら正例
    if search_triple(V, C, noun):
        # print("\tfound", V, C, noun)
        return True

    # 名詞がどこかのグループに属する
    group_ = search_word(noun)
    if len(group_) > 0:
        # 1つでも引っかかればOK
        for group in group_:
            if search_triple(V, C, group):
                return True
        return False
    # グループを推定
    else:
        group = classify_word(noun) 
        return search_triple(V, C, group)

In [38]:
for yt, yp, utt in zip(y, y_pred, sys_utt):
    if yt==1:
        print(utt)
        triples = extract_RDF_triple(utt)
        for triple in triples:
            print(triple)
            print( judge_triple(triple) )
        print("--------")

元気ですかは元気です
--------
好きだを見ますよねー
('見る', 'を', '好き')
False
--------
病院は治療を受けましょう
('受ける', 'が', '病院')
True
('受ける', 'を', '治療')
True
--------
好きだは好きですか。お寿司はエンガワが好きですね
('好き', 'が', '縁側')
False
--------
時期から資格を取りますねぇ
('取る', 'を', '資格')
True
--------
手を貯金に出しますねぇ
('出す', 'を', '手')
True
('出す', 'に', '貯金')
True
--------
ところで、テレビでテレビあるって言ってましたが、テレビは民主党支持が多いですね
('ある', 'で', 'テレビ')
True
('言う', 'で', '所')
True
('多い', 'が', '支持')
True
--------
旬ですねぇ。自分もオリンピック書いたし。
--------
