In [1]:
import json
import os
import pandas as pd
import numpy as np
from pathlib import Path
import collections
from sklearn.model_selection import train_test_split
from sklearn import metrics

import sys
sys.path.append("../")
from datatools.analyzer import *
from utterance.error_tools import *

from datatools.maneger import DataManager
from datatools.preproc import Preprocessor

In [2]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.nn.modules import loss
import torch.optim as optim

In [3]:
class CaseModel(nn.Module):
    def __init__(self, embedding_dim, tagset_size):
        # 親クラスのコンストラクタ。決まり文句
        super(CaseModel, self).__init__()    
        self.embedding_dim = embedding_dim
        self.hid1= embedding_dim*2
        self.hid2 = embedding_dim//2
        self.fc1 = nn.Linear(self.embedding_dim, self.hid1)
        self.fc2 = nn.Linear(self.hid1, self.hid2)
        self.hidden2tag = nn.Linear(self.hid2, tagset_size)
    
    def forward(self, x):
        y = F.relu(self.fc1(x))
        y = F.relu(self.fc2(y))
        y = self.hidden2tag( y )
        y = F.log_softmax(y, dim=1)
        return y

In [4]:
border=0.8

In [5]:
dict_path = "../models/utterance/"
dict_name = "group_border={0}_2.pickle".format(border)
dictM = DataManager(dict_path)
group_dict = dictM.load_data(dict_name)

success load : ../models/utterance/group_border=0.8_2.pickle


In [6]:
def search_word(word):
    word = clean_text(word)
    found_list = []
    for group_key in group_dict.keys():
        if word in group_dict[group_key]:
            found_list.append(group_key)
    return found_list

In [7]:
from gensim.models import KeyedVectors
w2v_path = "../../corpus/w2v/"
# fasttext
# https://qiita.com/Hironsan/items/513b9f93752ecee9e670
# w2v_name =  "dep-ja-300dim"
w2v_name =  "model.vec"
w2v_model = KeyedVectors.load_word2vec_format(w2v_path+w2v_name)

[4775] 2022-01-26 20:02:58,674 Info gensim.models.keyedvectors :loading projection weights from ../../corpus/w2v/model.vec
[4775] 2022-01-26 20:04:01,056 Info gensim.utils :KeyedVectors lifecycle event {'msg': 'loaded (351122, 300) matrix of type float32 from ../../corpus/w2v/model.vec', 'binary': False, 'encoding': 'utf8', 'datetime': '2022-01-26T20:04:01.056382', 'gensim': '4.0.1', 'python': '3.6.9 (default, Jan 26 2021, 15:33:00) \n[GCC 8.4.0]', 'platform': 'Linux-5.4.72-microsoft-standard-WSL2-x86_64-with-Ubuntu-18.04-bionic', 'event': 'load_word2vec_format'}


In [8]:
group2index = dict(zip( group_dict.keys(), range(len(group_dict.keys())) ))
index2group = dict(zip(range(len(group_dict.keys())), group_dict.keys() ))

In [9]:
model_path = "../models/utterance/"
model_name = "case_frame_{0}_2.pickle".format(border)
modelM = DataManager(model_path)
cmodel = modelM.load_data(model_name)

success load : ../models/utterance/case_frame_0.8_2.pickle


In [10]:
classify_border=0.75
def classify_word(word, mode="judge"):
    # word = clean_text(word)
    if word not in w2v_model:
        return ""
    with torch.no_grad():
        vector = torch.tensor([w2v_model[word]]).cuda()
        pred = np.exp(np.array(cmodel(vector).cpu()))
        p_argmax = pred.argmax()
        # print(pred[0][p_argmax])
        if mode=="register":
            if pred[0][p_argmax] < classify_border:
                return ""
    return index2group[p_argmax]

In [11]:
word =  "デジカメ"
classify_word(word)

'<もの>'

In [12]:
def register_triple(case_frame:dict, V, C, Noun):
    # 動詞の確認
    if V not in case_frame:
        case_frame[V] = dict()

    # 格の確認
    if C not in case_frame[V]:
        case_frame[V][C] = set()
    
    # 名詞の登録
    case_frame[V][C].add(Noun)

In [13]:
def compound_noun(token):
    base = token.lemma_
    for child in token.children:
        if child.dep_ == "compound":
           base = child.lemma_ + base
    return base

In [14]:
case_set = set("は　が　を　に　で")

def extract_RDF_triple(text, clean_=True):
    if clean_:
        text = clean_text(text)
    doc = nlp(text)
    triple_list = []
    for _, token in enumerate( doc ):
        if token.pos_ in ["VERB", "ADJ"]:
        # if token.pos_=="VERB":
        # if is_declinable(token):
            for c in token.children:
                if c.dep_ in ["nsubj", "obj", "obl"]:
                    noun = c.lemma_
                    for c2 in c.children:
                        if c2.dep_ == "case" and c2.orth_ in case_set:
                        # if c2.dep_ == "case":
                            case = c2.orth_
                            if case == "は":
                                case = "が"
                            triple_list.append( (token.lemma_, case, noun) )
    return triple_list

In [15]:
path = "../hand_labeled/"
datalist = ['DCM', 'DIT', 'IRS']
convs = read_conv(path, datalist)

In [16]:
error = "Semantic error"
sys_utt = []
y = []
for conv in convs:
    for ut in conv:
        # if ut.is_system() and ut.is_exist_error():
        if not ut.is_exist_error():
            sys_utt.append(ut.utt)
            if ut.is_error_included(error):
                y.append(1)
            else:
                y.append(0)

In [17]:
# with open("../../corpus/NTT/persona.json", "r", encoding="utf-8") as f:
#     convs = json.load(f)
# all_utt = []
# for did in tqdm( convs["convs"] ) :
#     dids = list( did.keys() )[0]
#     all_utt += did[dids]

In [18]:
# all_utt = sys_utt + all_utt
# len(all_utt)

In [19]:
def read_file(filename, batch_size=10000) -> list:
    f = open(filename, 'r', encoding='UTF-8')
    text_list = [  ]
    concated = ""
    for i, line in enumerate( f.readlines() ):
        concated += line.rstrip('\n')
        if (i+1) % batch_size == 0:
            text_list.append(concated)
            concated = ""
    text_list.append(concated)
    f.close()
    return text_list

In [20]:
filename = "../../corpus/wiki/wiki_normalized.txt"
filename = "../../corpus/wiki/wiki_40b_train_normal.txt"
# filename = "plain.txt"
all_list = read_file(filename, batch_size=100)
print("len of text_list :", len(all_list))

KeyboardInterrupt: 

In [None]:
all_utt = all_list[::10]

In [None]:
case_frame = dict()

In [None]:
18674/6/60

51.87222222222223

In [None]:

for utt in tqdm( all_utt ):
    is_valid = True

    triples = extract_RDF_triple(utt, clean_=False)
    if len(triples)>0:
        for triple in triples:
            V = triple[0]
            C = triple[1]
            noun = triple[2]
            group_ = search_word(noun)
            if len(group_) > 0:
                for group in group_:
                    register_triple(case_frame, V, C, group)
            else:
                group = classify_word(noun, mode="register")
                # ないなら登録するな
                if group != "":
                    register_triple(case_frame, V, C, group)

            register_triple(case_frame, V, C, noun)


  1%|          | 19/1868 [02:42<4:23:59,  8.57s/it]


KeyboardInterrupt: 

In [21]:
case_frame_name = "case_frame_wiki40B_border={}.pickle".format(classify_border)
data_path = "../X_y_data/utterance/"

In [22]:
# dataM = DataManager(data_path)
# dataM.save_data(case_frame_name, case_frame)

In [23]:
dataM = DataManager(data_path)
case_frame = dataM.load_data(case_frame_name)

success load : ../X_y_data/utterance/case_frame_wiki40B_border=0.75.pickle


In [24]:
def search_triple(V, C, N):
    if N in case_frame[V][C]:
        return True
    else:
        return False

# True : 用法は問題ない
# False : 問題あり
def judge_triple(triple):
    V = triple[0]
    C = triple[1]
    noun = triple[2]

    # Vが登録されていないならパスしておくかな(一旦)
    if V not in case_frame:
        # print("not registered V :", V)
        return True
    
    # C が登録されていないなら，アウト
    if C not in case_frame[V]:
        print("not registered V, C :", V, C)
        return False
    
    # そのままの名詞で検索 -> 発見なら正例
    if search_triple(V, C, noun):
        return True

    # 名詞がどこかのグループに属する
    group_ = search_word(noun)
    if len(group_) > 0:
        # 1つでも引っかかればOK
        for group in group_:
            if search_triple(V, C, group):
                return True
        return False
    # グループを推定
    else:
        group = classify_word(noun) 
        return search_triple(V, C, group)

In [25]:
path = "../eval_labeled/"
datalist = ['DCM', 'DIT', 'IRS']
convs = read_conv(path, datalist)

error = "Semantic error"
sys_utt = []
y = []
for conv in convs:
    for ut in conv:
        if ut.is_system() and ut.is_exist_error():
            sys_utt.append(ut.utt)
            if ut.is_error_included(error):
                y.append(1)
            else:
                y.append(0)

In [26]:
y_pred = []
for utt in tqdm(sys_utt):
    is_valid = True

    triples = extract_RDF_triple(utt)
    for triple in triples:
        if not judge_triple(triple):
            print(triple)
            is_valid = False
            break
    if is_valid:
        y_pred.append(0)
    else:
        y_pred.append(1)

  1%|          | 15/1386 [00:00<00:19, 71.69it/s]

('生まれる', 'に', 'お兄さん')
('見る', 'を', '好き')


  3%|▎         | 42/1386 [00:00<00:16, 79.66it/s]

('ほしい', 'が', '帽子')
('大好き', 'が', '帽子')
('得意', 'が', 'クロール')
('泳ぐ', 'で', 'スイミング')
('楽しい', 'が', 'スイミング')


  4%|▍         | 58/1386 [00:00<00:17, 76.00it/s]

('演奏', 'で', '御自分')
('とれる', 'で', '言葉')
('えらぶ', 'を', '服')
('好き', 'が', '縁側')


  7%|▋         | 93/1386 [00:01<00:16, 79.08it/s]

('好き', 'が', '御菓子')
('元気', 'が', '映画')


  8%|▊         | 109/1386 [00:01<00:17, 74.30it/s]

('いる', 'が', '外食')
('怖い', 'が', '由紀恵')
('美しい', 'が', '由紀恵')


  9%|▉         | 126/1386 [00:01<00:17, 73.47it/s]

('平和', 'が', '南極')
not registered V, C : 笑い で
('笑い', 'で', '付き')
('暑い', 'が', '暑い')


 11%|█         | 151/1386 [00:02<00:16, 76.22it/s]

('心配', 'が', '熱中症')
('かっこいい', 'が', '汗')


 12%|█▏        | 167/1386 [00:02<00:18, 67.34it/s]

('おいしい', 'が', 'メニュー')
('伺う', 'で', '所')


 13%|█▎        | 184/1386 [00:02<00:16, 71.57it/s]

('読める', 'で', 'スマホ')
('いい', 'が', 'エネループ')
('好き', 'で', '所')
('うるさい', 'が', '選挙')
('ほしい', 'が', '自動販売機')


 15%|█▌        | 210/1386 [00:02<00:15, 77.77it/s]

('大切', 'が', 'テレビ')
('大好き', 'が', 'イタリア料理')
('有名', 'で', 'イタリア料理')


 16%|█▋        | 227/1386 [00:03<00:14, 77.81it/s]

('おいしい', 'が', '炊き立て')
('やめる', 'が', '夜')
('面白い', 'が', 'スイカ')


 18%|█▊        | 244/1386 [00:03<00:14, 76.37it/s]

not registered V, C : 清楚 が
('清楚', 'が', '見た目')
('大好き', 'が', 'テレビ')


 19%|█▉        | 262/1386 [00:03<00:13, 81.49it/s]

('いい', 'が', 'シャープ')
('目指す', 'を', '健康美')
('食べる', 'が', '朝御飯')


 22%|██▏       | 307/1386 [00:04<00:15, 70.41it/s]

('大好き', 'が', 'チョコレート')
('はまる', 'に', 'アイスクリーム')
('うまい', 'が', 'スイカ')
('美味しい', 'が', '尻尾')
('美味しい', 'が', 'ねた')
('仕入れる', 'を', 'ねた')


 23%|██▎       | 323/1386 [00:04<00:15, 69.29it/s]

('大切', 'で', '嗽')
('大切', 'で', '嗽')
('心掛ける', 'を', '予防')
('重い', 'で', '寝不足')
('痛い', 'で', '寝不足')


 25%|██▍       | 346/1386 [00:04<00:15, 68.60it/s]

('使える', 'で', 'ドコモ')
('わかる', 'で', '逆子')
not registered V, C : おもしろい に
('おもしろい', 'に', '本当')
('持つ', 'を', '御土産')
('検索', 'を', '足')


 26%|██▌       | 363/1386 [00:04<00:13, 74.17it/s]

('恋しい', 'が', '天気')
('怪しい', 'が', '天気')
('見せる', 'に', 'メロン')


 29%|██▊       | 396/1386 [00:05<00:13, 74.70it/s]

('可憐', 'が', '花言葉')
('特殊', 'が', '学校')
('安全', 'が', '学校')
('誕生', 'が', 'ななつ星')
('大成功', 'が', '熊本県')


 29%|██▉       | 404/1386 [00:05<00:15, 62.36it/s]

('みつける', 'に', '夏')


 30%|███       | 417/1386 [00:05<00:18, 51.65it/s]

('連覇', 'で', 'アメリカ')
('確認', 'が', '感染者')
('美味しい', 'に', '本当')
('行う', 'が', 'boon')
('引っ越す', 'が', '和平')


 31%|███       | 423/1386 [00:05<00:19, 49.74it/s]

('検索', 'で', 'ダビンチ')


 31%|███       | 429/1386 [00:06<00:28, 33.83it/s]

('ある', 'が', '御店')
('コーティング', 'が', '食材')
('可愛らしい', 'が', '飴')
not registered V, C : 健康的 で
('健康的', 'で', '沖縄')
('想像', 'を', '味')
('する', 'で', '金団')


 32%|███▏      | 439/1386 [00:06<00:24, 38.10it/s]

('披露', 'が', 'ロボットニットデニムブーツカットパンツ')
('会話', 'が', '選手権')
('買う', 'に', '御土産')


 32%|███▏      | 449/1386 [00:06<00:24, 38.49it/s]

('大好き', 'が', 'チョコレートラテポッキーブレンド')
('転げ落ちる', 'に', '末')
('観戦', 'を', '保険')
('買う', 'に', '御土産')
('ある', 'が', '御店')


 33%|███▎      | 459/1386 [00:07<00:26, 34.95it/s]

('ささやく', 'に', '来年')
('提供', 'で', 'マラソン')


 34%|███▍      | 473/1386 [00:07<00:22, 39.99it/s]

('イメージ', 'が', '歴史')
('指導', 'で', '女房')


 35%|███▍      | 483/1386 [00:07<00:23, 38.02it/s]

('見る', 'を', 'お節料理')
('召し上がる', 'を', 'さん')
('添う', 'に', '地図')
('連載', 'が', '保険')


 35%|███▌      | 492/1386 [00:07<00:23, 38.28it/s]

('食べる', 'を', 'リング')
('視聴', 'が', '卵')
('革新', 'が', '理由')


 36%|███▋      | 504/1386 [00:08<00:23, 38.06it/s]

('好き', 'が', '天下一品')
('発売', 'が', 'ベニマル')
('利用', 'で', 'ベニマル')


 37%|███▋      | 514/1386 [00:08<00:20, 42.97it/s]

('食べる', 'を', '刺し身')
('驚愕', 'に', '寿司')
('みる', 'を', '特集番組')


 38%|███▊      | 526/1386 [00:08<00:17, 48.48it/s]

('する', 'が', '結弦')
('応援', 'を', '元気')
('焼く', 'で', 'デギュスタシオン')
('掛ける', 'が', 'デリ')
('泊まる', 'に', '年末年始')


 39%|███▊      | 536/1386 [00:08<00:18, 46.01it/s]

('マッチ', 'に', '場合')
('試す', 'を', 'スパイス')
('好き', 'で', 'ラーメン')


 40%|███▉      | 551/1386 [00:09<00:19, 42.14it/s]

('高まる', 'に', '今後')


 40%|████      | 561/1386 [00:09<00:20, 40.53it/s]

('踊る', 'を', 'クッキー')
('購入', 'で', 'イレブン')
('美味しい', 'が', 'スナック')
('利用', 'を', 'コピー機')


 41%|████      | 571/1386 [00:09<00:19, 41.03it/s]

('嬉しい', 'が', '組み合わせ')
('誘う', 'を', '蝦煎')
('なる', 'が', '蝦煎')


 42%|████▏     | 582/1386 [00:10<00:20, 39.35it/s]

('好き', 'が', '海豹')
('泳ぐ', 'を', '水槽')


 43%|████▎     | 592/1386 [00:10<00:19, 40.82it/s]

('使う', 'を', '料理器具')
('購入', 'で', 'グランプリ')
('ある', 'が', '御店')
('温める', 'を', 'スライスチーズ')


 43%|████▎     | 601/1386 [00:10<00:20, 38.24it/s]

('食べる', 'を', '味')
('見かける', 'で', '棚')
('コラボレーション', 'が', 'パステル')
('思い出す', 'で', 'ソフトクリーム')
('二人目', 'が', 'さん')


 44%|████▍     | 611/1386 [00:10<00:19, 40.70it/s]

('見る', 'を', '納豆')
('きつい', 'で', '味')
('観戦', 'を', '賞')
('登場', 'で', 'akiba')


 45%|████▌     | 625/1386 [00:11<00:20, 37.76it/s]

('抑える', 'を', 'oriconstyle')
('ノミネート', 'に', 'ゴーシーク')
('無理', 'が', '優勝')


 46%|████▌     | 634/1386 [00:11<00:19, 38.79it/s]

('勝ち進む', 'が', 'ヤマザキ')
('販売', 'が', '保険')
('選ぶ', 'で', 'キティー')
('販売', 'が', '雲月')
('販売', 'が', '雲月')


 46%|████▋     | 642/1386 [00:11<00:20, 36.17it/s]

('観覧', 'に', '君')
('行く', 'が', 'クリスマス')


 47%|████▋     | 647/1386 [00:11<00:18, 39.16it/s]

('食べる', 'に', '解釈')


 48%|████▊     | 659/1386 [00:12<00:24, 29.69it/s]

('活躍', 'で', '現時点')
('外せる', 'が', '御店')


 48%|████▊     | 669/1386 [00:12<00:19, 36.64it/s]

('施す', 'が', '漆塗り')
('アップ', 'に', '飛躍的')


 50%|████▉     | 689/1386 [00:12<00:15, 44.56it/s]

('多い', 'が', '御店')
('魅力的', 'が', '見る')
('ハマる', 'が', 'さん')
('好き', 'が', 'リング')
('おいしい', 'が', '方')
('ある', 'が', 'ココロココ')


 50%|█████     | 694/1386 [00:13<00:16, 42.94it/s]

('載せる', 'で', 'ココロココ')
('思い出す', 'で', '中止')


 51%|█████     | 704/1386 [00:13<00:17, 39.64it/s]

('宣伝', 'が', 'パン')
('始まる', 'で', '元気')
('元気', 'が', '受け取り')


 52%|█████▏    | 714/1386 [00:13<00:16, 41.12it/s]

('渡り歩く', 'が', '選手')
('見つける', 'で', 'ブラジル')
('獲る', 'で', '若い')


 52%|█████▏    | 725/1386 [00:13<00:15, 42.92it/s]

('ない', 'で', 'イングレス')
('買う', 'で', '島歌')
('出場', 'に', '島歌')


 53%|█████▎    | 740/1386 [00:14<00:15, 42.71it/s]

('する', 'を', 'manzai')
('買う', 'に', '御土産')
('出場', 'が', '今年')
('急上昇', 'が', '株')
('残念', 'で', 'こと')


 54%|█████▍    | 750/1386 [00:14<00:15, 41.55it/s]

('美味しい', 'に', '本当')
('アップロード', 'に', 'キャンデー')
('発売', 'を', 'tweetbot')


 55%|█████▌    | 766/1386 [00:14<00:13, 46.51it/s]

('破れる', 'で', 'ワールドカップ')
('好き', 'で', 'FC')
('致命傷', 'に', '投手')


 56%|█████▋    | 781/1386 [00:15<00:13, 44.89it/s]

('望ましい', 'で', 'カップ')
('指導', 'で', 'イチ')
('伸ばせる', 'で', '御陰')


 57%|█████▋    | 791/1386 [00:15<00:14, 40.89it/s]

('大事', 'が', '信用')
('アレンジ', 'を', 'マッサマンカレー')


 58%|█████▊    | 806/1386 [00:15<00:14, 41.25it/s]

('決める', 'に', '快挙')
('売り切れる', 'で', '人気')
('発売', 'を', '歌謡祭')


 59%|█████▉    | 816/1386 [00:15<00:13, 41.88it/s]

('歌う', 'が', 'フーズ')


 59%|█████▉    | 821/1386 [00:16<00:15, 37.00it/s]

('楽しめる', 'で', 'これ')
('見かける', 'を', 'エピソード')
('切り離す', 'を', '気持ち')


 60%|██████    | 836/1386 [00:16<00:13, 42.29it/s]

('食べる', 'を', '味')
('大人気', 'が', '最近')
('美味しい', 'に', '他')
('コーティング', 'に', 'ポテトチップス')
('トッピング', 'に', '卵')


 61%|██████    | 846/1386 [00:16<00:14, 38.19it/s]

('食べる', 'を', '蝦煎')
('つく', 'で', 'ブラジル')
('出店', 'が', '御店')


 62%|██████▏   | 859/1386 [00:17<00:13, 38.85it/s]

('優勝', 'が', '次回')
('施す', 'が', '漆塗り')
('有名', 'で', '肉饅')


 63%|██████▎   | 875/1386 [00:17<00:11, 45.00it/s]

('見る', 'を', 'ココロココ')
('する', 'が', '啓江')
('応援', 'を', 'letao')
('開発', 'を', '試作品')
('読む', 'を', 'カンタビ')


 64%|██████▍   | 891/1386 [00:17<00:10, 47.94it/s]

('実演', 'で', '番組')
('直撃', 'に', '今後')


 65%|██████▌   | 901/1386 [00:17<00:10, 45.80it/s]

('続出', 'が', 'リピーター')
('浸透', 'が', '乃逢')
('買う', 'で', 'パン')
('観る', 'に', '他')
('絡む', 'が', '蒟蒻')


 66%|██████▌   | 911/1386 [00:18<00:10, 46.34it/s]

('休む', 'が', '今日')
('ござる', 'に', '所')
('かかる', 'が', 'トッピング')


 67%|██████▋   | 927/1386 [00:18<00:12, 36.84it/s]

('またがる', 'が', '町作り')
('好き', 'で', 'ハンバーガー')
('シンプル', 'が', 'クッキー')
not registered V, C : 恋 で
('恋', 'で', '番組')


 68%|██████▊   | 938/1386 [00:18<00:10, 42.99it/s]

('実演', 'で', '番組')
('消える', 'で', '代')


 69%|██████▉   | 961/1386 [00:19<00:07, 59.74it/s]

('高い', 'が', '通行料金')


 71%|███████▏  | 990/1386 [00:19<00:06, 64.31it/s]

('汚れる', 'が', '部屋')


 72%|███████▏  | 1004/1386 [00:19<00:05, 63.92it/s]

('高い', 'が', '冬服')
('いい', 'で', 'どっち')
('おもしろい', 'が', '間')


 75%|███████▍  | 1034/1386 [00:20<00:05, 61.56it/s]

('整理', 'が', '上')


 76%|███████▌  | 1049/1386 [00:20<00:05, 64.33it/s]

('怪しい', 'が', '週間')
('出せる', 'で', 'それ')
('弾く', 'に', '他')
('なる', 'に', 'お出掛け')
('グッド', 'が', '今')


 77%|███████▋  | 1063/1386 [00:20<00:04, 64.83it/s]

('うろつく', 'で', '大須')
('いける', 'に', '外')
('おいしい', 'に', '割')
('食べる', 'を', 'なに')
('整理', 'が', '上')


 78%|███████▊  | 1085/1386 [00:21<00:04, 64.07it/s]

('撮る', 'を', '枚')
('撮る', 'を', '枚')
('特殊', 'が', '時')


 80%|████████  | 1114/1386 [00:21<00:04, 64.06it/s]

('苦手', 'が', '席')
('装備', 'を', 'かっぱ')
('気づく', 'で', '御陰')
('暑い', 'が', 'ここ')
('暑い', 'が', 'ここ')
('きく', 'が', 'クーラー')


 82%|████████▏ | 1130/1386 [00:21<00:03, 69.35it/s]

('整理', 'が', '上')
('確保', 'が', '踏み場')
('粘る', 'が', '和布蕪')
('のる', 'に', '上')


 83%|████████▎ | 1146/1386 [00:22<00:03, 69.14it/s]

('整理', 'が', '上')
('利用', 'が', '目覚まし')
('かわいそう', 'が', 'それ')
('買い物', 'で', '携帯')


 84%|████████▍ | 1162/1386 [00:22<00:03, 71.52it/s]

('整理', 'が', '上')


 86%|████████▌ | 1186/1386 [00:22<00:02, 71.28it/s]

('聞く', 'が', '本当')
('駄目', 'が', 'プール')


 87%|████████▋ | 1202/1386 [00:22<00:02, 72.21it/s]

('見習う', 'が', '所')
('好き', 'が', '玄米茶')
('かわいい', 'が', '犬')
('なる', 'に', '猫好き')
('入る', 'が', 'ペペロンチーノ')


 88%|████████▊ | 1218/1386 [00:23<00:02, 69.54it/s]

('好き', 'が', 'ダンク')
('整理', 'が', '上')


 89%|████████▉ | 1235/1386 [00:23<00:02, 73.92it/s]

('高い', 'が', '冬服')
('ある', 'が', 'あんなん')
('高い', 'が', '野菜')
('すむ', 'で', '情報')
('かっこいい', 'が', '人')


 91%|█████████ | 1258/1386 [00:23<00:02, 62.01it/s]

('観る', 'で', 'それ')
('飲める', 'で', '何')


 92%|█████████▏| 1272/1386 [00:23<00:01, 61.29it/s]

('いく', 'に', '平日')
('買う', 'に', '御店')


 93%|█████████▎| 1287/1386 [00:24<00:01, 63.46it/s]

('羨ましい', 'が', '人')
('ゆでる', 'で', '鍋')
('食える', 'が', 'ボール')


 94%|█████████▍| 1309/1386 [00:24<00:01, 63.46it/s]

('休める', 'に', '絶対')
('同じ', 'で', '－')
('勉強', 'が', '最近')
('好き', 'が', 'ピンク')


 96%|█████████▌| 1331/1386 [00:24<00:00, 66.92it/s]

('ゆずる', 'を', '席')
('好き', 'が', '玄米茶')
('見る', 'を', 'アイアムレジェンド')
('使いこなせる', 'で', '感じ')


 97%|█████████▋| 1348/1386 [00:25<00:00, 70.62it/s]

('思い出せる', 'が', '名前')
('不便', 'が', '手汗')
('高い', 'が', '冬服')


 98%|█████████▊| 1363/1386 [00:25<00:00, 62.79it/s]

('育つ', 'で', 'さん')
('整理', 'が', '上')


 99%|█████████▉| 1377/1386 [00:25<00:00, 64.18it/s]

('確保', 'が', '踏み場')
('整理', 'が', '上')
('確保', 'が', '踏み場')
('みかける', 'で', '図書館')


100%|██████████| 1386/1386 [00:25<00:00, 54.00it/s]

('経つ', 'に', 'たち')





In [32]:
score(y, y_pred)

confusion matrix = 
 [[1088  290]
 [   6    2]]
accuracy =  0.7864357864357865
precision =  0.00684931506849315
recall =  0.25
f1 score =  0.01333333333333333


In [28]:
word = "一人"
print("group "+classify_word(word))
print(word in w2v_model)

group <ヒト（数）>
True


- 学習データのみでやってみた

        confusion matrix = 
        [[716 662]
        [  1   7]]
        accuracy =  0.5216450216450217
        precision =  0.01046337817638266
        recall =  0.875
        f1 score =  0.020679468242245203

    - 再現率は良い！

In [30]:
def judge_triple(triple):
    V = triple[0]
    C = triple[1]
    noun = triple[2]

    # Vが登録されていないならパスしておくかな(一旦)
    if V not in case_frame:
        # print("not registered V :", V)
        return True
    
    # C が登録されていないなら，アウト
    if C not in case_frame[V]:
        # print("not registered V, C :", V, C)
        return False
    
    # そのままの名詞で検索 -> 発見なら正例
    if search_triple(V, C, noun):
        # print("\tfound", V, C, noun)
        return True

    # 名詞がどこかのグループに属する
    group_ = search_word(noun)
    if len(group_) > 0:
        # 1つでも引っかかればOK
        for group in group_:
            if search_triple(V, C, group):
                return True
        return False
    # グループを推定
    else:
        group = classify_word(noun) 
        return search_triple(V, C, group)

In [31]:
for yt, yp, utt in zip(y, y_pred, sys_utt):
    if yt==1:
        print(utt)
        triples = extract_RDF_triple(utt)
        for triple in triples:
            print(triple)
            print( judge_triple(triple) )
        print("--------")

元気ですかは元気です
--------
好きだを見ますよねー
('見る', 'を', '好き')
False
--------
病院は治療を受けましょう
('受ける', 'が', '病院')
True
('受ける', 'を', '治療')
True
--------
好きだは好きですか。お寿司はエンガワが好きですね
('好き', 'が', '縁側')
False
--------
時期から資格を取りますねぇ
('取る', 'を', '資格')
True
--------
手を貯金に出しますねぇ
('出す', 'を', '手')
True
('出す', 'に', '貯金')
True
--------
ところで、テレビでテレビあるって言ってましたが、テレビは民主党支持が多いですね
('ある', 'で', 'テレビ')
True
('言う', 'で', '所')
True
('多い', 'が', '支持')
True
--------
旬ですねぇ。自分もオリンピック書いたし。
--------


In [33]:
data_path = "../X_y_data/y_pred/"
data_name = "caseFrame.pickle"
dataM = DataManager(data_path)
dataM.save_data(data_name, [y, y_pred])

success save : ../X_y_data/y_pred/caseFrame.pickle
