### Predication (create_categint_all_words_after_feature_only; Conv): MAP@形状語全て
最終更新: 2024/7/31, 13:45

### Predication: 全ての単語を用いたモデルでの評価(Conv毎に検討)
最終更新: 2024/7/23, 16:42

In [1]:
#パスの追加
import os, sys
from pathlib import Path
import time

CURRENT_DIR = os.path.join(Path().resolve())
sys.path.append(str(CURRENT_DIR)+"/../src/")

In [2]:
#各種ライブラリの読み込み
import pandas as pd
import numpy as np
import tqdm
import re
import itertools

import gensim
from gensim.models import KeyedVectors

from predication import create_categorization_int, create_categint_all_words_after_feature_only
from ir_metrics import average_precision, average_precision_for_check

In [3]:
#全ての単語を含むモデルを使う
_all_w2v_model = KeyedVectors.load_word2vec_format("../model/jawiki.word_vectors.300d.txt", binary=False)
len(_all_w2v_model.key_to_index)

751361

In [4]:
#L2 normで正則化しないと、ベクトル計算の値が一致しない
#ref: https://raishi12.hatenablog.com/entry/2020/05/06/034625

# word2vecのモデルのベクトルを、L2ノームで正則化して置き換える。
normalized = np.sqrt((_all_w2v_model.vectors ** 2).sum(-1))[..., np.newaxis]
_all_w2v_model.vectors = _all_w2v_model.vectors / normalized

In [5]:
##動詞/形容詞/形容動詞 or 主題/喩辞モデル
_feature_only_w2v_model = KeyedVectors.load("../model/_feature_only_w2v_model.w2v_model")
len(_feature_only_w2v_model.key_to_index)

26136

In [6]:
# word2vecのモデルのベクトルを、L2ノームで正則化して置き換える。
normalized_feat_only = np.sqrt((_feature_only_w2v_model.vectors ** 2).sum(-1))[..., np.newaxis]
_feature_only_w2v_model.vectors = _feature_only_w2v_model.vectors / normalized_feat_only

In [7]:
#create_categint_all_words_after_feature_only: テスト
start = time.time()
tmp_pick_int_feat_only = create_categint_all_words_after_feature_only(topic="笑顔", vehicle="花", n_sim_vehicle=500, n_sim_topic=1,
                                        n_int=10, _all_w2v_model=_all_w2v_model, _feature_w2v_model=_feature_only_w2v_model)
finish = time.time()
elapsed_time = finish - start
print(elapsed_time)

0.5092258453369141


In [8]:
tmp_pick_int_feat_only

['幸せ', '咲かそ', '夢見る', '元気', '咲かせよ', '咲かせ', '澄み渡る', '高鳴っ', '咲い', '素敵']

#### 2. 参加者(N = 85)の比喩表現に対する解釈のデータの読み込み
- `inpt_sep`の1のみをとってくる
- `feature`をリストとしてまとめる

In [9]:
raw_metaphor_features_neolgdn = pd.read_csv("../data/metaphor_feature_neolognd.csv")
raw_metaphor_features_neolgdn.head()

Unnamed: 0,cwid,metaphor,intp,intp_sep,resp,feature
0,2250473,不安は濃霧だ,intp1,1,怖い,怖い
1,2250473,不安は濃霧だ,intp2,1,苦しい,苦しい
2,2250473,家族は納豆だ,intp1,1,暖かい,暖かい
3,2250473,家族は納豆だ,intp2,1,頼れる,頼れる
4,2250473,雑巾は亀だ,intp1,1,汚い,汚い


In [10]:
metaphor_features_neologdn = raw_metaphor_features_neolgdn.query('intp_sep == 1')
metaphor_features_neologdn = metaphor_features_neologdn.reset_index()
metaphor_features_neologdn.head()

Unnamed: 0,index,cwid,metaphor,intp,intp_sep,resp,feature
0,0,2250473,不安は濃霧だ,intp1,1,怖い,怖い
1,1,2250473,不安は濃霧だ,intp2,1,苦しい,苦しい
2,2,2250473,家族は納豆だ,intp1,1,暖かい,暖かい
3,3,2250473,家族は納豆だ,intp2,1,頼れる,頼れる
4,4,2250473,雑巾は亀だ,intp1,1,汚い,汚い


In [11]:
len(metaphor_features_neologdn.cwid.unique())

85

In [12]:
# 参加者ごとの解釈のリストのdataframeをつくる
# ref: https://www.polka-dot.net/python-pandas-groupby%E3%81%A7%E6%96%87%E5%AD%97%E5%88%97%E3%82%92%E3%83%AA%E3%82%B9%E3%83%88%E5%8C%96/
metaphor_features_lst_neolgdn = metaphor_features_neologdn.groupby(["cwid", "metaphor"])["feature"].apply(list).reset_index()
metaphor_features_lst_neolgdn.head()

Unnamed: 0,cwid,metaphor,feature
0,25920,あくびは満月だ,"[癒す, 落ち着く]"
1,25920,不安は濃霧だ,"[進める, 竦む]"
2,25920,人生は航海だ,"[荒ぶ, 穏やか]"
3,25920,休日は道しるべだ,"[立ち止まる, する]"
4,25920,家族は納豆だ,"[絡みつく, しつこい]"


In [13]:
#主題を抽出
def pick_topic(s):
    ha_index = s.index("は")
    return s[:ha_index]

#喩辞を抽出
def pick_vehicle(s):
    ha_index = s.index("は")
    return s[ha_index+1:-1]

metaphor_features_lst_neolgdn["topic"] = metaphor_features_lst_neolgdn.metaphor.apply(pick_topic)
metaphor_features_lst_neolgdn["vehicle"] = metaphor_features_lst_neolgdn.metaphor.apply(pick_vehicle)

metaphor_features_lst_neolgdn.head()

Unnamed: 0,cwid,metaphor,feature,topic,vehicle
0,25920,あくびは満月だ,"[癒す, 落ち着く]",あくび,満月
1,25920,不安は濃霧だ,"[進める, 竦む]",不安,濃霧
2,25920,人生は航海だ,"[荒ぶ, 穏やか]",人生,航海
3,25920,休日は道しるべだ,"[立ち止まる, する]",休日,道しるべ
4,25920,家族は納豆だ,"[絡みつく, しつこい]",家族,納豆


In [14]:
metaphor_features_lst_neolgdn.shape

(1635, 5)

In [15]:
#metaphorごとにhigh/lowの割り振り
H_CONV = ["蝶は踊り子だ", "笑顔は花だ", "不安は濃霧だ", "激怒は噴火だ", "魅力は磁石だ",
          "人生は航海だ", "権力は麻薬だ", "心は沼だ", "沈黙は海底だ", "議論は戦争だ"]
L_CONV = ["恋はくす玉だ", "空は鏡だ", "煙草は時限爆弾だ", "記憶は倉庫だ", "椿はひとだまだ",
          "休日は道しるべだ", "雑巾は亀だ", "家族は納豆だ", "球場はバケツだ", "あくびは満月だ"]

In [16]:
metaphor_features_lst_neolgdn["conv"] = ["H" if x in H_CONV else "L" for x in metaphor_features_lst_neolgdn["metaphor"]]

In [17]:
metaphor_features_lst_neolgdn

Unnamed: 0,cwid,metaphor,feature,topic,vehicle,conv
0,25920,あくびは満月だ,"[癒す, 落ち着く]",あくび,満月,L
1,25920,不安は濃霧だ,"[進める, 竦む]",不安,濃霧,H
2,25920,人生は航海だ,"[荒ぶ, 穏やか]",人生,航海,H
3,25920,休日は道しるべだ,"[立ち止まる, する]",休日,道しるべ,L
4,25920,家族は納豆だ,"[絡みつく, しつこい]",家族,納豆,L
...,...,...,...,...,...,...
1630,5674712,蝶は踊り子だ,"[舞う, 華やか]",蝶,踊り子,H
1631,5674712,記憶は倉庫だ,"[収める, 覚える, する]",記憶,倉庫,L
1632,5674712,議論は戦争だ,"[戦う, ぶつける, する]",議論,戦争,H
1633,5674712,雑巾は亀だ,"[茶色い, くさい, 固い]",雑巾,亀,L


#### 3. 1名分のデータ(cwid: 25920)でAPの算出ができた刺激の数（内容）、その時のk, m、aru、APの値を検討

In [18]:
#データセットの用意
metaphor_features_one_part = metaphor_features_lst_neolgdn.query('cwid == 25920').reset_index()
metaphor_features_one_part

Unnamed: 0,index,cwid,metaphor,feature,topic,vehicle,conv
0,0,25920,あくびは満月だ,"[癒す, 落ち着く]",あくび,満月,L
1,1,25920,不安は濃霧だ,"[進める, 竦む]",不安,濃霧,H
2,2,25920,人生は航海だ,"[荒ぶ, 穏やか]",人生,航海,H
3,3,25920,休日は道しるべだ,"[立ち止まる, する]",休日,道しるべ,L
4,4,25920,家族は納豆だ,"[絡みつく, しつこい]",家族,納豆,L
5,5,25920,心は沼だ,"[澱む, 濁る, 溜まる]",心,沼,H
6,6,25920,恋はくす玉だ,[高鳴る],恋,くす玉,L
7,7,25920,椿はひとだまだ,"[不気味, 落ちる]",椿,ひとだま,L
8,8,25920,権力は麻薬だ,[れる],権力,麻薬,H
9,9,25920,沈黙は海底だ,"[読める, 暗い, 留まる]",沈黙,海底,H


In [19]:
#ir_metrics: average_precisionの検証
participant_answer_one = ["舞う", "華やか"]#参加者の回答例

#model_output = create_categorization_int(topic="蝶", vehicle="踊り子", n_sim_vehicle=500, n_sim_topic=2, n_int=5000, _w2v_model=_all_w2v_model)
model_output = create_categint_all_words_after_feature_only(topic="蝶", vehicle="踊り子",
                                                            n_sim_vehicle=500, n_sim_topic=2,
                                                            #n_int=len(_feature_only_w2v_model.key_to_index),
                                                            n_int=100,
                                                            _all_w2v_model=_all_w2v_model,
                                                            _feature_w2v_model=_feature_only_w2v_model)

print("model_output: ", model_output)

average_precision(model_output, participant_answer_one, _feature_only_w2v_model)

model_output:  ['うるむ', '微睡む', '残ん', '睡り', '婀娜めく', '啼け', '咲きほこる', '泣き濡れ', 'お安', 'しどけなく', '氷る', '梳る', '匂え', '手折れ', 'うりふたつ', 'つめたき', 'なまめかしい', '拐かさ', '睡る', '煙っ', '痴れる', '蒼白い', 'せつなき', 'けむる', 'しなだれ', '様こと', '禍禍しい', '紅い', 'うつろわ', '姦しい', '喚ぶ', 'うらめし', 'あやい', 'おそかっ', '磨ぎ', '梳かす', '契れ', '物思う', '舌長', 'ひめやか', '妖艶', 'とろかす', '手折ら', 'こづき', '灯ら', 'ひからび', '人恋しい', 'マジヨ', '真ん丸', '涸らし', '聞きほれ', 'けぶる', 'かたげ', 'なつかしみ', '誑し', 'いからす', '射止めよ', '玩ぶ', 'もだえる', 'なずま', 'からげ', '裁つ', 'そまり', 'やどし', 'デマカセ', 'りゅうりゅう', 'たわむれる', '嘶い', '褪め', 'ゆらす', 'マルッ', 'ほころぶ', '可憐', 'わななく', '色めく', '愛でよ', '吊るせ', '訣れ', 'なり変わっ', '凛々しき', 'はすっぱ', 'うらぎら', '人恋しく', '恋い慕う', '蒼白き', '綾なす', '戯れ', '瞑ら', '醒まさ', '手やわらか', 'あでやか', '妖しく', 'みごもり', '降らそ', 'くだける', '相寄る', '舞う', '翳る', '青い', '坐れ']


0.010309278350515464

#### 4. 全ての参加者でAPの算出ができた刺激の数（内容）、その時のk, m、aru、APの値を検討
- ファイルサイズがデカすぎるので、一旦pcikleでlstを保存

In [20]:
participants_lst = metaphor_features_lst_neolgdn.cwid.unique()
len(participants_lst)

85

In [21]:
#モデルを保存する箱の準備
maxmap_param_lst_conv = [["cwid", "conv", "maxmap", "m", "k"]]

#predication モデルのハイパラリスト
M = [10, 25, 50, 100, 500, 1000, 2500, 5000]#Utsumi (2011)のrange+Haratiの初期検討
K = [1, 3, 5, 7, 9]#Utsumi (2011)の半分
N_INT = len(_feature_only_w2v_model.index_to_key)#解釈を何個取るかもパラメタにする→今回はしない（形状語全件; 26136）

#ハイパラ準備(40通り)
#ref: https://note.nkmk.me/python-itertools-product/
param_pairs = list(set(itertools.product(M,K)))

#0. 参加者を回す
for part in tqdm.tqdm(participants_lst):
    #ある参加者のすべての比喩の解釈を抽出
    metaphor_features_part = metaphor_features_lst_neolgdn.query('cwid == @part').reset_index()

    #0.5. 喩辞の高低で分割
    for conv_cond in ["H", "L"]:
        metaphor_features_part_by_conv = metaphor_features_part.query('conv == @conv_cond').reset_index()

        #参加者のMAPのリストの準備
        mean_map_lst = []#mapのリスト
        
        #1. ハイパラの抽出
        for param_pair in param_pairs:
            
            #2. 全ての比喩ペアで上記ハイパラでmap計算
            sum_ap = 0
            sum_ap_count = 0
            
            for col, row in metaphor_features_part_by_conv.iterrows():        
                #ある参加者のある比喩の解釈と、モデルの解釈
                part_int = row["feature"]
                
                model_int = create_categint_all_words_after_feature_only(
                    topic=row["topic"],
                    vehicle=row["vehicle"],
                    n_sim_vehicle=param_pair[0],
                    n_sim_topic=param_pair[1],
                    n_int=N_INT,
                    _all_w2v_model=_all_w2v_model,
                    _feature_w2v_model=_feature_only_w2v_model
                )
                
                #ある参加者のある比喩に対するAPと、ある参加者のapのこれまでの合計
                ap = average_precision(model_int, part_int, _all_w2v_model)
                if ap != "NA":
                    sum_ap += ap
                    sum_ap_count += 1
            
            #3. ある参加者のあるハイパラでのMAP算出
            mean_map = sum_ap/sum_ap_count
            mean_map_lst.append(mean_map)   
    
        #4. ある参加者のconv_condごとのMaxMAPの算出
        max_map_index = np.array(mean_map_lst).argmax()
        max_map = np.array(mean_map_lst).max()
        max_map_params = param_pairs[max_map_index]
        max_map_m = max_map_params[0]
        max_map_k = max_map_params[1]
    
        #5. データとして保存する
        maxmap_param_lst_conv.append([part, conv_cond, max_map, max_map_m, max_map_k])

100%|████████████████████████████████████████| 85/85 [2:42:35<00:00, 114.77s/it]


In [22]:
#maxmap_param_lstをdataframeにする
#ref: https://zizou-book-lab.com/python-pandas-dataframe-convert-column/
maxmap_param_df = pd.DataFrame(maxmap_param_lst_conv)
maxmap_param_df.columns = maxmap_param_df.iloc[0]
maxmap_param_df = maxmap_param_df.drop(maxmap_param_df.index[0])
maxmap_param_df.reset_index(drop=True, inplace=True)

maxmap_param_df

Unnamed: 0,cwid,conv,maxmap,m,k
0,25920,H,0.045175,100,3
1,25920,L,0.000459,25,1
2,42040,H,0.002721,2500,1
3,42040,L,0.003737,5000,1
4,94338,H,0.127767,1000,1
...,...,...,...,...,...
165,5451300,L,0.000275,1000,1
166,5604782,H,0.028062,2500,3
167,5604782,L,0.001075,5000,1
168,5674712,H,0.001739,5000,1


In [23]:
#dfの保存
maxmap_param_df.to_csv("../data/maxmap_param_df_at_26136_by_conov_pred_all_after_feature.csv", header=True, index=False)