### `01_features_dist_with_word2vec`
最終更新: 2024/4/28, 17:45

1. 言語モデルで特徴間距離/主題-喩辞と特徴間距離（コサイン類似度/ユークリッド距離）を算出する（このnotebookで実装）
2. 上記1と、参加者の平均単語間距離/参加者の平均適切性評定値の相関を算出

#### 1. ライブラリとモデルの読み込み

In [1]:
#パスの追加
import os, sys
from pathlib import Path

CURRENT_DIR = os.path.join(Path().resolve())
sys.path.append(str(CURRENT_DIR)+"/../src/")

In [154]:
#各種ライブラリの読み込み
import pandas as pd
import numpy as np
import tqdm
import re
import itertools
import openpyxl

import gensim
from gensim.models import KeyedVectors

ModuleNotFoundError: No module named 'openpyxl'

In [3]:
#word2vecモデルの読み込み
#ref: https://www.nogawanogawa.com/entry/gensim_intro

# word2vecモデルのパス
#今回はすでにダウンロード済みのjawikiのベクトルを使う
#jawiki.word_vectors.300d.txt.bz2(https://github.com/singletongue/WikiEntVec/releases)
WORD2VEC_DIR = "/Users/ryunosuke/Dropbox/比喩関連/基盤数/metaphor_individual_difference/code/model_analysis/model/jawiki.word_vectors.300d.txt"

#オリジナルのword2vcモデル
_w2v_model = KeyedVectors.load_word2vec_format(WORD2VEC_DIR, binary=False)

In [4]:
#モデルの単語サイズの確認
len(_w2v_model.key_to_index)

751361

#### 2. 単語類似度を計算する単語（主題/喩辞/特徴)の準備
- 一応、主題-喩辞-特徴間の距離を算出するまで終わった（2024/4/28, 17:43）
1. `data`ディレクトリの`MetConceptAct_Exp2_Sorting.csv`（参加者の特徴配置課題のローデータ）を読み込む
2. 主題、喩辞、特徴、NIDのみを取り出す
3. 主題-喩辞-特徴間の距離を算出する

##### 2.1 ローデータの読み込み

In [44]:
RAW_SORTING_DIR = "../data/MetConceptAct_Exp2_Sorting.csv"

raw_sorting_df = pd.read_csv(RAW_SORTING_DIR)
raw_sorting_df.head()

Unnamed: 0,success,timeout,failed_images,failed_audio,failed_video,trial_type,trial_index,time_elapsed,internal_node_id,cwid,...,finloc_T_y,finloc_V_x,finloc_V_y,finloc_F1_x,finloc_F1_y,finloc_F2_x,finloc_F2_y,finloc_F3_x,finloc_F3_y,stimulus
0,1.0,,Array,Array,Array,preload,0,2,0.0-0.0,4287323,...,,,,,,,,,,
1,1.0,,,,,fullscreen,1,2649,0.0-1.0,4287323,...,,,,,,,,,,
2,,,,,,survey-html-form,2,5753,0.0-2.0,4287323,...,,,,,,,,,,
3,,,,,,survey-html-form,3,12969,0.0-3.0,4287323,...,,,,,,,,,,
4,,,,,,survey-html-form,4,21255,0.0-4.0,4287323,...,,,,,,,,,,


In [45]:
raw_sorting_df.columns

Index(['success', 'timeout', 'failed_images', 'failed_audio', 'failed_video',
       'trial_type', 'trial_index', 'time_elapsed', 'internal_node_id', 'cwid',
       'Condition', 'StartTime', 'EndTime', 'rt', 'response', 'task',
       'init_locations', 'moves', 'final_locations', 'TrialType', 'SetType',
       'FinStimID', 'NID', 'Topic', 'Vehicle', 'NumFeatures', 'F1', 'F2', 'F3',
       'TargetDirTopic', 'TargetDirVehicle', 'TargetDirF1', 'TargetDirF2',
       'TargetDirF3', 'iniloc_T_x', 'iniloc_T_y', 'iniloc_V_x', 'iniloc_V_y',
       'iniloc_F1_x', 'iniloc_F1_y', 'iniloc_F2_x', 'iniloc_F2_y',
       'iniloc_F3_x', 'iniloc_F3_y', 'finloc_T_x', 'finloc_T_y', 'finloc_V_x',
       'finloc_V_y', 'finloc_F1_x', 'finloc_F1_y', 'finloc_F2_x',
       'finloc_F2_y', 'finloc_F3_x', 'finloc_F3_y', 'stimulus'],
      dtype='object')

##### 2.2 主題、喩辞、特徴、NIDのみを取り出す
- 参加者一人分だけ取り出す（cwid: 4287323）

In [64]:
topic_vehicle_features_df = raw_sorting_df.query('cwid in [4287323, 2613017, 4765315] and NID not in ["NaN", "E06", "E13", "E48"]')
topic_vehicle_features_df = topic_vehicle_features_df.loc[:,["cwid", "NID", "Topic", "Vehicle", "F1", "F2", "F3"]]
topic_vehicle_features_df = topic_vehicle_features_df.dropna()
topic_vehicle_features_df.reset_index()

Unnamed: 0,index,cwid,NID,Topic,Vehicle,F1,F2,F3
0,12,4287323,26,真珠,水滴,美しい,丸い,透き通っている
1,13,4287323,63,時間,洪水,止められない,流れる,逆らえない
2,25,4287323,86,学校,工場,人がたくさんいる,画一的だ,生産する
3,26,4287323,80,煙草,時限爆弾,寿命を縮める,危険だ,燃える
4,27,4287323,39,研究,登山,険しい道のり,達成感がある,苦しい
5,28,4287323,12,衝撃,電気,一瞬の出来事だ,突然来る,ビリビリする
6,30,4287323,88,批判,メス,人を傷つける,鋭い,痛いところをつく
7,33,4287323,14,暴動,嵐,激しい,人を巻き込む,突然起こる
8,37,4287323,38,蝶,踊り子,美しい,舞う,華やかだ
9,41,4287323,81,夕日,銅貨,丸い,輝いている,赤い


In [65]:
topic_vehicle_features_df.query('NID == "52"')

Unnamed: 0,cwid,NID,Topic,Vehicle,F1,F2,F3
303,4765315,52,仕事,牢獄（ろうごく）,つらい,逃れられない,閉じ込められる


In [66]:
#TopicとVehicleでカッコを含むものを除外する
#ref1: https://teratail.com/questions/210373
#ref2: https://takake-blog.com/python-regular-expression/
#ref3: https://uxmilk.jp/8662

reg = '（.+?）'
re.sub(pattern=reg, repl="", string="牢獄（ろうごく）")

'牢獄'

In [67]:
REG = '（.+?）'

def remove_brackets(text, reg=REG):
    """
    全角括弧を含む文字列を削除する
    """
    try:
        return_text = re.sub(pattern=reg, repl="", string=text)
    except:
        return_text = text
 
    return return_text

#test
remove_brackets("牢獄（ろうごく）")

'牢獄'

In [69]:
topic_vehicle_features_df["Topic"] = topic_vehicle_features_df.Topic.map(remove_brackets)
topic_vehicle_features_df["Vehicle"] = topic_vehicle_features_df.Vehicle.map(remove_brackets)
topic_vehicle_features_df["F1"] = topic_vehicle_features_df["F1"].map(remove_brackets)
topic_vehicle_features_df["F2"] = topic_vehicle_features_df["F2"].map(remove_brackets)
topic_vehicle_features_df["F3"] = topic_vehicle_features_df["F3"].map(remove_brackets)
topic_vehicle_features_df = topic_vehicle_features_df.reset_index()
topic_vehicle_features_df

Unnamed: 0,index,cwid,NID,Topic,Vehicle,F1,F2,F3
0,12,4287323,26,真珠,水滴,美しい,丸い,透き通っている
1,13,4287323,63,時間,洪水,止められない,流れる,逆らえない
2,25,4287323,86,学校,工場,人がたくさんいる,画一的だ,生産する
3,26,4287323,80,煙草,時限爆弾,寿命を縮める,危険だ,燃える
4,27,4287323,39,研究,登山,険しい道のり,達成感がある,苦しい
5,28,4287323,12,衝撃,電気,一瞬の出来事だ,突然来る,ビリビリする
6,30,4287323,88,批判,メス,人を傷つける,鋭い,痛いところをつく
7,33,4287323,14,暴動,嵐,激しい,人を巻き込む,突然起こる
8,37,4287323,38,蝶,踊り子,美しい,舞う,華やかだ
9,41,4287323,81,夕日,銅貨,丸い,輝いている,赤い


In [74]:
#言語モデルの中に主題/喩辞/特徴があるかを0,1で返す
def is_word_ind_w2v_model(text):
    is_in = 0

    if text in _w2v_model.key_to_index:
        is_in = 1

    return is_in

#test
print("子供: ", is_word_ind_w2v_model("子供"))
print("なああああ: ", is_word_ind_w2v_model("なああああ"))

子供:  1
なああああ:  0


In [75]:
topic_vehicle_features_df["IS_IN_Topic"] = topic_vehicle_features_df.Topic.map(is_word_ind_w2v_model)
topic_vehicle_features_df["IS_IN_Vehicle"] = topic_vehicle_features_df.Vehicle.map(is_word_ind_w2v_model)
topic_vehicle_features_df["IS_IN_F1"] = topic_vehicle_features_df["F1"].map(is_word_ind_w2v_model)
topic_vehicle_features_df["IS_IN_F2"] = topic_vehicle_features_df["F2"].map(is_word_ind_w2v_model)
topic_vehicle_features_df["IS_IN_F3"] = topic_vehicle_features_df["F3"].map(is_word_ind_w2v_model)

topic_vehicle_features_df

Unnamed: 0,index,cwid,NID,Topic,Vehicle,F1,F2,F3,IS_IN_Topic,IS_IN_Vehicle,IS_IN_F1,IS_IN_F2,IS_IN_F3
0,12,4287323,26,真珠,水滴,美しい,丸い,透き通っている,1,1,1,1,0
1,13,4287323,63,時間,洪水,止められない,流れる,逆らえない,1,1,0,1,0
2,25,4287323,86,学校,工場,人がたくさんいる,画一的だ,生産する,1,1,0,0,0
3,26,4287323,80,煙草,時限爆弾,寿命を縮める,危険だ,燃える,1,1,0,0,1
4,27,4287323,39,研究,登山,険しい道のり,達成感がある,苦しい,1,1,0,0,1
5,28,4287323,12,衝撃,電気,一瞬の出来事だ,突然来る,ビリビリする,1,1,0,0,0
6,30,4287323,88,批判,メス,人を傷つける,鋭い,痛いところをつく,1,1,0,1,0
7,33,4287323,14,暴動,嵐,激しい,人を巻き込む,突然起こる,1,1,1,0,0
8,37,4287323,38,蝶,踊り子,美しい,舞う,華やかだ,1,1,1,1,0
9,41,4287323,81,夕日,銅貨,丸い,輝いている,赤い,1,1,1,0,1


In [81]:
#0になる項目が多いので、微細な書き換えで1になるかを確認する
#topic_vehicle_features_df.to_csv("../result/prepare_words_to_word2vec.csv", encoding="shift-jis", index=False)

In [153]:
is_word_ind_w2v_model("癒す")

1

##### 2.3.1 主題-喩辞-特徴間の距離を算出する(コサイン類似度)
-ref: https://radimrehurek.com/gensim/models/keyedvectors.html

In [170]:
#データの読み込み
IN_WORDS_DF_DIR = "../result/prepare_words_to_word2vec_edited.csv"

words_df = pd.read_csv(IN_WORDS_DF_DIR, encoding="shift-jis")
words_df = words_df.loc[:,["NID", "T_Topic", "T_Vehicle", "T_F1", "T_F2", "T_F3"]]

words_df

Unnamed: 0,NID,T_Topic,T_Vehicle,T_F1,T_F2,T_F3
0,26,真珠,水滴,美しい,丸い,透き通る
1,63,時間,洪水,止める,流れる,逆らう
2,86,学校,工場,たくさん,画一的,生産
3,80,煙草,時限爆弾,縮める,危険,燃える
4,39,研究,登山,険しい,達成感,苦しい
5,12,衝撃,電気,一瞬,突然,ビリビリ
6,88,批判,メス,傷つける,鋭い,突く
7,14,暴動,嵐,激しい,巻き込む,突然
8,38,蝶,踊り子,美しい,舞う,華やか
9,81,夕日,銅貨,丸い,輝く,赤い


In [171]:
#コサイン類似度はdistance関数でもとめられる
#ref:  https://radimrehurek.com/gensim/models/keyedvectors.html
_w2v_model.distance("真珠", "水滴")

0.681954026222229

In [172]:
#コサイン類似度を計算する
#ref: https://zenn.dev/watatakahashi/articles/666c5acc95c6f9

words_df["CosSim_T_V"] = words_df[['T_Topic', 'T_Vehicle']].apply(lambda x: _w2v_model.distance(x[0], x[1]), axis=1)
words_df["CosSim_T_F1"] = words_df[['T_Topic', 'T_F1']].apply(lambda x: _w2v_model.distance(x[0], x[1]), axis=1)
words_df["CosSim_T_F2"] = words_df[['T_Topic', 'T_F2']].apply(lambda x: _w2v_model.distance(x[0], x[1]), axis=1)
words_df["CosSim_T_F3"] = words_df[['T_Topic', 'T_F3']].apply(lambda x: _w2v_model.distance(x[0], x[1]), axis=1)
words_df["CosSim_V_F1"] = words_df[['T_Vehicle', 'T_F1']].apply(lambda x: _w2v_model.distance(x[0], x[1]), axis=1)
words_df["CosSim_V_F2"] = words_df[['T_Vehicle', 'T_F2']].apply(lambda x: _w2v_model.distance(x[0], x[1]), axis=1)
words_df["CosSim_V_F3"] = words_df[['T_Vehicle', 'T_F3']].apply(lambda x: _w2v_model.distance(x[0], x[1]), axis=1)
words_df["CosSim_F1_F2"] = words_df[['T_F1', 'T_F2']].apply(lambda x: _w2v_model.distance(x[0], x[1]), axis=1)
words_df["CosSim_F1_F3"] = words_df[['T_F1', 'T_F3']].apply(lambda x: _w2v_model.distance(x[0], x[1]), axis=1)
words_df["CosSim_F2_F3"] = words_df[['T_F2', 'T_F3']].apply(lambda x: _w2v_model.distance(x[0], x[1]), axis=1)

words_df

Unnamed: 0,NID,T_Topic,T_Vehicle,T_F1,T_F2,T_F3,CosSim_T_V,CosSim_T_F1,CosSim_T_F2,CosSim_T_F3,CosSim_V_F1,CosSim_V_F2,CosSim_V_F3,CosSim_F1_F2,CosSim_F1_F3,CosSim_F2_F3
0,26,真珠,水滴,美しい,丸い,透き通る,0.681954,0.51789,0.684183,0.62426,0.645785,0.452086,0.609472,0.604571,0.455445,0.574534
1,63,時間,洪水,止める,流れる,逆らう,0.813528,0.608048,0.71973,0.761796,0.67257,0.573656,0.708758,0.693425,0.395733,0.741916
2,86,学校,工場,たくさん,画一的,生産,0.673093,0.719248,0.730166,0.841137,0.777517,0.805579,0.445634,0.710484,0.798919,0.717071
3,80,煙草,時限爆弾,縮める,危険,燃える,0.753034,0.866258,0.737402,0.671063,0.751034,0.570451,0.578652,0.684338,0.765867,0.602125
4,39,研究,登山,険しい,達成感,苦しい,0.764357,0.86724,0.852858,0.85701,0.46901,0.754546,0.848714,0.723924,0.622364,0.550397
5,12,衝撃,電気,一瞬,突然,ビリビリ,0.754478,0.504525,0.513491,0.643145,0.749742,0.788555,0.620225,0.473126,0.599104,0.648637
6,88,批判,メス,傷つける,鋭い,突く,0.901025,0.519005,0.68015,0.639838,0.707809,0.649645,0.761611,0.519518,0.4934,0.352083
7,14,暴動,嵐,激しい,巻き込む,突然,0.624129,0.550995,0.522689,0.664331,0.591254,0.690443,0.604197,0.505621,0.506142,0.58174
8,38,蝶,踊り子,美しい,舞う,華やか,0.59695,0.550391,0.476234,0.664538,0.59138,0.565367,0.599178,0.497319,0.445619,0.460832
9,81,夕日,銅貨,丸い,輝く,赤い,0.812421,0.677265,0.610539,0.548419,0.716185,0.820712,0.675737,0.650898,0.339414,0.515459


In [173]:
#結果を出力する
words_df.to_csv("../result/words_to_word2vec_edited_with_cossim.csv", index=False)