### 隠喩表現と直喩表現から収集された特徴語の一覧からの解釈多様性の算出

#### mecabの準備と動作確認
- MeCabの準備などは以下などを参考のこと
    - [Google ColabにMeCabとipadic-NEologdをインストールする](https://qiita.com/jun40vn/items/78e33e29dce3d50c2df1)

In [3]:
#この実行結果で表示されるmecabの辞書を以下のpathで指定する
!echo `mecab-config --dicdir`"/mecab-ipadic-neologd"

/usr/local/lib/mecab/dic/mecab-ipadic-neologd


In [4]:
import MeCab

#-d以降の内容を上の実行結果に変更する
path = "-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd"

#MeCabオブジェクトの準備
m = MeCab.Tagger(path)

In [6]:
#MeCabの動作確認
print(m.parse("mecabの動作確認"))

mecab	名詞,固有名詞,一般,*,*,*,MeCab,メカブ,メカブ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
動作	名詞,サ変接続,*,*,*,*,動作,ドウサ,ドーサ
確認	名詞,サ変接続,*,*,*,*,確認,カクニン,カクニン
EOS



`MetaphorSimileFeatures.csv`から、以下の基準で形態素の辞書を作る
- カンマなどで形態素を分ける
  - 空白文字(\u3000)はカンマに置き換える
  - 「」は削除する
  - 形態素解析で、文字を分ける
  - その上で形容詞、動詞、形容動詞のみ取り出す
- 動詞, 形容詞, 形容動詞は原型にする
- 複合語からなる回答は除外する（要確認）
- 回答が2つ以下のものは省く

`data`の列の説明
- Sex: 1が男性, 2が女性
- Age: 参加者の年齢
- P_ID: 参加者のID
- Questions: TV/Sから始まる比喩番号（TV: 隠喩表現, S: 直喩表現）
- Value: 参加者から得られた1~3個の特徴語
- Presentation: 比喩表現の種類
- QID: 比喩表現の番号（番号と表現の対応関係は＝で）

In [7]:
#ライブラリのインポート
import numpy as np
import pandas as pd
import tqdm

In [8]:
#データの読み込み
data = pd.read_csv("../data/MetaphorSimileFeatures.csv")

#Questionsを記号と数字に分ける
data['Presentation'] = data['Questions'].str.split('[0-9]{2}', expand=True)[0]
data['QID'] = data['Questions'].str.split('[A-Z]{1,}', expand=True)[1]

data.head()

Unnamed: 0,Sex,Age,P_ID,Questions,Value,Presentation,QID
0,2,42,618221,TV01,突きさす、鋭い,TV,1
1,2,38,854398,TV01,きつい、厳しい,TV,1
2,1,44,596296,TV01,怖い、危険、冷たい,TV,1
3,1,28,714743,TV01,痛い、突き刺さる,TV,1
4,1,44,966384,TV01,鋭い、痛い、危ない,TV,1


In [11]:
def features2fl(features):
    """
    特徴を含む文字列を形態素解析などして、特徴のリストにする
    """
    fl = list()
    parsed_str = m.parse(features).split("\n")
    for parsed in parsed_str:
        if "\t" in parsed:
            parsed = parsed.split("\t")[1].split(",")
            if (parsed[0] in ["形容詞", "動詞"]) or (parsed[0]=="名詞" and parsed[1]=="形容動詞語幹"):
                fl.append(parsed[6])
    return fl

In [12]:
#dataを1行ずつ確認して、QIDごとにfeature_dictを作る
whole_features_dict = dict()
na_number = 0

for col, rows in tqdm.tqdm(data.iterrows()):
  #もしQIDがなかったらPresentationの種類ごとに辞書登録
    if rows.QID not in whole_features_dict.keys():
        whole_features_dict[rows.QID] = dict()
        whole_features_dict[rows.QID]["TV"] = dict()#隠喩の特徴語
        whole_features_dict[rows.QID]["S"] = dict()

    #読点で切る
    cur_feature_lst = features2fl(rows.Value)
    if len(cur_feature_lst) < 1:
        na_number += 1
        continue
  
    #現在の特徴をPresentaionに合わせて数え上げ
    for cur_feature in cur_feature_lst:
        whole_features_dict[rows.QID][rows.Presentation][cur_feature] = whole_features_dict[rows.QID][rows.Presentation].get(cur_feature, 0) + 1

4409it [00:02, 1753.40it/s]


In [13]:
print(na_number)#無効回答数
print(data.shape[0])#有効データ数

128
4409


In [14]:
#2回以上出現していない特徴は切る→残ったものがfeaturelist
final_whole_features_dict = dict()

#stopwordsを決める
STOPWORDS = ["ある", "する", "いる", "ない"]

for idx, (k1, v1) in enumerate(whole_features_dict.items()):
    if k1 not in final_whole_features_dict.keys():
        final_whole_features_dict[k1] = dict()
    for k2, v2 in v1.items():
        if k2 not in final_whole_features_dict[k1].keys():
            final_whole_features_dict[k1][k2] = dict()
        for k3, v3 in v2.items():
            if (v3 > 1) and (k3 not in STOPWORDS):
                final_whole_features_dict[k1][k2][k3] = v3

In [15]:
final_whole_features_dict["01"]

{'TV': {'鋭い': 24,
  'きつい': 3,
  '厳しい': 2,
  '怖い': 2,
  '危険': 3,
  '冷たい': 2,
  '痛い': 11,
  '突き刺さる': 3,
  '危ない': 4,
  '傷つく': 5,
  '嫌': 2,
  '切れる': 3,
  '悲しい': 2,
  '硬い': 2,
  '切る': 3,
  '短い': 3,
  '刺す': 3,
  '傷つける': 4,
  '嫌味': 2,
  '刺さる': 2},
 'S': {'するどい': 4,
  '短い': 2,
  '鋭い': 27,
  '痛い': 12,
  '怖い': 5,
  '傷つく': 5,
  '嫌': 3,
  '切れる': 7,
  '突き刺さる': 2,
  '切る': 2,
  '刺す': 4,
  '傷つける': 3,
  '刺さる': 6,
  '鋭利': 2,
  '斬る': 2,
  '危ない': 3}}

In [16]:
#interpretive diversityをまとめた辞書を用意
ID_dict = dict()

#Interpretive diverisityを算出する
for k1, v1 in tqdm.tqdm(final_whole_features_dict.items()):
    if k1 not in ID_dict.keys():
        ID_dict[k1] = dict()
    for k2, v2 in v1.items():
        if k2 not in ID_dict[k1].keys():
            ID_dict[k1][k2] = dict()
            ID_dict[k1][k2]["_ID"] = 0
            ID_dict[k1][k2]["_types"] = len(final_whole_features_dict[k1][k2].keys())
            ID_dict[k1][k2]["_tokens"] = sum(final_whole_features_dict[k1][k2].values())
        for types, (k3, v3) in enumerate(v2.items(), 1):
            ID_dict[k1][k2]["_ID"] += -(v3/ID_dict[k1][k2]["_tokens"])*np.log2(v3/ID_dict[k1][k2]["_tokens"])

100%|█████████████████████████████████████████████████████████████| 45/45 [00:00<00:00, 18535.17it/s]


In [17]:
ID_dict

{'01': {'TV': {'_ID': 3.76248857364477, '_types': 20, '_tokens': 85},
  'S': {'_ID': 3.4415006727510975, '_types': 16, '_tokens': 89}},
 '02': {'TV': {'_ID': 3.481136061043902, '_types': 13, '_tokens': 72},
  'S': {'_ID': 3.7274101673393862, '_types': 18, '_tokens': 77}},
 '03': {'TV': {'_ID': 4.031974648295472, '_types': 18, '_tokens': 73},
  'S': {'_ID': 3.9546205239501804, '_types': 18, '_tokens': 69}},
 '04': {'TV': {'_ID': 3.5157068807872145, '_types': 16, '_tokens': 81},
  'S': {'_ID': 3.9257031306448775, '_types': 20, '_tokens': 87}},
 '05': {'TV': {'_ID': 4.013688322930431, '_types': 19, '_tokens': 82},
  'S': {'_ID': 3.825331512178963, '_types': 19, '_tokens': 88}},
 '06': {'TV': {'_ID': 3.7220291289837557, '_types': 17, '_tokens': 71},
  'S': {'_ID': 3.529919004450064, '_types': 18, '_tokens': 82}},
 '07': {'TV': {'_ID': 3.24620508147799, '_types': 14, '_tokens': 69},
  'S': {'_ID': 3.269053458745536, '_types': 15, '_tokens': 84}},
 '08': {'TV': {'_ID': 3.186640474546178, '_t

In [18]:
#ID_dictをpandasにする
ID_df = pd.DataFrame()

for col, (qid, presentations) in enumerate(ID_dict.items()):
    for presentation in presentations.keys():
        cur_series = pd.Series([qid, presentation, presentations[presentation]["_ID"]])
        ID_df = ID_df.append(cur_series, ignore_index=True)

ID_df.columns = ["QID", "Presentation", "Diversity"]

`ID_DF`の列の説明
- QID: 比喩表現の番号
- Presentation: 比喩表現の種類
- Diversity: 解釈多様性の値

In [20]:
ID_df

Unnamed: 0,QID,Presentation,Diversity
0,01,TV,3.762489
1,01,S,3.441501
2,02,TV,3.481136
3,02,S,3.727410
4,03,TV,4.031975
...,...,...,...
85,43,S,2.967917
86,44,TV,3.526718
87,44,S,3.737282
88,45,TV,4.039203


In [21]:
#解釈多様性のデータを出力する
ID_df.to_csv("../data/MetaphorSimileDiversity.csv", index=False)