### コーパスの中身をkmeansでクラスタリング

In [1]:
from collections import defaultdict

from gensim import corpora
from gensim import models
from gensim.models.keyedvectors import KeyedVectors
import pandas as pd
from sklearn.cluster import KMeans

In [2]:
model = KeyedVectors.load('output/word2vec_ramen_model.model')

In [3]:
max_vocab = 30000
vocab = list(model.wv.key_to_index.keys())[:max_vocab]
vectors = [model.wv[word] for word in vocab]

In [4]:
len(vectors)

10438

In [5]:
# クラスター数はこちらで任意の値を定める
n_clusters = 6
kmeans_model = KMeans(n_clusters=n_clusters, verbose=0, random_state=42)
kmeans_model.fit(vectors)

KMeans(n_clusters=6, random_state=42)

In [6]:
cluster_labels = kmeans_model.labels_
cluster_to_words = defaultdict(list)
for cluster_id, word in zip(cluster_labels, vocab):
    cluster_to_words[cluster_id].append(word)

In [7]:
for i, words in cluster_to_words.items():
    print(i, words[:20])

2 ['スープ', '醤油', '感じ', '濃厚', '旨味', '煮干し', '出汁', '味わい', '香り', '風味', '魚介', '良く', 'なく', 'バランス', '最後', '印象', '旨い', '見た目', 'ストレート', '豚骨']
1 ['ラーメン', '0円', 'こと', 'よう', 'これ', 'そう', 'つけ麺', 'ない', 'そば', 'もの', 'メニュー', '中華そば', '特製', 'らーめん', '今回', '味噌', 'それ', '好き', 'ところ', 'ここ']
5 ['チャーシュー', '美味しい', '良い', 'メンマ', 'いい', 'トッピング', 'つけ', 'ネギ', 'ワンタン', '食感', '野菜', '海苔', '好み', '具材', 'ご飯', '美味い', '美味しく', '味付け', '調理', 'シンプル']
0 ['0分', '店内', 'カウンター', '食券', '注文', '到着', '券売機', '購入', '待ち', '店主', '時間', '入店', '開店', '店員', '雰囲気', '着席', '先客', 'オーダー', 'お客さん', '丁寧']
3 ['さん', '0時', '訪問', 'こちら', '人気', '行列', '今日', 'ごちそうさま', '平日', 'ラーメン屋', '徒歩', '近く', '食べログ', '場所', 'ランチ', '営業', '名店', 'オープン', '以前', 'ラーメン店']
4 ['https', '.com', 'www', 'instagram', '0%', 'twitter', 'グルメ', 'tokyo', 'ブログ', 'youtube', 'http://', 'entry', '.jp', 'blog', 'u.', 'yo', 'ut', 'be', 'スタ', '詳しく']


In [8]:
def change_dict_key(d, old_key, new_key, default_value=None):
    print(f'{old_key} -> {new_key}')
    d[new_key] = d.pop(old_key, default_value)

In [9]:
# # 各クラスターの解釈を決定
change_dict_key(cluster_to_words, 1,  'ラーメンに関するワード')
change_dict_key(cluster_to_words, 2, 'スープに関するワード')
change_dict_key(cluster_to_words, 5, 'トッピングに関するワード')
change_dict_key(cluster_to_words, 0, '店内に関するワード')
change_dict_key(cluster_to_words, 3, '店舗に関するワード')
change_dict_key(cluster_to_words, 4, 'その他のワード')

1 -> ラーメンに関するワード
2 -> スープに関するワード
5 -> トッピングに関するワード
0 -> 店内に関するワード
3 -> 店舗に関するワード
4 -> その他のワード


In [10]:
print(cluster_to_words['スープに関するワード'][:20])

['スープ', '醤油', '感じ', '濃厚', '旨味', '煮干し', '出汁', '味わい', '香り', '風味', '魚介', '良く', 'なく', 'バランス', '最後', '印象', '旨い', '見た目', 'ストレート', '豚骨']


In [11]:
df = pd.DataFrame.from_dict(cluster_to_words, orient="index").T
df = df.iloc[:, [1, 2, 5, 0, 3, 4]]
df.to_csv('output/words_cluster.csv')
df.head(20)

Unnamed: 0,スープに関するワード,トッピングに関するワード,その他のワード,ラーメンに関するワード,店内に関するワード,店舗に関するワード
0,スープ,チャーシュー,https,ラーメン,0分,さん
1,醤油,美味しい,.com,0円,店内,0時
2,感じ,良い,www,こと,カウンター,訪問
3,濃厚,メンマ,instagram,よう,食券,こちら
4,旨味,いい,0%,これ,注文,人気
5,煮干し,トッピング,twitter,そう,到着,行列
6,出汁,つけ,グルメ,つけ麺,券売機,今日
7,味わい,ネギ,tokyo,ない,購入,ごちそうさま
8,香り,ワンタン,ブログ,そば,待ち,平日
9,風味,食感,youtube,もの,店主,ラーメン屋


### TF-IDFで文章における特徴的な単語を抽出

In [12]:
from gensim import corpora
from gensim import models

In [13]:
# 口コミからレコメンドに使用する情報を絞る
# 試行錯誤して決定するべし!!
ramen_words = cluster_to_words['ラーメンに関するワード']
soup_words = cluster_to_words['スープに関するワード']
topping_words = cluster_to_words['トッピングに関するワード']

ramen_words.extend(soup_words)
ramen_words.extend(topping_words)
ramen_words.extend(another_words)
key_words = ramen_words

len(key_words)

6315

In [14]:
with open('output/ramen_corpus.txt', 'r', encoding='utf-8') as f:
    trainings = []
    for i, data in enumerate(f):
        # 不要な文字を取り除いて単語を取り出す
        words = data.replace("'", '').replace('[', '').replace(']', '').replace(' ', '').replace('\n', '').split(",")
        trainings.append([i for i in words if i in key_words])

In [15]:
# 単語->id変換の辞書作成
dictionary = corpora.Dictionary(trainings)

In [16]:
# textsをcorpus化
corpus = list(map(dictionary.doc2bow, trainings))

In [17]:
# tfidf modelの生成
test_model = models.TfidfModel(corpus)

In [18]:
# corpusへのモデル適用
corpus_tfidf = test_model[corpus]

In [19]:
# id->単語へ変換
texts_tfidf = []    # id -> 単語表示に変えた文書ごとのTF-IDF
for doc in corpus_tfidf:
    text_tfidf = []
    for word in doc:
        text_tfidf.append([dictionary[word[0]], word[1]])
    texts_tfidf.append(text_tfidf)

In [20]:
from operator import itemgetter
import pickle

In [21]:
texts_tfidf_sorted_top20 = [] 

#TF-IDF値を高い順に並び替え上位単語20個に絞る。
for i in range(len(texts_tfidf)):
    soted = sorted(texts_tfidf[i], key=itemgetter(1),reverse=True)
    soted_top20 = soted[:20]
    word_list = []
    for k in range(len(soted_top20)):
        word = soted_top20[k][0]
        word_list.append(word)
    texts_tfidf_sorted_top20.append(word_list)

In [22]:
# 結果をデータフレームに追加
store_df = pd.read_csv('output/ramen_store.csv')
review_df = pd.read_csv('output/ramen_review.csv')
df_ramen = pd.merge(store_df, review_df)

print('columns:\n', df_ramen.columns)
print('\nshape: ', df_ramen.shape)

columns:
 Index(['ID', 'name', 'url', 'score', 'review_count', 'review'], dtype='object')

shape:  (8303, 6)


In [23]:
df_ramen = df_ramen.groupby(['ID', 'name', 'score', 'review_count'])['review'].apply(list).apply(' '.join).reset_index().sort_values('score', ascending=False)
df_ramen['texts_tfidf_sorted_top20'] = texts_tfidf_sorted_top20

df_ramen_texts_tfidf_sorted_top20 = df_ramen.iloc[:,[0, 1, 5]].reset_index(drop=True)
df_ramen_texts_tfidf_sorted_top20.head()

Unnamed: 0,ID,name,texts_tfidf_sorted_top20
0,1,らぁ麺や 嶋,"[ワンタン, 昆布, 炭火, 海老, 特製, 火炙り, だれ, 炙り焼, 焼き豚, 藻塩, ..."
1,2,Homemade Ramen 麦苗,"[黒毛和牛, いりこ, 深谷, 火山, spf, spf豚, ワンタン, 手入れ, 鰹節, ..."
2,3,手打式超多加水麺 ののくら,"[ワンタン, 手打, 中華そば, 三つ葉, 特製, 鶏胸肉, 生醤油, 紫蘇, うどん, 大..."
3,4,麺尊 RAGE,"[軍鶏, 替え玉, そば, まぜそば, しゃも, 卵黄, 醤油漬け, 素地, 燻製, 特製,..."
4,5,宍道湖しじみ中華蕎麦 琥珀,"[しじみ, 宍道湖, 島根県, シジミ, 琥珀, ワンタン, 雑色, バラ, コハク酸, 地..."


In [24]:
# 上の結果をダンプ
with open('output/df_ramen_texts_tfidf_sorted_top20', 'wb') as f:
    pickle.dump(df_ramen_texts_tfidf_sorted_top20, f)

### お店間の類似度を計算

In [25]:
from itertools import product

In [26]:
with open('output/df_ramen_texts_tfidf_sorted_top20','rb') as f:
    store_df = pickle.load(f)
store_cross = []
for ids in product(store_df['ID'], repeat=2):
    store_cross.append(ids)

In [27]:
store_cross_df = pd.DataFrame(store_cross, columns=['id_x', 'id_y'])
store_cross_df.head()

Unnamed: 0,id_x,id_y
0,1,1
1,1,2
2,1,3
3,1,4
4,1,5


In [28]:
store_cross_detail = store_cross_df.merge(
    store_df[['ID','name','texts_tfidf_sorted_top20']], how='inner', left_on='id_x', right_on='ID'
).drop(columns='ID').merge(
    store_df[['ID','name','texts_tfidf_sorted_top20']], how='inner', left_on='id_y', right_on='ID'
).drop(columns='ID')

store_cross_detail = store_cross_detail[store_cross_detail['id_x'].isin(store_df['ID'].loc[0:50])]
store_cross_detail = store_cross_detail.reset_index(drop=True).sort_values(['id_x'])

store_cross_detail.head()

Unnamed: 0,id_x,id_y,name_x,texts_tfidf_sorted_top20_x,name_y,texts_tfidf_sorted_top20_y
0,1,1,らぁ麺や 嶋,"[ワンタン, 昆布, 炭火, 海老, 特製, 火炙り, だれ, 炙り焼, 焼き豚, 藻塩, ...",らぁ麺や 嶋,"[ワンタン, 昆布, 炭火, 海老, 特製, 火炙り, だれ, 炙り焼, 焼き豚, 藻塩, ..."
13260,1,263,らぁ麺や 嶋,"[ワンタン, 昆布, 炭火, 海老, 特製, 火炙り, だれ, 炙り焼, 焼き豚, 藻塩, ...",田中商店 ダイバーシティ東京プラザ店,"[味噌ラーメン, 味噌, バリ, 白味噌, 鬼玉, 札幌, 辛味噌, もやし, ドロ, 七味..."
13209,1,277,らぁ麺や 嶋,"[ワンタン, 昆布, 炭火, 海老, 特製, 火炙り, だれ, 炙り焼, 焼き豚, 藻塩, ...",あさひ町内会,"[高菜, 博多, ハリガネ, 辛子, 替玉, キクラゲ, バリカタ, フク, 替え玉, ちゃ..."
13158,1,276,らぁ麺や 嶋,"[ワンタン, 昆布, 炭火, 海老, 特製, 火炙り, だれ, 炙り焼, 焼き豚, 藻塩, ...",麺宿 志いな,"[つけ, ドレッシング, レモン, そば, 豚骨魚介, 0g, 大瓶, 温野菜, セメント,..."
1275,1,24,らぁ麺や 嶋,"[ワンタン, 昆布, 炭火, 海老, 特製, 火炙り, だれ, 炙り焼, 焼き豚, 藻塩, ...",創作麺工房 鳴龍,"[特選, ぁめん, 丹波黒, ワサ, 吊し, 三元豚, 鶏胸肉, 昆布, 地鶏, ハートラン..."


#### ラーメン店xに対してラーメン店yの類似度を算出

In [29]:
import itertools
from tqdm import tqdm 

In [30]:
#コサイン類似度を算出する関数を定義
def cos_sim(v1, v2):
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

In [31]:
# word2vecのモデルを読み込み
import numpy as np
from gensim.models import word2vec

word2vec_ramen_model = word2vec.Word2Vec.load("output/word2vec_ramen_model.model")

In [32]:
# cossimだけの組み合わせ（同じワード同士の組みあわせがでてくるため）
# 2次元を１次元にする　setが重複を削除てきなやつ。
uniq_words = list(set(itertools.chain.from_iterable(store_df['texts_tfidf_sorted_top20'].values)))
scores = {}
for word1, word2 in product(uniq_words, repeat=2):
    scores[(word1, word2)] = cos_sim(word2vec_ramen_model.wv[word1],
                                     word2vec_ramen_model.wv[word2]) 

In [33]:
'チャーシュー' in uniq_words

False

In [34]:
len(uniq_words)

2849

In [35]:
len(scores)

8116801

In [36]:
# スコアの辞書をダンプする
with open('output/word_score', 'wb') as f:
    pickle.dump(scores, f)

In [37]:
avg_avg_scores = []
for i in tqdm(range(len(store_cross_detail['texts_tfidf_sorted_top20_x']))):
    avg_scores = []
    for j in range(len(store_cross_detail['texts_tfidf_sorted_top20_x'][i])):
        word_cross_scores = []
        word_a = store_cross_detail['texts_tfidf_sorted_top20_x'][i][j]
        for k in range(len(store_cross_detail['texts_tfidf_sorted_top20_y'][i])):
            word_b = store_cross_detail['texts_tfidf_sorted_top20_y'][i][k]
            # 単語間のスコアを出す。
            score = scores[(word_a, word_b)]
            word_cross_scores.append(score)
        # 20個の単語間スコアの平均値
        avg_scores.append(np.mean(word_cross_scores))
        # 20個の単語間スコアの平均値の平均値
    avg_avg_scores.append(np.mean(avg_scores))
store_cross_detail.insert(6, 'avg_cos_sim_rate', avg_avg_scores)  

100%|██████████| 20400/20400 [00:42<00:00, 483.25it/s]


In [38]:
# 類似度が高いラーメン屋を高い順に表示
keyword = 'ののくら'
store_cross_detail = store_cross_detail.sort_values(['id_x', 'avg_cos_sim_rate'], ascending=[True, False])
df_sim_x = store_cross_detail[store_cross_detail['name_x'].str.contains(keyword)]
df_sim_x.reset_index(drop=True)
df_sim_x.head()

Unnamed: 0,id_x,id_y,name_x,texts_tfidf_sorted_top20_x,name_y,texts_tfidf_sorted_top20_y,avg_cos_sim_rate
17699,3,327,手打式超多加水麺 ののくら,"[ワンタン, 手打, 中華そば, 三つ葉, 特製, 鶏胸肉, 生醤油, 紫蘇, うどん, 大...",浅草名代らーめん 与ろゐ屋,"[ニンニク醤油, フルーツ, つけ麺, 極太, ジン, つけ, にんにく醤油, カネ, 食品...",0.640205
818,3,17,手打式超多加水麺 ののくら,"[ワンタン, 手打, 中華そば, 三つ葉, 特製, 鶏胸肉, 生醤油, 紫蘇, うどん, 大...",一番いちばん,"[雲呑, とら食堂, 白河ラーメン, 白河, いちばん, 手打ち, ワンタン, 中華そば, ...",0.587391
5408,3,116,手打式超多加水麺 ののくら,"[ワンタン, 手打, 中華そば, 三つ葉, 特製, 鶏胸肉, 生醤油, 紫蘇, うどん, 大...",麺屋 ねむ瑠,"[ヤサイ, 二郎, 乳化, ニンニク, fz, クタ, 野菜, アブラ, 少なめ, 天地返し...",0.580481
7040,3,150,手打式超多加水麺 ののくら,"[ワンタン, 手打, 中華そば, 三つ葉, 特製, 鶏胸肉, 生醤油, 紫蘇, うどん, 大...",ラーメン二郎 八王子野猿街道店 ２,"[ワンタン, アジ, 穂先, 秋刀魚, わん, 羅臼, 比内地鶏, もろみ, たん, 柚子,...",0.575509
18311,3,378,手打式超多加水麺 ののくら,"[ワンタン, 手打, 中華そば, 三つ葉, 特製, 鶏胸肉, 生醤油, 紫蘇, うどん, 大...",九段 斑鳩 市ヶ谷本店,"[かき氷, 瀬戸内, ミルク, カキ氷, ピスタチオ, いちご, レモン, イチゴ, シロッ...",0.574828


In [39]:
# 正規化
def min_max(x, axis=None):
    min = x.min(axis=axis, keepdims=True)
    max = x.max(axis=axis, keepdims=True)
    result = (x-min)/(max-min)
    return result

In [40]:
b = df_sim_x['avg_cos_sim_rate']
c = min_max(b.values)
df_sim_x.insert(7, '正規化', c)

In [41]:
df_sim_x = df_sim_x[['id_y', 'name_y', 'avg_cos_sim_rate', '正規化',]]
df_sim_x.head(20)

Unnamed: 0,id_y,name_y,avg_cos_sim_rate,正規化
17699,327,浅草名代らーめん 与ろゐ屋,0.640205,1.0
818,17,一番いちばん,0.587391,0.811196
5408,116,麺屋 ねむ瑠,0.580481,0.786495
7040,150,ラーメン二郎 八王子野猿街道店 ２,0.575509,0.768718
18311,378,九段 斑鳩 市ヶ谷本店,0.574828,0.766283
19484,365,ボニート・ボニート,0.572205,0.756909
3725,70,麺屋一燈,0.571417,0.75409
1736,38,MENクライ,0.570732,0.751644
8009,179,麺処 一笑,0.566779,0.737511
5969,111,らーめん改,0.561746,0.719517
