In [1]:
#参考: https://qiita.com/toshiyuki_tsutsui/items/b3ac8fd1b300c3404508

from collections import defaultdict
from gensim.models.keyedvectors import KeyedVectors
from sklearn.cluster import KMeans

model = KeyedVectors.load('../model/word2vec_ramen_model.model')

max_vocab = 30000 #40000にしても結果は同じだった
vocab = list(model.wv.index_to_key)[:max_vocab] #vocab.key()->index_to_key
vectors = [model.wv[word] for word in vocab]

n_clusters = 6 #クラスター数はこちらで任意の値を定める
kmeans_model = KMeans(n_clusters=n_clusters, verbose=0, random_state=42, n_jobs=-1)#n_jobsがもうそろそろ消えるらしい
kmeans_model.fit(vectors)

cluster_labels = kmeans_model.labels_
cluster_to_words = defaultdict(list)
for cluster_id, word in zip(cluster_labels, vocab):
    cluster_to_words[cluster_id].append(word)



In [2]:
for words in cluster_to_words.values():
    print(words[:20])

['スープ', '醤油', '旨味', '香り', '出汁', '煮干し', '味わい', '風味', '昆布', '魚介', 'なく', 'ストレート', 'バランス', '加水', '見た目', '自家製', 'コク', '印象', '上品', 'しじみ']
['チャーシュー', '美味しい', 'これ', 'ワンタン', '感じ', '良い', 'メンマ', 'トッピング', '調理', '食感', '良く', '低温', '具材', '海老', '旨い', '好み', '美味い', 'ネギ', '海苔', 'ロース']
['ラーメン', 'こと', 'よう', '中華そば', 'こちら', 'そう', 'ない', 'いい', 'もの', '人気', 'ところ', '今回', 'それ', '一杯', '山椒', '高い', 'つけ麺', '好き', '美味しかっ', 'ここ']
['さん', '訪問', '行列', '到着', '待ち', '時間', '開店', '入店', '平日', '10分', '11時', 'ため', '30分', '近く', '11', '並び', '10', '30', '営業', '12時']
['そば', '特製', '店内', '食券', 'カウンター', '店主', '注文', '購入', 'メニュー', '券売機', '丁寧', 'らーめん', '提供', 'つけ', '醤油ラーメン', '店員', '着席', '軍鶏', '綺麗', '限定']
['食べログ', 'オープン', '徒歩', '名店', '百名', '場所', 'ラーメン店', '中華蕎麦', '東京', '店舗', '製麺', '有名', '2020', '移転', '2020年', '秋葉原', 'ビブグルマン', 'https', '選出', 'ランチ']


In [3]:
#参考: https://qiita.com/junjis0203/items/fbde15dbba5ccdb5dc4c
import pandas as pd

def change_dict_key(d, old_key, new_key, default_value=None):
    d[new_key] = d.pop(old_key, default_value)
change_dict_key(cluster_to_words, 0, '日付、お店の評価、ネット用語に関するワード')
change_dict_key(cluster_to_words, 1, '人や接客、内装に関するワード')
change_dict_key(cluster_to_words, 2, 'その他のワード')
change_dict_key(cluster_to_words, 3,  '券売機や注文に関するワード')
change_dict_key(cluster_to_words, 4, '曜日時間、店舗の地理的なワード')
change_dict_key(cluster_to_words, 5, 'ラーメンの中身に関するワード')

df_dict = pd.DataFrame.from_dict(cluster_to_words, orient="index").T
df_dict.iloc[:,[5,3,1,4,0,2]] #ix->iloc

Unnamed: 0,ラーメンの中身に関するワード,券売機や注文に関するワード,人や接客、内装に関するワード,曜日時間、店舗の地理的なワード,日付、お店の評価、ネット用語に関するワード,その他のワード
0,そば,スープ,チャーシュー,食べログ,ラーメン,さん
1,特製,醤油,美味しい,オープン,こと,訪問
2,店内,旨味,これ,徒歩,よう,行列
3,食券,香り,ワンタン,名店,中華そば,到着
4,カウンター,出汁,感じ,百名,こちら,待ち
...,...,...,...,...,...,...
1022,,,,,づくり,
1023,,,,,50%,
1024,,,,,否が応でも,
1025,,,,,渾身,


In [67]:
df_dict.head

<bound method NDFrame.head of      日付、お店の評価、ネット用語に関するワード 人や接客、内装に関するワード その他のワード 券売機や注文に関するワード  \
0                     ラーメン         チャーシュー      さん           スープ   
1                       こと           美味しい      訪問            醤油   
2                       よう             これ      行列            旨味   
3                     中華そば           ワンタン      到着            香り   
4                      こちら             感じ      待ち            出汁   
...                    ...            ...     ...           ...   
1022                   づくり           None    None          None   
1023                   50%           None    None          None   
1024                 否が応でも           None    None          None   
1025                    渾身           None    None          None   
1026                    映画           None    None          None   

     曜日時間、店舗の地理的なワード ラーメンの中身に関するワード  
0               食べログ             そば  
1               オープン             特製  
2                 徒歩             店内  
3            

In [14]:
# 参考 https://qiita.com/tatsuya-miyamoto/items/f1539d86ad4980624111

from gensim import corpora
from gensim import models
import pickle

taste_words = cluster_to_words['ラーメンの中身に関するワード']
kenbaiki_words = cluster_to_words['券売機や注文に関するワード']
taste_words.extend(kenbaiki_words)
ramen_word = taste_words
cluster_to_words.keys()

# 文書

f = open('../work/ramen_corpus.txt','r',encoding="utf-8")
trainings = []

for i,data in enumerate(f):
    word = data.replace("'",'').replace('[','').replace(']','').replace(' ','').replace('\n','').split(",")
    trainings.append([i for i in word if i in ramen_word])

# 単語->id変換の辞書作成
dictionary = corpora.Dictionary(trainings)

# textsをcorpus化
corpus = list(map(dictionary.doc2bow,trainings))

# tfidf modelの生成
test_model = models.TfidfModel(corpus)

# corpusへのモデル適用
corpus_tfidf = test_model[corpus]

# id->単語へ変換
texts_tfidf = [] # id -> 単語表示に変えた文書ごとのTF-IDF
for doc in corpus_tfidf:
    text_tfidf = []
    for word in doc:
        text_tfidf.append([dictionary[word[0]],word[1]])
    texts_tfidf.append(text_tfidf)

from operator import itemgetter

texts_tfidf_sorted_top20 = [] 

#TF-IDF値を高い順に並び替え上位単語20個に絞る。
for i in range(len(texts_tfidf)):
    soted = sorted(texts_tfidf[i], key=itemgetter(1),reverse=True)
    soted_top20 = soted[:20]
    word_list = []
    for k in range(len(soted_top20)):
        word = soted_top20[k][0]
        word_list.append(word)
    texts_tfidf_sorted_top20.append(word_list)
# 結果をデータフレームに追加

df = pd.read_csv('../csv/tokyo_ramen_top20_100.csv')
df_ramen = df.groupby(['store_name','score','review_cnt'])['review'].apply(list).apply(' '.join).reset_index().sort_values('score', ascending=False)
df_ramen['texts_tfidf_sorted_top20'] = texts_tfidf_sorted_top20
df_ramen['id'] = ['ID-' + str(i + 1).zfill(6) for i in range(len(df_ramen.index))]
df_ramen_texts_tfidf_sorted_top20 = df_ramen.iloc[:,[5,3,1,4,0,2]].reset_index(drop=True)
df_ramen_texts_tfidf_sorted_top20
pickle.dump(df_ramen_texts_tfidf_sorted_top20, open('../work/df_ramen_texts_tfidf_sorted_top20', 'wb'))

In [69]:
df_ramen_texts_tfidf_sorted_top20.to_csv("df_ramen_texts_tfidf_sorted_top20.csv")

In [23]:
from itertools import product

f = open('../work/df_ramen_texts_tfidf_sorted_top20','rb')
# f_pickle = f.to_pickle('alldata.pickle')
store_df = pickle.load(f, encoding="utf-8")
store_cross = []
for ids in product(store_df['id'], repeat=2):
    store_cross.append(ids)

store_cross_df = pd.DataFrame(store_cross, columns=['id_x', 'id_y'])

store_cross_detail = store_cross_df.merge(
    store_df[['id','store_name','score','review_cnt','texts_tfidf_sorted_top20']], how='inner', left_on='id_x', right_on='id'
).drop(columns='id').merge(
    store_df[['id','store_name','score','review_cnt','texts_tfidf_sorted_top20']], how='inner', left_on='id_y', right_on='id'
).drop(columns='id')
store_cross_detail = store_cross_detail[store_cross_detail['id_x'].isin(store_df['id'].loc[0:50])]
store_cross_detail = store_cross_detail.reset_index(drop=True).sort_values(['id_x'])

In [25]:
store_cross_detail.to_csv("../csv/store_cross_detail.csv")

In [22]:
##ラーメン店xに対してラーメン店yの類似度を算出

import itertools
from tqdm import tqdm 
from gensim.models import word2vec
import numpy as np

word2vec_ramen_model = word2vec.Word2Vec.load("../model/word2vec_ramen_model.model")

#コサイン類似度を算出する関数を定義
def cos_sim(v1, v2):
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

#cossimだけの組み合わせ（同じワード同士の組みあわせがでてくるため）
#2次元を１次元にする　setが重複を削除てきなやつ。
uniq_words = list(set(itertools.chain.from_iterable(store_df['texts_tfidf_sorted_top20'].values)))
scores = {}
for word1, word2 in product(uniq_words, repeat=2):
    scores[(word1, word2)] = cos_sim(word2vec_ramen_model.wv[word1],word2vec_ramen_model.wv[word2])


avg_avg_scores = []
for i in tqdm(range(len(store_cross_detail['texts_tfidf_sorted_top20_x']))):
    avg_scores = []
    for j in range(len(store_cross_detail['texts_tfidf_sorted_top20_x'][i])):
        word_cross_scores = []
        word_a = store_cross_detail['texts_tfidf_sorted_top20_x'][i][j]
        for k in range(len(store_cross_detail['texts_tfidf_sorted_top20_y'][i])):
            word_b = store_cross_detail['texts_tfidf_sorted_top20_y'][i][k]
            score = scores[(word_a, word_b)]#単語間のスコアを出す。
            word_cross_scores.append(score)
        avg_scores.append(np.mean(word_cross_scores))#20個の単語間スコアの平均値
    avg_avg_scores.append(np.mean(avg_scores))#20個の単語間スコアの平均値の平均値
store_cross_detail.insert(6, 'avg_cos_sim_rate', avg_avg_scores)  
# 「二郎」と類似度が高いラーメン屋を高い順に表示
store_cross_detail = store_cross_detail.sort_values(['id_x', 'avg_cos_sim_rate'], ascending=[True, False])
df_sim_x = store_cross_detail[store_cross_detail['store_name_x'].str.contains('二郎')]
df_sim_x.reset_index(drop=True)

def min_max(x, axis=None):
    min = x.min(axis=axis, keepdims=True)
    max = x.max(axis=axis, keepdims=True)
    result = (x-min)/(max-min)
    return result
b = df_sim_x['avg_cos_sim_rate']
c = min_max(b.values)
df_sim_x.insert(7, '正規化', c)
df_sim_x

100%|██████████| 361/361 [00:01<00:00, 325.24it/s]


ValueError: zero-size array to reduction operation minimum which has no identity