In [62]:
import pandas as pd
import numpy as np
from scipy import spatial
from gensim.models import word2vec
import pickle

vector_size = 250

In [63]:
'''
csv読み込み
store_idをindexに変更
'''

df = pd.read_csv('../csv/review_wakati.csv')
df = df.drop(['store_id'],axis=1)
df = df.rename(columns={'Unnamed: 0':'store_id'}).set_index('store_id')

In [64]:
'''
pickleで学習済みreview達のvector読み出し
'''

f = open("../pickle/cbow_list.txt","rb")
cbow_list = pickle.load(f)
f.close()

In [65]:
'''
学習済みモデルの読み出し
'''

model = word2vec.Word2Vec.load('../models/cbow_w2v.model')

In [66]:
'''
ここまで準備
'''

'\nここまで準備\n'

In [67]:
def sentence_similarity(vec1, vec2):
    '''
    二つの文章のコサイン類似度を返す
    '''
    return 1 - spatial.distance.cosine(vec1, vec2)

In [68]:
'''
store_idをkeyに指定文書と各行のreviewのコサイン類似度をスコアとして入れる
'''

result = {}
keyword = avg_feature_vectors(['行列', '醬油', 'ラーメン'], model)
for i, row in df.iterrows():
    score = sentence_similarity(keyword, cbow_list[i])
    result[i] = score * row.score


  """


In [69]:
'''
scoreの高い順にsort
'''

score_sorted = sorted(result.items(), key=lambda x:x[1], reverse=True)

In [70]:
'''
score高い10件を書き出し
'''

for t in score_sorted[:10]:
    row = df[df.index == t[0]]
    name, score, station = row.store_name.values[0], row.score.values[0], row.station.values[0]
    print('店名:{}, 食べログスコア:{}, 独自スコア:{:.2f}, 最寄駅:{}'.format(name,score,t[1]*100,station))
    

店名:SOBA HOUSE 金色不如帰, 食べログスコア:3.89, 独自スコア:193.04, 最寄駅:新宿御苑前
店名:珍々軒, 食べログスコア:3.58, 独自スコア:163.83, 最寄駅:京成上野
店名:田中そば店 本店, 食べログスコア:3.72, 独自スコア:153.72, 最寄駅:六町
店名:ラーメン二郎 神田神保町店, 食べログスコア:3.72, 独自スコア:153.61, 最寄駅:神保町
店名:はいむる珈琲店, 食べログスコア:3.52, 独自スコア:151.87, 最寄駅:武蔵小山
店名:ラーメン 龍の家 新宿小滝橋通り店, 食べログスコア:3.53, 独自スコア:151.17, 最寄駅:西武新宿
店名:麺屋武蔵 新宿本店, 食べログスコア:3.55, 独自スコア:148.76, 最寄駅:西武新宿
店名:三吉, 食べログスコア:3.53, 独自スコア:147.77, 最寄駅:新橋
店名:自家製中華そば としおか, 食べログスコア:3.87, 独自スコア:145.06, 最寄駅:早稲田駅（メトロ）
店名:タロー軒, 食べログスコア:3.62, 独自スコア:142.76, 最寄駅:新高円寺
