In [15]:
from gensim.models import word2vec

json_file_path = 'data/test_user.json'

#Wikipediaで学習させたWord2Vecモデルのロード
model = word2vec.Word2Vec.load('data/wiki.model')

In [16]:
import json
import csv

#JSONファイルを読み込んだ後に、csvファイルを作成
with open(json_file_path) as f:
    json_list = json.load(f)
    json_data = json_list[0]
    
    with open('data/test_data.csv', 'w') as csv_file:
        fieldnames = ['id', 'place_name', 'review_title', 'review_main', 'rank']
        writer = csv.DictWriter(csv_file, fieldnames=fieldnames)
        writer.writeheader()
        for i, place_name in enumerate(json_data['news']):
            writer.writerow({'id': i, 'place_name': place_name, 'review_title': json_data['news'][place_name]['news_title'], \
                             'review_main': json_data['news'][place_name]['news_main'], 'rank': json_data['news'][place_name]['rank']})

In [17]:
def vectorize_words(word):
    model.wv

In [18]:
import MeCab

#MeCabの初期化(mecab-ipadic-neologdの辞書を使用)
tagger = MeCab.Tagger("-d /var/lib/mecab/dic/mecab-ipadic-neologd")

#分かち書きを行って、必要な単語の原形を取得
def tokenize(text):
    #形態素解析を行う
    result = []
    parsed_words = tagger.parse(text)
    for n in parsed_words.split("\n"):
        if n == 'EOS' or n == '':
            continue
        parse_splited = n.split("\t")[1].split(",")
        hinshi1, hinshi2, original = (parse_splited[0], parse_splited[1], parse_splited[6])
        if not (hinshi1 in ['名詞', '動詞', '形容詞']):
            continue
        if hinshi1 == '名詞' and hinshi2 == '数':
            continue
        result.append(original)
    return result

In [19]:
import pandas as pd

csv_input = pd.read_csv("data/test_data.csv", sep=",")
csv_input

Unnamed: 0,id,place_name,review_title,review_main,rank
0,0,桂沢湖,荒れ果てた駐車場！,三笠市の市街から東へ進むと、建設中の新桂沢ダムがありました。今の桂沢ダムによって川がせき止...,3
1,1,三段滝公園,落差は小さいけど、水量豊富で大迫力！,三笠市から富良野市へ向かう途中、まもなく富良野方面に右折するというあたりに、三段滝公園があ...,4
2,2,札幌東急REIホテル,札幌すすきのにある大型ホテル,札幌東急REIホテルは、札幌のすすきのにある大型のホテルです。以前、札幌東急インと呼ばれて...,4
3,3,狸小路商店街,今や外国人向けの商店街？,古くからある札幌を代表する商店街である狸小路。一時はちょっとさびれた感も感じられるような商...,4
4,4,桂沢ダム,新桂沢ダムが完成すると水没するらしいです,三笠市の市街地から東へ向かいました。道の両側に田んぼが続く平地が終わり、山間部へ入ったあた...,3
5,5,ラビスタ大雪山,標高１０００ｍ越えに建つ山岳リゾート！,美瑛近くで国道からそれて東へ向かい、忠別ダムを過ぎてからはずっと続くワインディングロードを...,5
6,6,ぜるぶの丘・亜斗夢の丘,１０月初めはまだまだ花盛り！,富良野方面から大雪山へ向かう途中、国道沿いにあるこちらに立ち寄りました。初夏や夏に何度か通...,4
7,7,支笏湖スカイロード,森の中を突き進む道,支笏湖と千歳の市街地を結んでいる道路で、支笏湖側からは、いったん上った後は、ゆるやかにずー...,4
8,8,きのこ王国 大滝本店,となりの道の駅は閉鎖中？,北湯沢温泉から千歳方面へ向かっている途中に立ち寄りました。場所は美笛峠のトンネルの西側の出...,4
9,9,北海道神宮,北海道一宮にふさわしい雰囲気ですね,札幌の円山公園内にある北海道神宮。北海道の一宮にふさわしく、とても広い境内にはたくさんの木...,5


In [20]:
import numpy as np

def vectorize_texts(texts):
    total_vec = np.zeros(100)

    tokenized_words = tokenize(texts)
    word_size = len(tokenized_words)
    #print('最初の単語サイズ:', word_size)
    for i in tokenized_words:
        try:
            total_vec += model.wv[i]
        except KeyError:
            #print('辞書に登録されていない単語が出現したため、スキップします。')
            word_size -= 1

    #print('最終的な単語サイズ:', word_size)
    avg_vec = total_vec / word_size
    #print('テキストの分かち書きされた単語に対しての平均ベクトル:', avg_vec)
    return avg_vec

In [21]:
from scipy.spatial.distance import cosine

#類似度を出力するために　1-(cos距離）=1-(1-u*v/(|u|*|v|)=u*v/(|u|*|v|)
#※ | |はL2 Norm
def calculate_cos_similarity(vec1, vec2):
    num_of_features = 100
    return 1 - cosine(vec1, vec2)

In [22]:
print('==========================================case1==============================================')
#case1のテスト
atmosphere_vec1 = model.wv['落ち着く']
past_trip_you_liked_vec1 = model.wv['伊勢神宮']
hobby_vec1 = model.wv['散策']

print('雰囲気ベクトル', atmosphere_vec1)
print('好きな旅行先ベクトル', past_trip_you_liked_vec1)
print('趣味ベクトル', hobby_vec1)
print("\n")
print('==========================================case2==============================================')
#case2のテスト
atmosphere_vec2 = model.wv['にぎわう']
past_trip_you_liked_vec2 = model.wv['中州']
hobby_vec2 = model.wv['グルメ']

print('雰囲気ベクトル', atmosphere_vec2)
print('好きな旅行先ベクトル', past_trip_you_liked_vec2)
print('趣味ベクトル', hobby_vec2)

雰囲気ベクトル [ 0.07862108 -0.1809221  -0.4911421   0.20355673 -0.12601174 -0.2708294
 -0.37161562  0.35602322 -0.233707    0.5619182   0.00392822 -0.4777614
  0.33409184  0.02171683  0.5134428   0.6008894  -0.23014769  0.01334549
 -0.04008425 -0.08220636  0.5905624  -0.06472889 -0.07548473  0.23423518
 -0.16916148 -0.42936364  0.14313643  0.15990955 -0.3952685   0.30590338
  0.42414227  0.26278073  0.01417148  0.58316475 -0.43525916  0.10113464
 -0.00228763  0.3858147  -0.09358875 -0.29813376 -0.27670228 -0.03200711
 -0.3095717  -0.25578377 -0.10427351 -0.42657    -0.10303719 -0.24495593
  0.04549182 -0.45043996  0.21834637  0.3253257   0.13266061 -0.37430656
 -0.08026135 -0.01844334 -0.41878012  0.13009414 -0.38077265  0.14760697
 -0.39643475  0.47091463  0.25252488 -0.4980924   0.15321118 -0.31621113
 -0.22568683  0.14611383  0.49928355  0.37338558  0.24201033  0.14785375
  0.01357586 -0.12380141 -0.21523997  0.50380504 -0.4969694  -0.04321574
  0.20762025  0.0969862  -0.06888517 -0.06943

In [36]:
import pandas as pd
from statistics import mean

def calculate_cos_similarity_for_query(query1, query2, query3):
    
    atmosphere_vec = vectorize_texts(query1)
    past_trip_you_liked_vec = vectorize_texts(query2)
    hobby_vec = vectorize_texts(query3)
    
    csv_input = pd.read_csv("data/test_data.csv", sep=",")
    
    sim_list = []
    dict = {}
    
    for id, title, main in zip(csv_input['id'], csv_input['review_title'], csv_input['review_main']):
        
        title_vec = vectorize_texts(title)
        main_vec = vectorize_texts(main)
        
        tmp_list = [calculate_cos_similarity(atmosphere_vec, title_vec),\
                    calculate_cos_similarity(atmosphere_vec, main_vec),\
                    calculate_cos_similarity(past_trip_you_liked_vec, title_vec),\
                    calculate_cos_similarity(past_trip_you_liked_vec, main_vec),\
                    calculate_cos_similarity(hobby_vec, title_vec),\
                    calculate_cos_similarity(hobby_vec, main_vec)]
        
        feature_vec_avg = mean(tmp_list)
        #sim_list.append(id, feature_vec_avg)
        dict[id] = feature_vec_avg
        
    selected_idxes = []
    recommended_place_list = []

    for i, dic in enumerate(sorted(dict.items(), key=lambda x: -x[1])):
        selected_idxes.append(dic[0])
        if i == 9:
            break

    for i, idx in enumerate(selected_idxes):
        recommended_place_list.append((csv_input['rank'][idx], idx))

    sorted_list = sorted(recommended_place_list, reverse=True)
    print('sorted_list:', sorted_list)

    for i, tuple in enumerate(sorted_list):
        test = csv_input[csv_input['id']==tuple[1]]['place_name']
        print(test[tuple[1]])

In [37]:
calculate_cos_similarity_for_query('落ち着く', '伊勢神宮', '散策')

sorted_list: [(5, 41), (5, 30), (5, 22), (5, 9), (4, 40), (4, 25), (4, 23), (4, 18), (3, 39), (3, 37)]
 滝野すずらん丘陵公園 
 六花亭 神宮茶屋店 
 円山公園 
 北海道神宮 
 北海道立近代美術館 
 支笏湖ビジターセンター 
 三段滝 
 開拓神社 
 穂多木神社 
 滝野すずらん丘陵公園 こどもの谷休憩所 


In [45]:
calculate_cos_similarity_for_query('日本文化が感じれる場所', '鎌倉、清水寺、厳島神社、大仙陵古墳、太宰府天満宮、出雲大社', 'グルメ、観光')

sorted_list: [(5, 48), (5, 41), (5, 30), (5, 22), (5, 9), (4, 40), (4, 25), (4, 23), (4, 18), (3, 39)]
 北大銀杏並木 
 滝野すずらん丘陵公園 
 六花亭 神宮茶屋店 
 円山公園 
 北海道神宮 
 北海道立近代美術館 
 支笏湖ビジターセンター 
 三段滝 
 開拓神社 
 穂多木神社 


In [44]:
calculate_cos_similarity_for_query('夜景がきれいで、イチャイチャできる', 'みなとみらい、神戸ハーバーランド、函館', 'カラオケ、ショッピング')

sorted_list: [(5, 22), (4, 49), (4, 42), (4, 38), (4, 36), (4, 35), (4, 25), (4, 2), (3, 45), (3, 28)]
 円山公園 
東横INN 札幌すすきの交差点
 円山原始林 
 カフェ ゆとりの空間 
 ミア アンジェラ 大丸札幌店 
 石屋製菓 大丸札幌店 ISHIYAショップ 
 支笏湖ビジターセンター 
札幌東急REIホテル
 札幌ステラプレイス 
 札幌駅前通 
