In [1]:
import numpy as np
import pandas as pd
import pickle
from gensim.models import word2vec
import MeCab
import re


tagger = MeCab.Tagger(" -r /etc/mecabrc -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd")
# tagger = MeCab.Tagger("-Owakati -d /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd")

def tokenize_ja(text, lower):
    node = tagger.parseToNode(str(text))
    while node:
        # 分かち書きで取得する品詞を指定
        if lower and node.feature.split(',')[0] in ["名詞", "形容詞"]:
            yield node.surface.lower()
        node = node.next


def tokenize(content, token_min_len, token_max_len, lower):
    return [
        str(token) for token in tokenize_ja(content, lower)
        if token_min_len <= len(token) <= token_max_len and not token.startswith('_')
    ]


# 学習データの読み込み
df = pd.read_csv('./data/ramen_review.csv')
df2 = pd.read_csv('./data/ramen_store.csv')
df = pd.merge(df, df2, on="ID")
df_ramen = df.groupby(['name', 'score', 'review_count'])['review'].apply(
    list).apply(' '.join).reset_index().sort_values('score', ascending=False)



In [2]:
df_ramen

Unnamed: 0,name,score,review_count,review
75,らぁ麺や 嶋,3.99,249,特製醤油らぁ麺　1180円あの”ラーメンの鬼”佐野氏のDNAを継ぐお店が西新宿に！…という情...
3,Homemade Ramen 麦苗,3.98,758,特上 塩つけ 959月10日、今日の昼食は多摩川を越えて大森まで遠...
242,手打式超多加水麺 ののくら,3.96,532,食べログのラーメン部門で東京No.1になった「ののくら」にやってまいりました～！（2020年...
367,麺尊 RAGE,3.94,784,金曜夜19:15着。外待ち4名に接続。外待ち席にて、注文を聞かれました。そこで、ご飯もの終了...
235,宍道湖しじみ中華蕎麦 琥珀,3.94,346,前からものすごくいってみたかったお店！ただし、平日しかやっていないのと雑色という立地の不便さ...
...,...,...,...,...
64,めん徳 二代目 つじ田 麹町店,3.66,456,今日は歌舞伎を見に半蔵門に来ています。その前に腹ごしらえ、紀尾井町交差点近く「めん徳二代目つ...
204,共楽,3.66,314,誰が言ったか知らないが、こちらのお店は、東京三大中華そばのうちの一店とか。オープン3分後に到...
233,太陽,3.66,267,昨日のお昼ご飯の2軒目は一見目の近くにある町中華屋さんに行ってみることに、前から来て見たかっ...
385,麺屋　藤しろ,3.66,322,平日 16:50頃 伺いました。店内は数名のお客さん、定員さん3名で営業。入り口で食券を購入...


In [3]:
# コーパス作成
def preprocessing_text(text):
    # 改行、半角スペース、全角スペースを削除
    text = re.sub('\r', '' , text)
    text = re.sub('\n', '' , text)
    text = re.sub('　', '' , text)
    text = re.sub(' ', '' , text)
    text = text.lower()
    # 数字文字の一律「0」化
    text = re.sub('\d+,?\d*', '0', text) 
    return text
                  
wakati_ramen_text = []
for i in df_ramen['review']:
    txt = preprocessing_text(i)
    txt = tokenize(txt, 2, 10000, True)
    wakati_ramen_text.append(txt)

np.savetxt("./data/ramen_corpus.txt", wakati_ramen_text,
           fmt='%s', delimiter=',', encoding='UTF-8')
np.savetxt("./data/ramen_corpus.txt", wakati_ramen_text,
           fmt='%s', delimiter=',', encoding='UTF-8')


  return array(a, dtype, copy=False, order=order)


In [4]:
# モデル作成

word2vec_ramen_model = word2vec.Word2Vec(wakati_ramen_text,sg=1, vector_size=100, window=5,min_count=5,workers=3)

word2vec_ramen_model = word2vec.Word2Vec(wakati_ramen_text, sg = 1, vector_size=100, window = 5, min_count = 5, workers = 3)

#sg（0: CBOW, 1: skip-gram）,size（ベクトルの次元数）,window（学習に使う前後の単語数）,min_count（n回未満登場する単語を破棄）,iter（トレーニング反復回数）

# モデルのセーブ
word2vec_ramen_model.save("./model/word2vec_ramen_model_v2.model")

In [5]:
# モデルのロード
#model(ver1)
word2vec_ramen_model =word2vec.Word2Vec.load("./model/word2vec_ramen_model.model")
word2vec_ramen_model.wv.most_similar("二郎")

[('ラーメン二郎', 0.8212851285934448),
 ('ヤサイ', 0.7711228132247925),
 ('上野毛', 0.7576539516448975),
 ('千住大橋', 0.7462212443351746),
 ('野猿', 0.7403286099433899),
 ('乳化', 0.7391341924667358),
 ('野猿街道', 0.7335373759269714),
 ('デロ', 0.7333035469055176),
 ('三田', 0.7268819212913513),
 ('二郎系', 0.7171891331672668)]

In [6]:
# モデルのロード
#model(ver2)
word2vec_ramen_model =word2vec.Word2Vec.load("./model/word2vec_ramen_model_v2.model")
word2vec_ramen_model.wv.most_similar("二郎")

[('ラーメン二郎', 0.7937691807746887),
 ('ヤサイ', 0.7468765377998352),
 ('野猿', 0.7339311838150024),
 ('上野毛', 0.7324761152267456),
 ('乳化', 0.7278997898101807),
 ('二郎系', 0.7257570028305054),
 ('デロ', 0.7253230810165405),
 ('千住大橋', 0.7156883478164673),
 ('野猿街道', 0.7153052687644958),
 ('三田', 0.7137161493301392)]

In [7]:
word2vec_ramen_model.wv.most_similar("山岸")

[('ミュージシャン', 0.960503339767456),
 ('共同', 0.9421948194503784),
 ('引退', 0.9420249462127686),
 ('脱サラ', 0.9373900890350342),
 ('石原', 0.936711311340332),
 ('高野', 0.9364616274833679),
 ('社員', 0.9357295632362366),
 ('後藤', 0.9356252551078796),
 ('橋本', 0.93327397108078),
 ('郡山', 0.932330310344696)]

In [8]:
word2vec_ramen_model.wv.most_similar(positive=[u"ラーメン",u"北海道"])

[('確立', 0.8000149130821228),
 ('火付け役', 0.7925465106964111),
 ('フェットチーネ', 0.791483461856842),
 ('ケンちゃんラーメン', 0.7897595167160034),
 ('考案', 0.7859686017036438),
 ('熊本', 0.7855016589164734),
 ('呼び名', 0.7824597358703613),
 ('札幌ラーメン', 0.7808576822280884),
 ('メジャー', 0.7784992456436157),
 ('信州', 0.770969808101654)]