In [62]:
#参考: https://qiita.com/toshiyuki_tsutsui/items/b3ac8fd1b300c3404508

from collections import defaultdict
from gensim.models.keyedvectors import KeyedVectors
from sklearn.cluster import KMeans

model = KeyedVectors.load('../model/word2vec_ramen_model.model')

max_vocab = 30000 #40000にしても結果は同じだった
vocab = list(model.wv.index_to_key)[:max_vocab] #vocab.key()->index_to_key
vectors = [model.wv[word] for word in vocab]

n_clusters = 6 #クラスター数はこちらで任意の値を定める
kmeans_model = KMeans(n_clusters=n_clusters, verbose=0, random_state=42, n_jobs=-1)#n_jobsがもうそろそろ消えるらしい
kmeans_model.fit(vectors)

cluster_labels = kmeans_model.labels_
cluster_to_words = defaultdict(list)
for cluster_id, word in zip(cluster_labels, vocab):
    cluster_to_words[cluster_id].append(word)



In [63]:
for words in cluster_to_words.values():
    print(words[:20])

['スープ', '醤油', '旨味', '香り', '出汁', '煮干し', '味わい', '風味', '昆布', '魚介', 'なく', 'ストレート', 'バランス', '加水', '見た目', '自家製', 'コク', '印象', '上品', 'しじみ']
['チャーシュー', '美味しい', 'これ', 'ワンタン', '感じ', '良い', 'メンマ', 'トッピング', '調理', '食感', '良く', '低温', '具材', '海老', '旨い', '好み', '美味い', 'ネギ', '海苔', 'ロース']
['ラーメン', 'こと', 'よう', '中華そば', 'こちら', 'そう', 'ない', 'いい', 'もの', '人気', 'ところ', '今回', 'それ', '一杯', '山椒', '高い', 'つけ麺', '好き', '美味しかっ', 'ここ']
['さん', '訪問', '行列', '到着', '待ち', '時間', '開店', '入店', '平日', '10分', '11時', 'ため', '30分', '近く', '11', '並び', '10', '30', '営業', '12時']
['そば', '特製', '店内', '食券', 'カウンター', '店主', '注文', '購入', 'メニュー', '券売機', '丁寧', 'らーめん', '提供', 'つけ', '醤油ラーメン', '店員', '着席', '軍鶏', '綺麗', '限定']
['食べログ', 'オープン', '徒歩', '名店', '百名', '場所', 'ラーメン店', '中華蕎麦', '東京', '店舗', '製麺', '有名', '2020', '移転', '2020年', '秋葉原', 'ビブグルマン', 'https', '選出', 'ランチ']


In [64]:
#参考: https://qiita.com/junjis0203/items/fbde15dbba5ccdb5dc4c
import pandas as pd

def change_dict_key(d, old_key, new_key, default_value=None):
    d[new_key] = d.pop(old_key, default_value)
change_dict_key(cluster_to_words, 0, '日付、お店の評価、ネット用語に関するワード')
change_dict_key(cluster_to_words, 1, '人や接客、内装に関するワード')
change_dict_key(cluster_to_words, 2, 'その他のワード')
change_dict_key(cluster_to_words, 3,  '券売機や注文に関するワード')
change_dict_key(cluster_to_words, 4, '曜日時間、店舗の地理的なワード')
change_dict_key(cluster_to_words, 5, 'ラーメンの中身に関するワード')

df_dict = pd.DataFrame.from_dict(cluster_to_words, orient="index").T
df_dict.iloc[:,[5,3,1,4,0,2]] #ix->iloc

Unnamed: 0,ラーメンの中身に関するワード,券売機や注文に関するワード,人や接客、内装に関するワード,曜日時間、店舗の地理的なワード,日付、お店の評価、ネット用語に関するワード,その他のワード
0,そば,スープ,チャーシュー,食べログ,ラーメン,さん
1,特製,醤油,美味しい,オープン,こと,訪問
2,店内,旨味,これ,徒歩,よう,行列
3,食券,香り,ワンタン,名店,中華そば,到着
4,カウンター,出汁,感じ,百名,こちら,待ち
...,...,...,...,...,...,...
1022,,,,,づくり,
1023,,,,,50%,
1024,,,,,否が応でも,
1025,,,,,渾身,


In [66]:
df_dict.head

<bound method NDFrame.head of      日付、お店の評価、ネット用語に関するワード 人や接客、内装に関するワード その他のワード 券売機や注文に関するワード  \
0                     ラーメン         チャーシュー      さん           スープ   
1                       こと           美味しい      訪問            醤油   
2                       よう             これ      行列            旨味   
3                     中華そば           ワンタン      到着            香り   
4                      こちら             感じ      待ち            出汁   
...                    ...            ...     ...           ...   
1022                   づくり           None    None          None   
1023                   50%           None    None          None   
1024                 否が応でも           None    None          None   
1025                    渾身           None    None          None   
1026                    映画           None    None          None   

     曜日時間、店舗の地理的なワード ラーメンの中身に関するワード  
0               食べログ             そば  
1               オープン             特製  
2                 徒歩             店内  
3            

In [65]:
# 参考 https://qiita.com/tatsuya-miyamoto/items/f1539d86ad4980624111

from gensim import corpora
from gensim import models
import pickle

taste_words = cluster_to_words['ラーメンの中身に関するワード']
kenbaiki_words = cluster_to_words['券売機や注文に関するワード']
taste_words.extend(kenbaiki_words)
ramen_word = taste_words
cluster_to_words.keys()

# 文書

f = open('../work/ramen_corpus.txt','r',encoding="utf-8")
trainings = []

for i,data in enumerate(f):
    word = data.replace("'",'').replace('[','').replace(']','').replace(' ','').replace('\n','').split(",")
    trainings.append([i for i in word if i in ramen_word])

# 単語->id変換の辞書作成
dictionary = corpora.Dictionary(trainings)

# textsをcorpus化
corpus = list(map(dictionary.doc2bow,trainings))

# tfidf modelの生成
test_model = models.TfidfModel(corpus)

# corpusへのモデル適用
corpus_tfidf = test_model[corpus]

# id->単語へ変換
texts_tfidf = [] # id -> 単語表示に変えた文書ごとのTF-IDF
for doc in corpus_tfidf:
    text_tfidf = []
    for word in doc:
        text_tfidf.append([dictionary[word[0]],word[1]])
    texts_tfidf.append(text_tfidf)

from operator import itemgetter

texts_tfidf_sorted_top20 = [] 

#TF-IDF値を高い順に並び替え上位単語20個に絞る。
for i in range(len(texts_tfidf)):
    soted = sorted(texts_tfidf[i], key=itemgetter(1),reverse=True)
    soted_top20 = soted[:20]
    word_list = []
    for k in range(len(soted_top20)):
        word = soted_top20[k][0]
        word_list.append(word)
    texts_tfidf_sorted_top20.append(word_list)
# 結果をデータフレームに追加

df = pd.read_csv('../csv/tokyo_ramen_top20_100.csv')
df_ramen = df.groupby(['store_name','score','review_cnt'])['review'].apply(list).apply(' '.join).reset_index().sort_values('score', ascending=False)
df_ramen['texts_tfidf_sorted_top20'] = texts_tfidf_sorted_top20
df_ramen['id'] = ['ID-' + str(i + 1).zfill(6) for i in range(len(df_ramen.index))]
df_ramen_texts_tfidf_sorted_top20 = df_ramen.iloc[:,[5,3,1,4,0,2]].reset_index(drop=True)
df_ramen_texts_tfidf_sorted_top20

Unnamed: 0,id,store_name,score,review_cnt,texts_tfidf_sorted_top20
0,ID-000001,らぁ麺や 嶋,4.1,213,"[コロチャー, だま, 320円, 1180円, 880円, たまごかけごはん, 鷹の爪, ..."
1,ID-000002,手打式超多加水麺 ののくら,3.98,496,"[もっち, 1200円, 縮れ麺, 290円, ストーブ, 次男, うどん, 1100円, ..."
2,ID-000003,麺尊 RAGE,3.95,755,"[軍鶏, 金華, シャモ, 天城, ロック, 三河屋, 青森シャモロック, 天領, 村越, ..."
3,ID-000004,中華そば しば田,3.95,836,"[炊き込みご飯, 地鶏, おみやげ, 津軽, 1250円, 会津地鶏, 全粒粉, 7種, 塩..."
4,ID-000005,宍道湖しじみ中華蕎麦 琥珀,3.95,326,"[しじみ, シジミ, コハク酸, もみ, 380円, 菅野, 地鶏, 1150円, 成分, ..."
5,ID-000006,らぁ麺やまぐち,3.94,454,"[豚丼, 棣鄂, 1380円, 会津地鶏, 京都, 吉備, ミニ, 380円, カイワレ大根..."
6,ID-000007,麺処 しろくろ,3.94,167,"[ムール貝, 浅蜊, 浅利, イクラ, のどぐろ, 三河屋, エソ, 合鴨, 貝出, キャビ..."
7,ID-000008,メンドコロ キナリ,3.93,401,"[a-men, 濃口醤油, 赤味噌, ハーフ, 白醤油, 白出汁, 味噌, 濃口, 三河屋,..."
8,ID-000009,中華蕎麦にし乃,3.93,649,"[1130円, 140円, き替え, おしぼり, たんたい, 坂道, 白醤油, サイン, 1..."
9,ID-000010,麺処 ほん田 秋葉原本店,3.92,405,"[1500円, 1600円, テーブル席, めし, パクチー, tokyo-x, 相席, 藻..."


In [60]:
df_ramen_texts_tfidf_sorted_top20.to_csv("df_ramen_texts_tfidf_sorted_top20.csv")