In [19]:
import pandas as pd
import re

# データ読み込み
file_path = 'sauna_reviews.csv'
df = pd.read_csv(file_path)

# 不要な改行やスペースを削除
df['review'] = df['review'].str.strip()
df['review'] = df['review'].str.replace('\n', ' ', regex=True)
df['review'] = df['review'].str.replace(' +', ' ', regex=True)

# 絵文字の削除
df['review'] = df['review'].apply(lambda x: re.sub(r'[^\w\s,]', '', str(x)))
df

Unnamed: 0,review
0,
1,久しぶりの黄金湯よかったです狭いサウナだけどセルフロウリュができて静かでサウナに集中できると...
2,久々に訪問 施設はとても良いのだが相性が悪いのかどうしても整えないのが残念 フルフラットに慣...
3,8月ラストはトレジャーハンティングしに黄金湯を攻めっから 久しぶりの黄金湯さんやっぱ何回来て...
4,ロウリュはペパーミントで お風呂は秋桜で 良い香りでした
...,...
15891,サウナ10分 3 水風呂1分 3 休憩10分 3 合計3セット 一言空いてました
15892,
15893,このサウナのいいところ セルフロウリュで体感温度爆上げ狭いのが逆にイイ 清潔でおしゃれな設備...
15894,サウナ10分 3 水風呂1分 3 休憩10分 3 合計3セット 一言連休2日目は黄金湯...


In [21]:
# ポジティブとネガティブな単語リスト
positive_words = ["良い", "最高", "素晴らしい", "楽しい", "美味しい", "安い", "豊富", "おすすめ", "快適", "便利"]
negative_words = ["悪い", "最悪", "ひどい", "つまらない", "不味い", "高い", "少ない", "避ける", "不快", "不便"]

# カウント初期化
df['positive_count'] = 0
df['negative_count'] = 0

# ポジティブとネガティブな単語の出現回数をカウント
for pos_word in positive_words:
    df['positive_count'] += df['review'].str.count(pos_word)
for neg_word in negative_words:
    df['negative_count'] += df['review'].str.count(neg_word)

# センチメントスコアの計算
df['sentiment_score'] = df['positive_count'] - df['negative_count']
df

Unnamed: 0,review,positive_count,negative_count,sentiment_score
0,,0,0,0
1,久しぶりの黄金湯よかったです狭いサウナだけどセルフロウリュができて静かでサウナに集中できると...,1,0,1
2,久々に訪問 施設はとても良いのだが相性が悪いのかどうしても整えないのが残念 フルフラットに慣...,1,1,0
3,8月ラストはトレジャーハンティングしに黄金湯を攻めっから 久しぶりの黄金湯さんやっぱ何回来て...,0,0,0
4,ロウリュはペパーミントで お風呂は秋桜で 良い香りでした,1,0,1
...,...,...,...,...
15891,サウナ10分 3 水風呂1分 3 休憩10分 3 合計3セット 一言空いてました,0,0,0
15892,,0,0,0
15893,このサウナのいいところ セルフロウリュで体感温度爆上げ狭いのが逆にイイ 清潔でおしゃれな設備...,0,1,-1
15894,サウナ10分 3 水風呂1分 3 休憩10分 3 合計3セット 一言連休2日目は黄金湯...,0,0,0


In [24]:
from collections import Counter

# 単語の出現回数をカウント
word_count_simple = Counter()
pattern = r'\w+'

for review in df['review']:
    words = re.findall(pattern, review)
    word_count_simple.update(words)

# 最も頻繁に出現する単語を取得
common_words_simple = word_count_simple.most_common(100)
common_words_simple

[('3', 3673),
 ('水風呂1分', 1615),
 ('合計3セット', 1223),
 ('休憩10分', 1169),
 ('4', 1112),
 ('サウナ10分', 1044),
 ('水風呂', 869),
 ('サウナ', 807),
 ('2', 490),
 ('休憩スペース', 475),
 ('一言', 431),
 ('休憩5分', 393),
 ('合計4セット', 377),
 ('5', 332),
 ('サウナ8分', 289),
 ('外気浴', 200),
 ('3セット', 165),
 ('ありがとうございました', 153),
 ('黄金湯', 146),
 ('1', 140),
 ('水風呂2分', 136),
 ('サウナ7分', 126),
 ('合計2セット', 126),
 ('休憩', 126),
 ('サウナ12分', 115),
 ('合計5セット', 112),
 ('10分', 111),
 ('また来ます', 89),
 ('4セット', 84),
 ('休憩8分', 79),
 ('水風呂30秒', 79),
 ('5分', 69),
 ('休憩7分', 62),
 ('久しぶりの黄金湯', 60),
 ('サウナ6分', 60),
 ('初訪問', 60),
 ('休憩3分', 57),
 ('最高', 50),
 ('サ室', 50),
 ('10', 49),
 ('1分', 47),
 ('サウナ15分', 47),
 ('最高でした', 45),
 ('8分', 44),
 ('初黄金湯', 44),
 ('12分', 44),
 ('休憩6分', 42),
 ('男女入れ替え日', 41),
 ('8', 40),
 ('また行きます', 38),
 ('今日もありがとうございました', 38),
 ('サウナ5分', 36),
 ('サウナ810分', 35),
 ('念願の黄金湯', 34),
 ('サウナ室', 34),
 ('2セット', 33),
 ('の巻', 33),
 ('2分', 32),
 ('朝ウナ', 32),
 ('炭酸泉', 31),
 ('12', 31),
 ('久々の黄金湯', 31),
 ('サウナ水風呂外気浴', 30),
 ('2セッ

In [32]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

# Initialize CountVectorizer
vectorizer = CountVectorizer(max_df=0.95, min_df=2, stop_words='english')

# Fit and transform the reviews into a term frequency (tf) matrix
tf_matrix = vectorizer.fit_transform(df['review'].apply(lambda x: ' '.join(re.findall(pattern, x))))

# Initialize LDA model with 5 topics
lda = LatentDirichletAllocation(n_components=5, random_state=42)

# Fit the LDA model to the tf matrix
lda.fit(tf_matrix)

# Get the feature names from the fitted CountVectorizer
feature_names = vectorizer.get_feature_names_out()

# Get the top 10 words per topic
top_words_per_topic = {}
for topic_idx, topic in enumerate(lda.components_):
    top_words = [feature_names[i] for i in topic.argsort()[:-11:-1]]
    top_words_per_topic[f"Topic {topic_idx + 1}"] = top_words
    
top_words_per_topic

{'Topic 1': ['10分',
  'また来ます',
  '4セット',
  '5分',
  '休憩',
  '1分',
  '10',
  '8分',
  '12分',
  '2分'],
 'Topic 2': ['水風呂1分',
  '合計3セット',
  '休憩10分',
  'サウナ10分',
  '一言',
  '休憩5分',
  '合計4セット',
  'サウナ8分',
  '水風呂2分',
  '合計2セット'],
 'Topic 3': ['3セット',
  '初訪問',
  '最高でした',
  '初黄金湯',
  'また行きます',
  '久々の黄金湯',
  '2セット目',
  '10分3',
  '1セット目',
  '外気浴10分'],
 'Topic 4': ['水風呂',
  'サウナ',
  '休憩スペース',
  '外気浴',
  '休憩',
  '最高',
  '男女入れ替え日',
  'サ室',
  'の巻',
  'その他'],
 'Topic 5': ['ありがとうございました',
  '黄金湯',
  '今日もありがとうございました',
  '念願の黄金湯',
  'サウナ室',
  '朝ウナ',
  '15',
  'サ室',
  'お風呂',
  '黄金湯へ']}