## bi-gramのtf-odfスコア

In [1]:
# 02_calculate_tfidf.py

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

# --- メインの実行処理 ---
if __name__ == '__main__':
    # 1. 前処理済みのCSVファイルを読み込む
    try:
        df_preprocessed = pd.read_csv('csv/preprocessed_bigrams.csv')
    except FileNotFoundError:
        print("エラー: 'preprocessed_bigrams.csv'が見つかりません。")
        print("先に01_preprocess_bigrams.pyを実行してください。")
        exit()

    # レビューが空の行を念のため削除
    df_preprocessed.dropna(subset=['bigram_corpus'], inplace=True)

    # 2. 分析対象のデータ（コーパス）と店舗名リストを作成
    corpus = df_preprocessed['bigram_corpus'].tolist()
    shop_names = df_preprocessed['shop_name'].tolist()

    if corpus:
        print("Bi-gramのTF-IDFスコアを計算中...")
        
        # 3. TfidfVectorizerを使い、Bi-gramごとのTF-IDFを計算
        # min_df=2: 2店舗以上で出現するBi-gramのみを対象とし、レアすぎる単語ペアは無視
        vectorizer = TfidfVectorizer(min_df=2, max_df=0.9)
        tfidf_matrix = vectorizer.fit_transform(corpus)
        
        # Bi-gramのリスト（特徴量名）を取得
        feature_names = vectorizer.get_feature_names_out()

        print("\n--- 【結果】店舗ごとの特徴的なBi-gram（TF-IDFスコア上位）---\n")
        
        # 4. 各店舗ごとに、スコアの高いBi-gramを表示
        for i, shop_name in enumerate(shop_names):
            print(f"★★★ {shop_name} ★★★")
            # i番目の店舗に対応するTF-IDFスコアの行を取得
            row = tfidf_matrix.toarray()[i]
            # スコアが高い順にトップ7のインデックスを取得
            top_n_indices = row.argsort()[::-1][:7]
            
            for index in top_n_indices:
                # スコアが0より大きいものだけ表示
                if row[index] > 0:
                    # アンダースコアを「, 」に戻して見やすく表示
                    bigram_display = feature_names[index].replace('_', ', ')
                    print(f"  - {bigram_display} (スコア: {row[index]:.3f})")
            print("-" * 30)
    else:
        print("分析対象のデータがありません。")

Bi-gramのTF-IDFスコアを計算中...

--- 【結果】店舗ごとの特徴的なBi-gram（TF-IDFスコア上位）---

★★★ 1129 by Ogawa ★★★
  - レインボー, ブリッジ (スコア: 0.241)
  - デックス, 東京 (スコア: 0.210)
  - 東京, ビーチ (スコア: 0.171)
  - ハンバーグ, ランチ (スコア: 0.167)
  - ビーチ, 6 (スコア: 0.159)
  - 6, 階 (スコア: 0.148)
  - 窓際, 席 (スコア: 0.127)
------------------------------
★★★ 82 築地店 ★★★
  - 築地, 店 (スコア: 0.284)
  - 築地, 駅 (スコア: 0.244)
  - ２, 築地 (スコア: 0.171)
  - 店, hub (スコア: 0.134)
  - 東, 銀座 (スコア: 0.131)
  - メトロ, 日比谷線 (スコア: 0.103)
  - 東京, メトロ (スコア: 0.101)
------------------------------
★★★ ABURI 百貫 有明ガーデン店 ★★★
  - 回転, 寿司 (スコア: 0.611)
  - 有明, ガーデン (スコア: 0.310)
  - 百, 貫 (スコア: 0.221)
  - 炙る, 寿司 (スコア: 0.156)
  - 寿司, 屋 (スコア: 0.150)
  - 通り, 炙る (スコア: 0.143)
  - 塩, レモン (スコア: 0.112)
------------------------------
★★★ ARIAKE ARENA CAFE ★★★
  - 有明, アリーナ (スコア: 0.547)
  - アリーナ, 行く (スコア: 0.142)
  - ライブ, 有明 (スコア: 0.132)
  - アリーナ, イベント (スコア: 0.129)
  - 参加, する (スコア: 0.125)
  - 日,  (スコア: 0.108)
  - ライブ, 前 (スコア: 0.087)
------------------------------
★★★ ARIAKE ARENA DINING MOON RIVER