In [2]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np


In [3]:
# --- メイン処理 ---
if __name__ == '__main__':
    # 1. 「掃除済み」のCSVファイルを読み込む
    try:
        df = pd.read_csv('/Users/dangararara/lecture/miraisouzou/csv/reviews_cleaned.csv')
    except FileNotFoundError:
        print("エラー: 'reviews_cleaned.csv'が見つかりません。")
        exit()

    # 口コミが空の行を削除
    df.dropna(subset=['cleaned_text'], inplace=True)

    # 2. 分析対象のデータ（コーパス）と店舗名リストを作成
    corpus = df['cleaned_text'].tolist()
    shop_names = df['shop_name'].tolist()

    if corpus:
        print("Bi-gramのTF-IDFスコアを計算中...")
        
        # 3. TfidfVectorizerでBi-gramごとのTF-IDFを計算
        # ngram_range=(2, 2) を指定するだけで、Bi-gramを自動で生成・計算します
        vectorizer = TfidfVectorizer(ngram_range=(2, 2), min_df=2, max_df=0.9)
        tfidf_matrix = vectorizer.fit_transform(corpus)
        
        feature_names = vectorizer.get_feature_names_out()

        print("\n--- 【結果】店舗ごとの特徴的なBi-gram（TF-IDFスコア上位）---\n")
        
        # 4. 各店舗ごとに、スコアの高いBi-gramを表示
        for i, shop_name in enumerate(shop_names):
            print(f"★★★ {shop_name} ★★★")
            row = tfidf_matrix.toarray()[i]
            top_n_indices = row.argsort()[::-1][:7]
            
            for index in top_n_indices:
                if row[index] > 0:
                    print(f"  - {feature_names[index]} (スコア: {row[index]:.3f})")
            print("-" * 30)
    else:
        print("分析対象のデータがありません。")

Bi-gramのTF-IDFスコアを計算中...

--- 【結果】店舗ごとの特徴的なBi-gram（TF-IDFスコア上位）---

★★★ オールデイダイニング グランドエール(ヴィラフォンテーヌ グランド 東京有明) ★★★
------------------------------
★★★ オールデイダイニング グランドエール(ヴィラフォンテーヌ グランド 東京有明) ★★★
------------------------------
★★★ オールデイダイニング グランドエール(ヴィラフォンテーヌ グランド 東京有明) ★★★
------------------------------
★★★ オールデイダイニング グランドエール(ヴィラフォンテーヌ グランド 東京有明) ★★★
------------------------------
★★★ オールデイダイニング グランドエール(ヴィラフォンテーヌ グランド 東京有明) ★★★
------------------------------
★★★ オールデイダイニング グランドエール(ヴィラフォンテーヌ グランド 東京有明) ★★★
------------------------------
★★★ オールデイダイニング グランドエール(ヴィラフォンテーヌ グランド 東京有明) ★★★
------------------------------
★★★ オールデイダイニング グランドエール(ヴィラフォンテーヌ グランド 東京有明) ★★★
------------------------------
★★★ オールデイダイニング グランドエール(ヴィラフォンテーヌ グランド 東京有明) ★★★
------------------------------
★★★ オールデイダイニング グランドエール(ヴィラフォンテーヌ グランド 東京有明) ★★★
------------------------------
★★★ オールデイダイニング グランドエール(ヴィラフォンテーヌ グランド 東京有明) ★★★
------------------------------
★★★ オールデイダイニング グランドエール(ヴィラフォンテーヌ グランド 東京有明) ★★★
---------------

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

# --- メイン処理 ---
if __name__ == '__main__':
    # 1. 「掃除済み」のCSVファイルを読み込む
    try:
        df = pd.read_csv('/Users/dangararara/lecture/miraisouzou/csv/reviews_cleaned.csv')
    except FileNotFoundError:
        print("エラー: 'reviews_cleaned.csv'が見つかりません。")
        exit()

    df.dropna(subset=['cleaned_text'], inplace=True)
    corpus = df['cleaned_text'].tolist()
    shop_names = df['shop_name'].tolist()

    if corpus:
        print("Bi-gramのTF-IDFスコアを計算中...")
        
        # 2. TF-IDFを計算
        vectorizer = TfidfVectorizer(ngram_range=(2, 2), min_df=2, max_df=0.9)
        tfidf_matrix = vectorizer.fit_transform(corpus)
        feature_names = vectorizer.get_feature_names_out()

        # --- ここからがCSV保存処理 ---
        
        # 3. 保存するためのリストを準備
        results_for_csv = []

        print("CSV保存用のデータを準備中...")
        # 4. 各店舗ごとに、スコアの高いBi-gramをリストに追加
        for i, shop_name in enumerate(shop_names):
            row = tfidf_matrix.toarray()[i]
            top_n_indices = row.argsort()[::-1][:10] # 上位10件を保存対象とする
            
            for index in top_n_indices:
                if row[index] > 0:
                    # 店名, 特徴語(Bi-gram), TF-IDFスコアを辞書として追加
                    results_for_csv.append({
                        'shop_name': shop_name,
                        'feature_bigram': feature_names[index].replace('_', ' '),
                        'tfidf_score': row[index]
                    })

        # 5. リストをDataFrameに変換し、CSVに保存
        if results_for_csv:
            output_df = pd.DataFrame(results_for_csv)
            output_filename = 'tfidf_scores.csv'
            output_df.to_csv(output_filename, index=False, encoding='utf-8-sig')
            print(f"\n処理完了。「{output_filename}」にTF-IDFスコアを保存しました。")
        else:
            print("保存するデータがありませんでした。")

    else:
        print("分析対象のデータがありません。")

Bi-gramのTF-IDFスコアを計算中...
CSV保存用のデータを準備中...

処理完了。「tfidf_scores.csv」にTF-IDFスコアを保存しました。
