<a href="https://colab.research.google.com/github/ryoma150520/TF-IDF/blob/main/TF_IDF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
#セル1
# --- ステップ1: Python 3.10の準備 ---
!sudo apt-get update -y
!sudo apt-get install -y python3.10 python3.10-distutils
!curl -sS https://bootstrap.pypa.io/get-pip.py | python3.10
print("--- Python 3.10の準備完了 ---")

# --- ステップ2: MeCab本体と関連ライブラリのインストール ---
!sudo apt-get install -y mecab libmecab-dev file
!python3.10 -m pip install mecab-python3
print("--- MeCab本体のインストール完了 ---")

# --- ステップ3: mecab-ipadic-neologd のインストール ---
# GitHubからソースコードをクローン（ダウンロード）
!git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
# ダウンロードしたディレクトリに移動して、インストールスクリプトを実行
!echo "yes" | mecab-ipadic-neologd/bin/install-mecab-ipadic-neologd -n -a

print("\n--- mecab-ipadic-neologdのインストールが完了しました ---")

In [None]:
#セル2
!python3.10 -m pip install google-cloud-translate pandas openpyxl wikiextractor
print("\n--- 追加ライブラリのインストールが完了しました ---")

In [None]:
#セル3
# 日本語版Wikipediaの最新ダンプをダウンロード
!wget https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2

In [None]:
#セル4
# --json オプションを追加して、出力がJSON形式になるように修正。JSON形式にしてるけど自分が使うツールに合わせて変更してもいいかも
!python3.10 -m wikiextractor.WikiExtractor jawiki-latest-pages-articles.xml.bz2 -o extracted_wiki -b 10M --processes 8 --json

In [None]:
#セル5.1
#文書頻度
%%writefile create_freq_dict.py

import os
import re
import json
from collections import Counter
import MeCab

print("Wikipediaの全テキストから【文書頻度(Document Frequency)】辞書を作成します...")

# NEologd辞書と、mecabrc設定ファイルのパスを明示的に指定します。
NEOLOGD_DIC_PATH = "/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd"
MECABRC_PATH = "/etc/mecabrc"

try:
    # 辞書パスと設定ファイルパスの両方を指定
    tagger_options = f"-d {NEOLOGD_DIC_PATH} -r {MECABRC_PATH}"
    wakati_tagger = MeCab.Tagger(f"-Owakati {tagger_options}")
    wakati_tagger.parse('') # 初期化チェック
    print("MeCab Tagger (NEologd) の初期化に成功しました。")
except Exception as e:
    print(f"MeCab Tagger (NEologd) の初期化に失敗しました。エラー: {e}")
    # フォールバックもrcfileを指定
    try:
        print("フォールバックとしてデフォルト辞書での初期化を試みます...")
        wakati_tagger = MeCab.Tagger(f"-Owakati -r {MECABRC_PATH}")
        wakati_tagger.parse('')
        print("デフォルト辞書での初期化に成功しました。")
    except Exception as e2:
        print(f"デフォルト辞書での初期化にも失敗しました。エラー: {e2}")
        raise RuntimeError("MeCabを正常に初期化できませんでした。")

# --- ★★★ 修正点1: 変数名を役割に合わせて変更 ★★★ ---
doc_freq_counter = Counter() # 単語が出現した「文書数」をカウントする
total_document_count = 0     # 処理した「文書数」をカウントする
input_dir = 'extracted_wiki'

file_paths = [os.path.join(root, file) for root, _, files in os.walk(input_dir) for file in files if file.startswith('wiki_')]
file_count = len(file_paths)

for i, filepath in enumerate(file_paths):
    print(f"  - 処理中: {filepath} ({i+1}/{file_count})")
    with open(filepath, 'r', encoding='utf-8') as f:
        for line in f:
            # 各行が1つの文書（記事）に対応する
            try:
                article = json.loads(line)
                text = article.get('text', '')

                # 簡単なテキストクリーニング
                text = re.sub(r'<.*?>', '', text)
                text = re.sub(r'\[\[.*?\|(.*?)\]\]', r'\1', text)
                text = re.sub(r'\[\[(.*?)\]\]', r'\1', text)

                tokens = wakati_tagger.parse(text).strip().split()

                # --- ★★★ 修正点2: この文書のユニークな単語のみをカウント ★★★ ---
                unique_tokens = set(tokens)
                doc_freq_counter.update(unique_tokens)

                # --- ★★★ 修正点3: 文書数をカウントアップ ★★★ ---
                total_document_count += 1

            except json.JSONDecodeError:
                continue

print("\n文書頻度辞書の作成が完了しました。")
print(f"ユニーク単語数: {len(doc_freq_counter)}")
print(f"総文書数（記事数）: {total_document_count}")

# --- ★★★ 修正点4: 新しいファイル名とJSON構造で結果を保存 ★★★ ---
output_idf_file = '/content/drive/MyDrive/wiki_tfidf_data.json'
with open(output_idf_file, 'w', encoding='utf-8') as f:
    json.dump({
        'total_documents': total_document_count,
        'doc_freq_map': dict(doc_freq_counter)
    }, f, ensure_ascii=False, indent=2)

print(f"\n文書頻度データをあなたのGoogleドライブ ('{output_idf_file}') に保存しました。")
print("これ以降は、メインの分析スクリプト(create_json.py)もこの新しいJSONファイルを読むように修正する必要があります。")

In [None]:
#セル5.2
#単語頻度
%%writefile create_freq_dict.py

import os
import re
import json
from collections import Counter
import MeCab


print("Wikipediaの全テキストから単語頻度辞書を作成します...")

# NEologd辞書と、mecabrc設定ファイルのパスを明示的に指定します。
NEOLOGD_DIC_PATH = "/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd"
MECABRC_PATH = "/etc/mecabrc"

try:
    # 辞書パスと設定ファイルパスの両方を指定
    tagger_options = f"-d {NEOLOGD_DIC_PATH} -r {MECABRC_PATH}"
    wakati_tagger = MeCab.Tagger(f"-Owakati {tagger_options}")
    wakati_tagger.parse('') # 初期化チェック
    print("MeCab Tagger (NEologd) の初期化に成功しました。")
except Exception as e:
    print(f"MeCab Tagger (NEologd) の初期化に失敗しました。エラー: {e}")
    # フォールバックもrcfileを指定
    try:
        print("フォールバックとしてデフォルト辞書での初期化を試みます...")
        wakati_tagger = MeCab.Tagger(f"-Owakati -r {MECABRC_PATH}")
        wakati_tagger.parse('')
        print("デフォルト辞書での初期化に成功しました。")
    except Exception as e2:
        print(f"デフォルト辞書での初期化にも失敗しました。エラー: {e2}")
        raise RuntimeError("MeCabを正常に初期化できませんでした。")

# --- 以降の処理 ---
word_counter = Counter()
total_word_count = 0
input_dir = 'extracted_wiki'

file_paths = [os.path.join(root, file) for root, _, files in os.walk(input_dir) for file in files if file.startswith('wiki_')]
file_count = len(file_paths)

for i, filepath in enumerate(file_paths):
    print(f"  - 処理中: {filepath} ({i+1}/{file_count})")
    with open(filepath, 'r', encoding='utf-8') as f:
        for line in f:
            try:
                article = json.loads(line)
                text = article.get('text', '')
                text = re.sub(r'<.*?>', '', text)
                text = re.sub(r'\[\[.*?\|(.*?)\]\]', r'\1', text)
                text = re.sub(r'\[\[(.*?)\]\]', r'\1', text)
                tokens = wakati_tagger.parse(text).strip().split()
                word_counter.update(tokens)
                total_word_count += len(tokens)
            except json.JSONDecodeError:
                continue

print("\n単語頻度辞書の作成が完了しました。")
print(f"ユニーク単語数: {len(word_counter)}")
print(f"総単語数: {total_word_count}")

# 結果をGoogleドライブに保存
output_freq_file = '/content/drive/MyDrive/wiki_freq_neologd.json'
with open(output_freq_file, 'w', encoding='utf-8') as f:
    json.dump({
        'freq_map': dict(word_counter),
        'total_words': total_word_count
    }, f, ensure_ascii=False, indent=2)

print(f"\n頻度データをあなたのGoogleドライブ ('{output_freq_file}') に保存しました。")
print("これ以降は、「ノートブック②：メイン分析用」に切り替えてください。")

In [None]:
#セル6
#前のセル実行
!python3.10 create_freq_dict.py

In [10]:
#TF-IDF計算
%%writefile tfidf.py
import json
import MeCab
import math
from collections import Counter

# --- ステップ1: 設定（ここを編集してください） ---

# 解析したいテキストを入力
INPUT_TEXT = "今日は良い天気ですね。"


# 完全なIDF計算に使用するデータファイル。ファイルのところでアップロードするか/content/drive/MyDrive/wiki_tfidf_data.jsonに置き換える。
IDF_DATA_FILE = "wiki_tfidf_data.json"


# --- ステップ2: MeCabとIDFデータの準備 ---

# MeCab Taggerの初期化
# NEologd辞書と、mecabrc設定ファイルのパスを明示的に指定します。
NEOLOGD_DIC_PATH = "/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd"
MECABRC_PATH = "/etc/mecabrc"

try:
    # 辞書パスと設定ファイルパスの両方を指定
    tagger_options = f"-d {NEOLOGD_DIC_PATH} -r {MECABRC_PATH}"
    wakati_tagger = MeCab.Tagger(f"-Owakati {tagger_options}")
    wakati_tagger.parse('') # 初期化チェック
    print("MeCab Tagger (NEologd) の初期化に成功しました。")
except Exception as e:
    print(f"MeCab Tagger (NEologd) の初期化に失敗しました。エラー: {e}")
    # フォールバックもrcfileを指定
    try:
        print("フォールバックとしてデフォルト辞書での初期化を試みます...")
        wakati_tagger = MeCab.Tagger(f"-Owakati -r {MECABRC_PATH}")
        wakati_tagger.parse('')
        print("デフォルト辞書での初期化に成功しました。")
    except Exception as e2:
        print(f"デフォルト辞書での初期化にも失敗しました。エラー: {e2}")
        raise RuntimeError("MeCabを正常に初期化できませんでした。")

# IDFデータをファイルから読み込む
try:
    with open(IDF_DATA_FILE, 'r', encoding='utf-8') as f:
        idf_data = json.load(f)
    total_documents = idf_data['total_documents'] # Wikipediaの総記事数
    doc_freq_map = idf_data['doc_freq_map']       # 各単語が何個の記事に登場したかのデータ
    print(f"'{IDF_DATA_FILE}' の読み込みに成功しました。総文書数: {total_documents}")
except FileNotFoundError:
    raise FileNotFoundError(f"エラー: '{IDF_DATA_FILE}' が見つかりません。このスクリプトと同じ場所に配置してください。")


# --- ステップ3: TF (Term Frequency) の計算 ---
#
# TFは「入力された文章の中で、各単語が何回出現したか」を数えるだけのシンプルな処理です。
#
print("\n--- TF (Term Frequency) 計算中 ---")

# 1. 入力テキストをMeCabで単語に分割する（分かち書き）
tokens = wakati_tagger.parse(INPUT_TEXT).strip().split()

# 2. Counterを使って、各単語の出現回数を数える
# これが各単語のTFの値（この文章内での出現回数）になります。
tf_scores = Counter(tokens)

print("入力テキスト中の各単語の出現回数 (TF値):")
for word, count in tf_scores.most_common(5):
    print(f"  - '{word}': {count}回")
print("  - ...")


# --- ステップ4: IDF (Inverse Document Frequency) の計算 ---
#
# IDFは「その単語が、世間一般（ここではWikipedia）でどれだけ珍しいか」を数値化する処理です。
# 珍しい単語ほど、高いスコアになります。
#
print("\n--- IDF (Inverse Document Frequency) 計算中 ---")

idf_scores = {}
unique_tokens = set(tokens) # 計算を効率化するため、重複しない単語のリストを作成

for word in unique_tokens:
    # 1. Wikipediaでその単語が登場した記事（文書）の数を取得
    #    もし一度も登場していなければ、0として扱う
    doc_freq = doc_freq_map.get(word, 0)

    # 2. 完全なIDFの計算式を適用
    #    log(総文書数 / その単語が登場した文書数)
    #    +1 は、分母が0になるのを防ぐ「スムージング」というテクニックです。
    idf_value = math.log((total_documents + 1) / (doc_freq + 1))

    idf_scores[word] = idf_value

print("いくつかの単語の「珍しさ」スコア (IDF値):")
# IDFスコアが高い順にソートして上位5件を表示
sorted_idf = sorted(idf_scores.items(), key=lambda x: x[1], reverse=True)
for word, score in sorted_idf[:5]:
    print(f"  - '{word}': {score:.4f} (珍しい単語ほど高い)")
print("  - ...")


# --- ステップ5: TF-IDFスコアの計算と結果表示 ---
#
# 最後に、TFとIDFを掛け合わせます。
# これにより「この文章によく出てきて、かつ世間では珍しい」お宝キーワードがわかります。
#
print("\n--- TF-IDFスコア計算中 ---")

tfidf_scores = {}
for word in unique_tokens:
    tf = tf_scores[word]
    idf = idf_scores[word]

    # TFとIDFを掛け合わせる
    tfidf_scores[word] = tf * idf

# 結果をTF-IDFスコアの高い順に並べ替えて表示
sorted_tfidf = sorted(tfidf_scores.items(), key=lambda x: x[1], reverse=True)

print("\n---【最終結果】TF-IDFスコア トップ20 ---")
for word, score in sorted_tfidf[:20]:
    print(f"{word:<10s} | スコア: {score:.4f}")

Overwriting tfidf.py


In [11]:
#前のセル実行
!python3.10 tfidf.py

MeCab Tagger (NEologd) の初期化に成功しました。
'wiki_tfidf_data.json' の読み込みに成功しました。総文書数: 2374911

--- TF (Term Frequency) 計算中 ---
入力テキスト中の各単語の出現回数 (TF値):
  - '今日': 1回
  - 'は': 1回
  - '良い': 1回
  - '天気': 1回
  - 'です': 1回
  - ...

--- IDF (Inverse Document Frequency) 計算中 ---
いくつかの単語の「珍しさ」スコア (IDF値):
  - '天気': 7.1018 (珍しい単語ほど高い)
  - 'ね': 4.5772 (珍しい単語ほど高い)
  - 'です': 4.5197 (珍しい単語ほど高い)
  - '今日': 4.5107 (珍しい単語ほど高い)
  - '良い': 4.3670 (珍しい単語ほど高い)
  - ...

--- TF-IDFスコア計算中 ---

---【最終結果】TF-IDFスコア トップ20 ---
天気         | スコア: 7.1018
ね          | スコア: 4.5772
です         | スコア: 4.5197
今日         | スコア: 4.5107
良い         | スコア: 4.3670
は          | スコア: 0.5352
。          | スコア: 0.5339


In [None]:
#セル7
from google.colab import files
import os
import re
import json
from collections import Counter


print("Excelファイル (S2_data.xlsx) と Google Cloud認証キー (JSONファイル) をアップロードしてください。")
uploaded = files.upload()

# アップロードされたファイル名を取得
excel_file_name = "S2_data.xlsx"

#以下無視
gcp_key_file_name = ""
for fn in uploaded.keys():
  if fn.endswith('.json'):
    gcp_key_file_name = fn
    print(f"認証キー '{fn}' を認識しました。")

if not gcp_key_file_name:
    print("エラー: Google Cloudの認証キー(JSONファイル)が見つかりません。")

# 環境変数を設定してPythonから認証キーを使えるようにする
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = gcp_key_file_name

In [None]:
#セル8.1
#セル5.1対応
%%writefile create_json.py
import pandas as pd
import MeCab
from collections import Counter, defaultdict
import json
import os
import math
import time
from google.cloud import translate_v2 as translate
import html

# --- 設定項目 ---
# 1. MeCabの辞書パス:下記

# 2. ジャンルIDマップ
GENRE_ID_MAP = {
    "文芸・評論": "bungei", "ノンフィクション": "nonfiction", "ビジネス・経済": "business",
    "歴史・地理": "rekishi", "政治・社会": "politics", "芸能・エンターテインメント": "entertainment",
    "アート・建築・デザイン": "art", "人文・思想・宗教": "humanities", "暮らし・健康・料理": "life",
    "サイエンス・テクノロジー": "science", "趣味・実用": "hobby", "教育・自己啓発": "education",
    "スポーツ・アウトドア": "sports", "事典・年鑑・本・ことば": "dictionary", "音楽": "music",
    "旅行・紀行": "ryokou", "絵本・児童書": "kids", "コミックス": "comics"
}

# 3. Google CloudプロジェクトID
GCP_PROJECT_ID = "my-translation-app-463407"  # ご自身のIDに設定してください

# 4. 文の翻訳を有効にするか
TRANSLATE_SENTENCES = True

# 5. ★★★ 読み込むファイルを「完全なIDF」用のデータファイルに変更 ★★★
WIKI_IDF_FILE = "wiki_tfidf_data.json"

# 6. ファイル設定
EXCEL_FILE = "S2_data.xlsx"
SHEET_NAMES = list(GENRE_ID_MAP.keys())
OUTPUT_JSON_FILE = "analysis_data.json"
ROW_START, ROW_END = 1, 11

# 7. Softmax温度設定
SOFTMAX_TEMPERATURE = 15.0 # なだらかな分布にするため少し高めに設定

# NEologd辞書と、mecabrc設定ファイルのパスを明示的に指定します。
NEOLOGD_DIC_PATH = "/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd"
MECABRC_PATH = "/etc/mecabrc"

try:
    # 辞書パスと設定ファイルパスの両方を指定
    tagger_options = f"-d {NEOLOGD_DIC_PATH} -r {MECABRC_PATH}"
    wakati_tagger = MeCab.Tagger(f"-Owakati {tagger_options}")
    wakati_tagger.parse('') # 初期化チェック
    print("MeCab Tagger (NEologd) の初期化に成功しました。")
except Exception as e:
    print(f"MeCab Tagger (NEologd) の初期化に失敗しました。エラー: {e}")
    # フォールバックもrcfileを指定
    try:
        print("フォールバックとしてデフォルト辞書での初期化を試みます...")
        wakati_tagger = MeCab.Tagger(f"-Owakati -r {MECABRC_PATH}")
        wakati_tagger.parse('')
        print("デフォルト辞書での初期化に成功しました。")
    except Exception as e2:
        print(f"デフォルト辞書での初期化にも失敗しました。エラー: {e2}")
        raise RuntimeError("MeCabを正常に初期化できませんでした。")

# --- 関数定義 ---
# ★★★ 修正: 新しいJSON構造に合わせてデータ読み込み関数を修正 ★★★
def load_idf_data(filepath):
    """文書頻度データ（JSON）を読み込む"""
    print(f"ステップ1/5: 文書頻度データ '{filepath}' を読み込み中...")
    if not os.path.exists(filepath):
        print(f"  - エラー: ファイル '{filepath}' が見つかりません。")
        exit()
    with open(filepath, 'r', encoding='utf-8') as f:
        data = json.load(f)
    if 'total_documents' not in data or 'doc_freq_map' not in data:
        print(f"  - エラー: '{filepath}' は 'total_documents' と 'doc_freq_map' のキーを持つ必要があります。")
        exit()
    print(f"  - 完了。{len(data['doc_freq_map'])}語のデータを読み込みました。")
    return data['doc_freq_map'], data['total_documents']

def translate_texts(texts, target_language="en"):
    """テキストのリストを翻訳し、HTMLエンティティをデコードする"""
    if not texts: return {}
    unique_texts = list(set(text for text in texts if text and isinstance(text, str)))
    if not unique_texts: return {text: "" for text in texts}

    BATCH_SIZE, all_translations = 128, {}
    print(f"  - 合計 {len(unique_texts)}件のユニークなテキストを翻訳します...")
    for i in range(0, len(unique_texts), BATCH_SIZE):
        chunk = unique_texts[i:i + BATCH_SIZE]
        print(f"    - 翻訳中... (チャンク {i//BATCH_SIZE + 1} / {math.ceil(len(unique_texts)/BATCH_SIZE)})")
        try:
            results = translate_client.translate(chunk, target_language=target_language)
            for item in results:
                decoded_text = html.unescape(item['translatedText'])
                all_translations[item['input']] = decoded_text
        except Exception as e:
            print(f"      - 翻訳API呼び出し中にエラー: {e}")
            for text in chunk: all_translations[text] = ""
        time.sleep(0.1)
    return all_translations

def apply_softmax(word_objects, temperature=1.0):
    if not word_objects: return []
    if temperature <= 0: temperature = 1.0
    scores = [item['score'] / temperature for item in word_objects]
    max_score = max(scores)
    exps = [math.exp(s - max_score) for s in scores]
    sum_exps = sum(exps)
    if sum_exps == 0: return word_objects
    for i, item in enumerate(word_objects):
        item['score'] = exps[i] / sum_exps
    return word_objects

def get_tokens_from_text(text):
    if not isinstance(text, str): text = str(text)
    return wakati_tagger.parse(text).strip().split()

# ★★★ 修正: 完全なIDFを計算するように関数を修正 ★★★
def analyze_pos_and_score(text, doc_freq_map, total_documents):
    """テキストを形態素解析し、品詞分類とTF-IDFスコアリングを行う"""
    if not isinstance(text, str): text = str(text)

    tokens_for_tf = get_tokens_from_text(text)
    tf = Counter(tokens_for_tf)
    node = tagger.parseToNode(text)
    results = defaultdict(list)

    while node:
        surface = node.surface
        features = node.feature.split(',')
        if not surface or len(features) < 2:
            node = node.next
            continue

        freq_in_doc = tf.get(surface, 0)
        if freq_in_doc == 0:
            node = node.next
            continue

        # doc_freq_mapからその単語の文書頻度を取得
        doc_freq = doc_freq_map.get(surface, 0)

        # 完全なIDFの計算式（+1はゼロ除算防止のスムージング）
        idf = math.log((total_documents + 1) / (doc_freq + 1))

        score = (freq_in_doc * idf) + math.log(freq_in_doc + 1)
        word_obj = {"word": surface, "score": score}

        pos, sub_pos1 = features[0], features[1]

        if pos == "名詞":
            if sub_pos1 in ["代名詞", "非自立", "数", "接尾", "副詞可能", "形容動詞語幹"]:
                results["nouns_functional"].append(word_obj)
            else:
                results["nouns_other"].append(word_obj)
        elif pos == "動詞": results["verbs"].append(word_obj)
        elif pos == "形容詞": results["adjectives"].append(word_obj)
        elif pos == "形容動詞": results["adjectival_verbs"].append(word_obj)

        node = node.next
    return results

# ★★★ 削除: 不要になったため、extract_important_words関数を削除 ★★★

def extract_important_sentences_by_score(text, word_score_map):
    if not isinstance(text, str): return "説明文がテキスト形式ではありません"
    sentences = [s.strip() for s in text.split("。") if s.strip()]
    if not sentences: return "該当する文がありません"

    scored_sentences = []
    for sentence in sentences:
        tokens = get_tokens_from_text(sentence)
        sentence_score = sum(word_score_map.get(token, 0) for token in tokens)
        scored_sentences.append((sentence, sentence_score))

    scored_sentences = [s for s in scored_sentences if s[1] > 0]
    if not scored_sentences: return "重要度の高い単語を含む文がありません"

    scored_sentences.sort(key=lambda x: x[1], reverse=True)
    return scored_sentences[0][0] + "。"

# --- メイン処理 ---
def main():
    # ★★★ 修正: 新しいデータ読み込み関数を呼び出し ★★★
    doc_freq_map, total_documents = load_idf_data(WIKI_IDF_FILE)

    print("ステップ2/5: 全てのドキュメントをExcelから読み込み中...")
    all_docs_raw = []
    for sheet_name in SHEET_NAMES:
        try:
            df = pd.read_excel(EXCEL_FILE, sheet_name=sheet_name, usecols=[1, 3], header=None, engine="openpyxl")
            for i in range(ROW_START, ROW_END):
                if i < len(df):
                    all_docs_raw.append({
                        "sheet_name": sheet_name,
                        "title": str(df.iloc[i, 0]),
                        "text": str(df.iloc[i, 1])
                    })
        except Exception as e:
            print(f"  - シート '{sheet_name}' の読み込みエラー: {e}")

    print("ステップ3/5: 各ドキュメントを解析し、スコアを計算中...")
    all_docs_processed = []
    for i, doc in enumerate(all_docs_raw):
        # ★★★ 修正: 新しい引数で関数を呼び出し ★★★
        analysis_results_raw = analyze_pos_and_score(doc['text'], doc_freq_map, total_documents)

        aggregated_analysis = defaultdict(lambda: defaultdict(float))
        word_score_map = {}
        for category, word_list in analysis_results_raw.items():
            for item in word_list: aggregated_analysis[category][item['word']] += item['score']
        for category_scores in aggregated_analysis.values():
            for word, score in category_scores.items(): word_score_map[word] = score

        final_analysis_results = {
            cat: apply_softmax([{"word": w, "score": s} for w, s in scores.items()], temperature=SOFTMAX_TEMPERATURE)
            for cat, scores in aggregated_analysis.items()
        }

        # ★★★ 削除: 重要単語に関する処理をすべて削除 ★★★

        doc.update({
            "genre_id": GENRE_ID_MAP.get(doc['sheet_name'], doc['sheet_name'].lower()),
            "title_id": f"title{(i % (ROW_END - ROW_START)) + 1:02d}",
            "important_sentence": extract_important_sentences_by_score(doc['text'], word_score_map),
            "analysis": final_analysis_results,
            # 'important_words' キーは追加しない
        })
        all_docs_processed.append(doc)

    print("ステップ4/5: テキストを翻訳中...")
    words_to_translate, sentences_to_translate = set(), []
    for doc in all_docs_processed:
        if TRANSLATE_SENTENCES:
            sentences_to_translate.append(doc['text'])
            sentences_to_translate.append(doc['important_sentence'])
        for category in doc['analysis']:
            for item in doc['analysis'][category]:
                words_to_translate.add(item['word'])
        # ★★★ 削除: 重要単語の翻訳処理を削除 ★★★

    word_translation_map = translate_texts(list(words_to_translate))
    sentence_translation_map = translate_texts(sentences_to_translate) if TRANSLATE_SENTENCES else {}

    print("ステップ5/5: 最終的なJSONデータを構築中...")
    final_data = defaultdict(list)
    for doc in all_docs_processed:
        for category in doc['analysis']:
            for item in doc['analysis'][category]:
                item['translation'] = word_translation_map.get(item['word'], "")
        # ★★★ 削除: 重要単語の翻訳マッピング処理を削除 ★★★

        doc['text_en'] = sentence_translation_map.get(doc['text'], "")
        doc['important_sentence_en'] = sentence_translation_map.get(doc['important_sentence'], "")

        doc.pop('sheet_name', None)
        final_data[doc['genre_id']].append(doc)

    id_to_genre_map = {v: k for k, v in GENRE_ID_MAP.items()}
    final_json_data = {id_to_genre_map.get(gid, gid): docs for gid, docs in final_data.items()}

    with open(OUTPUT_JSON_FILE, 'w', encoding='utf-8') as f:
        json.dump(final_json_data, f, ensure_ascii=False, indent=2)

    print(f"\n処理完了。'{OUTPUT_JSON_FILE}' を保存しました。")

if __name__ == "__main__":
    main()

In [None]:
#セル8.2
#セル5.2対応
%%writefile create_json.py
import pandas as pd
import MeCab
from collections import Counter, defaultdict
import json
import os
import math
import time
from google.cloud import translate_v2 as translate
import html # ★★★ HTMLデコードライブラリをインポート ★★★

# --- 設定項目 ---
# 1. MeCabの辞書パス
MECAB_DIC_PATH = "/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd"

# 2. ジャンルIDマップ。
GENRE_ID_MAP = {
    "文芸・評論": "bungei", "ノンフィクション": "nonfiction", "ビジネス・経済": "business",
    "歴史・地理": "rekishi", "政治・社会": "politics", "芸能・エンターテインメント": "entertainment",
    "アート・建築・デザイン": "art", "人文・思想・宗教": "humanities", "暮らし・健康・料理": "life",
    "サイエンス・テクノロジー": "science", "趣味・実用": "hobby", "教育・自己啓発": "education",
    "スポーツ・アウトドア": "sports", "事典・年鑑・本・ことば": "dictionary", "音楽": "music",
    "旅行・紀行": "ryokou", "絵本・児童書": "kids", "コミックス": "comics"
}

# 3. Google CloudプロジェクトID。
GCP_PROJECT_ID = "my-translation-app-463407"  # ご自身のIDに設定してください

# 4. 文の翻訳を有効にするか。
TRANSLATE_SENTENCES = True

# 5. 読み込む頻度データファイル。
WIKI_FREQ_FILE = "wiki_freq_neologd.json"

# 6. ファイル設定
EXCEL_FILE = "S2_data.xlsx"
SHEET_NAMES = list(GENRE_ID_MAP.keys())
OUTPUT_JSON_FILE = "analysis_data.json"
ROW_START, ROW_END = 1, 11

# 7. Softmax温度設定。
SOFTMAX_TEMPERATURE = 15.0

# --- クライアントとTaggerの初期化 ---
try:
    translate_client = translate.Client()
except Exception as e:
    print(f"Google翻訳クライアントの初期化に失敗。認証情報を確認してください。エラー: {e}")
    exit()

try:
    tagger_options = f'-d "{MECAB_DIC_PATH}"'
    tagger = MeCab.Tagger(tagger_options)
    wakati_tagger = MeCab.Tagger(f"-Owakati {tagger_options}")
    tagger.parse('')
    print("MeCab Tagger (NEologd) の初期化に成功しました。")
except RuntimeError as e:
    print(f"MeCabの初期化に失敗しました。: {e}")
    print(f"MECAB_DIC_PATH '{MECAB_DIC_PATH}' が正しいか確認してください。")
    exit()

# --- 関数定義 ---
def load_freq_data(filepath):
    print(f"ステップ1/5: 外部単語頻度データ '{filepath}' を読み込み中...")
    if not os.path.exists(filepath):
        print(f"  - エラー: ファイル '{filepath}' が見つかりません。")
        exit()
    with open(filepath, 'r', encoding='utf-8') as f:
        data = json.load(f)
    if 'freq_map' not in data or 'total_words' not in data:
        print(f"  - エラー: '{filepath}' は 'freq_map' と 'total_words' のキーを持つ必要があります。")
        exit()
    print(f"  - 完了。{len(data['freq_map'])}語のデータを読み込みました。")
    return data['freq_map'], data['total_words']

def translate_texts(texts, target_language="en"):
    """テキストのリストを翻訳し、HTMLエンティティをデコードする"""
    if not texts: return {}
    unique_texts = list(set(text for text in texts if text and isinstance(text, str)))
    if not unique_texts: return {text: "" for text in texts}

    BATCH_SIZE, all_translations = 128, {}
    print(f"  - 合計 {len(unique_texts)}件のユニークなテキストを翻訳します...")
    for i in range(0, len(unique_texts), BATCH_SIZE):
        chunk = unique_texts[i:i + BATCH_SIZE]
        print(f"    - 翻訳中... (チャンク {i//BATCH_SIZE + 1} / {math.ceil(len(unique_texts)/BATCH_SIZE)})")
        try:
            results = translate_client.translate(chunk, target_language=target_language)
            # ★★★ HTMLエンティティをデコードする処理を追加 ★★★
            for item in results:
                decoded_text = html.unescape(item['translatedText'])
                all_translations[item['input']] = decoded_text
        except Exception as e:
            print(f"      - 翻訳API呼び出し中にエラー: {e}")
            for text in chunk: all_translations[text] = ""
        time.sleep(0.1)
    return all_translations

def apply_softmax(word_objects, temperature=1.0):
    if not word_objects: return []
    if temperature <= 0: temperature = 1.0
    scores = [item['score'] / temperature for item in word_objects]
    max_score = max(scores)
    exps = [math.exp(s - max_score) for s in scores]
    sum_exps = sum(exps)
    if sum_exps == 0: return word_objects
    for i, item in enumerate(word_objects):
        item['score'] = exps[i] / sum_exps
    return word_objects

def get_tokens_from_text(text):
    if not isinstance(text, str): text = str(text)
    return wakati_tagger.parse(text).strip().split()

def analyze_pos_and_score(text, freq_map, total_corpus_words):
    if not isinstance(text, str): text = str(text)

    tokens_for_tf = get_tokens_from_text(text)
    tf = Counter(tokens_for_tf)
    node = tagger.parseToNode(text)
    results = defaultdict(list)

    max_idf = math.log((total_corpus_words / 1) + 1)

    while node:
        surface = node.surface
        features = node.feature.split(',')
        if not surface or len(features) < 2:
            node = node.next
            continue

        freq_in_doc = tf.get(surface, 0)
        if freq_in_doc == 0:
            node = node.next
            continue

        freq_in_corpus = freq_map.get(surface)
        idf = max_idf if freq_in_corpus is None else math.log((total_corpus_words / (freq_in_corpus + 1)) + 1)

        score = (freq_in_doc * idf) + math.log(freq_in_doc + 1)
        word_obj = {"word": surface, "score": score}

        pos, sub_pos1 = features[0], features[1]

        if pos == "名詞":
            if sub_pos1 in ["代名詞", "非自立", "数", "接尾", "副詞可能", "形容動詞語幹"]:
                results["nouns_functional"].append(word_obj)
            else:
                results["nouns_other"].append(word_obj)
        elif pos == "動詞":
            results["verbs"].append(word_obj)
        elif pos == "形容詞":
            results["adjectives"].append(word_obj)
        elif pos == "形容動詞":
            results["adjectival_verbs"].append(word_obj)

        node = node.next
    return results

def extract_important_words(analysis_results_raw):
    important = defaultdict(list)
    for pos_key, words in analysis_results_raw.items():
        word_counts = Counter(item['word'] for item in words)
        important_word_names = {word for word, count in word_counts.items() if count >= 2}

        important_words = [item for item in words if item['word'] in important_word_names]
        important[pos_key] = important_words
    return important

def extract_important_sentences_by_score(text, word_score_map):
    if not isinstance(text, str): return "説明文がテキスト形式ではありません"

    sentences = [s.strip() for s in text.split("。") if s.strip()]
    if not sentences: return "該当する文がありません"

    scored_sentences = []
    for sentence in sentences:
        tokens = get_tokens_from_text(sentence)
        sentence_score = sum(word_score_map.get(token, 0) for token in tokens)
        scored_sentences.append((sentence, sentence_score))

    scored_sentences = [s for s in scored_sentences if s[1] > 0]
    if not scored_sentences: return "重要度の高い単語を含む文がありません"

    scored_sentences.sort(key=lambda x: x[1], reverse=True)
    return scored_sentences[0][0] + "。"

# --- メイン処理 ---
def main():
    freq_map, total_words = load_freq_data(WIKI_FREQ_FILE)

    print("ステップ2/5: 全てのドキュメントをExcelから読み込み中...")
    all_docs_raw = []
    for sheet_name in SHEET_NAMES:
        try:
            df = pd.read_excel(EXCEL_FILE, sheet_name=sheet_name, usecols=[1, 3], header=None, engine="openpyxl")
            for i in range(ROW_START, ROW_END):
                if i < len(df):
                    all_docs_raw.append({
                        "sheet_name": sheet_name,
                        "title": str(df.iloc[i, 0]),
                        "text": str(df.iloc[i, 1])
                    })
        except Exception as e:
            print(f"  - シート '{sheet_name}' の読み込みエラー: {e}")

    print("ステップ3/5: 各ドキュメントを解析し、スコアを計算中...")
    all_docs_processed = []
    for i, doc in enumerate(all_docs_raw):
        analysis_results_raw = analyze_pos_and_score(doc['text'], freq_map, total_words)

        aggregated_analysis = defaultdict(lambda: defaultdict(float))
        word_score_map = {}
        for category, word_list in analysis_results_raw.items():
            for item in word_list:
                aggregated_analysis[category][item['word']] += item['score']
        for category_scores in aggregated_analysis.values():
            for word, score in category_scores.items():
                word_score_map[word] = score

        final_analysis_results = {
            cat: apply_softmax([{"word": w, "score": s} for w, s in scores.items()], temperature=SOFTMAX_TEMPERATURE)
            for cat, scores in aggregated_analysis.items()
        }

        important_words_raw = extract_important_words(analysis_results_raw)
        aggregated_important = defaultdict(lambda: defaultdict(float))
        for category, word_list in important_words_raw.items():
            for item in word_list:
                aggregated_important[category][item['word']] += item['score']

        final_important_words = {
            cat: apply_softmax([{"word": w, "score": s} for w, s in scores.items()], temperature=SOFTMAX_TEMPERATURE)
            for cat, scores in aggregated_important.items()
        }

        doc.update({
            "genre_id": GENRE_ID_MAP.get(doc['sheet_name'], doc['sheet_name'].lower()),
            "title_id": f"title{(i % (ROW_END - ROW_START)) + 1:02d}",
            "important_sentence": extract_important_sentences_by_score(doc['text'], word_score_map),
            "analysis": final_analysis_results,
            "important_words": final_important_words
        })
        all_docs_processed.append(doc)

    print("ステップ4/5: テキストを翻訳中...")
    words_to_translate, sentences_to_translate = set(), []
    for doc in all_docs_processed:
        if TRANSLATE_SENTENCES:
            sentences_to_translate.append(doc['text'])
            sentences_to_translate.append(doc['important_sentence'])
        for category in doc['analysis']:
            for item in doc['analysis'][category]:
                words_to_translate.add(item['word'])
        for category in doc['important_words']:
            for item in doc['important_words'][category]:
                words_to_translate.add(item['word'])

    word_translation_map = translate_texts(list(words_to_translate))
    sentence_translation_map = translate_texts(sentences_to_translate) if TRANSLATE_SENTENCES else {}

    print("ステップ5/5: 最終的なJSONデータを構築中...")
    final_data = defaultdict(list)
    for doc in all_docs_processed:
        for category in doc['analysis']:
            for item in doc['analysis'][category]:
                item['translation'] = word_translation_map.get(item['word'], "")
        for category in doc['important_words']:
            for item in doc['important_words'][category]:
                item['translation'] = word_translation_map.get(item['word'], "")

        doc['text_en'] = sentence_translation_map.get(doc['text'], "")
        doc['important_sentence_en'] = sentence_translation_map.get(doc['important_sentence'], "")

        doc.pop('sheet_name', None)
        final_data[doc['genre_id']].append(doc)

    id_to_genre_map = {v: k for k, v in GENRE_ID_MAP.items()}
    final_json_data = {id_to_genre_map.get(gid, gid): docs for gid, docs in final_data.items()}

    with open(OUTPUT_JSON_FILE, 'w', encoding='utf-8') as f:
        json.dump(final_json_data, f, ensure_ascii=False, indent=2)

    print(f"\n処理完了。'{OUTPUT_JSON_FILE}' を保存しました。")

if __name__ == "__main__":
    main()

In [None]:
#セル9
#前のセル実行
!python3.10 create_json.py

In [None]:
!cp -r extracted_wiki /content/drive/MyDrive/
!cp -r jawiki-latest-pages-articles.xml.bz2 /content/drive/MyDrive/