<a href="https://colab.research.google.com/github/b066ff/sandbox1/blob/master/tfidf.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [30]:
from collections import Counter
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# テキストファイルの読み込み
def read_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()
    return text

# 数字を含まない名詞のみを抽出する関数
def extract_nouns(text):
    words = re.findall(r'\b[^\d\W]+\b', text)
    return [word for word in words if word.isalpha()]

# TF-IDFの計算
def calculate_tfidf(texts):
    tfidf_vectorizer = TfidfVectorizer(tokenizer=extract_nouns)
    tfidf_matrix = tfidf_vectorizer.fit_transform(texts)
    return tfidf_vectorizer, tfidf_matrix

# 平均値以上のTF-IDFを持つ単語を抽出し、ランキング形式で表示
def extract_top_words(tfidf_vectorizer, tfidf_matrix):
    word_tfidf_avg = Counter()
    num_docs, _ = tfidf_matrix.shape

    for doc in range(num_docs):
        feature_names = tfidf_vectorizer.get_feature_names_out()
        feature_index = tfidf_matrix[doc, :].nonzero()[1]
        for index in feature_index:
            word = feature_names[index]
            tfidf_value = tfidf_matrix[doc, index]
            word_tfidf_avg[word] += tfidf_value

    # TF-IDFの平均値を計算
    for word in word_tfidf_avg:
        word_tfidf_avg[word] /= num_docs

    # 平均値以上の単語を抽出
    avg_threshold = sum(word_tfidf_avg.values()) / len(word_tfidf_avg)
    top_words = {word: tfidf for word, tfidf in word_tfidf_avg.items() if tfidf >= avg_threshold}

    # TF-IDF値でソートして表示
    sorted_words = sorted(top_words.items(), key=lambda x: x[1], reverse=True)
    for word, tfidf in sorted_words:
        print(f"{word}: {tfidf}")

# メイン関数
def main():
    # テキストファイルのパス
    file_path = 'スライド11.txt'  # 入力ファイルの名前を適宜変更してください

    # テキストファイルの読み込み
    text = read_file(file_path)

    # TF-IDFの計算
    tfidf_vectorizer, tfidf_matrix = calculate_tfidf([text])

    # 平均値以上のTF-IDFを持つ単語を抽出し、ランキング形式で表示
    extract_top_words(tfidf_vectorizer, tfidf_matrix)

if __name__ == "__main__":
    main()


に: 0.41702882811414954


In [31]:
import pandas as pd

# テキストファイルの読み込み
def read_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()
    return text

# 数字を含まない名詞のみを抽出する関数
def extract_nouns(text):
    words = re.findall(r'\b[^\d\W]+\b', text)
    return [word for word in words if word.isalpha()]

# TF-IDFの計算
def calculate_tfidf(texts):
    tfidf_vectorizer = TfidfVectorizer(tokenizer=extract_nouns)
    tfidf_matrix = tfidf_vectorizer.fit_transform(texts)
    return tfidf_vectorizer, tfidf_matrix

# 平均値以上のTF-IDFを持つ単語を抽出し、ランキング形式で表示
def extract_top_words(tfidf_vectorizer, tfidf_matrix):
    word_tfidf_avg = Counter()
    num_docs, _ = tfidf_matrix.shape

    for doc in range(num_docs):
        feature_names = tfidf_vectorizer.get_feature_names_out()
        feature_index = tfidf_matrix[doc, :].nonzero()[1]
        for index in feature_index:
            word = feature_names[index]
            tfidf_value = tfidf_matrix[doc, index]
            word_tfidf_avg[word] += tfidf_value

    # TF-IDFの平均値を計算
    for word in word_tfidf_avg:
        word_tfidf_avg[word] /= num_docs

    # 平均値以上の単語を抽出
    avg_threshold = sum(word_tfidf_avg.values()) / len(word_tfidf_avg)
    top_words = {word: tfidf for word, tfidf in word_tfidf_avg.items() if tfidf >= avg_threshold}

    # TF-IDF値でソート
    sorted_words = sorted(top_words.items(), key=lambda x: x[1], reverse=True)
    return sorted_words

# 結果をExcelファイルとして出力
def export_to_excel(sorted_words, output_file):
    df = pd.DataFrame(sorted_words, columns=['単語', 'TF-IDF値'])
    df.to_excel(output_file, index=False)

# メイン関数
def main():
    # テキストファイルのパス
    file_path = 'スライド22.txt'  # 入力ファイルの名前を適宜変更してください
    output_file = 'output.xlsx'  # 出力ファイル名を指定してください

    # テキストファイルの読み込み
    text = read_file(file_path)

    # TF-IDFの計算
    tfidf_vectorizer, tfidf_matrix = calculate_tfidf([text])

    # 平均値以上のTF-IDFを持つ単語を抽出し、ランキング形式で取得
    sorted_words = extract_top_words(tfidf_vectorizer, tfidf_matrix)

    # 結果をExcelファイルとして出力
    export_to_excel(sorted_words, output_file)
    print(f"結果が {output_file} として保存されました。")

if __name__ == "__main__":
    main()


結果が output.xlsx として保存されました。
