# TF-IDFを適用する

## モジュールのインポート

In [2]:
import glob

import numpy as np

from janome.analyzer import Analyzer
from janome.tokenizer import Tokenizer
from janome.tokenfilter import POSKeepFilter, CompoundNounFilter

from sklearn.feature_extraction.text import TfidfVectorizer

## 解析器インスタンスの作成
janomeのAnalyzerクラスを利用します。
複合名詞処理をした後に、名詞のみをフィルタリングします。

In [3]:
a = Analyzer(token_filters=[CompoundNounFilter(), POSKeepFilter("名詞")])

## 文書集合を読み込む
globでファイル一覧を取得し、1ファイルずつ読み込みます。
一つのファイルは一つの文書として、docsに追加されます。

一つの文書はスペース区切りの単語で構成されます。

In [None]:
docs = []
for f in glob.glob("./docs/*.txt"):
    with open(f, "r", encoding="utf-8") as fin:
        doc = []
        for line in fin:
            line = line.strip()
            if not line:
                continue
            doc.append(" ".join([tok.surface for tok in a.analyze(line)]))
        docs.append(" ".join(doc))

## TF-IDFベクトル化

In [None]:
vectorizer = TfidfVectorizer()
vector = vectorizer.fit_transform(docs)

feature_names = np.array(vectorizer.get_feature_names())

## 重要な単語上位10件を表示
TF-IDFスコアが高い単語上位10語を表示する。

In [None]:
for vec in vector:
    index = np.argsort(vec.toarray(), axis=1)[:,::-1]
    feature_words = feature_names[index]
    print(feature_words[:,:10])

## 元ネタとなっている文書を表示する
複合名詞処理＋名詞フィルタリングをした文書を先頭から200文字表示する。
前で示した上位10件が特徴づける単語になっているか確認でき

In [None]:
for doc in docs:
    print(doc[:200])
    print("-" * 60)