# TF-IDFを適用する

## モジュールのインポート

In [1]:
import glob

import numpy as np

from janome.analyzer import Analyzer
from janome.tokenizer import Tokenizer
from janome.tokenfilter import POSKeepFilter, CompoundNounFilter

from sklearn.feature_extraction.text import TfidfVectorizer

## 解析器インスタンスの作成
janomeのAnalyzerクラスを利用します。
複合名詞処理をした後に、名詞のみをフィルタリングします。

In [2]:
a = Analyzer(token_filters=[CompoundNounFilter(), POSKeepFilter("名詞")])

## 文書集合を読み込む
globでファイル一覧を取得し、1ファイルずつ読み込みます。
一つのファイルは一つの文書として、docsに追加されます。

一つの文書はスペース区切りの単語で構成されます。

In [3]:
docs = []
for f in glob.glob("./docs/*.txt"):
    with open(f, "r", encoding="utf-8") as fin:
        doc = []
        for line in fin:
            line = line.strip()
            if not line:
                continue
            doc.append(" ".join([tok.surface for tok in a.analyze(line)]))
        docs.append(" ".join(doc))

## TF-IDFベクトル化

In [4]:
vectorizer = TfidfVectorizer()
vector = vectorizer.fit_transform(docs)

feature_names = np.array(vectorizer.get_feature_names())

## 重要な単語上位10件を表示
TF-IDFスコアが高い単語上位10語を表示する。

In [5]:
for vec in vector:
    index = np.argsort(vec.toarray(), axis=1)[:,::-1]
    feature_words = feature_names[index]
    print(feature_words[:,:10])

[['参加' 'cnn' '学会' 'チュートリアル' 'icdar2017' '発表' 'analysis' '議論' 'recognition'
  '投稿']]
[['hug' 'api' 'パラメータ' 'cli' 'コマンドラインツール' '引数' 'デコレータ' 'ラップ' 'webapi'
  'world']]
[['cchardet' 'beautifulsoup' 'requestsモジュール' '文字化け' 'apparent_encoding'
  '文字コード' 'response' 'html' 'ページ' 'レスポンスヘッダ']]
[['xonsh' 'プロセス置換' 'コマンド' 'よう' 'python' 'subprocess' 'ファイル' 'zsh' 'bash'
  'mom']]
[['ergodoxez' '購入' 'ため' '手数料' '開封' 'ergodoxezライフ' '猫背解消' '注文' 'hhkb' '記載']]
[['インストール' 'sh' 'catboost' 'lightgbm' 'gpu' 'gce' 'ログインパスワード' 'engine'
  'pyenv' 'with']]
[['素性抽出' 'テンプレート' '素性' 'surface' '抽出' 'タグ' '対象単語' '関数' '推定' 'よう']]
[['自然言語処理' '文書分類' '勉強会' '実装' 'ハンズオン' 'みなさま' 'テーマ' '勉強' '参加' '得意']]
[['企業' '勉強会' '自然言語処理' 'アルゴリズム' '取り組み' 'ため' '開発' '企業特定' '企業辞書' '曖昧さ']]


## 元ネタとなっている文書を表示する
複合名詞処理＋名詞フィルタリングをした文書を先頭から200文字表示する。
前で示した上位10件が特徴づける単語になっているか確認でき

In [6]:
for doc in docs:
    print(doc[:200])
    print("-" * 60)

ICDAR2017 参加 最近 会社 技術ブログ うつつ 個人ブログ 投稿 久しぶり 投稿 個人ブログ 会社スポンサーブース対応 聴講 目的 京都 開催 ICDAR2017 参加 これ 言語処理系 学会 参加 画像系 ため 新鮮 参加 所感 ICDAR International Conference on Document Analysis and Recognition 略 文書 構造解析 O
------------------------------------------------------------
hug API CLI Sansan Advent Calendar 2017 1日目 記事 Python WebAPI コマンドラインツール とき ボトルネック がち の ルーティング 引数 管理 hug ここらへん Pythonモジュール hug WebAPI コマンドラインツール 作成 備忘録 hug WebAPI きまり Hello World! パラメータ デプロイ とき コマンドライン
------------------------------------------------------------
Python requestsモジュール 文字コード対策 編集 Webスクレイピング Advent Calendar 2017 4日目 記事 Python requestsモジュール Requests 人 よう 設計 Python Apache2 Licensed ベース HTTPライブラリ 公式サイト1文目 記述 HTTPライブラリ requestsモジュール 日本語HTML 対象 取得 際 文
------------------------------------------------------------
Xonsh Xonsh Advent Calendar 2017 13日目 記事 Xonsh 話 これ Xonsh the xonsh shell ~ こちらトム少佐 Xonsh地上管制 ~ Xonsh Python 動作 クロスプラットフォーム Unix よう シェル言語 コマンドプロンプト 言語 Python 3.4+ 上位互換 Bash IPython 基本的 シェル命令 追加 もの Lin
-------------