# TF-IDF

TF-IDFは重要語の抽出に使われる。
ある文章を特徴づけるような重要語は、テキストを検索するときのキーワードマッチングや、テキスト要約の骨格にするなど様々な用途がある。
出現頻度順に単語を並べると、「こと」や「とき」のようなどの文章でも頻繁に使われる言葉が並ぶが、これらはその文章を特徴づける重要語とは言えない。

そこで、出現頻度は高いが、その語を含む文章は少ない単語を、重要と判定する考え方であるTF-IDFが重要語の抽出に利用されている。

TF（Term Frequency）は文書中の単語の出現頻度を表す。例えば弊社紹介ページが1000単語で構成されていて、「人材」という単語が3回出現していたら、TF=3/1000=0.003となる。

一方IDF（Inverse Document Frequency）は逆文書頻度を表す。定義によるとIDFは、「対象とする総文書数」を「ある単語を含む文書数」で割ったものの対数である。すなわちIDFは「ある単語の文書への現れにくさ（レア度）」を表している。すべての文書に出現するような単語はIDF=log(1)=0となるし、例えば「人材」という単語が100文書中の1文書に出現するとするとIDF=log(100)=2となる。要するに単語の出現しにくさを桁数で表したようなもの。（ここでは解釈しやすいよう、常用対数としている。対数の底が何であれ結果は定数倍にしかならない。）

TF-IDFはこのTFとIDFの積で定義されるので、「ある文書で多く使われている単語のうち、他の文書ではあまり使われていない単語」が大きな値をとる。したがって１つの文書を構成する全単語から、TF-IDFの大きいものをいくつか選択することで、その文書を特徴づける単語を抽出することができる。

以下の例では、単語を単位としているが、その他、文字、句でも重要度の対象として成り立つ。

In [4]:
# -*- coding: utf-8 -*-
# リスト 5-7 『吾輩は猫である』の先頭 3 文の TF-IDF を求めるプ
import re
import numpy as np
import MeCab
from aozora import Aozora
from sklearn.feature_extraction.text import TfidfVectorizer
aozora = Aozora("wagahaiwa_nekodearu.txt")# 文に分解する
string = '\n'.join(aozora.read())
string = re.sub('　', '', string)
string = re.split('。(?!」)|\n', re.sub('　', '', string))
while '' in string:  string.remove('')  # 空行を除く
m = MeCab.Tagger("-Owakati")            # MeCabで分かち書きにする
wakatilist = []
for sentense in string:
    # 文末に挿入される改行をrstripで除去する
    wakatilist.append(m.parse(sentense).rstrip())

wakatilist = np.array(wakatilist)  # scikit-learnの入力とするためにNumPyのnarrayに変換
wakatilist = wakatilist[3:6]       # 先頭の3行分だけを入力にする
wakatilist

array(['吾輩 は 猫 で ある', '名前 は まだ 無い', 'どこ で 生れ た か とんと 見当 が つか ぬ'],
      dtype='<U686')

In [7]:
vectorizer = TfidfVectorizer(use_idf=True, norm=None, \
                             token_pattern=u'(?u)\\b\\w+\\b')
# norm=Noneは、出力を行ごとのベクトルと見たときに長さを1にする（正規化）処理をしないように指定
tfidf = vectorizer.fit_transform(wakatilist)
print(tfidf.toarray())             # 出力を表示

[[1.69314718 0.         0.         0.         0.         1.28768207
  0.         0.         0.         1.28768207 0.         0.
  1.69314718 0.         1.69314718 0.         0.        ]
 [0.         0.         0.         0.         0.         0.
  0.         0.         0.         1.28768207 1.69314718 1.69314718
  0.         1.69314718 0.         0.         0.        ]
 [0.         1.69314718 1.69314718 1.69314718 1.69314718 1.28768207
  1.69314718 1.69314718 1.69314718 0.         0.         0.
  0.         0.         0.         1.69314718 1.69314718]]


各企業の採用サイト毎で違いを見てみるとか？

In [None]:
https://qiita.com/tfujiwar/items/8ea43aaaebf2ee7cf335