# TF-IDF

$$
\textrm{tf}_{i,j} = \frac{文書 d_{i}に含まれるt_{j}の個数}{文書d_{i}内のすべての単語の個数} = \frac{\left| t_{j} \in d_{i} \right| }{\sum_{t_{j} \in d_{j}}}
$$

$$
\textrm{idf}_{j} = \log \left( \frac{全文書数+1}{t_{j}が含まれる個数 +1} \right) + 1 = \log \left( \frac{\left| D \right| +1}{\left| \left\{ d : t_{j} \in d \right\} \right| +1 } \right) + 1
$$


で与えられtf-idfはtf値とidfの乗算で表され、それを文書が行、語彙が列として行列形式で並べて求められる。

$$
\left(
\begin{array}{cccc}
\textrm{tdidf}_{11} & \textrm{tdidf}_{12} & \cdots & \textrm{tdidf}_{1n} \\
\textrm{tdidf}_{21} & \textrm{tdidf}_{22} & \cdots & \textrm{tdidf}_{2n} \\
\cdots \\
\textrm{tdidf}_{m1} & \textrm{tdidf}_{n2} & \cdots & \textrm{tdidf}_{mn}
\end{array}
\right)
$$

今回使用するライブラリでは文書ごとにtf-idfが1に規格化されて出力される。$i$番目の文書のベクトルは

$$
\textbf{x}_{i} = \frac{1}{\sqrt{\sum_{k=1}^n \textrm{tdidf}_{ik}^{2}}} \left(
\begin{array}{cccc}
\textrm{tdidf}_{i1} & \textrm{tdidf}_{i2} & \cdots & \textrm{tdidf}_{n} 
\end{array}
\right)
$$
となる。CountVectorizerのライブラリではmax_df, min_dfというオプションがあり、max_df=0.8などと指定すると全文書の8割以上出現するものを無視することができる(min_dfも同様)。自然数で指定した場合は割合ではなく回数となる。

In [5]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
import pandas as pd

corpus = ['東京駅 行く', \
          '東京駅 山手線 乗る',\
          '東京駅 品川駅 東海道新幹線 一駅',\
          '東京駅 大宮 大宮 東北新幹線 乗り換える']

vec= CountVectorizer()
X = vec.fit_transform(corpus)
print('Bag of words')
display(pd.DataFrame(X.toarray(), columns=vec.get_feature_names(),index=corpus))
print('tfidf')
tfidf=TfidfTransformer()
X_tfidf = tfidf.fit_transform(X)
display(pd.DataFrame(X_tfidf.toarray(),columns=vec.get_feature_names(),index=corpus))


print('max_df=0.5')
vec = CountVectorizer(max_df=0.5)
X = vec.fit_transform(corpus)
print('Bag of Words')
display(pd.DataFrame(X.toarray(), columns=vec.get_feature_names(), index=corpus))
print('tfidf')
tfidf = TfidfTransformer()
X_tfidf = tfidf.fit_transform(X)
display(pd.DataFrame(X_tfidf.toarray(), columns=vec.get_feature_names(), index=corpus))

print('min_df=0.3')
vec = CountVectorizer(min_df=0.3)
X = vec.fit_transform(corpus)
print('Bag of Words')
display(pd.DataFrame(X.toarray(), columns=vec.get_feature_names(), index=corpus))
print('tfidf')
tfidf = TfidfTransformer()
X_tfidf = tfidf.fit_transform(X)
display(pd.DataFrame(X_tfidf.toarray(), columns=vec.get_feature_names(), index=corpus))

Bag of words


Unnamed: 0,一駅,乗り換える,乗る,品川駅,大宮,山手線,東京駅,東北新幹線,東海道新幹線,行く
東京駅 行く,0,0,0,0,0,0,1,0,0,1
東京駅 山手線 乗る,0,0,1,0,0,1,1,0,0,0
東京駅 品川駅 東海道新幹線 一駅,1,0,0,1,0,0,1,0,1,0
東京駅 大宮 大宮 東北新幹線 乗り換える,0,1,0,0,2,0,1,1,0,0


tfidf


Unnamed: 0,一駅,乗り換える,乗る,品川駅,大宮,山手線,東京駅,東北新幹線,東海道新幹線,行く
東京駅 行く,0.0,0.0,0.0,0.0,0.0,0.0,0.462637,0.0,0.0,0.886548
東京駅 山手線 乗る,0.0,0.0,0.663385,0.0,0.0,0.663385,0.346182,0.0,0.0,0.0
東京駅 品川駅 東海道新幹線 一駅,0.552805,0.0,0.0,0.552805,0.0,0.0,0.288477,0.0,0.552805,0.0
東京駅 大宮 大宮 東北新幹線 乗り換える,0.0,0.399288,0.0,0.0,0.798575,0.0,0.208365,0.399288,0.0,0.0


max_df=0.5
Bag of Words


Unnamed: 0,一駅,乗り換える,乗る,品川駅,大宮,山手線,東北新幹線,東海道新幹線,行く
東京駅 行く,0,0,0,0,0,0,0,0,1
東京駅 山手線 乗る,0,0,1,0,0,1,0,0,0
東京駅 品川駅 東海道新幹線 一駅,1,0,0,1,0,0,0,1,0
東京駅 大宮 大宮 東北新幹線 乗り換える,0,1,0,0,2,0,1,0,0


tfidf


Unnamed: 0,一駅,乗り換える,乗る,品川駅,大宮,山手線,東北新幹線,東海道新幹線,行く
東京駅 行く,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
東京駅 山手線 乗る,0.0,0.0,0.707107,0.0,0.0,0.707107,0.0,0.0,0.0
東京駅 品川駅 東海道新幹線 一駅,0.57735,0.0,0.0,0.57735,0.0,0.0,0.0,0.57735,0.0
東京駅 大宮 大宮 東北新幹線 乗り換える,0.0,0.408248,0.0,0.0,0.816497,0.0,0.408248,0.0,0.0


min_df=0.3
Bag of Words


Unnamed: 0,東京駅
東京駅 行く,1
東京駅 山手線 乗る,1
東京駅 品川駅 東海道新幹線 一駅,1
東京駅 大宮 大宮 東北新幹線 乗り換える,1


tfidf


Unnamed: 0,東京駅
東京駅 行く,1.0
東京駅 山手線 乗る,1.0
東京駅 品川駅 東海道新幹線 一駅,1.0
東京駅 大宮 大宮 東北新幹線 乗り換える,1.0
