## TF-IDF

まずは用語をおさらいする
- Corps: ドキュメントの集合
- Documents: １文章（センテンス）の単位
- Word: 単語

In [4]:
doc_a = 'The rabbit bit my finger'
doc_b = 'The dog bit my bacon'

## トークナイズ

テキスト処理を行うときは、Bag of wordsモデルを用いて、単語に分解します。
分解した単語を

In [5]:
bow_a = doc_a.split(' ')
bow_b = doc_b.split(' ')

In [8]:
bow_a

['The', 'rabbit', 'bit', 'my', 'finger']

In [15]:
words_set = set(bow_a).union(set(bow_b))

In [16]:
words_set

{'The', 'bacon', 'bit', 'dog', 'finger', 'my', 'rabbit'}

In [17]:
words_dict_a = dict.fromkeys(words_set, 0)
words_dict_b = dict.fromkeys(words_set, 0)

In [18]:
words_dict_a

{'The': 0, 'bacon': 0, 'bit': 0, 'dog': 0, 'finger': 0, 'my': 0, 'rabbit': 0}

In [19]:
# BOWモデルで生成した単語に分解された単語の出現回数を調べます
for word in bow_a:
    words_dict_a[word] += 1

for word in bow_b:
    words_dict_b[word] += 1

In [20]:
words_dict_a

{'The': 1, 'bacon': 0, 'bit': 1, 'dog': 0, 'finger': 1, 'my': 1, 'rabbit': 1}

In [22]:
# Dataframeを使ってインデックス付きの二次元データにおこします
import pandas as pd
df = pd.DataFrame([words_dict_a, words_dict_b])

In [23]:
df

Unnamed: 0,The,bacon,bit,dog,finger,my,rabbit
0,1,0,1,0,1,1,1
1,1,1,1,1,0,1,0


## TF-IDF

stop wordsという単語があって英語だと例えばtheという単語は全体の会話の７％を占めるといわれます。
つまり、ただただ単語数を数えるだけでは関連性をたどるのは難しいので、TF-IDFと呼ばれるアルゴリズムを用いてその重要性を知るのが正確あといわれます

数式で表すと難しいので、以下のように表現します。

### tf = ドキュメントに単語が現れた回数 / ドキュメントの総単語数
### idf = log(ドキュメントの数 / その単語を含むドキュメント数)



In [26]:
def compute_tf(words_dict, bow_model):
    tf_dict = {}
    bow_count = len(bow_model)
    for word, count in words_dict.items():
        tf_dict[word] = count / float(bow_count)
    return tf_dict

In [27]:
tf_bow_a = compute_tf(words_dict_a, bow_a)
tf_bow_b = compute_tf(words_dict_b, bow_b)

In [28]:
tf_bow_a

{'The': 0.2,
 'bacon': 0.0,
 'bit': 0.2,
 'dog': 0.0,
 'finger': 0.2,
 'my': 0.2,
 'rabbit': 0.2}

In [49]:
from math import log

def compute_idf(corps):
    idf_dict = {}
    doc_count = len(corps)
    
    idf_dict = dict.fromkeys(corps[0].keys(), 0)
    # 単語を含むドキュメントの数を調べる
    for doc in corps:
        for word, count in doc.items():
            if count > 0:
                idf_dict[word] += 1

    # log(ドキュメントの数 / その単語を含むドキュメント数)
    for word, count in idf_dict.items():
        idf_dict[word] = log(doc_count / float(count))
        
    return idf_dict

In [55]:
idf_score = compute_idf([words_dict_a, words_dict_b])

In [56]:
idf_score

{'The': 0.0,
 'bacon': 0.6931471805599453,
 'bit': 0.0,
 'dog': 0.6931471805599453,
 'finger': 0.6931471805599453,
 'my': 0.0,
 'rabbit': 0.6931471805599453}

In [52]:
def compute_tfidf(tf_model, idf_score):
    tfidf_dict = {}
    for word, count in tf_model.items():
        tfidf_dict[word] = count * idf_score[word]
    return tfidf_dict

In [53]:
tfidf_a = compute_tfidf(tf_bow_a, idf_score)
tfidf_b = compute_tfidf(tf_bow_b, idf_score)

In [54]:
pd.DataFrame([tfidf_a, tfidf_b])

Unnamed: 0,The,bacon,bit,dog,finger,my,rabbit
0,0.0,0.0,0.0,0.0,0.138629,0.0,0.138629
1,0.0,0.138629,0.0,0.138629,0.0,0.0,0.0
