## TF-IDF

これまで見てきた他のアプローチでは、テキスト内の単語の重要度は等しいと仮定しています。つまり、文書中のある単語が他の単語よりも重要であるという概念はありません。TF-IDFはこの問題を解決します。TF-IDFは、文書やコーパス内の他の単語と比較して、ある単語の重要性を定量化することを目的としています。TF-IDFは、情報検索システムにおいて、与えられたテキストクエリに関連する文書をコーパスから抽出するために、一般的に使用されています。

このノートブックでは、scikit-learnのTfidfVectorizerを使って、文書のTF-IDF表現を取得する簡単な例を示します。

In [1]:
documents = [
    "Dog bites man.",
    "Man bites dog.",
    "Dog eats meat.",
    "Man eats food."
]
processed_docs = [doc.lower().replace(".", "") for doc in documents]
processed_docs

['dog bites man', 'man bites dog', 'dog eats meat', 'man eats food']

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
bow_rep_tfidf = tfidf.fit_transform(processed_docs)

# ボキャブラリの全単語に対するIDF
print("IDF for all words in the vocabulary",tfidf.idf_)
print("-" * 10)

# ボキャブラリの全単語
print("All words in the vocabulary",tfidf.get_feature_names())
print("-"*10)

# 全文書に対するTFIDF
print("TFIDF representation for all documents in our corpus\n",bow_rep_tfidf.toarray()) 
print("-"*10)

temp = tfidf.transform(["dog and man are friends"])
print("Tfidf representation for 'dog and man are friends':\n", temp.toarray())

IDF for all words in the vocabulary [1.51082562 1.22314355 1.51082562 1.91629073 1.22314355 1.91629073]
----------
All words in the vocabulary ['bites', 'dog', 'eats', 'food', 'man', 'meat']
----------
TFIDF representation for all documents in our corpus
 [[0.65782931 0.53256952 0.         0.         0.53256952 0.        ]
 [0.65782931 0.53256952 0.         0.         0.53256952 0.        ]
 [0.         0.44809973 0.55349232 0.         0.         0.70203482]
 [0.         0.         0.55349232 0.70203482 0.44809973 0.        ]]
----------
Tfidf representation for 'dog and man are friends':
 [[0.         0.70710678 0.         0.         0.70710678 0.        ]]


TF-IDFの使い方については、第４章のテキスト分類で確認します。