## TF-IDF(Term Frequency-Inverse Document Frequency)

단어의 빈도와 문서의 빈도에 특정 식을 취한 역 문서 빈도를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법이다. 주로 문서의 유사도를 구하거나, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 사용할 수 있다. `TF-IDF`는 `TF`와 `IDF`를 곱한 값을 의미한다.

`d`: 문서, `t`: 단어, `n`: 문서의 총 개수

# tf(d, t)
특정 문서 `d`에서 특정 단어 `t`의 등장 횟수이다.

## df(t)
특정 단어 `t`가 등장한 문서의 수이다.

## idf(d, t)
`df(t)`에 반비례하는 수로, $ idf(d, t) = log(\frac{n}{1 + df(t)}) $

In [10]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    "you know I want your love",
    "I like you"
    "what should I do"
]
vector = CountVectorizer()

print("DTM")
print(vector.fit_transform(corpus).toarray(), end="\n" * 2)
print("Word to Index")
print(vector.vocabulary_)

DTM
[[0 1 0 1 0 1 1 1 0]
 [1 0 1 0 1 0 0 0 1]]

Word to Index
{'you': 6, 'know': 1, 'want': 5, 'your': 7, 'love': 3, 'like': 2, 'youwhat': 8, 'should': 4, 'do': 0}


In [9]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vector = TfidfVectorizer()

print("Tf-Idf")
print(tfidf_vector.fit_transform(corpus).toarray(), end="\n" * 2)
print("Word to Index")
print(tfidf_vector.vocabulary_)

Tf-Idf
[[0.        0.4472136 0.        0.4472136 0.        0.4472136 0.4472136
  0.4472136 0.       ]
 [0.5       0.        0.5       0.        0.5       0.        0.
  0.        0.5      ]]

Word to Index
{'you': 6, 'know': 1, 'want': 5, 'your': 7, 'love': 3, 'like': 2, 'youwhat': 8, 'should': 4, 'do': 0}
