4-4. TF-IDF(Term Frequency-Inverse Document Frequency)
* TF-IDF는 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법

문서를 d, 단어를 t, 문서의 총 개수를 n이라고 설정하자 \
(1) tf(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수 \
앞에서 했던 DTM이 그 예인데, DTM이 각 문서에서의 각 단어의 등장 빈도를 나타내는 값이기 때문이다. \
\
(2) df(t) : 특정 단어 t가 등장한 문서의 수 \
특정 단어 t가 등장한 문서의 수에만 관심을 가지는 것으로, 앞서 바나나가 문서2, 문서3에 등장했을 때 바나나의 df는 2이다. \
바나나란 단어가 문서2에 100번 등장했고, 문서3에 300번 등장하더라도 바나나의 df는 2이다.\
\
(3) idf(d,t) : df(t)에 반비례하는 수. \
idf(d,t) = log(n/1+df(t)) 인데, log를 사용하는 이유는 log를 사용하지않으면 n이 커질수록 IDF의 값이 커지기 때문이다.\
또한 log안의 식에 +1을 하는 이유는 특정 단어가 전체 문서에서 등장하지 않을 경우 분모가 0이 되는걸 막기 위함이다.

TF-IDF는 모든 문서에 자주 등장하는 단어는 중요도가 낮다고 판단한다. \ 
즉, TF-IDF 값이 낮으면 중요도가 낮고, TF-IDF 값이 높으면 중요도가 크다.

2. 파이썬으로 TF-IDF 직접 구현하기

In [1]:
import pandas as pd # 데이터프레임 사용을 위해
from math import log # IDF 계산을 위해

docs = [
    '먹고 싶은 사과',
    '먹고 싶은 바나나',
    '길고 노란 바나나 바나나',
    '저는 과일이 좋아요'
]
vocab = list(set(w for doc in docs for w in doc.split()))
vocab.sort()

In [2]:
# 총 문서의 수 
N = len(docs)

def tf(t, d) :
    return d.count(t)

def idf(t) :
    df = 0
    for doc in docs : 
        df += t in doc
    return log(N/(df+1))

def tfidf(t,d) :
    return tf(t,d)*idf(t)

In [4]:
result = []

# 각 문서에 대해서 아래 연산을 반복
for i in range(N) :
    result.append([])
    d = docs[i]
    for j in range(len(vocab)) :
        t = vocab[j]
        result[-1].append(tf(t,d))

tf_ = pd.DataFrame(result, columns = vocab)
tf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,0,1,1,0,0
1,0,0,0,1,1,0,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


In [5]:
result = []
for j in range(len(vocab)) :
    t = vocab[j]
    result.append(idf(t))
    
idf_ = pd.DataFrame(result, index = vocab, columns=["IDF"])
idf_

Unnamed: 0,IDF
과일이,0.693147
길고,0.693147
노란,0.693147
먹고,0.287682
바나나,0.287682
사과,0.693147
싶은,0.287682
저는,0.693147
좋아요,0.693147


In [6]:
result = []
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]
        result[-1].append(tfidf(t,d))

tfidf_ = pd.DataFrame(result, columns = vocab)
tfidf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.0,0.0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0
1,0.0,0.0,0.0,0.287682,0.287682,0.0,0.287682,0.0,0.0
2,0.0,0.693147,0.693147,0.0,0.575364,0.0,0.0,0.0,0.0
3,0.693147,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.693147


TF-IDF를 구현을 제공하고 있는 많은 머신 러닝 패키지들은 패키지마다 식이 상이한데, 위에서 사용된 식과는 다른식을 사용한다. \
만약 문서의 수 n이 4인데 df(t)가 3이라면 idf(d,t) = log(n/(df(t)+1)) = 0 이 되기 때문에 이번에 사용할 사이킷런에서는 \
위의 식에서 조정된 식을 사용한다.

3. 사이킷런을 이용한 DTM과 TF-IDF 실습


In [7]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

vector = CountVectorizer()

print(vector.fit_transform(corpus).toarray()) # DTM 
print(vector.vocabulary_)

[[0 1 0 1 0 1 0 1 1]
 [0 0 1 0 0 0 0 1 0]
 [1 0 0 0 1 0 1 0 0]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

tfidfv = TfidfVectorizer().fit(corpus)