각 문서에 대한 BoW표현 방법을 그대로 가지고와 Bow들을 결합한 표현 방법인 문서 단어 행렬 (DTM)
=> 각 문서에 대한 BoW를 하나의 행렬로 만든 것

문서 단어 행렬 한계
- 희소표현
- 단순 빈도 수 기반 접근

TF-IDF : DTM내에 있는 각 단어에 대한 중요도를 계산할 수 있다

tf : 특정 문선 d에서의 특정 단어 t의 등장 횟수
df : 특정 단어 t가 등장한 문서의 수
idf : df에 반비례하는 수 log를 사용하여 계산 => df가 작을수록 극단적으로 증가하기 때문 (희소단어들에 대한 가중치가 엄청나게 높아질 수 있다.)

idf의 정의를 통하여 알 수 있듯이 TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단, 특정 문서에서만 자주 등장하는 단어가 중요도가 높다고 판단한다. => 자주등장하는단어 ex) 불용어는 중요도가 낮다고 판단한다.

In [5]:
import pandas as pd
from math import log
docs = [
  '먹고 싶은 사과',
  '먹고 싶은 바나나',
  '길고 노란 바나나 바나나',
  '저는 과일이 좋아요'
]
vocab = list(set(w for doc in docs for w in doc.split()))
vocab.sort()
print(vocab)

['과일이', '길고', '노란', '먹고', '바나나', '사과', '싶은', '저는', '좋아요']


In [17]:
N = len(docs)
def tf(t, d):
    return d.count(t)

def idf(t):
    df = 0
    for doc in docs:
        if t in doc:
            df +=1
    return log(N/(df + 1))

def tfidf(t, d):
    return tf(t, d)*idf(t)

In [15]:
result = []
for i in range(N):
    dtm = []
    doc = docs[i]
    for j in range(len(vocab)):
        dtm.append(tf(vocab[j], doc))
    result.append(dtm)

tf_ = pd.DataFrame(result, columns=vocab)
tf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,0,1,1,0,0
1,0,0,0,1,1,0,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


In [18]:
result = []
for i in range(len(vocab)):
    result.append([idf(vocab[i])])

idf_ = pd.DataFrame(result, index = vocab, columns = ["idf"])
idf_

Unnamed: 0,idf
과일이,0.693147
길고,0.693147
노란,0.693147
먹고,0.287682
바나나,0.287682
사과,0.693147
싶은,0.287682
저는,0.693147
좋아요,0.693147


In [19]:
result = []
for i in range(N):
    tfidf_ = []
    for j in range(len(vocab)):
        tfidf_.append(tfidf(vocab[j], docs[i]))
    result.append(tfidf_)

tfidf_DF = pd.DataFrame(result, columns=vocab)
tfidf_DF
    

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.0,0.0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0
1,0.0,0.0,0.0,0.287682,0.287682,0.0,0.287682,0.0,0.0
2,0.0,0.693147,0.693147,0.0,0.575364,0.0,0.0,0.0,0.0
3,0.693147,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.693147


In [24]:
# 사이킷런을 이용한 tfidf
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray())
print(vector.vocabulary_)

[[0 1 0 1 0 1 0 1 1]
 [0 0 1 0 0 0 0 1 0]
 [1 0 0 0 1 0 1 0 0]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidfv = TfidfVectorizer().fit(corpus)
print(tfidfv.transform(corpus).toarray())
print(tfidfv.vocabulary_)