**4) TF-IDF(Term Frequency-Inverse Document Frequency)**

2. 파이썬으로 TF-IDF 직접 구현하기

In [None]:
import pandas as pd  # 데이터프레임 사용을 위해
from math import log # IDF 계산을 위해

docs = [
  '먹고 싶은 사과',
  '먹고 싶은 바나나',
  '길고 노란 바나나 바나나',
  '저는 과일이 좋아요'
] 

vocab = list(set(w for doc in docs for w in doc.split()))
print('정렬 전 --------------------------------------')
print(vocab)
print()
vocab.sort()
print('정렬 후 --------------------------------------')
print(vocab)
print()

N = len(docs) # 총 문서의 수
print('총 문서 수 ------------------------------------')
print(N)
print()

# tf(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수.
def tf(t, d): 
  return d.count(t)


# df(t) : 특정 단어 t가 등장한 문서의 수.  
def idf(t):
  df = 0
  for doc in docs:
    df += t in doc
  return log(N/(df + 1))

# idf(d, t) : df(t)에 반비례하는 수.
def tfidf(t, d):
  return tf(t,d)*idf(t)


result=[]
for i in range(N): # 각 문서에 대해서 아래 명령을 수행
  result.append([])
  d = docs[i]
  for j in range(len(vocab)):
    t = vocab[j]
    result[-1].append(tf(t,d))

tf_ = pd.DataFrame(result, columns=vocab)
print('DTM ----------------------------------------')    
print(tf_)
print()

result=[]
# for j in range(len(vocab)):
#   t = vocab[j]
#   result.append(idf(t))

for j in range(len(vocab)):
    t = vocab[j]
    result.append(idf(t))

idf_ = pd.DataFrame(result, index = vocab, columns = ["IDF"])
print('IDF ----------------------------------------')    
print(idf_)
print()

result = []
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]

        result[-1].append(tfidf(t,d))

tfidf_ = pd.DataFrame(result, columns = vocab)
print('TF-IDF --------------------------------------')    
print(tfidf_)
print()

3. 사이킷런을 이용한 DTM과 TF-IDF 실습

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

vector = CountVectorizer()
print('DTM ----------------------------------------') 
print(vector.fit_transform(corpus).toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print()
print('단어 정수 인덱싱 ----------------------------')
print(vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.
print()

from sklearn.feature_extraction.text import TfidfVectorizer

tfidfv = TfidfVectorizer().fit(corpus)
print('TF-IDF --------------------------------------') 
print(tfidfv.transform(corpus).toarray())
print()

tfidf_ = pd.DataFrame(tfidfv.transform(corpus).toarray(), columns = tfidfv.vocabulary_.keys())
print('TF-IDF --------------------------------------')    
print(tfidf_)
print()