#### TF-IDF(단어 빈도-역 문서 빈도, Term Frequency-Inverse Document Frequency)
- 단어의 빈도(TF)와 역 문서 빈도(IDF)를 사용하여 DTM(Documnet-Term Matrix) 내의 단어들마다 중요한 정도를 가중치로 주는 방법
- DTM을 만든 후, TF-IDF 가중치를 부여
- TF-IDF는 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있다.

- tf(d,t): 특정 문서 d에서의 특정 단어 t의 등장 횟수
- df(t): 특정 단어 t가 등장한 문서의 수
- idf(t): df(t)에 반비례하는 수, df의 역수 -> log(n/(1+df(t)))

In [1]:
# TF-IDF 구현
import pandas as pd
from math import log # idf 계산을 위해

docs=["먹고 싶은 사과",
      "먹고 싶은 바나나",
      "길고 노란 바나나 바나나",
      "저는 과일이 좋아요"]
vocab=list(set(w for doc in docs for w in doc.split()))
vocab.sort()

In [6]:
# tf, idf , tf-idf 함수 구현
# 총 문서의 수
n=len(docs)

# 문장 d에서 특정 단어 t의 등장 횟수
def tf(t,d):
  return d.count(t)

# df(t)의 역수
def idf(t):
  df=0
  # 특정 단어 t가 등장한 문서의 수 구하기
  for doc in docs:
    df+=t in doc
  return log(n/(1+df))

def tfidf(t,d):
  return tf(t,d)*idf(t)


In [11]:
result=[]

for i in range(n):
  result.append([])
  d=docs[i]
  for j in range(len(vocab)):
    t=vocab[j]
    result[-1].append(tf(t,d))

tf_=pd.DataFrame(result,columns=vocab)
tf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,0,1,1,0,0
1,0,0,0,1,1,0,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


In [8]:
result=[]

for j in range(len(vocab)):
  t=vocab[j]
  result.append(idf(t))

idf_=pd.DataFrame(result,index=vocab,columns=["IDF"])
idf_

Unnamed: 0,IDF
과일이,0.693147
길고,0.693147
노란,0.693147
먹고,0.287682
바나나,0.287682
사과,0.693147
싶은,0.287682
저는,0.693147
좋아요,0.693147


In [10]:
result=[]
for i in range(n):
  result.append([])
  d=docs[i]
  for j in range(len(vocab)):
    t=vocab[j]
    result[-1].append(tfidf(t,d))
tfidf_=pd.DataFrame(result,columns=vocab)
tfidf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.0,0.0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0
1,0.0,0.0,0.0,0.287682,0.287682,0.0,0.287682,0.0,0.0
2,0.0,0.693147,0.693147,0.0,0.575364,0.0,0.0,0.0,0.0
3,0.693147,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.693147
