# 4) TF-IDF(Term Frequency-Inverse Document Frequency)
DTM 내에 있는 각 단어에 대한 중요도를 계산
TF-IDF를 사용하면, 기존의 DTM을 사용하는 것보다 보다 더 많은 정보를 고려하여 문서들을 비교할 수 있음
#### 주의할 점 
TF-IDF가 DTM보다 항상 성능이 뛰어난 것은 아님

## 1. TF-IDF(단어 빈도-역 문서 빈도, Term Frequency-Inverse Document Frequency)

* TF-IDF는 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법 
* 사용 방법 : 우선 DTM을 만든 후, TF-IDF 가중치를 부여
* 쓰임 : TF-IDF는 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등
* 의미 : TF-IDF는 TF와 IDF를 곱한 값

이를 식으로 표현한다면, 문서를 d, 단어를 t, 문서의 총 개수를 n이라고 표현할 때 TF, DF, IDF는 각각 다음과 같이 정의할 수 있다.

### (1) tf(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수

* TF는 앞에서 배운 DTM의 예제에서 각 단어들이 가진 값. 
* (DTM이 각 문서에서의 각 단어의 등장 빈도를 나타내는 값)

### (2) df(t) : 특정 단어 t가 등장한 문서의 수

특정 단어가 각 문서, 또는 문서들에서 몇 번 등장했는지는 관심가지지 않으며 오직 특정 단어 t가 등장한 **문서의 수**에만 관심을 가짐

### (3) idf(d, t) : df(t)에 반비례하는 수

<math xmlns="http://www.w3.org/1998/Math/MathML" display="block">
  <mi>i</mi>
  <mi>d</mi>
  <mi>f</mi>
  <mo stretchy="false">(</mo>
  <mi>d</mi>
  <mo>,</mo>
  <mi>t</mi>
  <mo stretchy="false">)</mo>
  <mo>=</mo>
  <mi>l</mi>
  <mi>o</mi>
  <mi>g</mi>
  <mo stretchy="false">(</mo>
  <mfrac>
    <mi>n</mi>
    <mrow>
        /
      <mn>1</mn>
      <mo>+</mo>
      <mi>d</mi>
      <mi>f</mi>
      <mo stretchy="false">(</mo>
      <mi>t</mi>
      <mo stretchy="false">)</mo>
    </mrow>
  </mfrac>
  <mo stretchy="false">)</mo>
</math>

####  log를 사용하는 이유

log를 사용하지 않았을 때, IDF를 DF의 역수(<math xmlns="http://www.w3.org/1998/Math/MathML">
  <mfrac>
    <mi>n</mi>
    <mrow>
        /
      <mi>d</mi>
      <mi>f</mi>
      <mo stretchy="false">(</mo>
      <mi>t</mi>
      <mo stretchy="false">)</mo>
    </mrow>
  </mfrac>
</math>)로 사용한다면 총 문서의 수 n이 커질 수록, IDF의 값은 기하급수적으로 커지게 되기 때문에 log를 사용

또한 불용어 등과 같이 자주 쓰이는 단어들은 비교적 자주 쓰이지 않는 단어들보다 최소 수십 배 자주 등장하며 비교적 자주 쓰이지 않는 단어들조차 희귀 단어들과 비교하면 또 최소 수백 배는 더 자주 등장하는 편이다. 
log를 씌워주지 않으면, 희귀 단어들에 엄청난 가중치가 부여될 수 있기 때문에, 로그를 씌워서 격차를 줄이는 효과를 얻는다.

#### log 안의 식에서 분모에 1을 더해주는 이유
특정 단어가 전체 문서에서 등장하지 않을 경우에 분모가 0이 되는 상황을 방지하기 위함

* TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단 
* 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단 
* TF-IDF 값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 큰 것

즉, the나 a와 같이 불용어의 경우에는 모든 문서에 자주 등장하기 마련이기 때문에 자연스럽게 불용어의 TF-IDF의 값은 다른 단어의 TF-IDF에 비해서 낮아지게 된다.

TF-IDF에서의 관점에서 보자면 TF-IDF는 특정 문서에서 자주 등장하는 단어는 그 문서 내에서 중요한 단어로 판단

## 2. 파이썬으로 TF-IDF 직접 구현하기

In [14]:
import pandas as pd # 데이터프레임 사용을 위해
from math import log # IDF 계산을 위해

In [15]:
# 4개의 문서를 docs에 저장
docs = [
  '먹고 싶은 사과',
  '먹고 싶은 바나나',
  '길고 노란 바나나 바나나',
  '저는 과일이 좋아요'
] 
vocab = list(set(w for doc in docs for w in doc.split()))
vocab.sort()

In [16]:
# TF, IDF,TF-IDF 값을 구하는 함수 구현
N = len(docs) # 총 문서의 수

def tf(t, d):
    return d.count(t)

def idf(t):
    df = 0
    for doc in docs:
        df += t in doc
    return log(N/(df + 1))

def tfidf(t, d):
    return tf(t,d)* idf(t)

In [17]:
# TF 구하기 (DTM을 데이터프레임에 저장하여 출력)
result = []
for i in range(N): # 각 문서에 대해서 아래 명령을 수행
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]        
        result[-1].append(tf(t, d))

tf_ = pd.DataFrame(result, columns = vocab)
tf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,0,1,1,0,0
1,0,0,0,1,1,0,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


#### 정상적으로 DTM이 출력됨.

In [19]:
# 각 단어에 대한 IDF 값
result = []
for j in range(len(vocab)):
    t = vocab[j]
    result.append(idf(t))

idf_ = pd.DataFrame(result, index = vocab, columns = ["IDF"])
idf_

Unnamed: 0,IDF
과일이,0.693147
길고,0.693147
노란,0.693147
먹고,0.287682
바나나,0.287682
사과,0.693147
싶은,0.287682
저는,0.693147
좋아요,0.693147


In [20]:
# TF-IDF 행렬을 출력
result = []
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]

        result[-1].append(tfidf(t,d))

tfidf_ = pd.DataFrame(result, columns = vocab)
tfidf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.0,0.0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0
1,0.0,0.0,0.0,0.287682,0.287682,0.0,0.287682,0.0,0.0
2,0.0,0.693147,0.693147,0.0,0.575364,0.0,0.0,0.0,0.0
3,0.693147,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.693147


실제 TF-IDF 구현을 제공하고 있는 많은 패키지들은 패키지마다 식이 조금씩 다르긴 하지만, 위에서 배운 기본 식에서 조정된 식을 사용함

-> 기본적인 식을 바탕으로 한 구현에도 여전히 문제점이 존재하기 때문

만약 전체 문서의 수 n이 4인데, df(t)의 값이 3인 경우,

df(t)에 1이 더해지면서 log항의 분자와 분모의 값이 같아지게 됨

log의 진수값이 1이 되면서 idf(d,t)의 값이 0이 됨을 의미함
* 식으로 표현 : idf(d, t) = log(n/(df(t)+1)) = 0

IDF의 값이 0이라면 더 이상 가중치의 역할을 수행하지 못하기 때문에, 

실제 구현체는 **idf(d, t) = log(n/(df(t)+1)) + 1**과 같이 log항에 1을 더해줘서 log항의 값이 0이 되더라도 **IDF가 최소 1이상의 값**을 가지도록 한다, (사이킷런도 이 방식을 사용함)

## 3. 사이킷런을 이용한 DTM과 TF-IDF 실습
BoW 챕터에서 배운 CountVectorizer를 사용하면 DTM을 만들 수 있다.

In [23]:
from sklearn.feature_extraction.text import CountVectorizer

In [24]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print(vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

[[0 1 0 1 0 1 0 1 1]
 [0 0 1 0 0 0 0 1 0]
 [1 0 0 0 1 0 1 0 0]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}
