# Ch04. 카운트 기반의 단어 표현(Count based word Representation)

# v04. TF-IDF (Term Frequency-Inverse Document Frequency)

- DTM 내에 있는 각 단어에 대한 중요도를 계산할 수 있는 TF-IDF 가중치에 대해서 확인
- TF-IDF를 사용하면, 기존의 DTM을 사용하는 것보다 더 많은 정보를 고려하여 문서들을 비교할 수 있다.
- 하지만 TF-IDF가 DTM보다 항상 성능이 뛰어나진 않다.

<br>

## 4.1 TF-IDF (단어 빈도-역 문서 빈도, Term Frequency-Inverse Document Frequency)

- TF-IDF는 **단어의 빈도**와 **역 문서 빈도(문서의 빈도에 특정 식을 취함)**를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법이다.

<br>

### 4.1.1 사용 방법

- DTM을 만듬
- TF-IDF 가중치를 부여

<br>

### 4.1.2 TF-IDF 주요 용도

- 문서의 유사도를 구하는 작업
- 검색 시스템에서 검색 결과의 중요도를 정하는 작업
- 문서 내에서 특정 단어의 중요도를 구하는 작업

<br>

### 4.1.3 TF-IDF 수식 표현

- TF-IDF는 TF와 IDF를 곱한 값을 의미  
  

- d : 문서
- t : 단어
- n : 문서의 총 개수

<br>

#### 4.1.3.1 tf(d,t)

- 특정 문서 d에서의 특정 단어 t의 등장 횟수  
  

- TF는 앞에서 배운 DTM의 예제에서 각 단어들이 가진 값들이다.
- DTM이 각 문서에서의 각 단어의 등장 빈도를 나타내는 값이었기 때문이다.

<br>

#### 4.1.3.2 df(t)

- 특정 단어 t가 등장한 문서의 수  
  

- 특정 단어가 각 문서, 또는 문서들에서 몇 번 등장했는 지는 관심가지지 않는다.
- 오직 특정 단어 t가 등장한 **문서의 수**에만 관심을 가진다.
- 심지어 특정 단어가 하나의 문서에서 100번 등장했고, 또 다른 문서에서 200번 등장했다고 하더라도 해당 단어의 df는 2가 된다.

<br>

#### 4.1.3.3 idf(d, t)

- df(t)에 반비례하는 수

$
\qquad
idf(d, t) = log \left( {n \over {1 + df(t)}} \right)
$

- IDF는 DF의 역수를 취하고 싶은 것이 맞다.
- 하지만 log를 사용하지 않았을 때, IDF를 DF의 역수(${n \over df(t)}$ 라는 식)로 사용한다면, 총 문서의 수 n이 커질수록, IDF의 값은 기하급수적으로 커지게 된다.
- 그렇기 때문에 log를 사용한다.

<br>

#### 4.1.3.4 log의 필요성 확인

- n = 1,000,000일 때의 예


**1) log를 사용한 경우의 idf**

- log의 밑은 10을 사용한다고 가정했을 때 결과는 아래와 같다.

$
\qquad
idf(d,t) = log(n/df(t))  
$

$
\qquad
n = 1,000,000
$

| 단어 t | df(t) | idf(d,t) |
| :------ | :--------- | :--------------- |
| word1   | 1          | 6                |
| word2   | 100        | 4                |
| word3   | 1,000      | 3                |
| word4   | 10,000     | 2                |
| word5   | 100,000    | 1                |
| word6   | 1,000,000  | 0                |

**2) log를 사용하지 않은 경우의 idf**

$
\qquad
idf(d,t) = n/df(t)
$

$
\qquad
n = 1,000,000
$

| 단어 t | df(t)     | idf(d,t)  |
| :----- | :-------- | :-------- |
| word1  | 1         | 1,000,000 |
| word2  | 100       | 10,000    |
| word3  | 1,000     | 1,000     |
| word4  | 10,000    | 100       |
| word5  | 100,000   | 10        |
| word6  | 1,000,000 | 1         |

<br>

#### 4.1.3.5 log 안의 식에서 분모에 1을 더해주는 이유

- 특정 단어가 전체 문서에서 등장하지 않을 경우에 분모가 0이 되는 상황을 방지하기 위함이다.

<br>

### 4.1.4 TF-IDF의 단어 중요도

- TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단한다.
  - TF-IDF 값이 낮으면 중요도가 낮은 것이다.
  - ex) a, the 와 같은 불용어 등  


- 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단한다.
  - TF-IDF 값이 크면 중요도가 큰 것이다.

<br>

### 4.1.5 DTM을 통한 TF-IDF 계산


| -     | 과일이 | 길고 | 노란 | 먹고 | 바나나 | 사과 | 싶은 | 저는 | 좋아요 |
| :---- | :----- | :--- | :--- | :--- | :----- | :--- | :--- | :--- | :----- |
| 문서1 | 0      | 0    | 0    | 1    | 0      | 1    | 1    | 0    | 0      |
| 문서2 | 0      | 0    | 0    | 1    | 1      | 0    | 1    | 0    | 0      |
| 문서3 | 0      | 1    | 1    | 0    | 2      | 0    | 0    | 0    | 0      |
| 문서4 | 1      | 0    | 0    | 0    | 0      | 0    | 0    | 1    | 1      |

- TF-IDF = TF x IDF  

<br>

#### 4.1.5.1 TF 계산

- 앞서 사용한 DTM을 그대로 사용
- 그것이 각 문서에서의 각 단어의 TF가 된다.  

<br>

#### 4.1.5.2 IDF 계산

- 로그는 자연 로그를 사용한다. (자연로그 : 로그의 밑을 자연 상수 e(e=2.718281...)를 사용하는 로그)
- IDF 계산을 위해 사용하는 로그의 밑은 TF-IDF를 사용하는 사용자가 임의로 정할 수 있다.
- 여기서 로그는 마치 기존의 값에 곱하여 값의 크기를 조절하는 상수의 역할을 한다.
- 그런데 보통 각종 프로그래밍 언어나 프로그램에서 패키지로 지원하는 TF-IDF의 로그는 대부분 자연 로그를 사용한다.
- 자연 로그는 보통 log라고 표현하지 않고, ln이라고 표현한다.  

| 단어   | IDF(역 문서 빈도)      |
| :----- | :--------------------- |
| 과일이 | ln(4/(1+1)) = 0.693147 |
| 길고   | ln(4/(1+1)) = 0.693147 |
| 노란   | ln(4/(1+1)) = 0.693147 |
| 먹고   | ln(4/(2+1)) = 0.287682 |
| 바나나 | ln(4/(2+1)) = 0.287682 |
| 사과   | ln(4/(1+1)) = 0.693147 |
| 싶은   | ln(4/(2+1)) = 0.287682 |
| 저는   | ln(4/(1+1)) = 0.693147 |
| 좋아요 | ln(4/(1+1)) = 0.693147 |

- 문서의 총 수 = 4 $\rightarrow$ ln 안에서 분자는 4로 동일하다.
- 분모의 경우에는 각 단어가 등장한 문서의 수(DF)를 의미한다.  
  

**각 단어에 대해서 IDF 값을 비교**

- 문서 1개에만 등장한 단어와 문서 2개에만 등장한 단어는 값의 차이를 보인다.
  - 문서 1개에 등장한 단어의 IDF = 0.693147
  - 문서 2개에 등장한 단어의 IDF = 0.287682
- 이는 IDF가 여러 문서에서 등장한 단어의 가중치를 낮추는 역할을 하기 때문

<br>

#### 4.1.5.3 TF-IDF 계산

- 앞서 사용한 DTM에서 단어별로 위의 IDF값을 그대로 곱해주면 TF-IDF가 나오게 된다.

| -     | 과일이   | 길고     | 노란     | 먹고     | 바나나   | 사과     | 싶은     | 저는     | 좋아요   |
| :---- | :------- | :------- | :------- | :------- | :------- | :------- | :------- | :------- | :------- |
| 문서1 | 0        | 0        | 0        | 0.287682 | 0        | 0.693147 | 0.287682 | 0        | 0        |
| 문서2 | 0        | 0        | 0        | 0.287682 | 0.287682 | 0        | 0.287682 | 0        | 0        |
| 문서3 | 0        | 0.693147 | 0.693147 | 0        | 0.575364 | 0        | 0        | 0        | 0        |
| 문서4 | 0.693147 | 0        | 0        | 0        | 0        | 0        | 0        | 0.693147 | 0.693147 |

- 문서 3에서의 바나나만 TF값이 2이므로 IDF에 2를 곱해줌
- 나머진 TF 값이 1이므로 그대로 IDF 값을 가져오면 된다.  
  

- 문서 2에서의 바나나의 TF-IDF 가중치(0.287682)와 문서 3에서의 바나나의 TF-IDF 가중치(0.575364)가 다른 것을 볼 수 있다.
  - **(수식적인 관점)** : TF가 각각 1과 2로 달랐기 때문
  - **(TF-IDF에서의 관점)** : TF-IDF는 특정 문서에서 자주 등장하는 단어는 그 문서 내에서 중요한 단어로 판단했기 때문

<br>

## 4.2 사이킷런을 이용한 DTM과 TF-IDF 실습

### 4.2.1 `CountVectorizer` 이용 DTM 생성

- DTM 또한 BoW 행렬이기 때문에, 앞서 BoW 챕터에서 배운 `CountVectorizer`를 사용하면 간단히 DTM을 만들 수 있다.

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

vector = CountVectorizer()

# 코퍼스로부터 각 단어의 빈도수 기록
print(vector.fit_transform(corpus).toarray())

[[0 1 0 1 0 1 0 1 1]
 [0 0 1 0 0 0 0 1 0]
 [1 0 0 0 1 0 1 0 0]]


In [3]:
# 각 단어의 인덱스가 어떻게 부여됐는 지 확인
print(vector.vocabulary_)

{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


- 첫 번째 열 : 0의 인덱스를 가진 "do"
  - "do"는 세 번째 문서에만 등장했기 때문에, 세 번째 행에서만 1의 값을 갖는다.  


- 두 번째 열 : 1의 인덱스를 가진 "know"
  - "know"는 첫 번째 문서에서만 등장했기 때문에 첫 번째 행에서만 1의 값을 갖는다.

<br>

### 4.2.2 `TfidfVectorizer`

- 사이킷런은 TF-IDF를 자동 계산해주는 `TfidfVectorizer`를 제공한다.
- 사이킷런의 TF-IDF는 위에서 배웠던 보편적인 TF-IDF 식에서 좀 더 조정된 다른 식을 사용한다.
  - IDF 계산 시 분자에다가도 1을 더해줌
  - TF-IDF에 L2 정규화라는 방법으로 값을 조정

In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

tfidfv = TfidfVectorizer().fit(corpus)
print(tfidfv.transform(corpus).toarray())

[[0.         0.46735098 0.         0.46735098 0.         0.46735098
  0.         0.35543247 0.46735098]
 [0.         0.         0.79596054 0.         0.         0.
  0.         0.60534851 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]


In [5]:
print(tfidfv.vocabulary_)

{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}
