# TF-IDF(Term Frequency-Inverse Document Frequency)

+ 이번시간에는 TF-IDF 대해 배워 보도록 하겠습니다.
+ 이전시간에 CountVectorizer 사용하여 단어의 빈도수를 수치 표현했는데, 과연 "단어의 빈도수가 높다고 중요한 단어인가"에 대해 생각 필요
+ 예를 들어, 불용어(the, an, is)에 해당되는 단어는 자주 보여 지지만, 그다지 중요하지 않습니다.
+ 그래서, TF-IDF(Term Frequency-Inverse Document Frequency)는 단어의 빈도(TF)와 역 문서 빈도(IDF)를 사용합니다.
+ 즉, 각 문서에서 특정 단어가 많이 등장할수록, 그리고 특정 단어가 등장한 문서의 수가 작을수록 높은 가중치를 부여 합니다.
+ TF-IDF는 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있습니다.
+ 결국, 컴퓨터가 문장을 잘 이해하도록 단어 중요도에 가중치를 매겨서 문장을 벡터 표현합니다

![그림](https://github.com/gzone2000/TEMP_TEST/raw/master/TF-IDF.PNG)

### 학습목차
1. CountVectorizer를 사용하면 DTM(BOW) 생성
2. TfidfVectorizer 사용하여 TF-IDF 생성
3. 보기좋게 TF-IDF를 데이터프레임으로 표현하기

------------------

## 1. CountVectorizer를 사용하면 DTM(BOW) 생성

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
# 쿠퍼스 
corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

In [3]:
# CountVectorizer 정의
vector = CountVectorizer()

In [4]:
# DTM 생성 : 문서 X 단어 행렬
vector.fit(corpus)

print(vector.vocabulary_) # 단어사전 확인
print(sorted(vector.vocabulary_.items(), key=lambda x : x[1])) # 단어사전에서 value값으로 정렬
print(vector.fit_transform(corpus).toarray())  # 코퍼스로부터 각 단어의 빈도 수를 기록한다.

{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}
[('do', 0), ('know', 1), ('like', 2), ('love', 3), ('should', 4), ('want', 5), ('what', 6), ('you', 7), ('your', 8)]
[[0 1 0 1 0 1 0 1 1]
 [0 0 1 0 0 0 0 1 0]
 [1 0 0 0 1 0 1 0 0]]


## 2. TfidfVectorizer 사용하여 TF-IDF 생성

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [6]:
# 쿠퍼스 
corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

In [7]:
# 문서내에서 단어에 대해 단어 사전 생성
tfidf = TfidfVectorizer().fit(corpus)
print(tfidf.vocabulary_)

{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


In [8]:
# 문서내에서 단어에 대해 TF-IDF 중요도 가중치 부여
tfidf_matrix = tfidf.transform(corpus).toarray()
print(tfidf_matrix)

[[0.         0.46735098 0.         0.46735098 0.         0.46735098
  0.         0.35543247 0.46735098]
 [0.         0.         0.79596054 0.         0.         0.
  0.         0.60534851 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]


## 3. 보기좋게 TF-IDF를 데이터프레임으로 표현하기

In [9]:
# tfidf 단어사전에서 단어의 인덱스로 정렬
sort_tfidf = dict(sorted(tfidf.vocabulary_.items(), key=lambda x : x[1]))
sort_tfidf

{'do': 0,
 'know': 1,
 'like': 2,
 'love': 3,
 'should': 4,
 'want': 5,
 'what': 6,
 'you': 7,
 'your': 8}

In [10]:
# 단어의 인덱스순으로 정렬 상태에서 단어 리스트 가져오기
tfidf_sort_word = sort_tfidf.keys()
tfidf_sort_word

dict_keys(['do', 'know', 'like', 'love', 'should', 'want', 'what', 'you', 'your'])

In [11]:
# TF-IDF 보기 좋게 데이터프레임형식으로 표현

import pandas as pd

pd.DataFrame(tfidf_matrix, columns=tfidf_sort_word)

Unnamed: 0,do,know,like,love,should,want,what,you,your
0,0.0,0.467351,0.0,0.467351,0.0,0.467351,0.0,0.355432,0.467351
1,0.0,0.0,0.795961,0.0,0.0,0.0,0.0,0.605349,0.0
2,0.57735,0.0,0.0,0.0,0.57735,0.0,0.57735,0.0,0.0


## 배운 내용 정리
1. TF-IDF(Term Frequency-Inverse Document Frequency) : 단어의 빈도(TF)와 역 문서 빈도(IDF)를 사용하여 단어에 가중치 부여
2. CountVectorizer 처럼 단순히 단어의 빈도수 표현하는것보다 단어 중요도에 가중치를 표현한 TF-IDF가 합리적이다.
3. 문서 유사도 구하거나, 분류 모델의 전처리 데이터로 TF-IDF 수행된 데이터를 사용합니다.