# 20.TF-IDF(Term Frequency-Inverse Document Frequency)

- TF-IDF(Term Frequency-Inverse Document Frequency)는 단어의 빈도와 역 문서 빈도를 사용
- DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법입니다. 
- 사용 방법은 우선 DTM을 만든 후, TF-IDF 가중치를 부여합니다.
- TF-IDF는 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있습니다.

### CountVectorizer를 사용하면 DTM 생성

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

In [3]:
vector = CountVectorizer()

In [4]:
# DTM 생성 : 문서 X 단어 행렬
print(vector.fit_transform(corpus).toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print(vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

[[0 1 0 1 0 1 0 1 1]
 [0 0 1 0 0 0 0 1 0]
 [1 0 0 0 1 0 1 0 0]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


### TfidfVectorizer 사용하여 TF-IDF 생성

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [6]:
corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

In [7]:
# 문서내에서 단어에 대해 중요도 가중치 부여
tfidfv = TfidfVectorizer().fit(corpus)
print(tfidfv.transform(corpus).toarray())
print(tfidfv.vocabulary_)

[[0.         0.46735098 0.         0.46735098 0.         0.46735098
  0.         0.35543247 0.46735098]
 [0.         0.         0.79596054 0.         0.         0.
  0.         0.60534851 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}
