## 문서 단어 행렬(DTM)
[04-03 문서 단어 행렬(Document-Term Matrix, DTM)](https://wikidocs.net/24559)
- 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것
- BoW 표현을 다수의 문서에 대해서 행렬로 표현한 것
- 문서들을 서로 비교할 수 있도록 수치화할 수 있음.
- 한계점
    1. 희소 표현
        - 0 값이 더 많이 나타나기 때문에 많은 양의 저장 공간과 높은 계산 복잡도를 요구함.
    1. 단순 빈도 수 기반 접근
        - 'the'는 어떤 문서이든 자주 등장하는데, 문서1, 문서2, 문서3에서 동일하게 'the'의 빈도가 높다고 해서 이 문서들이 유사한 문서라고 할 수 없음.
        - 따라서 DTM에 불용어를 처리하고 중요한 단어에 **가중치**를 부여할 수 있는 TF-IDF 방법을 사용할 수 있음.

## TF-IDF(Term Frequency-Inverse Document Frequency)
[04-04 TF-IDF(Term Frequency-Inverse Document Frequency)](https://wikidocs.net/31698)
- DTM 내에 있는 각 단어에 대한 중요도를 계산함.
- 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰임.

### 사이킷런을 이용한 DTM과 TF-IDF 실습

In [2]:
# DTM 만들기
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

vector = CountVectorizer()

# 코퍼스로부터 각 단어의 빈도수를 기록
print(vector.fit_transform(corpus).toarray())

# 각 단어와 맵핑된 인덱스 출력
print(vector.vocabulary_)

[[0 1 0 1 0 1 0 1 1]
 [0 0 1 0 0 0 0 1 0]
 [1 0 0 0 1 0 1 0 0]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


In [3]:
# TF-IDF 계산하기
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

tfidfv = TfidfVectorizer()
print(tfidfv.fit_transform(corpus).toarray())
print(tfidfv.vocabulary_)

[[0.         0.46735098 0.         0.46735098 0.         0.46735098
  0.         0.35543247 0.46735098]
 [0.         0.         0.79596054 0.         0.         0.
  0.         0.60534851 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}
