# Documents-Term Matrix(DTM)

    서로 다른 문서들의 BoW들을 결합한 표현 방법.
    
    한계 :
        1) 희소 표현
           -> 단어 집합의 크기를 줄이는 일이 중요하다.
        2) 단순 빈도 수 기반 접근
           -> the 같은 불용어가 자주 등장 할 수 밖에 없다.
           -> 중요한 단어에 가중치를 주는 방법(TF-IDF)

In [1]:
# DTM 구현
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

vectorizer = CountVectorizer()
DTM = vectorizer.fit_transform(corpus)

print(DTM.toarray())
print(vectorizer.vocabulary_)

[[0 1 0 1 0 1 0 1 1]
 [0 0 1 0 0 0 0 1 0]
 [1 0 0 0 1 0 1 0 0]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


# Term Frequency-Inverse Document Frequency(TF-IDF)

    각 단어에 대한 중요도 계산할 수 있는 가중치.
    기존의 DTM 보다 더 많은 정보를 고려하여 문서 비교 가능(but, 항상 성능이 뛰어난건 아니다.)
    
    문서 : d / 단어 : t / 문서 총 개수 : n
    TF(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수 (BoW)
    DF(t)   : 특정 단어 t가 등장한 문서의 수
              (몇번 등장했는 지는 중요하지 않고, 문서의 수만 생각)
    IDF(d,t): DF(t)에 반비례하는 수
              IDF(d,t) = log(n / 1 + DF(t))
              
              1) log 취한 이유 : n이 커질 수록 IDF값이 기하급수로 커지기 때문에 가중치 격차 줄이기 위함.
              2) 분모에 1 더해주는 이유 : DF(t) 가 0일 경우에 분모가 0이 됨으로.
    => 모든 문서에 자주 등장하는 단어는 중요도가 낮고, 특정 문서에만 자주 등장하는 단어는 중요도가 높게 판단.
    => TF-IDF 값이 낮으면 중요도가 낮고, 높으면 중요도가 높다.
    

#### sklearn 으로 구현
    
    차이 : 
        1) IDF를 IDF(d,t) = log(n / 1 + DF(t)) + 1 로 구현. 
            -> log 값이 0이 되는 경우 고려.
        2) TF-IDF에 L2 정규화 로 값을 조정.
        등등.
    
    그냥 사용해도 된다.    

In [2]:
# TF-IDF 구현
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(corpus)

print(tfidf.toarray())
print(vectorizer.vocabulary_)

[[0.         0.46735098 0.         0.46735098 0.         0.46735098
  0.         0.35543247 0.46735098]
 [0.         0.         0.79596054 0.         0.         0.
  0.         0.60534851 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}
