## Bag of Words(BoW)

- 단어의 순서는 고려하지 않고 단어들의 출현 빈도(frequency) 에만 집중하는 텍스트 데이터의 수치화 방법 
- 우선, 각 단어에 고유한 정수 인덱스를 부여 
- 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만든다. 
- scikit-learn의 CountVectorizer를 이용하여 간단히 BoW를 구성할 수 있다. 
- BoW에는 순서의 개념이 없다... 단순히 출현빈도로만 정리를 한것이다. 

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

In [3]:
text_data = ['나는 배가 고프다', '내일 점심 뭐먹지','내일 공부해야겠다','점심 먹고 공부 해야지']
count_vectorizer = CountVectorizer()

In [4]:
count_vectorizer.fit(text_data)

CountVectorizer()

In [5]:
print(count_vectorizer.vocabulary_)

{'나는': 3, '배가': 7, '고프다': 0, '내일': 4, '점심': 8, '뭐먹지': 6, '공부해야겠다': 2, '먹고': 5, '공부': 1, '해야지': 9}


In [7]:
sentence = [text_data[0]]
print(count_vectorizer.transform(sentence).toarray())

[[1 0 0 1 0 0 0 1 0 0]]


인덱스별 단어의 카운트만 나오는것임

In [8]:
sentence = ['오늘 점심 맛없었어','내일 점심 또 그럴까']
print(count_vectorizer.transform(sentence).toarray())

[[0 0 0 0 0 0 0 0 1 0]
 [0 0 0 0 1 0 0 0 1 0]]


### 문서 단어 행렬(Document-Term Matrix, DTM)
https://wikidocs.net/book/2155
- 서로 다른 문서들의 BoW들을 결합한 표현 방법  
- 다수의 문서에 등장하는 각 단어들의 빈도를 행렬로 표현한 것  
- 문서1 : 호기심 많은 고양이  
- 문서2 : 꼬리가 긴 고양이  
- 문서3 : 호기심 많은 강아지  
- 문서4 : 철수는 동물을 좋아해요 
|      |강아지|고양이|긴|꼬리가|동물을|많은|좋아해요|철수는|호기심|
|------|-----|-----|--|-----|-----|---|-------|-----|-----|
|문서1  |  0  |  1  | 0|  0  |  0 | 1  |   0   |  0  |  1  |
|문서2  |  0  |  1  |1|  1  |  0 | 0  |   0   |  0  |  0  |
|문서3  |  1  |  0  |0|  0  |  0 | 1  |   0   |  0  |  1  |
|문서4  |  0  |  0  |0|  0  |  1 | 0  |   1   |  1  |  0  |  
- 각 문서에서 등장한 단어의 빈도를 행렬값으로 표시  
- 문서들을 서로 비교할 수 있도록 수치화

### 문서 단어 행렬의 한계
1.희소표현
- one-hot-encoding방식의 벡터는 단어 집합의 크기가 벡터의 차원이됨(대부분의 값이 0)
- 이는 공간과 계산 리소스의 낭비가 된다. 
2.단순 빈도수 기반 접근 
- 여러 문서에 등장하는 모든 단어에 대해서 빈도수만을 사용한다는 한계가 있다. 
- 각 문서에는 중요한 단어와 불필요한 단어가 혼재되어있는데....
- 따라서, DTM에 불용어와 중요한 단어에 대한 가중치를 부여하는 방법이 필요해진다. 

## TF-IDF(Term Frequency-Invers Document Frequency)
https://wikidocs.net/31698

- 단어의 빈도와 역 문서 빈도를 사용하여 DTM내의 각 단어들마다 중요한 정도의 가중치를 부여하는 방법  
- 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰임  
- TF-IDF 는 TF와 IDF를 곱한 값을 의미  
- 문서를 d, 단어를 t, 문서의 총 개수를 n이라고 하면  
1) tf(d, t): 특정 문서 d에서의 특정 단어 t의 등장 회수  
2) df(t) : 특정 단어 t가 등장한 문서의 수  
3) idf(d, t) : df(t)에 반비례하는 수  
idf(d, t) = log(n / (1 + df(t)))
- 총 문서의 수 n이 급격히 증가하게 되면 IDF의 값이 기하급수적으로 커지는 것을 방지하기 위해 log를 사용  
- 특정 단어가 전체 문서에서 등장하지 않게 되는 경우 분모가 0이 되는 것을 방지하기 위해 1을 더함  
- TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단  
- 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단  
- TF-IDF 값이 낮으면 중요도가 낮다고 판단  
- 예를 들어 영어에서 the 나 a와 같은 불용어의 경우 모든 문서에 자주 등장하기 때문에 이런 불용어들의 TF-IDF 값은 다른 단어에 비해서 낮아지게 됨 

In [9]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [10]:
text_data = ['나는 배가 고프다', '내일 점심 뭐먹지','내일 공부해야겠다','점심 먹고 공부 해야지']
tfidf_vectorizer = TfidfVectorizer()
tfidf_vectorizer.fit(text_data)
print(tfidf_vectorizer.vocabulary_)


{'나는': 3, '배가': 7, '고프다': 0, '내일': 4, '점심': 8, '뭐먹지': 6, '공부해야겠다': 2, '먹고': 5, '공부': 1, '해야지': 9}


In [11]:
sentence = [text_data[3]]
print(tfidf_vectorizer.transform(sentence).toarray())

[[0.         0.52547275 0.         0.         0.         0.52547275
  0.         0.         0.41428875 0.52547275]]


In [12]:
print(tfidf_vectorizer.transform(text_data).toarray())

[[0.57735027 0.         0.         0.57735027 0.         0.
  0.         0.57735027 0.         0.        ]
 [0.         0.         0.         0.         0.52640543 0.
  0.66767854 0.         0.52640543 0.        ]
 [0.         0.         0.78528828 0.         0.6191303  0.
  0.         0.         0.         0.        ]
 [0.         0.52547275 0.         0.         0.         0.52547275
  0.         0.         0.41428875 0.52547275]]


- TF-IDF 값을 사용하는 경우, 단순 횟수를 이용하는것보다 각 단어의 특성을 좀 더 잘 반영할 수 있다. 
- 모델에 적용할 때도 TfidfVectorizer를 사용하는 것이 일반적으로 더 좋은 결과를 만들어낸다. 