# [Bag of Words](https://wikidocs.net/22650)

Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법

[BoW를 만드는 과정]
1. 각 단어에 고유한 정수 인덱스를 부여  # 단어 집합 생성.
2. 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만듦.

### step1. CountVectorizer 클래스로 BoW 만들기

#### 문서1: 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.

문서1에 대해 BoW를 만든다. 아래의 함수는 입력된 문서에 대해서 단어 집합을 만들어 각 단어에 정수 인덱스를 할당하고, BoW를 만든다.

In [8]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ['you know I want your love. because I love you.']
vector = CountVectorizer()

# 코퍼스로부터 각 단어의 빈도수 기록
print('bag of words vector :', vector.fit_transform(corpus).toarray())

# 각 단어의 인덱스가 어떻게 부여되었는지 출력
print('vocabulary :', vector.vocabulary_)

bag of words vector : [[1 1 2 1 2 1]]
vocabulary : {'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


you와 love는 두 번씩 언급되었으므로 각각 인덱스 2와 4에서 2의 값을 가지며, 그 외의 값에서는 1의 값을 갖는다.  
또한 알파벳 I는 BoW를 만드는 과정에서 사라졌는데, 이는 CounterVectorizer가 기본적으로 길이가 2 이상인 문자에 대해서만 토큰으로 인식한다.  
영어에서는 길이가 짧은 문자를 제거하는 것도 전처리 작업으로 고려된다.

주의할 것은 **CountVectorizer는 단지 띄어쓰기만을 기준**으로 단어를 자르는 낮은 수준의 토큰화를 진행하고 BoW를 만든다는 점이다. 따라서 한국어에 적용하면 BoW가 제대로 만들어지지 않는다.

### step2. 불용어를 제거한 BoW 만들기

CountVectorizer는 불용어를 지정하면, 불용어는 제외하고 BoW를 만들 수 있도록 불용어 제거 기능을 지원한다.

#### (1) 사용자 정의 불용어 사용

In [10]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

In [18]:
text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words=['the', 'a', 'an', 'is', 'not'])
print('bag of words vector: ', vect.fit_transform(text).toarray())
print('vocabulary: ', vect.vocabulary_)

bag of words vector:  [[1 1 1 1 1]]
vocabulary:  {'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


#### (2) CountVectorizer에서 제공하는 자체 불용어 사용

In [19]:
text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words="english")
print('bag of words vector :',vect.fit_transform(text).toarray())
print('vocabulary :',vect.vocabulary_)

bag of words vector : [[1 1 1]]
vocabulary : {'family': 0, 'important': 1, 'thing': 2}


#### (3) NLTK에서 지원하는 불용어 사용

In [21]:
text = ["Family is not an important thing. It's everything."]
stop_words = stopwords.words("english")
vect = CountVectorizer(stop_words=stop_words)
print('bag of words vector :',vect.fit_transform(text).toarray()) 
print('vocabulary :',vect.vocabulary_)

bag of words vector : [[1 1 1 1]]
vocabulary : {'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
