# Bag of Word (BoW)

## * 출처 : [딥 러닝을 이용한 자연어 처리 입문 / 04. 카운트 기반의 단어 표현 / Bag of Words(BoW)](https://wikidocs.net/22650)

- 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법
- BoW를 만드는 과정
    - (1) 각 단어에 고유한 정수 인덱스를 부여  # 단어 집합 생성.
    - (2) 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 생성  

## 1. BoW 실습

문서 1. 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.

In [1]:
from konlpy.tag import Okt

In [2]:
okt = Okt()

입력된 문서에 대해서 단어 집합(vocaburary)을 만들어 각 단어에 정수 인덱스를 할당하고, BoW를 만드는 함수 생성

In [3]:
# build_bag_of_words라는 함수 생성
def build_bag_of_words(document):
  # 온점 제거 및 형태소 분석
  document = document.replace('.', '')
  tokenized_document = okt.morphs(document) # 텍스트를 형태소 단위로 나눔

  word_to_index = {}
  bow = []

  for word in tokenized_document:  
    if word not in word_to_index.keys():
      word_to_index[word] = len(word_to_index)  
      # BoW에 전부 기본값 1을 넣음
      bow.insert(len(word_to_index) - 1, 1)
    else:
      # 재등장하는 단어의 인덱스
      index = word_to_index.get(word)
      # 재등장한 단어는 해당하는 인덱스의 위치에 1을 더함
      bow[index] = bow[index] + 1

  return word_to_index, bow

In [4]:
doc1 = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."

In [5]:
vocab, bow = build_bag_of_words(doc1)

In [6]:
print('vocabulary :', vocab)
print('bag of words vector :', bow)

vocabulary : {'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}
bag of words vector : [1, 2, 1, 1, 2, 1, 1, 1, 1, 1]


문서2 : 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.

In [7]:
doc2 = '소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.'

In [8]:
vocab, bow = build_bag_of_words(doc2)

In [9]:
print('vocabulary :', vocab)
print('bag of words vector :', bow)

vocabulary : {'소비자': 0, '는': 1, '주로': 2, '소비': 3, '하는': 4, '상품': 5, '을': 6, '기준': 7, '으로': 8, '물가상승률': 9, '느낀다': 10}
bag of words vector : [1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1]


문서3: 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다. 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.

In [10]:
doc3 = doc1 + ' ' + doc2

In [11]:
vocab, bow = build_bag_of_words(doc3)

In [12]:
print('vocabulary :', vocab)
print('bag of words vector :', bow)

vocabulary : {'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9, '는': 10, '주로': 11, '소비': 12, '상품': 13, '을': 14, '기준': 15, '으로': 16, '느낀다': 17}
bag of words vector : [1, 2, 1, 2, 3, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1]


## 2. CountVectorizer 클래스로 BoW 만들기

### CountVectorizer

- 단어들의 카운트(출현 빈도(frequency))로 여러 문서들을 벡터화  
- 카운트 행렬, 단어 문서 행렬 (Term-Document Matrix, TDM)   
- 모두 소문자로 변환   
ex. me 와 Me는 모두 같은 특성이 됨

In [13]:
from sklearn.feature_extraction.text import CountVectorizer

In [14]:
corpus = ['you know I want your love. because I love you.']

In [15]:
vector = CountVectorizer()

In [16]:
# corpus로부터 각 단어의 빈도수를 기록
print('bag of words vector :', vector.fit_transform(corpus).toarray()) 

bag of words vector : [[1 1 2 1 2 1]]


In [17]:
# 각 단어의 인덱스가 어떻게 부여되었는지를 출력
print('vocabulary :',vector.vocabulary_)

vocabulary : {'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


### 불용어를 제거한 Bow 만들기

#### 1) 사용자가 직접 정의한 불용어

In [18]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

In [19]:
text = ["Family is not an important thing. It's everything."]

In [20]:
# 사용자가 직접 정의한 불용어 리스트를 리턴
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])

In [21]:
print('bag of words vector :',vect.fit_transform(text).toarray())
print('vocabulary :',vect.vocabulary_)

bag of words vector : [[1 1 1 1 1]]
vocabulary : {'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


### 2) CountVectorizer에서 제공하는 자체 불용어

In [22]:
text = ["Family is not an important thing. It's everything."]

In [23]:
# CountVectorizer에서 제공하는 자체 불용어를 리턴
vect = CountVectorizer(stop_words="english")

In [24]:
print('bag of words vector :',vect.fit_transform(text).toarray())
print('vocabulary :',vect.vocabulary_)

bag of words vector : [[1 1 1]]
vocabulary : {'family': 0, 'important': 1, 'thing': 2}


### 3) NLTK에서 지원하는 불용어

In [25]:
text = ["Family is not an important thing. It's everything."]

In [26]:
# NLTK가 정의한 영어 불용어 리스트를 리턴
stop_words = stopwords.words("english")

In [27]:
vect = CountVectorizer(stop_words=stop_words)

In [28]:
print('bag of words vector :',vect.fit_transform(text).toarray()) 
print('vocabulary :',vect.vocabulary_)

bag of words vector : [[1 1 1 1]]
vocabulary : {'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
