# Bag of Words(BoW)

### Bag of Words란?

BoW를 만드는 과정을 이렇게 두 가지 과정으로 생각해보겠습니다.  
(1) 우선, 각 단어에 고유한 정수 인덱스를 부여합니다.  
(2) 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만듭니다.  

##### 문서1 : 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.

In [1]:
from konlpy.tag import Okt
import re

In [2]:
okt=Okt()

token=re.sub("(\.)","", "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.")
token=okt.morphs(token)

word2index={}
bow=[]
for voca in token:  
         if voca not in word2index.keys():  
             word2index[voca]=len(word2index)  
             bow.insert(len(word2index)-1,1)
         else:
            index=word2index.get(voca)
            bow[index]=bow[index]+1
print(word2index)  

{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}


In [3]:
bow

[1, 2, 1, 1, 2, 1, 1, 1, 1, 1]

### Bag of Words의 다른 예제들

##### 문서2 : 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.

In [4]:
token=re.sub("(\.)","", "소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.")
token=okt.morphs(token)

word2index2={}
bow2=[]
for voca in token:
         if voca not in word2index2.keys():
             word2index2[voca]=len(word2index2)
             bow2.insert(len(word2index2)-1,1)
         else:
            index=word2index2.get(voca)
            bow2[index]=bow2[index]+1
print(word2index2)

{'소비자': 0, '는': 1, '주로': 2, '소비': 3, '하는': 4, '상품': 5, '을': 6, '기준': 7, '으로': 8, '물가상승률': 9, '느낀다': 10}


In [5]:
bow2

[1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1]

##### 문서3: 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다. 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.

In [6]:
token=re.sub("(\.)","", "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다. 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.")
token=okt.morphs(token)

word2index3={}
bow3=[]
for voca in token:
         if voca not in word2index3.keys():
             word2index3[voca]=len(word2index3)
             bow3.insert(len(word2index3)-1,1)
         else:
            index=word2index3.get(voca)
            bow3[index]=bow3[index]+1
print(word2index3)

{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9, '는': 10, '주로': 11, '소비': 12, '상품': 13, '을': 14, '기준': 15, '으로': 16, '느낀다': 17}


In [7]:
bow3

[1, 2, 1, 2, 3, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1]

In [8]:
print(bow)
print(bow2)
print(bow3)

[1, 2, 1, 1, 2, 1, 1, 1, 1, 1]
[1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1]
[1, 2, 1, 2, 3, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1]


### CountVectorizer 클래스로 BoW 만들기

In [10]:
from sklearn.feature_extraction.text import CountVectorizer

In [11]:
corpus = ['you know I want your love. because I love you.']
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray())
# 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.
print(vector.vocabulary_)

[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


### 불용어를 제거한 BoW 만들기

#### 1) 사용자가 직접 정의한 불용어 사용

In [12]:
text=["Family is not an important thing. It's everything."]
vect=CountVectorizer(stop_words=["the", "a", "an", "is", "not"])
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


#### 2) CounterVectorizer에서 제공하는 자체 불용어 사용

In [13]:
text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words="english")
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1]]
{'family': 0, 'important': 1, 'thing': 2}


#### 3) NLTK에서 지원하는 불용어 사용

In [14]:
text=["Family is not an important thing. It's everything."]
from nltk.corpus import stopwords
sw = stopwords.words("english")
vect = CountVectorizer(stop_words =sw)
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
