# 2) Bag of Words(BoW)

### 1. Bag of Words란?

Bag of Words : 단어들의 가방.

단어들의 출현 빈도(frequency)에 집중하는 텍스트 데이터의 수치화 표현 방법으로

단어들의 순서는 고려하지 않고 오로지 출현 빈도에 대해서만 count한다.

### 한국어 예제

####   문서1 : 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.

* 정규 표현식을 이용해 온점을 제거하는 정제 작업
* Okt 형태소 분석기를 통해 토큰화 작업

In [8]:
from konlpy.tag import Okt
import re
okt = Okt()
doc1= "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."

token = re.sub("(\.)","",doc1)

token = okt.morphs(token)

In [9]:
token

['정부', '가', '발표', '하는', '물가상승률', '과', '소비자', '가', '느끼는', '물가상승률', '은', '다르다']

* Bow 구현 코드

In [11]:
word_to_index = {}
bow = []
for voca in token:
    if voca not in word_to_index.keys():
        word_to_index[voca] = len(word_to_index)
        bow.insert(len(word_to_index)-1, 1)
        
    else:
        index = word_to_index.get(voca) #voca의 index를 가져옴
        bow[index] = bow[index] + 1        

In [16]:
print(word_to_index)

{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}


In [17]:
bow

[1, 2, 1, 1, 2, 1, 1, 1, 1, 1]

### 3. CountVectorizer 클래스로 BoW 만들기

* 사이킷 런에서 제공하는 CountVectorizer 클래스를 이용하여 BoW 실습

In [18]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ['you know I want your love. because I love you.']
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print(vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


### 4. 불용어를 제거한 BoW 만들기

#### (1) 사용자가 직접 정의한 불용어 사용

BoW를 사용하는 이유는 해당 문서에서 해당 단어가 얼마나 등장했는지를 체크하고

코퍼스 내의 어떤 단어들이 빈번하게 등장하는지 중요도를 체크하기 위한 작업임으로

불용어를 제거하는 것이 자연어 처리의 정확도를 높일수 있다.

In [21]:
from sklearn.feature_extraction.text import CountVectorizer

text=["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


#### (2) CountVectorizer에서 제공하는 자체 불용어 사용

In [22]:
from sklearn.feature_extraction.text import CountVectorizer

text=["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words="english")
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1]]
{'family': 0, 'important': 1, 'thing': 2}


#### (3) NLTK에서 지원하는 불용어 사용

In [23]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

text=["Family is not an important thing. It's everything."]
sw = stopwords.words("english")
vect = CountVectorizer(stop_words =sw)
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
