# 1. Bag of Words란?
Bah of Words : 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법

BoW 만드는 과정
(1) 각 단어에 고유한 정수 인덱스를 부여한다. # 단어 집합 생성
(2) 각 인덱스의 위치에 단어 트큰의 등장 횟수를 기록한 벡터를 만든다.

**문서1 : 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.**

문서1에 대해서 BoW를 만들자.

In [2]:
from konlpy.tag import Okt

okt=Okt()

def bulid_bag_of_words(document):
    document=document.replace('.','')
    tokenized_document=okt.morphs(document)
    
    word_to_index={}
    bow=[]
    
    for word in tokenized_document:
        if word not in word_to_index:
            word_to_index[word]=len(word_to_index)
            bow.insert(len(word_to_index)-1, 1)
        else:
            index=word_to_index.get(word)
            bow[index]+=1
    
    return word_to_index, bow

In [3]:
doc1="정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."
vocab, bow=bulid_bag_of_words(doc1)
print('vocabulary :',vocab)
print('bag fo words :',bow)

vocabulary : {'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}
bag fo words : [1, 2, 1, 1, 2, 1, 1, 1, 1, 1]


# 2. BoW의 다른 예제들

**문서2 : 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.**

In [4]:
doc2="소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다."

vocab, bow=bulid_bag_of_words(doc2)
print('vocabulary :', vocab)
print('bag of words :',bow)

vocabulary : {'소비자': 0, '는': 1, '주로': 2, '소비': 3, '하는': 4, '상품': 5, '을': 6, '기준': 7, '으로': 8, '물가상승률': 9, '느낀다': 10}
bag of words : [1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1]


문서3=문서1+문서2

**문서3 : 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다. 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.**

In [5]:
doc3= doc1+' '+doc2
vocab, bow=bulid_bag_of_words(doc3)
print('vocabulary :', vocab)
print('bag of words :',bow)

vocabulary : {'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9, '는': 10, '주로': 11, '소비': 12, '상품': 13, '을': 14, '기준': 15, '으로': 16, '느낀다': 17}
bag of words : [1, 2, 1, 2, 3, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1]


BoW는 각 단어가 등장한 횟수를 수치화하는 텍스트 표현 방법  
→ 주로 어떤 단어가 얼마나 등장했는지를 기준으로 문서가 어떤 성격의 문서인지를 판단하는 작업에 사용

# 3.  CountVectorizer 클래스로 BoW 만들기

In [9]:
from sklearn.feature_extraction.text import CountVectorizer

corpus=['you know I want your love. because I love you.']
vector=CountVectorizer()

print('bag of words vector :',vector.fit_transform(corpus).toarray())

print('vocabulary :', vector.vocabulary_)

bag of words vector : [[1 1 2 1 2 1]]
vocabulary : {'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


주의할 점

CounterVectorize는 단지 띄어쓰기만을 기준으로 단어를 자르는 낮은 수준의 토큰화를 진행하고 BoW를 만든다.  
→ '정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.'라는 문장의 경우 '물가상승률'이라는 단어를 인식하지 못한다.

# 4. 불용어를 제거한 BoW 만들기

In [10]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

#### (1) 사용자가 직접 정의한 불용어 사용

In [13]:
text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])
print('bag of words vector :',vect.fit_transform(text).toarray())
print('vocabulary :', vect.vocabulary_)

bag of words vector : [[1 1 1 1 1]]
vocabulary : {'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


#### (2) CountVectorizer에서 제공하는 자체 불용어 사용

In [14]:
text = ["Family is not an important thing. It's everything."]
vect=CountVectorizer(stop_words='english')
print('bag of words vector :',vect.fit_transform(text).toarray())
print('vocabulary :', vect.vocabulary_)

bag of words vector : [[1 1 1]]
vocabulary : {'family': 0, 'important': 1, 'thing': 2}


#### (3) NLTK에서 지원하는 불용어 사용

In [15]:
text = ["Family is not an important thing. It's everything."]
vect=CountVectorizer(stop_words=stopwords.words('english'))
print('bag of words vector :',vect.fit_transform(text).toarray())
print('vocabulary :', vect.vocabulary_)

bag of words vector : [[1 1 1 1]]
vocabulary : {'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
