- Bag of Words (BoW) 란?
    - 단어들의 가방 → 어떤 텍스트 문서에 있는 단어들을 가방에 넣고, 가방을 흔들어 단어들을 섞는다.
    - 해당 문서 내에서 특정 단어가 N번 등장했다면, 가방에도 그 단어가 N개가 존재한다.
    - 단어들의 순서를 고려하지 않고, 단어들의 빈도수에만 집중하는 텍스트 데이터의 수치화 표현 방법이다.
- BoW가 왜 필요할까?
    - Bow는 각 단어가 등장한 횟수를 수치화하는 텍스트 표현 방법으로 주로 어떤 단어가 얼마나 등장했는지를 기준으로 어떤 성격의 문서인지를 판단할 수 있다.

In [7]:
from konlpy.tag import Mecab
mecab = Mecab()

def bag_of_words(doc):
    doc = doc.replace('.', '')
    print("온점 제거 후: ", doc)
    tokenized_doc = mecab.nouns(doc)
    print("mecab을 통해 형태소분석 후: ", tokenized_doc)
    
    word_to_index = {}
    bow = []
    
    for word in tokenized_doc:
        #처음 등장한 단어
        if word not in word_to_index.keys():
            #원래 문장에서의 해당 단어의 index를 value로 저장
            word_to_index[word] = len(word_to_index)
            #bow 리스트에 디폴트 1로 설정
            bow.insert(len(word_to_index) - 1, 1)
        #재등장한 단어
        else:
            #사전의 단어 인덱스로 bow 리스트에서 해당 단어 인덱스에 +1  
            index = word_to_index.get(word)
            bow[index] = bow[index] + 1
    
    return word_to_index, bow
            

In [8]:
doc1 = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."
vocab, bow = bag_of_words(doc1)
print('vocabulary :', vocab)
print('bag of words vector :', bow)

온점 제거 후:  정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다
mecab을 통해 형태소분석 후:  ['정부', '발표', '물가', '승률', '소비자', '물가', '상승']
vocabulary : {'정부': 0, '발표': 1, '물가': 2, '승률': 3, '소비자': 4, '상승': 5}
bag of words vector : [1, 1, 2, 1, 1, 1]


CountVectorizer 클래스로 BoW 만들기

- CountVectorizer 클래스
    - sklearn 에서 단어의 빈도를 카운트하여 벡터로 만드는 countVectorizer 클래스를 지원함
    - 주의할 점은 단지 띄어쓰기를 기준으로 단어를 자르는 낮은 수준의 토큰화를 진행하여 BoW를 만듬
        - 즉, 영어와 달리 한국어는 띄어쓰기 뿐만 아니라 조사와 같은 문법도 고려해야하기 때문에 제대로된 BoW가 만들어지지 않을 수 있음
    - 사용자가 직접 정의한 불용어 사전
        - vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])
    - CountVectorizer에서 제공하는 자체 불용어 사용
        - vect = CountVectorizer(stop_words="english")
    - NLTK에서 지원하는 불용어 사용
        - stop_words = stopwords.words("english")
        - vect = CountVectorizer(stop_words=stop_words)


In [14]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ['you know I want your love. because I love you.']
vector = CountVectorizer(stop_words="english")

# 코퍼스로부터 각 단어의 빈도수를 기록
print('bag of words vector: ' , vector.fit_transform(corpus).toarray()) 

# 각 단어의 인덱스가 어떻게 부여되었는지를 출력
print('vocabulary: ', vector.vocabulary_)

bag of words vector:  [[1 2 1]]
vocabulary:  {'know': 0, 'want': 2, 'love': 1}
