단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도에만 집중하는 텍스트 데이터의 수치화 표현 방법

BoW
- 각 단어에 고유한 정수 인덱스를 부여
- 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만든다.

각 단어가 등장한 횟수를 수치화하는 텍스트 표현 방법이기 때문에
주로 어떤 단어가 얼마나 등장했는지를 기준으로 문서가 어떤성격의 문서인지를 판단하는 작업에 사용

In [4]:
from konlpy.tag import Okt
import re
okt = Okt()

token = re.sub("\.", "", "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다. 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.")
token = okt.morphs(token)

word2idx = {}
bow = []
for voca in token:
    if voca not in word2idx:
        word2idx[voca] = len(word2idx)
        bow.append(1)
    else:
        index = word2idx[voca]
        bow[index] += 1
        
print(word2idx)
print(bow)

{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9, '는': 10, '주로': 11, '소비': 12, '상품': 13, '을': 14, '기준': 15, '으로': 16, '느낀다': 17}
[1, 2, 1, 2, 3, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1]


In [7]:
# 단어의 빈도를 Count하여 vector로 만드는 CountVectorizer => 영어에 대해서는 손쉽게 BoW를 만들 수 있다.
# 짧은 단어 (1 길이의 단어) 제거 (정제)
from sklearn.feature_extraction.text import CountVectorizer

corpus = ["you know I want your love. because I love you."]
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray())
print(vector.vocabulary_)

[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


In [17]:
# 불용어는 자연어 처리에서 별로 의미를 갖지 않는 단어들 => BoW에서 불용어 제거
text=["Family is not an important thing. It's everything."]

#직접 stopword 지정
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

#CounterVectorizer에서 제공하는 자체 불용어 사용
vect = CountVectorizer(stop_words="english")
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

from nltk.corpus import stopwords
sw = stopwords.words("english")
vect = CountVectorizer(stop_words=sw)
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}
[[1 1 1]]
{'family': 0, 'important': 1, 'thing': 2}
[[1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
