# Bag of Words

단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법

In [1]:
from konlpy.tag import Okt
import re

okt = Okt()

In [2]:
text = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."
token = re.sub("(\.)", "", text)
token = okt.morphs(token)

In [4]:
word2idx = {}
bow = []

for vocab in token:
  if vocab not in word2idx:
    word2idx[vocab] = len(word2idx)
    bow.insert(len(word2idx)-1, 1)
  else:
    idx = word2idx.get(vocab)
    bow[idx] = bow[idx] + 1

print(word2idx)
print(bow)

{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}
[1, 2, 1, 1, 2, 1, 1, 1, 1, 1]


## Using scikit learn

In [5]:
from sklearn.feature_extraction.text import CountVectorizer

vector = CountVectorizer()

In [7]:
corpus = ['you know I want your love. because I love you.']

print(vector.fit_transform(corpus).toarray())
print(vector.vocabulary_)

[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


# 불용어 제거

In [12]:
from sklearn.feature_extraction.text import CountVectorizer

text = ["Family is not an important thing. It's everything."]

# Case 1: 사용자 정의
vect = CountVectorizer(stop_words=['the', 'a', 'an', 'is', 'not'])

# Case 2: CountVectorizer 사용
# vect = CountVectorizer(stop_words='english')

# Case 3: NLTK 사용
# from nltk.corpus import stopwords
# sw = stopwords.words('english')
# vect = CountVectorizer(stop_words=sw)

print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}
