# 1. Bag of Words란?
단어 순서는 배제하고 출현 빈도(frequency)에 집중한 텍스트 수치화 표현   
빈도수를 기준으로 문서 성격을 판단하거나 문서간 유사도를 구할 때 사용   
1. 각 단어에 정수 인덱스 부여   
2. 인덱스 위치에 단어 등장 횟수를 기록해 벡터화

In [1]:
from konlpy.tag import Okt
import re
okt = Okt()

token = re.sub("(\.)", "", "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.")
token = okt.morphs(token)
token

['정부', '가', '발표', '하는', '물가상승률', '과', '소비자', '가', '느끼는', '물가상승률', '은', '다르다']

In [2]:
word2index = {}
bow = []
for voca in token:
    if voca not in word2index.keys():
    # word2index에 없는 단어를 추가하고 BoW에 1 추가
        word2index[voca] = len(word2index)
        bow.insert(len(word2index)-1, 1)
    else:
    # 재등장한 단어 인덱스의 BoW에 1 추가
        index = word2index.get(voca)
        bow[index] = bow[index] + 1

In [3]:
print(word2index)
bow

{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}


[1, 2, 1, 1, 2, 1, 1, 1, 1, 1]

# 2. Bag of Words의 다른 예제들 

In [4]:
token = re.sub("(\.)", "", "소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.")
token = okt.morphs(token)

word2index = {}
bow = []
for voca in token:
    if voca not in word2index.keys():
    # word2index에 없는 단어를 추가하고 BoW에 1 추가
        word2index[voca] = len(word2index)
        bow.insert(len(word2index)-1, 1)
    else:
    # 재등장한 단어 인덱스의 BoW에 1 추가
        index = word2index.get(voca)
        bow[index] = bow[index] + 1

In [5]:
print(word2index)
bow

{'소비자': 0, '는': 1, '주로': 2, '소비': 3, '하는': 4, '상품': 5, '을': 6, '기준': 7, '으로': 8, '물가상승률': 9, '느낀다': 10}


[1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1]

In [6]:
token = re.sub("(\.)", "", "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다. \
소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.")
token = okt.morphs(token)

word2index = {}
bow = []
for voca in token:
    if voca not in word2index.keys():
    # word2index에 없는 단어를 추가하고 BoW에 1 추가
        word2index[voca] = len(word2index)
        bow.insert(len(word2index)-1, 1)
    else:
    # 재등장한 단어 인덱스의 BoW에 1 추가
        index = word2index.get(voca)
        bow[index] = bow[index] + 1

In [7]:
print(word2index)
bow

{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9, '는': 10, '주로': 11, '소비': 12, '상품': 13, '을': 14, '기준': 15, '으로': 16, '느낀다': 17}


[1, 2, 1, 2, 3, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1]

# 3. CountVectorizer 클래스로 BoW 만들기

In [8]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ["you know I want your love. because I love you."]
vector = CountVectorizer()

print(vector.fit_transform(corpus).toarray())
print(vector.vocabulary_)
# CountVectorizer는 기본으로 길이 2 이상인 문자에서만 토큰 인식
# 단지 띄어쓰기만으로 진행한 낮은 수준의 토큰화라, 한국어 적용은 힘듦

[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


# 4. 불용어를 제거한 BoW 만들기
빈도수 기반 수치화로 텍스트 내에서 어떤 단어들이 중요한지 판단 가능   
> **1) 사용자가 직접 정의한 불용어 사용**

In [9]:
from sklearn.feature_extraction.text import CountVectorizer
text = ["Family is not an important thing. It's everything"]
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])

print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


> **2) CountVectorizer에서 제공하는 자체 불용어 사용**   

In [10]:
from sklearn.feature_extraction.text import CountVectorizer
text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words="english")

print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1]]
{'family': 0, 'important': 1, 'thing': 2}


> **3) NLTK에서 지원하는 불용어 사용**

In [11]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
text = ["Family is not an important thing. It's everything."]
sw = stopwords.words("english")
vect = CountVectorizer(stop_words=sw)

print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
