### Bag of Words(BoW)
빈도수 기반 단어 표현 방법

In [63]:
from konlpy.tag import Okt

In [64]:
import re

In [65]:
okt = Okt()

In [66]:
token = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."

In [67]:
# sub 대체 정규표현식. 마침표(.)를 없애는 코드
token = re.sub("(\.)","", token)

In [68]:
token = okt.morphs(token)

In [69]:
token

['정부', '가', '발표', '하는', '물가상승률', '과', '소비자', '가', '느끼는', '물가상승률', '은', '다르다']

In [70]:
word2index = {}

In [71]:
bow = []

In [72]:
for voca in token:
    if voca not in word2index.keys():
        word2index[voca] = len(word2index)
# token을 읽으면서, word2index에 없는 (not in) 단어는 새로 추가하고, 이미 있는 단어는 넘깁니다. 
        bow.insert(len(word2index)-1, 1)
# BoW 전체에 전부 기본값 1을 넣어줍니다. 단어의 개수는 최소 1개 이상이기 때문입니다. 
    else:
        index = word2index.get(voca)
# 재등장하는 단어의 인덱스를 받아옵니다.
        bow[index] = bow[index] + 1
# 재등장한 단어는 해당하는 인덱스의 위치에 1을 더해줍니다. (단어의 개수를 세는 것입니다.) 

In [73]:
# 인덱스
word2index

{'정부': 0,
 '가': 1,
 '발표': 2,
 '하는': 3,
 '물가상승률': 4,
 '과': 5,
 '소비자': 6,
 '느끼는': 7,
 '은': 8,
 '다르다': 9}

In [74]:
# 출현 빈도
bow

[1, 2, 1, 1, 2, 1, 1, 1, 1, 1]

### 3. CountVectorizer 클래스로 BoW 만들기

In [75]:
from sklearn.feature_extraction.text import CountVectorizer

In [76]:
corpus = ['you know I want your love. because I love you.', '정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다']

In [77]:
vector = CountVectorizer()

In [78]:
print(vector.fit_transform(corpus).toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.

[[1 1 2 1 2 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 1 1 1 1 1 1 1]]


In [79]:
print(vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0, '정부가': 12, '발표하는': 10, '물가상승률과': 8, '소비자가': 11, '느끼는': 6, '물가상승률은': 9, '다르다': 7}


**한국어를 scikit learn CounterVectorizer 적용하기**

In [87]:
# 위에서 okt로 토큰화한 것은 띄어쓰기를 삽입해서 join해주고
corpus2 = [' '.join(token)]
corpus2

['정부 가 발표 하는 물가상승률 과 소비자 가 느끼는 물가상승률 은 다르다']

In [88]:
print(vector.fit_transform(corpus2).toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.

[[1 1 2 1 1 1 1]]


In [89]:
print(vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

{'정부': 5, '발표': 3, '하는': 6, '물가상승률': 2, '소비자': 4, '느끼는': 0, '다르다': 1}


### 4. 불용어를 제거한 BoW 만들기

#### (1) 사용자가 직접 정의한 불용어 사용

In [90]:
from sklearn.feature_extraction.text import CountVectorizer

text=["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


#### (2) CountVectorizer에서 제공하는 자체 불용어 사용

In [91]:
from sklearn.feature_extraction.text import CountVectorizer

text=["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words="english")
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1]]
{'family': 0, 'important': 1, 'thing': 2}


#### (3) NLTK에서 지원하는 불용어 사용

In [92]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

text=["Family is not an important thing. It's everything."]
sw = stopwords.words("english")
vect = CountVectorizer(stop_words =sw)
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
