In [16]:
from konlpy.tag import Okt
import re

okt = Okt()

# 정규 표현식을 통해 온점을 제거.
doc1 = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."
token = re.sub("(\.)","",doc1)

# okt 형태소 분석기를 통해 토큰화 작업을 수행한 뒤에 token에 저장
token = okt.morphs(token)

print(token)

['정부', '가', '발표', '하는', '물가상승률', '과', '소비자', '가', '느끼는', '물가상승률', '은', '다르다']


In [17]:
word2index = {}
bow = []

for voca in token:
    if voca not in word2index.keys():
        word2index[voca] = len(word2index)
        bow.insert(len(word2index)-1,1)
    else:
        index = word2index.get(voca)
        bow[index]=bow[index]+1

In [18]:
print(word2index)
print(bow)

{'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}
[1, 2, 1, 1, 2, 1, 1, 1, 1, 1]


In [19]:
okt = Okt()

# 정규 표현식을 통해 온점을 제거.
doc2 = "소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다."
token = re.sub("(\.)","",doc2)

# okt 형태소 분석기를 통해 토큰화 작업을 수행한 뒤에 token에 저장
token = okt.morphs(token)

print(token)

['소비자', '는', '주로', '소비', '하는', '상품', '을', '기준', '으로', '물가상승률', '을', '느낀다']


In [20]:
word2index = {}
bow = []

for voca in token:
    if voca not in word2index.keys():
        word2index[voca] = len(word2index)
        bow.insert(len(word2index)-1,1)
    else:
        index = word2index.get(voca)
        bow[index]=bow[index]+1

In [21]:
print(word2index)
print(bow)

{'소비자': 0, '는': 1, '주로': 2, '소비': 3, '하는': 4, '상품': 5, '을': 6, '기준': 7, '으로': 8, '물가상승률': 9, '느낀다': 10}
[1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1]


In [25]:
okt = Okt()

# 정규 표현식을 통해 온점을 제거.
doc3 = doc2 + " " + doc1
token = re.sub("(\.)","",doc3)

# okt 형태소 분석기를 통해 토큰화 작업을 수행한 뒤에 token에 저장
token = okt.morphs(token)

print(token)

['소비자', '는', '주로', '소비', '하는', '상품', '을', '기준', '으로', '물가상승률', '을', '느낀다', '정부', '가', '발표', '하는', '물가상승률', '과', '소비자', '가', '느끼는', '물가상승률', '은', '다르다']


In [26]:
word2index = {}
bow = []

for voca in token:
    if voca not in word2index.keys():
        word2index[voca] = len(word2index)
        bow.insert(len(word2index)-1,1)
    else:
        index = word2index.get(voca)
        bow[index]=bow[index]+1

In [27]:
print(word2index)
print(bow)

{'소비자': 0, '는': 1, '주로': 2, '소비': 3, '하는': 4, '상품': 5, '을': 6, '기준': 7, '으로': 8, '물가상승률': 9, '느낀다': 10, '정부': 11, '가': 12, '발표': 13, '과': 14, '느끼는': 15, '은': 16, '다르다': 17}
[2, 1, 1, 1, 2, 1, 2, 1, 1, 3, 1, 1, 2, 1, 1, 1, 1, 1]


In [28]:
# CountVectorizer로 BOW 만들기
from sklearn.feature_extraction.text import CountVectorizer

corpus = ["you know I want your love. Because I love you."]

vector = CountVectorizer()

print(vector.fit_transform(corpus).toarray())

print(vector.vocabulary_)


[[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


In [29]:
# 사용자가 직접 정의한 불용어 사용
from sklearn.feature_extraction.text import CountVectorizer

text = ["Family is not an important thing. It's everything"]
# 불용어 정의
vect = CountVectorizer(stop_words=["the","a","an","is","not"])

print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)


[[1 1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


In [30]:
# 패키지에 수록된 불용어 사용
from sklearn.feature_extraction.text import CountVectorizer

text = ["Family is not an important thing. It's everything"]
# 불용어 정의
vect = CountVectorizer(stop_words="english")

print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)


[[1 1 1]]
{'family': 0, 'important': 1, 'thing': 2}


In [31]:
# 패키지에 수록된 불용어 사용
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

text = ["Family is not an important thing. It's everything"]
# 불용어 정의
sw = stopwords.words("english")
vect = CountVectorizer(stop_words=sw)

print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
