In [1]:
text = '정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.'

In [2]:
from konlpy.tag import Okt

okt = Okt()

def build_bag_of_words(document):
    #온점 제거 및 형태소 분석
    document = document.replace('.','')
    tokenized_document = okt.morphs(document) #형태소 토큰화
    
    word_to_index={} #단어 사전
    bow = []  #단어 가방
    
    #단어의 중복을 제거
    for word in tokenized_document: #형태소 토큰화된 단어가
        if word not in word_to_index.keys(): #단어 집합에 포함되지 않는다면
            word_to_index[word] = len(word_to_index) #0이상의 정수를 차근차근 넣어준다.
            #Bow에 전부 기본값1을 넣는다.
            bow.insert(len(word_to_index)-1, 1)
            #Bow는 빈도수 기반이니 단어가 가지는 인덱스 위치에 빈도수를 넣는다.
        else:
            #재등장하는 단어의 인덱스
            index = word_to_index.get(word)#단어의 인덱스를 얻는다. 벡터의 위치
            #재등장하는 단어는 해당하는 인덱스의 위치에 1을 더한다.
            bow[index] = bow[index]+1
    return word_to_index, bow #단어사전과 문장이 bow로 인코딩된 벡터
        

            

In [3]:
vocab, bow = build_bag_of_words(text)
print('단어집합(단어:인덱스위치) : ', vocab)
print('bag of words vector : ', bow)
#한 문장으로 동작해서 단어의 순서가 문장의 순서랑 같지 원래는 단어의 순서 무시하고 빈도수 기반 단어표현

단어집합(단어:인덱스위치) :  {'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}
bag of words vector :  [1, 2, 1, 1, 2, 1, 1, 1, 1, 1]


In [4]:
doc2 = '소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.'

In [5]:

vocab, bow = build_bag_of_words(doc2)
print('vocabulary :', vocab)
print('bag of words vector :', bow)  #문서를 수치화. 해당되는 단어의 인덱스에 벡터를 넣는다.
#

vocabulary : {'소비자': 0, '는': 1, '주로': 2, '소비': 3, '하는': 4, '상품': 5, '을': 6, '기준': 7, '으로': 8, '물가상승률': 9, '느낀다': 10}
bag of words vector : [1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1]


In [6]:
#두개의 문장을 합쳐서
#단어사전을 만들 수도 있고,
#bow벡터 생성도 할수있다
str = text+' '+doc2
vocab, bow = build_bag_of_words(str)
print('vocab : ', vocab)
print('bag of words vector : ', bow)

#단어들의 순서는 문시. 단어들의 인덱스에 초첨

vocab :  {'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9, '는': 10, '주로': 11, '소비': 12, '상품': 13, '을': 14, '기준': 15, '으로': 16, '느낀다': 17}
bag of words vector :  [1, 2, 1, 2, 3, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1]


In [7]:
from sklearn.feature_extraction import DictVectorizer
v = DictVectorizer(sparse=False)
D = [{'A': 1, 'B': 2}, {'B': 3, 'C': 1}]
#문서자체가 딕셔너리로 단어:빈도수로 되어 있어야 한다.
X = v.fit_transform(D) #문서들을 bow벡터화
X

array([[1., 2., 0.],
       [0., 3., 1.]])

In [8]:
v.feature_names_

['A', 'B', 'C']

In [9]:
v.dtype

numpy.float64

In [10]:
v.transform({'C':4, 'D':3})

array([[0., 0., 4.]])

In [11]:
from sklearn.feature_extraction.text import CountVectorizer

corpus=['you know I want your love. because I love you'] #하나의 문서
vector = CountVectorizer()

#코퍼스로부터 각 단어의 빈도수를 기록
print('bag of words vector :', vector.fit_transform(corpus).toarray())

#각 단어의 인덱스가 어떻게 부여되었는지를 출력
print('vocabulary: ', vector.vocabulary_)

bag of words vector : [[1 1 2 1 2 1]]
vocabulary:  {'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


In [12]:
doc3 = ['I was so upset. because she bordered me']
vector.transform(doc3).toarray()

array([[1, 0, 0, 0, 0, 0]], dtype=int64)

In [13]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
    'The last document?',
]

In [14]:
vect = CountVectorizer(analyzer="word").fit(corpus)
vect.vocabulary_

{'this': 9,
 'is': 3,
 'the': 7,
 'first': 2,
 'document': 1,
 'second': 6,
 'and': 0,
 'third': 8,
 'one': 5,
 'last': 4}

In [23]:
vect = CountVectorizer(ngram_range=(2,2))

In [24]:
vect.fit(corpus)

CountVectorizer(ngram_range=(2, 2))

In [25]:
vect.vocabulary_

{'this is': 12,
 'is the': 2,
 'the first': 7,
 'first document': 1,
 'the second': 9,
 'second second': 6,
 'second document': 5,
 'and the': 0,
 'the third': 10,
 'third one': 11,
 'is this': 3,
 'this the': 13,
 'the last': 8,
 'last document': 4}

In [28]:
vect.transform(["is the book broken?"]).toarray()

array([[0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)

In [18]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
    'The last document?',
]

In [19]:
vect = CountVectorizer(max_df=4, min_df=2).fit(corpus)
#문서에서 각 텍스트의 동일한 단어는 하나의 단어 취급 
vect.vocabulary_, vect.stop_words_

({'this': 3, 'is': 2, 'first': 1, 'document': 0},
 {'and', 'last', 'one', 'second', 'the', 'third'})

In [20]:
vect.transform(corpus).toarray().sum(axis=0) #열방향

array([4, 2, 3, 3], dtype=int64)

In [21]:
vect.transform(corpus).toarray()

array([[1, 1, 1, 1],
       [1, 0, 1, 1],
       [0, 0, 0, 0],
       [1, 1, 1, 1],
       [1, 0, 0, 0]], dtype=int64)

In [29]:
import numpy as np

In [31]:
array = np.arange(2*2*3).reshape(2,2,3)
print('array shape : ', array.shape)
print(array)
print()


array shape :  (2, 2, 3)
[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]



In [32]:
print(np.sum(array))

66


In [34]:
sum = np.sum(array,axis=0)
sum

array([[ 6,  8, 10],
       [12, 14, 16]])

In [40]:
sum = np.sum(array,axis=2) #축이 높다 1차원웍
sum

array([[ 3, 12],
       [21, 30]])

In [35]:
sum = np.sum(array,axis=1)
sum

array([[ 3,  5,  7],
       [15, 17, 19]])

In [38]:
array1 = np.arange(20).reshape(5,4)
array1

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

In [39]:
np.sum(array1,axis=0) #축이 낮다, 고차원

array([40, 45, 50, 55])

In [41]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

# (2)CountVectorizer에서 제공하는 자체 불용어 사용


In [43]:
text = ["Family is not an important thing. It's everything."] #문사
vect = CountVectorizer(stop_words='english') #벡터화 클래스에 불용어 리스트 지정
print('bag of words vector :',vect.fit_transform(text).toarray()) #텍스트를 학습과 벡터화
print('vocabulary :',vect.vocabulary_) #단어 집합 출력

bag of words vector : [[1 1 1]]
vocabulary : {'family': 0, 'important': 1, 'thing': 2}


In [44]:
# (3) nltk에서 제공하는 자체 불용어 사용
text = ["Family is not an important thing. It's everything."]
stop_words = stopwords.words("english")
vect = CountVectorizer(stop_words=stop_words)
print('bag of words vector :',vect.fit_transform(text).toarray()) 
print('vocabulary :',vect.vocabulary_)


bag of words vector : [[1 1 1 1]]
vocabulary : {'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
