이 자료는 위키독스 딥 러닝을 이용한 자연어 처리 입문의 bag of words의 튜토리얼 자료입니다.  

링크 : https://wikidocs.net/22650

In [3]:
pip install konlpy

Collecting konlpy
  Using cached konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
Collecting numpy>=1.6
  Using cached numpy-1.21.6-cp37-cp37m-win_amd64.whl (14.0 MB)
Collecting JPype1>=0.7.0
  Downloading JPype1-1.4.1-cp37-cp37m-win_amd64.whl (344 kB)
     ------------------------------------- 344.4/344.4 kB 20.9 MB/s eta 0:00:00
Collecting lxml>=4.1.0
  Downloading lxml-4.9.2-cp37-cp37m-win_amd64.whl (3.8 MB)
     ---------------------------------------- 3.8/3.8 MB 35.2 MB/s eta 0:00:00
Installing collected packages: numpy, lxml, JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0 lxml-4.9.2 numpy-1.21.6
Note: you may need to restart the kernel to use updated packages.


# 1. Bag of Words by Custom

##### 0) 라이브러리 불러오기

In [None]:
import nltk
from konlpy.tag import Okt

nltk.download('stopwords')

##### 1) 한국어 말뭉치 선언

In [None]:
okt = Okt()

##### 2) 함수 정의

In [None]:
def build_bag_of_words(document):
  # (1) 불용어 제거
  document = document.replace('.', '')
  # (2) 형태소 추출
  tokenized_document = okt.morphs(document)

  # (3) 변수 선언
  word_to_index = {}
  bow = []

  # (4) for문 순회
  for word in tokenized_document:
    # 1] word_to_index Dictionary에 존재하지 않는 단어인 경우 : word_to_index Dictionary 생성 + BoW 기본값 1 설정
    if word not in word_to_index.keys():
      word_to_index[word] = len(word_to_index)  
      bow.insert(len(word_to_index) - 1, 1)
    # 2] word_to_index Dictionary에 존재하는 단어인 경우 : word_to_index Dictionary 내의 index 증가 + BoW index 증가
    else:
      index = word_to_index.get(word)
      bow[index] = bow[index] + 1
  
  return word_to_index, bow

##### 3) 예제

In [None]:
doc1 = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."

In [None]:
vocab, bow = build_bag_of_words(doc1)

In [None]:
print('vocabulary :', vocab)
print('bag of words vector :', bow)

vocabulary : {'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}
bag of words vector : [1, 2, 1, 1, 2, 1, 1, 1, 1, 1]


In [None]:
doc2 = '소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.'

In [None]:
vocab, bow = build_bag_of_words(doc2)

vocabulary : {'소비자': 0, '는': 1, '주로': 2, '소비': 3, '하는': 4, '상품': 5, '을': 6, '기준': 7, '으로': 8, '물가상승률': 9, '느낀다': 10}
bag of words vector : [1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1]


In [None]:
print('vocabulary :', vocab)
print('bag of words vector :', bow)

In [None]:
doc3 = doc1 + ' ' + doc2
print(doc3)

정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다. 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.


In [None]:
vocab, bow = build_bag_of_words(doc3)

vocabulary : {'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9, '는': 10, '주로': 11, '소비': 12, '상품': 13, '을': 14, '기준': 15, '으로': 16, '느낀다': 17}
bag of words vector : [1, 2, 1, 2, 3, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1]


In [None]:
print('vocabulary :', vocab)
print('bag of words vector :', bow)

# 3. Bag of Words(BoW) by CountVectorizer

##### 1) 라이브러리 불러오기

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

##### 2) Corpus 불러오기

In [None]:
corpus = ['you know I want your love. because I love you.']

##### 3) CounterVectorizer 선언

In [None]:
vector = CountVectorizer()

##### 4) 출력

In [None]:
# (1) 각 단어 빈도수
print('bag of words vector :', vector.fit_transform(corpus).toarray()) 

# (2) 각 단어 인덱스 부여
print('vocabulary :',vector.vocabulary_)

bag of words vector : [[1 1 2 1 2 1]]
vocabulary : {'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


# 4. 불용어 제거한 Bag of Words(BoW) by CountVectorizer

##### 1) 라이브러리 불러오기

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

In [None]:
# 2) Corpus 불러오기
text = ["Family is not an important thing. It's everything."]
# 3) CountVectorizer 선언 + 불용어 제거
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])
# 4) 출력
print('bag of words vector :',vect.fit_transform(text).toarray())
print('vocabulary :',vect.vocabulary_)

bag of words vector : [[1 1 1 1 1]]
vocabulary : {'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


In [None]:
# 2) Corpus 불러오기
text = ["Family is not an important thing. It's everything."]
# 3) CountVectorizer 선언 + 불용어 제거
vect = CountVectorizer(stop_words="english")
# 4) 출력
print('bag of words vector :',vect.fit_transform(text).toarray())
print('vocabulary :',vect.vocabulary_)

bag of words vector : [[1 1 1]]
vocabulary : {'family': 0, 'important': 1, 'thing': 2}


In [None]:
# 2) Corpus 불러오기
text = ["Family is not an important thing. It's everything."]
# 3) CountVectorizer 선언 + 불용어 제거
stop_words = stopwords.words("english")
vect = CountVectorizer(stop_words=stop_words)
# 4) 출력
print('bag of words vector :',vect.fit_transform(text).toarray()) 
print('vocabulary :',vect.vocabulary_)

bag of words vector : [[1 1 1 1]]
vocabulary : {'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
