<a href="https://colab.research.google.com/github/PMiseon/2022-1-Database/blob/main/%EC%8B%A4%EC%8A%B5%EA%B3%BC%EC%A0%9C_Bag_of_Words.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Bow를 만ㄷ는 과정 두 가지
- 각 단어에 고유한 정수 인덱스 부여 - 단어 집합 생성.
- 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터 만들기.

In [2]:
!pip install konlpy


Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m52.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m42.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [3]:
from konlpy.tag import Okt

okt = Okt() #Open Korean Text

def build_bag_of_words(document):
  #온점 제거 및 형태소 분석
  document = document.replace('.', '')
  tokenized_document = okt.morphs(document)

  word_to_index = {}
  bow = []

  for word in tokenized_document:
    if word not in word_to_index.keys():
      word_to_index[word] = len(word_to_index)
      bow.insert(len(word_to_index) - 1, 1)
    else: # 재등장하는 단어의 인덱스
      index = word_to_index.get(word)
      bow[index] = bow[index] + 1

  return word_to_index,bow


In [5]:
doc1 = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."
vocab, bow = build_bag_of_words(doc1)
print('vocabulary :', vocab)
print('bag of words vector :', bow)

vocabulary : {'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}
bag of words vector : [1, 2, 1, 1, 2, 1, 1, 1, 1, 1]


In [4]:
doc2 = '소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.'

vocab, bow = build_bag_of_words(doc2)
print('vocabulary :', vocab)
print('bag of words vector :', bow)

vocabulary : {'소비자': 0, '는': 1, '주로': 2, '소비': 3, '하는': 4, '상품': 5, '을': 6, '기준': 7, '으로': 8, '물가상승률': 9, '느낀다': 10}
bag of words vector : [1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1]


In [7]:
doc3 = doc1 + ' ' + doc2
# 문서3: 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다. 소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.

vocab, bow = build_bag_of_words(doc3)
print('vocabulary :', vocab)
print('bag of words vector :', bow)

vocabulary : {'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9, '는': 10, '주로': 11, '소비': 12, '상품': 13, '을': 14, '기준': 15, '으로': 16, '느낀다': 17}
bag of words vector : [1, 2, 1, 2, 3, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1]


#CountVectorizer 클래스로 BoW 만들기

사이킷 런에서는 단어의 빈도를 Count 하여 Vector로 만드는 CountVectorizer 클래스 지원.

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ['you know I want your love. because I love you.']
vector = CountVectorizer()

#코퍼스로부터 각 단어의 빈도수를 기록
print('bag of words vector: ',vector.fit_transform(corpus).toarray())

#각 단어의 인덱스가 어떻게 부여되었는지를 출력
print('Vocabulary: ', vector.vocabulary_)

bag of words vector:  [[1 1 2 1 2 1]]
Vocabulary:  {'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


# 4. 불용어를 제거한 BoW 만들기

- 불용어 : 자연어 처리에서 별로 의미를 갖지 않는 단어들
- BoW를 만들때 불용어를 제거하는 일은 자연어 처리의 정확도를 높이기 위해 선택할 수 있는 전처리 기법

- CountVectorizer -> 불용어 제거 기능 지원

In [10]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

In [11]:
#(1) 사용자가 직접 정의한 불용어 사용

text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words=["the","a","an","is","not"])
print('bag of words vector : ', vect.fit_transform(text).toarray())
print('vocabulary : ', vect.vocabulary_)

bag of words vector :  [[1 1 1 1 1]]
vocabulary :  {'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


In [12]:
#(2) CountVectorizer에서 제공하는 자체 불용어 사용
text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words="english")
print('bag of words vector: ',vect.fit_transform(text).toarray())
print('vocabulary: ',vect.vocabulary_)

bag of words vector:  [[1 1 1]]
vocabulary:  {'family': 0, 'important': 1, 'thing': 2}


In [14]:
#(3)NTLK에서 지원하는 불용어 사용
import nltk
nltk.download('stopwords')

text = ["Family is not an important thing. It's everything."]
stop_words = stopwords.words("english")
vect = CountVectorizer(stop_words=stop_words)
print('bag of words vector: ',vect.fit_transform(text).toarray())
print('vocabulary: ', vect.vocabulary_)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


bag of words vector:  [[1 1 1 1]]
vocabulary:  {'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
