In [None]:
!pip install konlpy

In [3]:
from konlpy.tag import Okt

In [4]:
okt = Okt()

def build_bag_of_words(document):
  # 데이터 전처리 및 형태소 분석
  document = document.replace('?','')
  tokenized_document = okt.morphs(document)

  word_to_index = {}
  bow = []

  for word in tokenized_document:
    if word not in word_to_index.keys():
      word_to_index[word] = len(word_to_index)
      # Bow를 기본값으로 설정
      bow.insert(len(word_to_index) - 1, 1)
    else:
      # 재등장하는 단어의 인덱스
      index = word_to_index.get(word)
      # 재등장한 단어는 해당하는 인덱스의 위치에 1을 더한다
      bow[index] = bow[index] + 1
  return word_to_index, bow

In [6]:
text = "어제저녁은 떡볶이를 먹었는데 오늘 저녁은 뭐를 먹을까?"
vocab, bow = build_bag_of_words(text)
print('vocabulary :', vocab)
print('bag of words vector :', bow)

vocabulary : {'어제': 0, '저녁': 1, '은': 2, '떡볶이': 3, '를': 4, '먹었는데': 5, '오늘': 6, '뭐': 7, '먹을까': 8}
bag of words vector : [1, 2, 2, 1, 2, 1, 1, 1, 1]


In [None]:
# CounterVectorizer 클래스로 Bow 만들기

In [8]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ['you know I want your love. because I love you.']
vector = CountVectorizer()

# 코퍼스로부터 각 단어의 빈도수를 기록
print('bag og words vector :', vector.fit_transform(corpus).toarray())

# 각 단어의 인덱스가 어떻게 부여되었는지를 출력
print('vocavulary :', vector.vocabulary_)

# Countervectorize는 길이가 2 이상인 문자만 토큰으로 인식
# 띄어쓰기만을 기준으로 단어를 자른다

bag og words vector : [[1 1 2 1 2 1]]
vocavulary : {'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


In [None]:
# 불용어를 제거한 Bow

In [9]:
import nltk
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [12]:
text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])
# 불용어 직접 정의
print('bag of words vector :',vect.fit_transform(text).toarray())
print('vocabulary :',vect.vocabulary_)

bag of words vector : [[1 1 1 1 1]]
vocabulary : {'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


In [11]:
text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words="english")
# CountVectorizer에서 제공하는 불용어 사용
print('bag of words vector :',vect.fit_transform(text).toarray())
print('vocabulary :',vect.vocabulary_)

bag of words vector : [[1 1 1]]
vocabulary : {'family': 0, 'important': 1, 'thing': 2}


In [13]:
text = ["Family is not an important thing. It's everything."]
stop_words = stopwords.words("english")
vect = CountVectorizer(stop_words=stop_words)
# nltk에서 지원하는 불용어 사용
print('bag of words vector :',vect.fit_transform(text).toarray()) 
print('vocabulary :',vect.vocabulary_)

bag of words vector : [[1 1 1 1]]
vocabulary : {'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
