<a href="https://colab.research.google.com/github/cku7808/NLP-practice/blob/main/BagOfWords.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Bag Of Words(BoW)**

**단어의 등장 순서를 고려하지 않는 빈도 수 기반의 단어 표현 방법**

BoW 만드는 과정
1. 각 단어에 고유한 정수 인덱스 부여
2. 각 인덱스 위치에 단어 토큰의 등장 횟수 벡터 생성

예제 1) 정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.

In [6]:
pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [7]:
from konlpy.tag import Okt

okt = Okt()

In [8]:
def build_bag_of_words(document):
  document = document.replace(".","") # 온점 제거
  tokenized_document = okt.morphs(document) # okt.morphs : 텍스트를 형태소 단위로 나눔

  word_to_index = {} # 단어 사전
  bow = [] # 등장 횟수

  for word in tokenized_document:
    if word not in word_to_index.keys(): # 단어 사전에 등장하지 않은 단어
      word_to_index[word] = len(word_to_index) # 고유한 정수 인덱스 부여
      bow.insert(len(word_to_index)-1, 1) # bow에 기본값 1 부여
    else: # 재등장하는 단어
      index = word_to_index.get(word) # 재등장한 단어의 인덱스 값 받기
      bow[index] += 1 # 등장 횟수에 1을 더하기

  return word_to_index, bow 

In [9]:
doc1 = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."
vocab, bow = build_bag_of_words(doc1)

print("vocabulary :",vocab)
print("bag of words vector :",bow)

vocabulary : {'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}
bag of words vector : [1, 2, 1, 1, 2, 1, 1, 1, 1, 1]


# **영어 코퍼스에 대해 BoW 만들기 -> CountVectorizer 사용**

CountVectorizer가 수행하는 일
1. 문서를 토큰 리스트로 변환한다.

2. 각 문서에서 토큰의 출현 빈도를 센다.

3. 각 문서를 BOW 인코딩 벡터로 변환한다.

In [10]:
from sklearn.feature_extraction.text import CountVectorizer

In [12]:
corpus = ["you know I want your love. because I love you."]
vector = CountVectorizer()

# 단어 빈도수 기록(BoW)
print("bag of words :",vector.fit_transform(corpus).toarray())

# 단어 인덱스 부여 결과 확인
print("vocabulary :",vector.vocabulary_)

bag of words : [[1 1 2 1 2 1]]
vocabulary : {'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


# **불용어를 제거한 BoW**

불용어 : 자연어 처리에서 별로 의미를 갖지 않는 단어들
ex) the, a, an, is, not ,,,

CountVectorizer 는 불용어 제거 기능 지원 -> 직접 불용어 지정도 가능

**(1) 사용자 정의 불용어 제거**

In [13]:
text = ["family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words=["the","a","an","is","not"])
print("bag of words :", vect.fit_transform(text).toarray())
print("vocabulary :",vect.vocabulary_)

bag of words : [[1 1 1 1 1]]
vocabulary : {'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


**(2) CountVectorizer 제공 불용어 제거**

In [14]:
text = ["family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words="english")
print("bag of words :", vect.fit_transform(text).toarray())
print("vocabulary :",vect.vocabulary_)

bag of words : [[1 1 1]]
vocabulary : {'family': 0, 'important': 1, 'thing': 2}


**(3) NLTK 제공 불용어 제거**

In [17]:
import nltk
nltk.download("stopwords")

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [18]:
text = ["family is not an important thing. It's everything."]
stop_words = stopwords.words("english")
vect = CountVectorizer(stop_words=stop_words)
print("bag of words :", vect.fit_transform(text).toarray())
print("vocabulary :",vect.vocabulary_)

bag of words : [[1 1 1 1]]
vocabulary : {'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
