<a href="https://colab.research.google.com/github/ttury/Deep-Learning-For-Natural-Language-Processing/blob/master/Bag_Of_Words.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Bag of Words(BoW)**
---

> 단어의 등장 순서를 고려하지 않고 단어 사전에 포함된 단어의 빈도수를 기록

> 정수 인코딩 후 각 단어의 인덱스에 단어의 빈도수 값이 들어가는 리스트 만들기 -> BoW

> 단어의 인덱스 할당은 중요하지 않음

> 한 문서에서 만든 단어 사전을 기준으로 다른 문서에서 BoW를 만들기도 함

<br/>

## CountVectorizer
---

`from sklearn.feature_extraction.text import CountVectorizer`

> 빈도 수 기록/코퍼스 입력 : fit_transform()

> 정수 인덱싱된 단어 사전 : vocabulary_

<br/>

## 불용어를 제거한 BoW
---

> 객체 생성 시 stop_words 매개변수로 입력 가능

> 사용자 정의 불용어

> CounterVectorizer 지원 불용어

> NLTK 지원 불용어


In [None]:
pip install konlpy

In [None]:
from konlpy.tag import Okt
import re

okt = Okt()

text = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."
sent_token = re.sub("(\.)", "", text) # 온점 제거
word_tokens = okt.morphs(sent_token) # 단어 토큰화
print(word_tokens)
print()

word2index = dict()
bow = list()

for word_token in word_tokens:
  if word_token not in word2index.keys(): # 단어 사전에 없으면 추가
    word2index[word_token] = len(word2index)
    bow.insert(word2index[word_token], 1) # 존재하지 않는 인덱스에 값을 넣기 위해 insert 사용
  else: # 단어 사전에 있으면 단어 빈도 증가
    index = word2index.get(word_token)
    bow[index] += 1

print(word2index)
print(bow)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

text = 'you know I want your love. because I love you.'
corpus = [text] # fit_transform 함수의 매개변수가 리스트
print(corpus)
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록
print(vector.vocabulary_) # word2index, 단어 사전

In [None]:
# Custom Stopwords

from sklearn.feature_extraction.text import CountVectorizer

text = "Family is not an important thing. It's everything"
corpus = [text]
stopwords = ["the", "a", "an", "is", "not"]
vector = CountVectorizer(stop_words = stopwords)
print(vector.fit_transform(corpus).toarray())
print(vector.vocabulary_)

In [None]:
# CountVectorizer Standard Stopwords

from sklearn.feature_extraction.text import CountVectorizer

text = "Family is not an important thing. It's everything"
corpus = [text]
vector = CountVectorizer(stop_words = 'english')
print(vector.fit_transform(corpus).toarray())
print(vector.vocabulary_)

In [None]:
# NLTK Standard Stopwords

from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer

text = "Family is not an important thing. It's everything"
corpus = [text]
sw = set(stopwords.words('english'))
vector = CountVectorizer(stop_words = sw)
print(vector.fit_transform(corpus).toarray())
print(vector.vocabulary_)