<a href="https://colab.research.google.com/github/limkaram/Natural_language_processing_with_deep_learning/blob/main/Bag_of_Words(BoW).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Bag Of Words(BoW)

* 가방안에 단어들을 넣어 섞는 개념
* 단어들의 순서를 고려치 않고, 단어의 개수가 중요한 영향 요소가 됨
* BoW를 만드는 과정
    - 각 단어에 고유한 Integer Encoding 진행
    - 각 인덱스의 위치에 단어 토큰의 등장 획수를 기록한 벡터 생성

In [None]:
!pip install konlpy

1. 직접 BoW 구하기

In [None]:
from konlpy.tag import Okt
import re

okt = Okt()

text = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."

# regex 활용 온점 제거
token = re.sub('\.', '', text)
print(token)

token = okt.morphs(token)
print(token)

word2index = {}
bow = []

for voca in token:
    if voca not in word2index:
        word2index[voca] = len(word2index)
        bow.insert(len(word2index), 1)
    else:
        idx = word2index[voca]
        bow[idx] += 1
print(word2index)
print(bow)

2. 사이킷 런 CountVectorizer 활용 BoW 만들기

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ['you know I want your love. because I love you.']
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray())  # 코퍼스로부터 각 단어의 빈도수를 기록
print(vector.vocabulary_)  # 각 단어의 인덱스가 어떻게 부여되었는지를 보여 줌

* CountVectorizer는 BoW를 만들 때 기본적으로 단어의 길이가 2이상인 문자에 대해서만 토큰으로 인식
* CountVectorizer는 띄어쓰기만을 기준으로 단어를 자르는 낮은 수준의 토큰화를 진행하여 BoW를 만듬
* 한국어에는 조사 등의 이유로 제대로 BoW가 만들어지지 않음

2-1. 불용어 제어 BoW 만들기(사용자 직접 정의한 불용어)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

text = ["Family is not an important thing. It's everything."]
vector = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])
print(vector.fit_transform(text).toarray())
print(vector.vocabulary_)

2-2. CountVectorizer에서 제공하는 자체 불용어 사용

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

text = ["Family is not an important thing. It's everything."]
vector = CountVectorizer(stop_words='english')
print(vector.fit_transform(text).toarray())
print(vector.vocabulary_)

2-3. NLTK에서 지원하는 불용어 사용

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
import nltk
nltk.download('stopwords')

text = ["Family is not an important thing. It's everything."]
stop_words = stopwords.words('english')
vector = CountVectorizer(stop_words=stop_words)
print(vector.fit_transform(text).toarray())
print(vector.vocabulary_)