# Bag of Words(BoW)
단어의 등장 순서를 고려하지 않는 빈도수 기반의 단어 표현 방법인 Bag of Words

### 1. Bag of Words란?
Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법입니다. 

Bag of Words를 직역하면 단어들의 가방이라는 의미입니다. 단어들이 들어있는 가방을 상상해봅시다. 갖고있는 어떤 텍스트 문서에 있는 단어들을 가방에다가 전부 넣습니다. 그러고나서 이 가방을 흔들어 단어들을 섞습니다. 만약, 해당 문서 내에서 특정 단어가 N번 등장했다면, 이 가방에는 그 특정 단어가 N개 있게됩니다. 또한 가방을 흔들어서 단어를 섞었기 때문에 더 이상 단어의 순서는 중요하지 않습니다.

BoW를 만드는 과정을 이렇게 두 가지 과정으로 생각해보겠습니다.
1. 우선, 각 단어에 고유한 정수 인덱스를 부여합니다.
2. 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만듭니다.

In [227]:
import pandas as pd
from konlpy.tag import Okt   #. Okt(Open Korea Text)는 원래 이름이 Twitter였으나 0.5.0 버전 이후부터 이름이 Okt로 바뀌었다.
import re

okt = Okt()

sentense = "한글 한글은 한글로. LG CNS가 국내 처음이자 유일하게 AI의 연어 이해를 위한 AI 학습용 표준데이터 ‘코쿼드 2.0(KorQuAD 2.0)’를 5일 공개하고 국내 AI 업계에 무료로 개방한다고 발표했다."


In [228]:
print(okt.morphs(sentense))                      # 형태소분석
print('\n\n',okt.morphs(sentense, stem=True))   # 어간추출
print('\n\n',okt.nouns(sentense))   # 명사
#print('\n\n',okt.phrases(sentense)) # 어절
print('\n\n',okt.pos(sentense))     # 품사태깅
xpos = okt.pos(sentense)
print(xpos[0][1])

['한글', '한글', '은', '한글', '로', '.', 'LG', 'CNS', '가', '국내', '처음', '이자', '유일하게', 'AI', '의', '연어', '이해', '를', '위', '한', 'AI', '학습', '용', '표준', '데이터', '‘', '코쿼드', '2.0', '(', 'KorQuAD', '2.0', ')’', '를', '5일', '공개', '하고', '국내', 'AI', '업계', '에', '무료', '로', '개방', '한', '다', '고', '발표', '했다', '.']


 ['한글', '한글', '은', '한글', '로', '.', 'LG', 'CNS', '가다', '국내', '처음', '이자', '유일하다', 'AI', '의', '연어', '이해', '를', '위', '한', 'AI', '학습', '용', '표준', '데이터', '‘', '코쿼드', '2.0', '(', 'KorQuAD', '2.0', ')’', '를', '5일', '공개', '하고', '국내', 'AI', '업계', '에', '무료', '로', '개방', '한', '다', '고', '발표', '하다', '.']


 ['한글', '한글', '한글', '국내', '처음', '이자', '의', '연어', '이해', '위', '학습', '용', '표준', '데이터', '코쿼드', '를', '공개', '국내', '업계', '무료', '개방', '고', '발표']


 [('한글', 'Noun'), ('한글', 'Noun'), ('은', 'Josa'), ('한글', 'Noun'), ('로', 'Josa'), ('.', 'Punctuation'), ('LG', 'Alpha'), ('CNS', 'Alpha'), ('가', 'Verb'), ('국내', 'Noun'), ('처음', 'Noun'), ('이자', 'Noun'), ('유일하게', 'Adjective'), ('AI', 'Alpha'), ('의', 'Noun'), ('연어', 'Noun'), ('이해',

In [229]:
def word_tokenize(sentense):
    vocab = okt.morphs(sentense)
    print("All word class\n", vocab)
    
    #'Alpha','Noun','Number', 'Verb', 'Adjective', 'Adverb', 'Punctuation'
    word_class = ['Alpha','Noun','Number', 'Adjective']
    xvocab = okt.pos(sentense)
    vocab =[]
    
    for word, wc in xvocab:
        if wc in word_class and len(word)>1:
            vocab.append(word)
    
    print("\nword_class = ['Alpha','Noun','Number', 'Adjective']\n",vocab)
    return vocab

In [230]:
def cleansing(vocab):
    ''' cleansing '''
    xvocab = []
    for word in vocab:
        x  = re.sub("[^0-9a-zA-Z가-힣]", "",word)
        if len(x) > 0:
            xvocab.append(re.sub("[^0-9a-zA-Z가-힣]", "",word))

    print("[^0-9a-zA-Z가-힣]\n",xvocab)
    return xvocab

In [231]:
def make_bow(vocab):   
    idx_vocab = {}
    bow =[]

    for word in vocab:
        if word not in idx_vocab.keys():
            idx_vocab[word] = len(idx_vocab)
            bow.insert(len(idx_vocab)-1,1)
        else:
            idx = idx_vocab.get(word)
            bow[idx] = bow[idx]+1

    print(idx_vocab,'\n', bow, '\n\n')

    xdf = pd.DataFrame(list(idx_vocab.keys()), columns=['word'])
    xdf['cnt'] = bow
    xdf.sort_values(by=['cnt'],axis=0,ascending=False, inplace=True)
    
    return xdf

In [232]:
# Tokenize
vocab = word_tokenize(sentense)

All word class
 ['한글', '한글', '은', '한글', '로', '.', 'LG', 'CNS', '가', '국내', '처음', '이자', '유일하게', 'AI', '의', '연어', '이해', '를', '위', '한', 'AI', '학습', '용', '표준', '데이터', '‘', '코쿼드', '2.0', '(', 'KorQuAD', '2.0', ')’', '를', '5일', '공개', '하고', '국내', 'AI', '업계', '에', '무료', '로', '개방', '한', '다', '고', '발표', '했다', '.']

word_class = ['Alpha','Noun','Number', 'Adjective']
 ['한글', '한글', '한글', 'LG', 'CNS', '국내', '처음', '이자', '유일하게', 'AI', '연어', '이해', 'AI', '학습', '표준', '데이터', '코쿼드', '2.0', 'KorQuAD', '2.0', '5일', '공개', '국내', 'AI', '업계', '무료', '개방', '발표']


In [233]:
# Cleansing
vocab = cleansing(vocab)

[^0-9a-zA-Z가-힣]
 ['한글', '한글', '한글', 'LG', 'CNS', '국내', '처음', '이자', '유일하게', 'AI', '연어', '이해', 'AI', '학습', '표준', '데이터', '코쿼드', '20', 'KorQuAD', '20', '5일', '공개', '국내', 'AI', '업계', '무료', '개방', '발표']


In [234]:
# Make BoW
make_bow(vocab)

{'한글': 0, 'LG': 1, 'CNS': 2, '국내': 3, '처음': 4, '이자': 5, '유일하게': 6, 'AI': 7, '연어': 8, '이해': 9, '학습': 10, '표준': 11, '데이터': 12, '코쿼드': 13, '20': 14, 'KorQuAD': 15, '5일': 16, '공개': 17, '업계': 18, '무료': 19, '개방': 20, '발표': 21} 
 [3, 1, 1, 2, 1, 1, 1, 3, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1] 




Unnamed: 0,word,cnt
0,한글,3
7,AI,3
3,국내,2
14,20,2
12,데이터,1
20,개방,1
19,무료,1
18,업계,1
17,공개,1
16,5일,1


BoW는 각 단어가 등장한 횟수를 수치화하는 텍스트 표현 방법이기 때문에, 주로 어떤 단어가 얼마나 등장했는지를 기준으로 문서가 어떤 성격의 문서인지를 판단하는 작업에 사용. 

즉, 분류 문제나 여러 문서 간의 유사도를 구하는 문제에 주로 쓰입니다. 
- 가령, '달리기', '체력', '근력'과 같은 단어가 자주 등장하면 해당 문서를 체육 관련 문서로 분류할 수 있을 것이며,
- '미분', '방정식', '부등식'과 같은 단어가 자주 등장한다면 수학 관련 문서로 분류

### 3. CountVectorizer 클래스로 BoW 만들기
사이킷 런에서는 단어의 빈도를 Count하여 Vector로 만드는 CountVectorizer 클래스를 지원합니다. 이를 이용하면 영어에 대해서는 손쉽게 BoW를 만들 수 있습니다. CountVectorizer로 간단하고 빠르게 BoW를 만드는 실습을 진행해보도록 하겠습니다.

In [226]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ['you know 한글 한글은 한글로 I want your love. because I love you.']
vector = CountVectorizer()

# Record the frequency of each word from the Corpus
frq = vector.fit_transform(corpus).toarray()
print('frequency =>', frq)
print('Word/Index =>', vector.vocabulary_)

# Show how each word is indexed.
cv_vocab = sorted(vector.vocabulary_.items(), key=lambda x: x[1])
cvdf = pd.DataFrame(list(cv_vocab),columns=['word', 'idx'])
cvdf['cnt'] = frq[0]
cvdf.sort_values(by=['cnt'],axis=0,ascending=False, inplace=True)
cvdf

frequency => [[1 1 2 1 2 1 1 1 1]]
Word/Index => {'you': 4, 'know': 1, '한글': 6, '한글은': 8, '한글로': 7, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


Unnamed: 0,word,idx,cnt
2,love,2,2
4,you,4,2
0,because,0,1
1,know,1,1
3,want,3,1
5,your,5,1
6,한글,6,1
7,한글로,7,1
8,한글은,8,1


예제 문장에서 

- you와 love는 두 번씩 언급되었으므로 각각 인덱스 2와 인덱스 4에서 2의 값을 가지며, 그 외의 값에서는 1의 값을 가지는 것을 볼 수 있습니다. 
- 또한 알파벳 I는 BoW를 만드는 과정에서 사라졌는데, 이는 CountVectorizer가 기본적으로 길이가 2이상인 문자에 대해서만 토큰으로 인식하기 때문입니다. 
- 정제(Cleaning) 챕터에서 언급했듯이, 영어에서는 길이가 짧은 문자를 제거하는 것 또한 전처리 작업으로 고려되기도 합니다.

주의할 것은 CountVectorizer는 단지 띄어쓰기만을 기준으로 단어를 자르는 낮은 수준의 토큰화를 진행하고 BoW를 만든다는 점입니다. 

- 이는 영어의 경우 띄어쓰기만으로 토큰화가 수행되기 때문에 문제가 없지만 
- 한국어에 CountVectorizer를 적용하면, 조사 등의 이유로 제대로 BoW가 만들어지지 않음을 의미합니다.

위의 예에서 '...한글 한글은 한글로...' 의 단어는 

- CountVectorizer는 '한글'이라는 단어를 인식하지 못 합니다. 
- CountVectorizer는 띄어쓰기를 기준으로 분리한 뒤에 '한글은'와 '한글로'는 조사를 포함해서 하나의 단어로 판단하기 때문에 서로 다른 두 단어로 인식합니다. 
- 그래서 '한글은'과 '한글로'는 각자 다른 인덱스에서 1이라는 빈도의 값을 갖게 됩니다.

### 4. 불용어를 제거한 BoW 만들기
앞서 불용어는 자연어 처리에서 별로 의미를 갖지 않는 단어들이라고 언급한 바 있습니다. 
- BoW를 사용한다는 것은 그 문서에서 각 단어가 얼마나 자주 등장했는지를 보겠다는 것입니다. 
- 그리고 각 단어에 대한 빈도수를 수치화 하겠다는 것은 결국 텍스트 내에서 어떤 단어들이 중요한지를 보고싶다는 의미를 함축하고 있습니다. 
- 그렇다면 BoW를 만들때 불용어를 제거하는 일은 자연어 처리의 정확도를 높이기 위해서 선택할 수 있는 전처리 기법입니다.

영어의 BoW를 만들기 위해 사용하는 CountVectorizer는 불용어를 지정하면, 불용어는 제외하고 BoW를 만들 수 있도록 불용어 제거 기능을 지원하고 있습니다.

##### 1) 사용자가 직접 정의한 불용어 사용

In [29]:
from sklearn.feature_extraction.text import CountVectorizer

text=["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])

print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


##### 2) CountVectorizer에서 제공하는 자체 불용어 사용

In [30]:
from sklearn.feature_extraction.text import CountVectorizer

text=["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words="english")
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1]]
{'family': 0, 'important': 1, 'thing': 2}


##### 3) NLTK에서 지원하는 불용어 사용

In [31]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

text=["Family is not an important thing. It's everything."]

sw = stopwords.words("english")
vect = CountVectorizer(stop_words=sw)
print(vect.fit_transform(text).toarray())
print(vect.vocabulary_)

[[1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}
