# BOW (Bag of Words)

In [26]:
sentence_ls = [
 '오늘 동물원에서 코끼리를 봤어',
 '오늘 동물원에서 원숭이에게 사과를 줬어',   
]

### 단어(Token)를 띄어쓰기 단위로 구분한다

In [27]:
sentence_ls = [sentence.split() for sentence in sentence_ls]

In [28]:
sentence_ls

[['오늘', '동물원에서', '코끼리를', '봤어'], ['오늘', '동물원에서', '원숭이에게', '사과를', '줬어']]

### 고유한 토큰들에 대해, 각각의 위치(Index)를 지정해준다.

In [33]:
from collections import defaultdict

token_dict = defaultdict(lambda : len(token_dict))

for sentence in sentence_ls:
    for token in sentence:
        token_dict[token]

In [34]:
token_dict

defaultdict(<function __main__.<lambda>()>,
            {'동물원에서': 1,
             '봤어': 3,
             '사과를': 5,
             '오늘': 0,
             '원숭이에게': 4,
             '줬어': 6,
             '코끼리를': 2})

### 토큰과 토큰의 위치(Index)를 정렬

In [43]:
index_token_ls = sorted((value, key) for key, value in token_dict.items())
index_token_ls

[(0, '오늘'),
 (1, '동물원에서'),
 (2, '코끼리를'),
 (3, '봤어'),
 (4, '원숭이에게'),
 (5, '사과를'),
 (6, '줬어')]

In [44]:
token_in_order = [tup[1] for tup in index_token_ls]
token_in_order

['오늘', '동물원에서', '코끼리를', '봤어', '원숭이에게', '사과를', '줬어']

### 빈(empty) BOW 생성

In [63]:
import pandas as pd
import numpy as np

n_words = len(token_dict) # 전체 고유 토큰의 수
n_sentence = len(sentence_ls) # 전체 문장의 수

BOW = pd.DataFrame(
    np.zeros((n_sentence, n_words)),
    columns = token_in_order,
    index = ['문장_1', '문장_2'],
    dtype = int,
)

In [64]:
BOW

Unnamed: 0,오늘,동물원에서,코끼리를,봤어,원숭이에게,사과를,줬어
문장_1,0,0,0,0,0,0,0
문장_2,0,0,0,0,0,0,0


## 문장을 돌면서, 각각의 토큰을 세고, Bag에 하나씩 담는다.

In [65]:
for i, sentence in enumerate(sentence_ls):
    for token in sentence:
        
        token_location = token_dict[token] # 해당 토큰의 위치(column)
        BOW.iloc[i, token_location] += 1

In [66]:
BOW

Unnamed: 0,오늘,동물원에서,코끼리를,봤어,원숭이에게,사과를,줬어
문장_1,1,1,1,1,0,0,0
문장_2,1,1,0,0,1,1,1
