# BOW (Bag of Words)

## 동물원 예제

In [26]:
sentence_ls = [
 '오늘 동물원에서 코끼리를 봤어',
 '오늘 동물원에서 원숭이에게 사과를 줬어',   
]

### 단어(Token)를 띄어쓰기 단위로 구분한다

In [27]:
sentence_ls = [sentence.split() for sentence in sentence_ls]

In [28]:
sentence_ls

[['오늘', '동물원에서', '코끼리를', '봤어'], ['오늘', '동물원에서', '원숭이에게', '사과를', '줬어']]

### 각각의 고유 토큰들에 대해, 인덱스(Index)를 지정해준다.

In [33]:
from collections import defaultdict

token_dict = defaultdict(lambda : len(token_dict))

for sentence in sentence_ls:
    for token in sentence:
        token_dict[token]

In [34]:
token_dict

defaultdict(<function __main__.<lambda>()>,
            {'동물원에서': 1,
             '봤어': 3,
             '사과를': 5,
             '오늘': 0,
             '원숭이에게': 4,
             '줬어': 6,
             '코끼리를': 2})

### 토큰과 토큰의 인덱스를 정렬

In [43]:
index_token_ls = sorted((value, key) for key, value in token_dict.items())
index_token_ls

[(0, '오늘'),
 (1, '동물원에서'),
 (2, '코끼리를'),
 (3, '봤어'),
 (4, '원숭이에게'),
 (5, '사과를'),
 (6, '줬어')]

In [44]:
token_in_order = [tup[1] for tup in index_token_ls]
token_in_order

['오늘', '동물원에서', '코끼리를', '봤어', '원숭이에게', '사과를', '줬어']

### 빈(empty) BOW 생성

In [63]:
import pandas as pd
import numpy as np

n_words = len(token_dict) # 전체 고유 토큰의 수
n_sentence = len(sentence_ls) # 전체 문장의 수

BOW = pd.DataFrame(
    np.zeros((n_sentence, n_words)),
    columns = token_in_order,
    index = ['문장_1', '문장_2'],
    dtype = int,
)

In [64]:
BOW

Unnamed: 0,오늘,동물원에서,코끼리를,봤어,원숭이에게,사과를,줬어
문장_1,0,0,0,0,0,0,0
문장_2,0,0,0,0,0,0,0


### 문장을 돌면서, 각 토큰을 BOW에 하나씩 담는다.

In [65]:
for i, sentence in enumerate(sentence_ls):
    for token in sentence:
        
        token_location = token_dict[token] # 해당 토큰의 위치(column)
        BOW.iloc[i, token_location] += 1

In [66]:
BOW

Unnamed: 0,오늘,동물원에서,코끼리를,봤어,원숭이에게,사과를,줬어
문장_1,1,1,1,1,0,0,0
문장_2,1,1,0,0,1,1,1


## 앙념치킨과 후라이드치킨 예제

In [5]:
sentence_ls = [
'나는 양념 치킨을 좋아해 하지만 후라이드 치킨을 싫어해',
'나는 후라이드 치킨을 좋아해 하지만 양념 치킨을 싫어해',

]

### 단어(Token)를 띄어쓰기 단위로 구분한다

In [6]:
sentence_ls = [sentence.split() for sentence in sentence_ls]

In [7]:
sentence_ls

[['나는', '양념', '치킨을', '좋아해', '하지만', '후라이드', '치킨을', '싫어해'],
 ['나는', '후라이드', '치킨을', '좋아해', '하지만', '양념', '치킨을', '싫어해']]

### 각각의 고유 토큰들에 대해, 인덱스(Index)를 지정해준다.

In [8]:
from collections import defaultdict

token_dict = defaultdict(lambda : len(token_dict))

for sentence in sentence_ls:
    for token in sentence:
        token_dict[token]

In [9]:
token_dict

defaultdict(<function __main__.<lambda>()>,
            {'나는': 0,
             '싫어해': 6,
             '양념': 1,
             '좋아해': 3,
             '치킨을': 2,
             '하지만': 4,
             '후라이드': 5})

### 토큰과 토큰의 인덱스를 정렬

In [10]:
index_token_ls = sorted((value, key) for key, value in token_dict.items())
index_token_ls

[(0, '나는'),
 (1, '양념'),
 (2, '치킨을'),
 (3, '좋아해'),
 (4, '하지만'),
 (5, '후라이드'),
 (6, '싫어해')]

In [11]:
token_in_order = [tup[1] for tup in index_token_ls]
token_in_order

['나는', '양념', '치킨을', '좋아해', '하지만', '후라이드', '싫어해']

### 빈(empty) BOW 생성

In [12]:
import pandas as pd
import numpy as np

n_words = len(token_dict) # 전체 고유 토큰의 수
n_sentence = len(sentence_ls) # 전체 문장의 수

BOW = pd.DataFrame(
    np.zeros((n_sentence, n_words)),
    columns = token_in_order,
    index = ['문장_1', '문장_2'],
    dtype = int,
)

In [13]:
BOW

Unnamed: 0,나는,양념,치킨을,좋아해,하지만,후라이드,싫어해
문장_1,0,0,0,0,0,0,0
문장_2,0,0,0,0,0,0,0


### 문장을 돌면서, 각 토큰을 BOW에 하나씩 담는다.

In [14]:
for i, sentence in enumerate(sentence_ls):
    for token in sentence:
        
        token_location = token_dict[token] # 해당 토큰의 위치(column)
        BOW.iloc[i, token_location] += 1

In [15]:
BOW

Unnamed: 0,나는,양념,치킨을,좋아해,하지만,후라이드,싫어해
문장_1,1,1,2,1,1,1,1
문장_2,1,1,2,1,1,1,1
