#  BoW (Bag of Word)

## 1.1 직접 구현

In [1]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

### 1) 띄어쓰기 단위로 토큰화

In [2]:
doc_ls = [d.split() for d in docs]
doc_ls

[['오늘', '동물원에서', '원숭이를', '봤어'],
 ['오늘', '동물원에서', '코끼리를', '봤어', '봤어'],
 ['동물원에서', '원숭이에게', '바나나를', '줬어', '바나나를']]

### 2) 각 고유 토큰에 인덱스(Index)를 지정

In [3]:
from collections import defaultdict

word2id = defaultdict(lambda:len(word2id))
[word2id[t] for d in doc_ls for t in d]
word2id

defaultdict(<function __main__.<lambda>>,
            {'동물원에서': 1,
             '바나나를': 6,
             '봤어': 3,
             '오늘': 0,
             '원숭이를': 2,
             '원숭이에게': 5,
             '줬어': 7,
             '코끼리를': 4})

### 3) BoW 생성

In [4]:
import numpy as np

bow_ls = []

for i, d in enumerate(doc_ls):
  bow = np.zeros(len(word2id), dtype=int)
  for t in d:
    bow[word2id[t]] += 1
  bow_ls.append(bow.tolist())

In [5]:
bow_ls

[[1, 1, 1, 1, 0, 0, 0, 0], [1, 1, 0, 2, 1, 0, 0, 0], [0, 1, 0, 0, 0, 1, 2, 1]]

## 1.2 단어 순서를 고려하지 않은 Bow

In [6]:
docs = ['나는 양념 치킨을 좋아해 하지만 후라이드 치킨을 싫어해',
        '나는 후라이드 치킨을 좋아해 하지만 양념 치킨을 싫어해']

### 1) 띄어쓰기 단위로 토큰화

In [7]:
doc_ls = [d.split() for d in docs]
doc_ls

[['나는', '양념', '치킨을', '좋아해', '하지만', '후라이드', '치킨을', '싫어해'],
 ['나는', '후라이드', '치킨을', '좋아해', '하지만', '양념', '치킨을', '싫어해']]

### 2) 각 고유 토큰에 인덱스(Index)를 지정

In [8]:
from collections import defaultdict

word2id = defaultdict(lambda:len(word2id))
[word2id[t] for d in doc_ls for t in d]
word2id

defaultdict(<function __main__.<lambda>>,
            {'나는': 0,
             '싫어해': 6,
             '양념': 1,
             '좋아해': 3,
             '치킨을': 2,
             '하지만': 4,
             '후라이드': 5})

### 3) BoW 생성

In [9]:
import numpy as np

bow_ls = []

for i, d in enumerate(doc_ls):
  bow = np.zeros(len(word2id), dtype=int)
  for t in d:
    bow[word2id[t]] += 1
  bow_ls.append(bow.tolist())

In [10]:
bow_ls

[[1, 1, 2, 1, 1, 1, 1], [1, 1, 2, 1, 1, 1, 1]]

## 두 문장이 완전히 다른 의미를 갖지만, BoW를 실행하면 같은 결과를 얻음

## 1.3 Sklearn활용

In [11]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [12]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
BoW = count_vect.fit_transform(docs)

In [13]:
BoW.toarray()

array([[1, 0, 1, 1, 1, 0, 0, 0],
       [1, 0, 2, 1, 0, 0, 0, 1],
       [1, 2, 0, 0, 0, 1, 1, 0]])

In [14]:
count_vect.vocabulary_

{'동물원에서': 0,
 '바나나를': 1,
 '봤어': 2,
 '오늘': 3,
 '원숭이를': 4,
 '원숭이에게': 5,
 '줬어': 6,
 '코끼리를': 7}

## 1.4 gensim 활용

In [15]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [16]:
import gensim
from gensim import corpora

doc_ls = [d.split() for d in docs]
id2word = corpora.Dictionary(doc_ls)
bow = [id2word.doc2bow(d) for d in doc_ls]

In [17]:
bow

[[(0, 1), (1, 1), (2, 1), (3, 1)],
 [(0, 1), (1, 2), (2, 1), (4, 1)],
 [(0, 1), (5, 2), (6, 1), (7, 1)]]

In [18]:
id2word[1]

'봤어'

# 2 TDM(Term-Document Matrix)

## 2.1 직접구현

In [19]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

### 1) 띄어쓰기 단위로 토큰화

In [20]:
doc_ls = [d.split() for d in docs]
doc_ls

[['오늘', '동물원에서', '원숭이를', '봤어'],
 ['오늘', '동물원에서', '코끼리를', '봤어', '봤어'],
 ['동물원에서', '원숭이에게', '바나나를', '줬어', '바나나를']]

### 2) 각 고유 토큰에 인덱스(Index)를 지정

In [21]:
from collections import defaultdict

word2id = defaultdict(lambda:len(word2id))
[word2id[t] for d in doc_ls for t in d]
word2id

defaultdict(<function __main__.<lambda>>,
            {'동물원에서': 1,
             '바나나를': 6,
             '봤어': 3,
             '오늘': 0,
             '원숭이를': 2,
             '원숭이에게': 5,
             '줬어': 7,
             '코끼리를': 4})

## 3) TDM 생성

In [22]:
import numpy as np

TDM = np.zeros((len(word2id), len(doc_ls)), dtype=int)

In [23]:
TDM

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [24]:
for i, d in enumerate(doc_ls):
  for t in d:
    TDM[word2id[t], i] += 1

In [25]:
TDM

array([[1, 1, 0],
       [1, 1, 1],
       [1, 0, 0],
       [1, 2, 0],
       [0, 1, 0],
       [0, 0, 1],
       [0, 0, 2],
       [0, 0, 1]])

## 2.2 sklearn 활용

In [26]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [27]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
DTM = count_vect.fit_transform(docs)

In [28]:
DTM.toarray()

array([[1, 0, 1, 1, 1, 0, 0, 0],
       [1, 0, 2, 1, 0, 0, 0, 1],
       [1, 2, 0, 0, 0, 1, 1, 0]])

## 2.3 gensim 활용

In [29]:
docs = ['오늘 동물원에서 원숭이를 봤어',
        '오늘 동물원에서 코끼리를 봤어 봤어',
        '동물원에서 원숭이에게 바나나를 줬어 바나나를']

In [30]:
import gensim
from gensim import corpora

doc_ls = [d.split() for d in docs]
id2word = corpora.Dictionary(doc_ls)
TDM = [id2word.doc2bow(d) for d in doc_ls]

In [31]:
TDM

[[(0, 1), (1, 1), (2, 1), (3, 1)],
 [(0, 1), (1, 2), (2, 1), (4, 1)],
 [(0, 1), (5, 2), (6, 1), (7, 1)]]