### bow 토큰화

In [None]:
from konlpy.tag import Mecab

In [None]:
mecab = Mecab()

In [None]:
docs = ['오늘 동물원에서 원숭이를 봤어',
       '오늘 동물원에서 코끼리를 봤어',
       '동물원에서 원숭이에게 바나나를 줬어']

1. 띄어쓰기 단위로 토큰화(split 이용)

In [None]:
doc_ls = [doc.split() for doc in docs]
doc_ls

[['오늘', '동물원에서', '원숭이를', '봤어'],
 ['오늘', '동물원에서', '코끼리를', '봤어'],
 ['동물원에서', '원숭이에게', '바나나를', '줬어']]

2. 각 고유 토큰에 index를 지정

In [None]:
from collections import defaultdict

In [None]:
word2id = defaultdict(lambda: len(word2id))

In [None]:
[word2id[token] for doc in doc_ls for token in doc]
word2id

defaultdict(<function __main__.<lambda>()>,
            {'오늘': 0,
             '동물원에서': 1,
             '원숭이를': 2,
             '봤어': 3,
             '코끼리를': 4,
             '원숭이에게': 5,
             '바나나를': 6,
             '줬어': 7})

3. BoW 생성

In [None]:
import numpy as np

In [None]:
doc_ls

[['오늘', '동물원에서', '원숭이를', '봤어'],
 ['오늘', '동물원에서', '코끼리를', '봤어'],
 ['동물원에서', '원숭이에게', '바나나를', '줬어']]

In [None]:
word2id

defaultdict(<function __main__.<lambda>()>,
            {'오늘': 0,
             '동물원에서': 1,
             '원숭이를': 2,
             '봤어': 3,
             '코끼리를': 4,
             '원숭이에게': 5,
             '바나나를': 6,
             '줬어': 7})

In [None]:
bow_ls = []

for i, doc in enumerate(doc_ls):
    bow = np.zeros(len(word2id), dtype=int)
    for token in doc:
        bow[word2id[token]] += 1
    bow_ls.append(bow.tolist())
bow_ls

[[1, 1, 1, 1, 0, 0, 0, 0], [1, 1, 0, 1, 1, 0, 0, 0], [0, 1, 0, 0, 0, 1, 1, 1]]

In [None]:
from IPython.core import display as ICD
import pandas as pd

In [None]:
sorted_vocab = sorted((value, key) for key, value in word2id.items())
vocab = [v[1] for v in sorted_vocab]

for i in range(len(docs)):
    print("문서{} : {}".format(i, docs[i]))
    ICD.display(pd.DataFrame([bow_ls[i]], columns=vocab))
    print() # \n\n 안넣고 그냥 print로 뽑아도 되네?

문서0 : 오늘 동물원에서 원숭이를 봤어


Unnamed: 0,오늘,동물원에서,원숭이를,봤어,코끼리를,원숭이에게,바나나를,줬어
0,1,1,1,1,0,0,0,0



문서1 : 오늘 동물원에서 코끼리를 봤어


Unnamed: 0,오늘,동물원에서,원숭이를,봤어,코끼리를,원숭이에게,바나나를,줬어
0,1,1,0,1,1,0,0,0



문서2 : 동물원에서 원숭이에게 바나나를 줬어


Unnamed: 0,오늘,동물원에서,원숭이를,봤어,코끼리를,원숭이에게,바나나를,줬어
0,0,1,0,0,0,1,1,1





### sklearn 활용 --> sklearn을 주로 사용하자

In [None]:
docs = ['오늘 동물원에서 원숭이를 봤어',
       '오늘 동물원에서 코끼리를 봤어',
       '동물원에서 원숭이에게 바나나를 줬어']
docs

['오늘 동물원에서 원숭이를 봤어', '오늘 동물원에서 코끼리를 봤어', '동물원에서 원숭이에게 바나나를 줬어']

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
count_vect = CountVectorizer()

In [None]:
BoW = count_vect.fit_transform(docs)

In [None]:
BoW.toarray()[0] # toarray함수 알아보기

array([1, 0, 1, 1, 1, 0, 0, 0])

In [None]:
from IPython.core import display as ICD

In [None]:
vocab = count_vect.get_feature_names()
for i in range(len(docs)):
    print("문서{} : {}".format(i, docs[i]))
    ICD.display(pd.DataFrame([BoW.toarray()[i]], columns=vocab))
    print()

문서0 : 오늘 동물원에서 원숭이를 봤어


Unnamed: 0,동물원에서,바나나를,봤어,오늘,원숭이를,원숭이에게,줬어,코끼리를
0,1,0,1,1,1,0,0,0



문서1 : 오늘 동물원에서 코끼리를 봤어


Unnamed: 0,동물원에서,바나나를,봤어,오늘,원숭이를,원숭이에게,줬어,코끼리를
0,1,0,1,1,0,0,0,1



문서2 : 동물원에서 원숭이에게 바나나를 줬어


Unnamed: 0,동물원에서,바나나를,봤어,오늘,원숭이를,원숭이에게,줬어,코끼리를
0,1,1,0,0,0,1,1,0





### gensim 활용

In [None]:
docs = ['오늘 동물원에서 원숭이를 봤어',
       '오늘 동물원에서 코끼리를 봤어',
       '동물원에서 원숭이에게 바나나를 줬어']
docs

['오늘 동물원에서 원숭이를 봤어', '오늘 동물원에서 코끼리를 봤어', '동물원에서 원숭이에게 바나나를 줬어']

In [None]:
import gensim
import numpy as np
from gensim import corpora

In [None]:
doc_ls = [doc.split() for doc in docs]
doc_ls

[['오늘', '동물원에서', '원숭이를', '봤어'],
 ['오늘', '동물원에서', '코끼리를', '봤어'],
 ['동물원에서', '원숭이에게', '바나나를', '줬어']]

In [None]:
id2word = corpora.Dictionary(doc_ls)
id2word

<gensim.corpora.dictionary.Dictionary at 0x7ff7f8ffbe48>

In [None]:
BoW = [id2word.doc2bow(doc) for doc in doc_ls]
BoW

[[(0, 1), (1, 1), (2, 1), (3, 1)],
 [(0, 1), (1, 1), (2, 1), (4, 1)],
 [(0, 1), (5, 1), (6, 1), (7, 1)]]

In [None]:
from gensim.matutils import sparse2full
from IPython.core import display as ICD

In [None]:
vocab = [id2word[i] for i in id2word.keys()]
for i in range(len(docs)):
    print("문서{} : {}".format(i, docs[i]))
    ICD.display(pd.DataFrame([sparse2full(BoW[i], len(vocab))], columns=vocab))
    print()

문서0 : 오늘 동물원에서 원숭이를 봤어


Unnamed: 0,동물원에서,봤어,오늘,원숭이를,코끼리를,바나나를,원숭이에게,줬어
0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0



문서1 : 오늘 동물원에서 코끼리를 봤어


Unnamed: 0,동물원에서,봤어,오늘,원숭이를,코끼리를,바나나를,원숭이에게,줬어
0,1.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0



문서2 : 동물원에서 원숭이에게 바나나를 줬어


Unnamed: 0,동물원에서,봤어,오늘,원숭이를,코끼리를,바나나를,원숭이에게,줬어
0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0





2. TDM(Term-Document Matrix)

### 직접구현

In [None]:
docs = ['오늘 동물원에서 원숭이를 봤어',
       '오늘 동물원에서 코끼리를 봤어',
       '동물원에서 원숭이에게 바나나를 줬어']
docs

['오늘 동물원에서 원숭이를 봤어', '오늘 동물원에서 코끼리를 봤어', '동물원에서 원숭이에게 바나나를 줬어']

In [None]:
doc_ls = [doc.split() for doc in docs]
doc_ls

[['오늘', '동물원에서', '원숭이를', '봤어'],
 ['오늘', '동물원에서', '코끼리를', '봤어'],
 ['동물원에서', '원숭이에게', '바나나를', '줬어']]

2-2. 띄어쓰기로 토큰화 후 각 고유 토큰에 index를 지정

In [None]:
from collections import defaultdict

In [None]:
word2id = defaultdict(lambda : len(word2id))
[word2id[token] for doc in doc_ls for token in doc]
word2id

defaultdict(<function __main__.<lambda>()>,
            {'오늘': 0,
             '동물원에서': 1,
             '원숭이를': 2,
             '봤어': 3,
             '코끼리를': 4,
             '원숭이에게': 5,
             '바나나를': 6,
             '줬어': 7})

#### TDM 생성

In [None]:
import numpy as np

In [None]:
doc_ls

[['오늘', '동물원에서', '원숭이를', '봤어'],
 ['오늘', '동물원에서', '코끼리를', '봤어'],
 ['동물원에서', '원숭이에게', '바나나를', '줬어']]

In [None]:
TDM = np.zeros((len(word2id), len(doc_ls)), dtype=int)
for i, doc in enumerate(doc_ls):
    for token in doc:
        TDM[word2id[token], i] += 1 # 해당 토큰의 위치(columns)
TDM

array([[1, 1, 0],
       [1, 1, 1],
       [1, 0, 0],
       [1, 1, 0],
       [0, 1, 0],
       [0, 0, 1],
       [0, 0, 1],
       [0, 0, 1]])

### sklearn 활용

In [None]:
docs = ['오늘 동물원에서 원숭이를 봤어',
       '오늘 동물원에서 코끼리를 봤어',
       '동물원에서 원숭이에게 바나나를 줬어']
docs

['오늘 동물원에서 원숭이를 봤어', '오늘 동물원에서 코끼리를 봤어', '동물원에서 원숭이에게 바나나를 줬어']

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
count_vect = CountVectorizer()
DTM = count_vect.fit_transform(docs)
DTM.toarray()

array([[1, 0, 1, 1, 1, 0, 0, 0],
       [1, 0, 1, 1, 0, 0, 0, 1],
       [1, 1, 0, 0, 0, 1, 1, 0]])

In [None]:
import pandas as pd

doc_names = ['문서'+str(i) for i in range(len(doc_ls))]
vocab = count_vect.get_feature_names()
df_TDM = pd.DataFrame(DTM.toarray().T, columns=doc_names) #.T는 어떤 의미?
df_TDM['단어'] = vocab
df_TDM.set_index('단어')

Unnamed: 0_level_0,문서0,문서1,문서2
단어,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
동물원에서,1,1,1
바나나를,0,0,1
봤어,1,1,0
오늘,1,1,0
원숭이를,1,0,0
원숭이에게,0,0,1
줬어,0,0,1
코끼리를,0,1,0
