## 원핫인코딩 직접 구현

In [1]:
word_ls = ['원숭이', '바나나', '코끼리', '사과']

In [55]:
from collections import defaultdict
import numpy as np

## {단어:인덱스} 사전구축
word2vec_dic = defaultdict(lambda : len(word2vec_dic))

for word in word_ls :
    word2vec_dic[word]

## 고유단어갯수 :4개
n_unique_words = len(word2vec_dic)

## 원핫 벡터를 만들기 위해 비어있는 벡터 생성
one_hot_vectors = np.zeros((len(word_ls), n_unique_words))

## 단어고유 인덱스
for i, word in enumerate(word_ls) :
    index = word2vec_dic[word]
    one_hot_vectors[i, index] += 1 ## 단어 고유 인덱스에 1을 더해줌
    
one_hot_vectors

0


array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

## sklearn 패키지를 사용하여 구현

In [8]:
## 사이킷런을 사용한 원핫인코딩
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

## 예제 데이터 배열
values = array(word_ls)

## 문자열에 숫자를 붙임
label_enc = LabelEncoder()
int_enc = label_enc.fit_transform(values) ## fit_transform : fit과 transform을 한번에 해주는 함수

## binary encode
onehot_enc = OneHotEncoder(sparse=False) ## sparse=False 희소형태X
int_enc = int_enc.reshape(len(int_enc),1) ## n:1 matrix로 변환
onehot_enc = onehot_enc.fit_transform(int_enc)
onehot_enc

array([[0., 0., 1., 0.],
       [1., 0., 0., 0.],
       [0., 0., 0., 1.],
       [0., 1., 0., 0.]])

## Ngram

In [None]:
## 보통 다섯개까지

## BOW(bag of word) 직접 구현

In [43]:
docs = ['오늘 동물원에서 코끼리 원숭이를 보고 코끼리 원숭이에게 먹이를 줬어',
        '오늘 동물원에서 원숭이에게 사과를 줬어']

In [44]:
doc_ls = []
for doc in docs :
    doc_ls.append(doc.split(' '))
doc_ls

[['오늘', '동물원에서', '코끼리', '원숭이를', '보고', '코끼리', '원숭이에게', '먹이를', '줬어'],
 ['오늘', '동물원에서', '원숭이에게', '사과를', '줬어']]

In [62]:
word2id  = defaultdict(lambda : len(word2id))

for doc in doc_ls :
    for token in doc :
        word2id[token]
word2id

defaultdict(<function __main__.<lambda>()>,
            {'오늘': 0,
             '동물원에서': 1,
             '코끼리': 2,
             '원숭이를': 3,
             '보고': 4,
             '원숭이에게': 5,
             '먹이를': 6,
             '줬어': 7,
             '사과를': 8})

In [63]:
Bow_ls = []
for i, doc in enumerate(doc_ls) :
    bow = np.zeros(len(word2id), dtype = int)
    for token in doc :
        bow[word2id[token]] += 1
    Bow_ls.append(bow.tolist())
Bow_ls

[[1, 1, 2, 1, 1, 1, 1, 1, 0], [1, 1, 0, 0, 0, 1, 0, 1, 1]]

In [70]:
from IPython.core import display as ICD
import pandas as pd
sorted_vocab = sorted((value, key) for key, value in word2id.items())
print('sorted_vocab', sorted_vocab)

vocab = []
for v in sorted_vocab :
    vocab.append(v[1])
print('vocab', vocab)

for i in range(len(docs)) :
    print("문서{} : {}".format(i, docs[i]))
    ICD.display(pd.DataFrame([Bow_ls[i]], columns=vocab))
    print('\n\n')

sorted_vocab [(0, '오늘'), (1, '동물원에서'), (2, '코끼리'), (3, '원숭이를'), (4, '보고'), (5, '원숭이에게'), (6, '먹이를'), (7, '줬어'), (8, '사과를')]
vocab ['오늘', '동물원에서', '코끼리', '원숭이를', '보고', '원숭이에게', '먹이를', '줬어', '사과를']
문서0 : 오늘 동물원에서 코끼리 원숭이를 보고 코끼리 원숭이에게 먹이를 줬어


Unnamed: 0,오늘,동물원에서,코끼리,원숭이를,보고,원숭이에게,먹이를,줬어,사과를
0,1,1,2,1,1,1,1,1,0





문서1 : 오늘 동물원에서 원숭이에게 사과를 줬어


Unnamed: 0,오늘,동물원에서,코끼리,원숭이를,보고,원숭이에게,먹이를,줬어,사과를
0,1,1,0,0,0,1,0,1,1







## 단어의 순서를 고려하지 않은 BOW

In [90]:
docs = ['나는 양념 치킨을 좋아해 하지만 후라이드 치킨을 싫어해',
       '나는 후라이드 치킨을 좋아해 하지만 양념 치킨을 싫어해']

In [75]:
doc_ls = []
for doc in docs :
    doc_ls.append(doc.split())
doc_ls

[['나는', '양념', '치킨을', '좋아해', '하지만', '후라이드', '치킨을', '싫어해'],
 ['나는', '후라이드', '치킨을', '좋아해', '하지만', '양념', '치킨을', '싫어해']]

In [76]:
word2id  = defaultdict(lambda : len(word2id))

for doc in doc_ls :
    for token in doc :
        word2id[token]
word2id

defaultdict(<function __main__.<lambda>()>,
            {'나는': 0,
             '양념': 1,
             '치킨을': 2,
             '좋아해': 3,
             '하지만': 4,
             '후라이드': 5,
             '싫어해': 6})

In [77]:
Bow_ls = []
for i, doc in enumerate(doc_ls) :
    bow = np.zeros(len(word2id), dtype = int)
    for token in doc :
        bow[word2id[token]] += 1
    Bow_ls.append(bow.tolist())
Bow_ls

[[1, 1, 2, 1, 1, 1, 1], [1, 1, 2, 1, 1, 1, 1]]

In [81]:
from IPython.core import display as ICD
import pandas as pd
sorted_vocab = sorted((value, key) for key, value in word2id.items())
print('sorted_vocab', sorted_vocab)
print()

vocab = []
for v in sorted_vocab :
    vocab.append(v[1])
print('vocab', vocab)
print()

for i in range(len(docs)) :
    print("문서{} : {}".format(i, docs[i]))
    ICD.display(pd.DataFrame([Bow_ls[i]], columns=vocab))
    print('\n')

sorted_vocab [(0, '나는'), (1, '양념'), (2, '치킨을'), (3, '좋아해'), (4, '하지만'), (5, '후라이드'), (6, '싫어해')]

vocab ['나는', '양념', '치킨을', '좋아해', '하지만', '후라이드', '싫어해']

문서0 : 나는 양념 치킨을 좋아해 하지만 후라이드 치킨을 싫어해


Unnamed: 0,나는,양념,치킨을,좋아해,하지만,후라이드,싫어해
0,1,1,2,1,1,1,1




문서1 : 나는 후라이드 치킨을 좋아해 하지만 양념 치킨을 싫어해


Unnamed: 0,나는,양념,치킨을,좋아해,하지만,후라이드,싫어해
0,1,1,2,1,1,1,1






## sklearn를 사용한 BoW

In [93]:
docs = ['오늘 동물원에서 코끼리 원숭이를 보고 코끼리 원숭이에게 먹이를 줬어',
        '오늘 동물원에서 원숭이에게 사과를 줬어']

In [104]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
BoW = count_vect.fit_transform(docs)

In [95]:
vocab = count_vect.get_feature_names()

for i in range(len(docs)) :
    print("문서{} : {}".format(i, docs[i]))
    ICD.display(pd.DataFrame([BoW.toarray()[i]], columns=vocab))
    print('\n')

문서0 : 오늘 동물원에서 코끼리 원숭이를 보고 코끼리 원숭이에게 먹이를 줬어


Unnamed: 0,동물원에서,먹이를,보고,사과를,오늘,원숭이를,원숭이에게,줬어,코끼리
0,1,1,1,0,1,1,1,1,2




문서1 : 오늘 동물원에서 원숭이에게 사과를 줬어


Unnamed: 0,동물원에서,먹이를,보고,사과를,오늘,원숭이를,원숭이에게,줬어,코끼리
0,1,0,0,1,1,0,1,1,0






## gensim

In [None]:
docs = ['오늘 동물원에서 코끼리 원숭이를 보고 코끼리 원숭이에게 먹이를 줬어',
        '오늘 동물원에서 원숭이에게 사과를 줬어']

In [97]:
from gensim import corpora
doc_ls = []
for doc in docs :
    doc_ls.append(doc.split())

id2word = corpora.Dictionary(doc_ls)

BoW = []
for doc in doc_ls :
    BoW.append(id2word.doc2bow(doc))

In [102]:
from gensim.matutils import sparse2full

vocab = [id2word[i] for i in id2word.keys()]

for i in range(len(docs)) :
    print("문서{} : {}".format(i, docs[i]))
    ICD.display(pd.DataFrame([sparse2full(BoW[i], len(vocab))], columns=vocab))
    print('\n')

문서0 : 오늘 동물원에서 코끼리 원숭이를 보고 코끼리 원숭이에게 먹이를 줬어


Unnamed: 0,동물원에서,먹이를,보고,오늘,원숭이를,원숭이에게,줬어,코끼리,사과를
0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,0.0




문서1 : 오늘 동물원에서 원숭이에게 사과를 줬어


Unnamed: 0,동물원에서,먹이를,보고,오늘,원숭이를,원숭이에게,줬어,코끼리,사과를
0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,1.0




