<a href="https://colab.research.google.com/github/feist000/Study/blob/master/Text_MIning/One_hot_encoding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

원핫 인코딩 (One-hot Encoding)은 One-hot vector라고도 하며 표현하고자 하는 단어의 갯수를 벡터차원으로 하여 표현하고자 하는 단어의 인덱스에는 '1', 다른 인덱스에는 '0'을 부여하여 표현하는 벡터표현방식이다.

> ex) 원숭이 코뿔소 바나나 오렌지 각각을 one-hot encoding으로 표현하면?  원숭이 = [1, 0, 0]
코뿔소 = [0, 1, 0]
바나나 = [0, 0, 1]


이렇게 표현하는 방법을 원핫 인코딩이라고 하고, 각각의 벡터를 원핫 벡터라고 한다. 텍스트를 유용하게 분석할 수 있는 도구이긴 하지만 차원의 문제, 그리고 벡터가 단어의 의미를 담지 못한다는 단점을 가지고 있다. 

오늘은 최근 듣고 있는 텍스트 마이닝 수업에서 배운 방식을 기반으로 원핫 인코딩 (one-hot encoding)을  직접 구현해보고자 한다. 큰 카테고리는 다음과 같다.

1.   원핫 인코딩 직접 구현 실습
2.   Bow 만들기 (with Sklearn, gensim)


In [1]:
# 먼저, 인코딩 대상 단어를 담은 리스트를 설정한다.

word_ls = ['원숭이','바나나','사과','코끼리']

In [2]:
from collections import defaultdict
import numpy as np

# {단어:인덱스} dict 만들기
word2id_dic=defaultdict(lambda:len(word2id_dic))

for word in word_ls:
    word2id_dic[word]
    
# 고유단어 갯수 : 4개
n_unique_words =len(word2id_dic)

# 원핫 인코딩 만들기 위해 비어있는 벡터 생성 
one_hot_vectors = np.zeros((len(word_ls), n_unique_words)) # <참고> .zeroes() = 0으로 채워진 array 생성하는 함수

# 단어 고유 인덱스
for i,word in enumerate(word_ls) :
    index = word2id_dic[word]
    one_hot_vectors[i,index]+=1 # 단어 고유 인덱스에 1을 더해준다. 그러면 각 단어의 인덱스 위치에 1이 생기는걸 알 수 있다.(OUT값)

one_hot_vectors 

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [3]:
# 위 함수 뜯어보기 1 
word2id_dic

defaultdict(<function __main__.<lambda>>,
            {'바나나': 1, '사과': 2, '원숭이': 0, '코끼리': 3})

***각 단어에 고유한 인덱스가 부여되었다. ***

In [4]:
# 위 함수 뜯어보기 2
n_unique_words # n_unique_words의 길이니까 4

4

In [5]:
word_ls

['원숭이', '바나나', '사과', '코끼리']

# 1) Sklearn 

In [6]:
! pip install sklearn



In [7]:
# sklearn을 활용한 one-hot encoding

# 1단계
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

# 예제 데이터 배열에 변수 지정
values = array(word_ls)
values


array(['원숭이', '바나나', '사과', '코끼리'], dtype='<U3')

In [8]:
# 문자열에 숫자를 붙임 
label_enc = LabelEncoder() # 변수 지정 
int_enc = label_enc.fit_transform(values)
int_enc

array([2, 0, 1, 3])

In [9]:
# array([2, 0, 1, 3], dtype=int64)를 해석해보면 array(['원숭이', '바나나', '사과', '코끼리'])에서
#'원숭이' =[2], '바나나'=[0] 이런 식으로 인덱스가 보여된 것을 알 수 있다.

In [10]:
# binary encode
onehot_enc = OneHotEncoder(sparse=False) #선언 
# True = 행렬 형태, False = 배열 형태
int_enc = int_enc.reshape(len(int_enc),1) 
onehot_enc = onehot_enc.fit_transform(int_enc)
onehot_enc

array([[0., 0., 1., 0.],
       [1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 0., 1.]])

array([[0., 0., 1., 0.],
[1., 0., 0., 0.],
[0., 1., 0., 0.],[0., 0., 0., 1.]])
    


> 위에서 말한 것처럼 원숭이 =[2]니까 1이 [2] 위치에 있는 걸 알 수 있다. 나머지도 같은 맥락으로 이해하면 된다. 



# 2) BOW



In [11]:
docs = ['오늘 동물원에서 코끼리 원숭이를 보고 코끼리 원숭이에게 먹이를 줬어',
       '오늘 동물원에서 원숭이에게 사과를 줬어']

docs

['오늘 동물원에서 코끼리 원숭이를 보고 코끼리 원숭이에게 먹이를 줬어', '오늘 동물원에서 원숭이에게 사과를 줬어']

In [12]:
# 띄어쓰기 토큰화 

doc_ls =[] # 새로운 바구니를 만들고 

for doc in docs :
    doc_ls.append(doc.split(' '))  # 띄어쓰기를 기준으로 바구니에 append 시키는 for문을 실행한다. 
doc_ls

# 각 문장별로 토큰화가 완료 (문서1, 문서2가 각각 띄어쓰기를 기준으로 토큰화 되었음을 알 수 있다.)

[['오늘', '동물원에서', '코끼리', '원숭이를', '보고', '코끼리', '원숭이에게', '먹이를', '줬어'],
 ['오늘', '동물원에서', '원숭이에게', '사과를', '줬어']]

In [13]:
from collections import defaultdict
word2id=defaultdict(lambda:len(word2id))
word2id

defaultdict(<function __main__.<lambda>>, {})

In [14]:
# 특별한 애들(unique word)만 for문을 돌려서 하나씩 넣어주자.

for doc in doc_ls :
    for token in doc : 
        word2id[token] # token을 하나씩 넣으라는 명령 

word2id

defaultdict(<function __main__.<lambda>>,
            {'동물원에서': 1,
             '먹이를': 6,
             '보고': 4,
             '사과를': 8,
             '오늘': 0,
             '원숭이를': 3,
             '원숭이에게': 5,
             '줬어': 7,
             '코끼리': 2})

특별한 애들만 고른다는 뜻은 한번 word가 나온 뒤에는 반복된 단어가 또 나와도 그냥 건너뛴다는 의미로 생각할 수 있다. 그리고 뒤에 딕셔너리 형태로 value 값에 인덱스를 붙여줌으로서 고유한 번호를 부여한다. 그래야 텍스트가 숫자형으로 바뀌어서 데이터화 하기 편하고, 이후 각 단어의 인덱스가 어디에 있는 지 한 눈에 확인하기 편하다. 

In [15]:
import numpy as np 

Bow_ls = []

for i, doc in enumerate(doc_ls):
    bow = np.zeros(len(word2id), dtype=int)
    print(bow) 
    for token in doc:
        bow[word2id[token]] +=1
    Bow_ls.append(bow.tolist())
        
Bow_ls

[0 0 0 0 0 0 0 0 0]
[0 0 0 0 0 0 0 0 0]


[[1, 1, 2, 1, 1, 1, 1, 1, 0], [1, 1, 0, 0, 0, 1, 0, 1, 1]]

In [16]:
from IPython.core import display as ICD
import pandas as pd
sorted_vocab = sorted((value,key) for key, value in word2id.items())
print('sorted_vocab', sorted_vocab)

sorted_vocab [(0, '오늘'), (1, '동물원에서'), (2, '코끼리'), (3, '원숭이를'), (4, '보고'), (5, '원숭이에게'), (6, '먹이를'), (7, '줬어'), (8, '사과를')]


In [17]:
vocab = []
for v in sorted_vocab :
    vocab.append(v[1])
print('vocab',vocab)

vocab ['오늘', '동물원에서', '코끼리', '원숭이를', '보고', '원숭이에게', '먹이를', '줬어', '사과를']


In [18]:
for i in range(len(docs)) :
    print("문서{} : {}".format(i,docs[i]))
    ICD.display(pd.DataFrame([Bow_ls[i]], columns=vocab))
    print("\n\n")

문서0 : 오늘 동물원에서 코끼리 원숭이를 보고 코끼리 원숭이에게 먹이를 줬어


Unnamed: 0,오늘,동물원에서,코끼리,원숭이를,보고,원숭이에게,먹이를,줬어,사과를
0,1,1,2,1,1,1,1,1,0





문서1 : 오늘 동물원에서 원숭이에게 사과를 줬어


Unnamed: 0,오늘,동물원에서,코끼리,원숭이를,보고,원숭이에게,먹이를,줬어,사과를
0,1,1,0,0,0,1,0,1,1







In [19]:
Bow_ls

[[1, 1, 2, 1, 1, 1, 1, 1, 0], [1, 1, 0, 0, 0, 1, 0, 1, 1]]

--- 완성.

## 단어의 순서를 고려하지 않은 BOW

In [20]:
docs = ['나는 양념 치킨을 좋아해 하지만 후라이드 치킨을 싫어해',
        '나는 후라이드 치킨을 좋아해 하지만 양념 치킨을 싫어해']

doc_ls =[] # 새로운 바구니를 만들고 

for doc in docs :
    doc_ls.append(doc.split(' '))  # 띄어쓰기를 기준으로 바구니에 append 시키는 for문을 실행한다. 
doc_ls

[['나는', '양념', '치킨을', '좋아해', '하지만', '후라이드', '치킨을', '싫어해'],
 ['나는', '후라이드', '치킨을', '좋아해', '하지만', '양념', '치킨을', '싫어해']]

In [22]:
from collections import defaultdict
word1id=defaultdict(lambda:len(word1id))
word1id

defaultdict(<function __main__.<lambda>>, {})

In [23]:
for doc in doc_ls :
    for token in doc : 
        word1id[token] # token을 하나씩 넣으라는 명령 

word1id

defaultdict(<function __main__.<lambda>>,
            {'나는': 0,
             '싫어해': 6,
             '양념': 1,
             '좋아해': 3,
             '치킨을': 2,
             '하지만': 4,
             '후라이드': 5})

In [24]:
Bow_ls = [] # 새로운 바구니를 만들고,

for i, doc in enumerate(doc_ls):
    bow = np.zeros(len(word1id), dtype=int) # 기본 틀로서 전부 0으로 된 array를 만든다.
    print(bow) 
    
    for token in doc:
        bow[word1id[token]] +=1  # token이 해당되는 자리에 +1을 해주면, 각 word가 위치한 곳이 1로 표시가 된다.
    Bow_ls.append(bow.tolist())
        
Bow_ls

[0 0 0 0 0 0 0]
[0 0 0 0 0 0 0]


[[1, 1, 2, 1, 1, 1, 1], [1, 1, 2, 1, 1, 1, 1]]

In [25]:
from IPython.core import display as ICD
import pandas as pd
sorted_vocab = sorted((value,key) for key, value in word1id.items())
print('sorted_vocab', sorted_vocab)

sorted_vocab [(0, '나는'), (1, '양념'), (2, '치킨을'), (3, '좋아해'), (4, '하지만'), (5, '후라이드'), (6, '싫어해')]


In [26]:
vocab = []
for v in sorted_vocab :
    vocab.append(v[1])
print('vocab',vocab)

vocab ['나는', '양념', '치킨을', '좋아해', '하지만', '후라이드', '싫어해']


In [27]:
for i in range(len(docs)) :
    print("문서{} : {}".format(i,docs[i]))  
    # 문서{}:{}라고 format을 만들어두고, format(i,docs[i])에서 ()안에 있는 i가 문서{}안에, docs[i]가 뒤에 있는 {}에 들어간다.
    ICD.display(pd.DataFrame([Bow_ls[i]], columns=vocab))
    print("\n\n") 
    
    # ("\n\n") = Enter를 입력해서 보기 편하게 만들었다. 안 그러면 옆으로 붙어서 길게 출력 된다. 

문서0 : 나는 양념 치킨을 좋아해 하지만 후라이드 치킨을 싫어해


Unnamed: 0,나는,양념,치킨을,좋아해,하지만,후라이드,싫어해
0,1,1,2,1,1,1,1





문서1 : 나는 후라이드 치킨을 좋아해 하지만 양념 치킨을 싫어해


Unnamed: 0,나는,양념,치킨을,좋아해,하지만,후라이드,싫어해
0,1,1,2,1,1,1,1







In [28]:
Bow_ls

[[1, 1, 2, 1, 1, 1, 1], [1, 1, 2, 1, 1, 1, 1]]

##  Sklearn을 이용한 Bow

In [41]:
docs = ['나는 양념 치킨을 좋아해 하지만 후라이드 치킨을 싫어해',
        '나는 후라이드 치킨을 좋아해 하지만 양념 치킨을 싫어해']

In [32]:
# 토큰빈도계산 : CountVectorizer 
from sklearn.feature_extraction.text import CountVectorizer 
# 선언
count_vect = CountVectorizer()
Bow = count_vect.fit_transform(docs)
print(Bow.toarray())
vocab = count_vect.get_feature_names()
print(vocab)

[[1 1 1 1 2 1 1]
 [1 1 1 1 2 1 1]]
['나는', '싫어해', '양념', '좋아해', '치킨을', '하지만', '후라이드']


## gensim을 이용한 Bow


<참고> gensim은 문자를 그대로 넣으면 안되고 토큰화 시켜줘야 함.


In [33]:
docs = ['나는 양념 치킨을 좋아해 하지만 후라이드 치킨을 싫어해',
        '나는 후라이드 치킨을 좋아해 하지만 양념 치킨을 싫어해']

In [35]:
from gensim import corpora

doc_ls =[] # 새로운 바구니를 만들고 

for doc in docs :
    doc_ls.append(doc.split(' '))  # 띄어쓰기를 기준으로 바구니에 append 시키는 for문을 실행한다. 
print(doc_ls)

id2word = corpora.Dictionary(doc_ls)
print('----') 
print(id2word)

Bow =[]
for doc in doc_ls :
  Bow.append(id2word.doc2bow(doc))
print(Bow)

[['나는', '양념', '치킨을', '좋아해', '하지만', '후라이드', '치킨을', '싫어해'], ['나는', '후라이드', '치킨을', '좋아해', '하지만', '양념', '치킨을', '싫어해']]
----
Dictionary(7 unique tokens: ['나는', '싫어해', '양념', '좋아해', '치킨을']...)
[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 2), (5, 1), (6, 1)], [(0, 1), (1, 1), (2, 1), (3, 1), (4, 2), (5, 1), (6, 1)]]


In [36]:
# 뜯어보기 1
Bow =[]
for doc in doc_ls :
  Bow.append(id2word.doc2bow(doc))
print(Bow)

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 2), (5, 1), (6, 1)], [(0, 1), (1, 1), (2, 1), (3, 1), (4, 2), (5, 1), (6, 1)]]


***(0,1) = 0번째 단어의 인덱스는 1이다 라고 해석할 수 있다. 하지만 이렇게 하면 눈으로 확인하기가 비교적 어렵다. ***

In [37]:
Bow[0]

[(0, 1), (1, 1), (2, 1), (3, 1), (4, 2), (5, 1), (6, 1)]

In [40]:
from gensim.matutils import sparse2full
from IPython.core import display as ICD
import pandas as pd
vocab = [id2word[i] for i in id2word.keys()]
for i in range(len(docs)) :
    print("문서{} : {}".format(i,docs[i]))  
    # 문서{}:{}라고 format을 만들어두고, format(i,docs[i])에서 ()안에 있는 i가 문서{}안에, docs[i]가 뒤에 있는 {}에 들어간다.
    ICD.display(pd.DataFrame([sparse2full(Bow[i],len(vocab))], columns=vocab))
    print("\n\n")

문서0 : 나는 양념 치킨을 좋아해 하지만 후라이드 치킨을 싫어해


Unnamed: 0,나는,싫어해,양념,좋아해,치킨을,하지만,후라이드
0,1.0,1.0,1.0,1.0,2.0,1.0,1.0





문서1 : 나는 후라이드 치킨을 좋아해 하지만 양념 치킨을 싫어해


Unnamed: 0,나는,싫어해,양념,좋아해,치킨을,하지만,후라이드
0,1.0,1.0,1.0,1.0,2.0,1.0,1.0







이렇게 각각 다른 도구 (Sklearn, Gensim)을 사용했지만 결과 값은 동일하게 나온다는 것을 확인 할 수 있다. 텍스트를 토큰화 한다는 것은 정확한 기준을 가지고 카테고리화 해야하고, 다양한 언어적 요소를 고려해야 하는 일이다. 쉽지 않은 일이지만 공부하면 충분히 도전할 수 있는 일이고 나에게는 특히 흥미로운 분야다. 




> 다음 파일에서는 BOW의 방법 중 하나인 TDM, DTM과 TF-IDF에 대해서 공부해보려고 한다. 자세한 내용은 다음 파일을 참고. 






**--- END**