## 8. 원-핫 인코딩 One-Hot Encoding

원-핫 인코딩(One-Hot Encoding)은 문자를 숫자로 바꾸는 여러가지 기법 중에서 단어를 표현하는 가장 기본적인 표현 방법

#### 단어 집합(vocabulary) 
* 서로 다른 단어들의 집합
* 텍스트의 모든 단어를 중복을 허용하지 않고 모아놓으면 이를 단어 집합이라고 함
- ex)  book과 books와 같이 단어의 변형 형태도 다른 단어로 간주
* 원-핫 인코딩을 위해서 먼저 해야할 일은 단어 집합을 만드는 일
* 단어 집합에 고유한 숫자를 부여하는 정수 인코딩을 진행
* 텍스트 내부에 단어 집합의 크기만큼 인덱스를 부여하여 숫자로 바뀐 단어들을 벡터로 부여할 수 있음

### 1. 원-핫 인코딩(One-Hot Encoding)이란
원-핫 인코딩은 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식
* 이렇게 표현된 벡터를 원-핫 벡터(One-Hot vector)라고 함

#### 원-핫 인코딩의 두 가지 과정
(1) 정수 인코딩 :각 단어에 고유한 인덱스를 부여\
(2) 표현하고 싶은 단어의 인덱스의 위치에 1을 부여, 다른 단어의 인덱스의 위치에는 0을 부여

<한국어 문장을 원-핫 인코딩을 통해 원-핫 벡터로 만드는 과정>

In [5]:
from konlpy.tag import Okt  
okt=Okt()  
token=okt.morphs("나는 자연어 처리를 배운다")  
print(token)
# 코엔엘파이의 Okt 형태소 분석기를 통해서 우선 문장에 대해서 토큰화를 수행

['나', '는', '자연어', '처리', '를', '배운다']


In [6]:
word2index={}
for voca in token:
     if voca not in word2index.keys():
       word2index[voca]=len(word2index)
print(word2index)
# 각 토큰에 대해서 고유한 인덱스(index)를 부여

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [7]:
# 토큰을 입력하면 해당 토큰에 대한 원-핫 벡터를 만들어내는 함수 정의
def one_hot_encoding(word, word2index):
       one_hot_vector = [0]*(len(word2index))
       index=word2index[word]
       one_hot_vector[index]=1
       return one_hot_vector

In [8]:
one_hot_encoding("자연어",word2index)

[0, 0, 1, 0, 0, 0]

→ 자연어는 단어 집합에서 인덱스가 2이므로, 자연어를 표현하는 원-핫 벡터는 인덱스 2의 값이 1이며, 나머지 값은 0인 벡터가 나온다

### 2. 케라스(Keras)를 이용한 원-핫 인코딩(One-Hot Encoding)
* 케라스는 원-핫 인코딩을 수행하는 유용한 도구 to_categorical()를 지원
* 케라스만으로 정수 인코딩과 원-핫 인코딩을 순차적으로 진행 가능

In [10]:
text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [11]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

# 케라스 토크나이저를 이용한 정수 인코딩
t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index) # 각 단어에 대한 인코딩 결과 출력.

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


* 생성된 단어 집합(vocabulary)에 있는 단어들로만 구성된 텍스트가 있다면, texts_to_sequences()를 통해서 이를 정수 시퀀스로 변환가능
* 생성된 단어 집합 내의 일부 단어들로만 구성된 서브 텍스트인 sub_text를 만들어 확인

In [13]:
sub_text="점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded=t.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [14]:
# 해당 결과를 가지고, 원-핫 인코딩을 진행
# 원-핫 인코딩을 수행하는 to_categorical()
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


▲ 문장이 [2, 5, 1, 6, 3, 7]로 정수 인코딩이 되고나서, 각각의 인코딩 된 결과를 인덱스로 원-핫 인코딩이 수행된 모습

### 3. 원-핫 인코딩(One-Hot Encoding)의 한계

이러한 표현 방식은 단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간이 계속 늘어난다는 단점이 있다. → 다른 말로는 벡터의 차원이 계속 늘어난다고 표현
* 원 핫 벡터는 단어 집합의 크기가 곧 벡터의 차원 수
* ex) 단어가 1,000개인 코퍼스를 가지고 원 핫 벡터를 만들면, 모든 단어 각각은 모두 1,000개의 차원을 가진 벡터가 됨
* 이때, 모든 단어 각각은 하나의 값만 1을 가지고, 999개의 값은 0의 값을 가지는 벡터가 되는데 이는 저장 공간 측면에서는 매우 비효율적인 표현 방법

원-핫 벡터는 단어의 유사도를 표현하지 못한다는 단점이 있음
* 단어 간 유사성을 알 수 없다는 단점은 검색 시스템 등에서 심각한 문제
* → 단어간 유사성을 계산할 수 없다면, 연관 검색어를 보여줄 수 없음
* ex) 검색어 '삿포로 숙소'/ 연관 검색어 '삿포로 게스트 하우스', '삿포로 료칸', '삿포로 호텔'과 같은 유사 단어에 대한 결과 도출

#### 단점 해결 방법

이러한 단점을 해결하기 위해 단어의 잠재 의미를 반영하여 다차원 공간에 벡터화 하는 기법으로 크게 두 가지가 있다.
1. 카운트 기반의 벡터화 방법인 LSA, HAL 등
2. 예측 기반으로 벡터화하는 NNLM, RNNLM, Word2Vec, FastText 등
* 카운트 기반과 예측 기반 두 가지 방법을 모두 사용하는 GloVe라는 방법이 존재