# 원-핫 인코딩: One-Hot Encoding
* 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스를 1, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식
* 이렇게 표현된 벡터를 원-핫 벡터: One-Hot vector라고 합니다.
* 방법: 정수 인코딩(각 단어에 고유한 정수를 부여) 수행 후, 표현하고 싶은 단어의 고유한 정수(인덱스)에 1을 부여, 아닌 단어는 0을 부여

## 1. 원-핫 인코딩이란?

In [1]:
from konlpy.tag import Okt  

okt = Okt()  
tokens = okt.morphs("나는 자연어 처리를 배운다")  
print(tokens)

['나', '는', '자연어', '처리', '를', '배운다']


In [2]:
word_to_index = {word : index for index, word in enumerate(tokens)}
print('단어 집합 :',word_to_index)

단어 집합 : {'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [3]:
def one_hot_encoding(word, word_to_index):
  one_hot_vector = [0]*(len(word_to_index))
  index = word_to_index[word]
  one_hot_vector[index] = 1
  return one_hot_vector

In [4]:
one_hot_encoding("자연어", word_to_index)

[0, 0, 1, 0, 0, 0]

## 2. 케라스(Kera)를 이용한 원-핫 인코딩

In [6]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print('단어 집합 :',tokenizer.word_index)

2023-08-03 14:03:25.465346: I tensorflow/core/util/port.cc:110] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2023-08-03 14:03:25.518376: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX512F AVX512_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


단어 집합 : {'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [7]:
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [8]:
# 정수 인코딩 된 결과로부터 원-핫 인코딩을 수행하는 to_categorical()
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


## 3. 원-핫 인코딩의 한계
* 단어의 개수가 늘어날수록, 벡터를 저장하기 위해 필요한 공간이 계속 늘어나 비효율적임
* 단어의 유사도를 표현하지 못함. 예를 들어, 늑대, 호랑이, 강아지, 고양이라는 4개의 대해 [1, 0, 0, 0], [0, 1, 0, 0], [0, 0, 1, 0], [0, 0, 0, 1]이라는 원-핫 벡터를 부여받았다고 가정하면 원-핫 벡터로는 강아지와 늑대가 유사하고, 호랑이와 고양이가 유사하다는 것을 표현할 수가 없습니다.

* 해결방안? 단어의 잠재 의미를 반영하여 다차원 공간에 벡터화 하는 기법으로 크게 두 가지가 존재함.
    1. 카운트 기반의 벡터화 방법: LSA(잠재 의미 분석), HAL
    2. 예측 기반의 벡터화 방법: NNLM, RNNLM, Word2Vec, FastText
    3. 위 두가지 방법을 모두 사용하는 GloVe도 존재