# 원-핫 인코딩(One-Hot Encoding)
- 문자를 숫자로 바꿔주는 기법중 가장 기본적인 방법
- 단어집합(vocabulary)은 서로 다른 단어들의 집합
  - book과 books와 같은 단어 변형 형태도 다른 단어로 간주.
- 원-핫 인코딩
  - 단어 집합을 만든다.(중복을 허용하지 않음)
  - 단어 집합에 고유 번호(정수 인코딩)을 부여한다.
  
 
## 1. 원-핫 인코딩이란?
- 단어 집합의 크기를 벡터의 차원으로 하고,
  - 표현하고 싶은 단어는 1, 
  - 다른 단어에는 0을 부여하는 형식이며, 
  - 이를 원-핫 벡터(One-Hot vector)라고 한다.
- 원-핫 인코딩 과정
  - 정수 인코딩 수행
  - 원-핫 벡터로 만들어 준다.

In [2]:
from konlpy.tag import Okt  

okt = Okt()  
tokens = okt.morphs("나는 자연어 처리를 배운다")  
print(tokens)

word_to_index = {word : index for index, word in enumerate(tokens)}
print('단어 집합 :',word_to_index)

['나', '는', '자연어', '처리', '를', '배운다']
단어 집합 : {'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [3]:
def one_hot_encoding(word, word_to_index):
  one_hot_vector = [0]*(len(word_to_index))
  index = word_to_index[word]
  one_hot_vector[index] = 1
  return one_hot_vector

one_hot_encoding("자연어", word_to_index)

[0, 0, 1, 0, 0, 0]

## 2. 케라스를 이용한 원-핫 인코딩

In [5]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print('단어 집합 :',tokenizer.word_index)

단어 집합 : {'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [6]:
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [7]:
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


## 3. 원-핫 인코딩의 한계
- 단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간이 계속 늘어나는 단점이 있다.
  - 단어가 1000개라면 벡터 공간의 하나의 값만 1을 가지고 나머지 999개는 0을 가지게 된다.
- 단어의 유사도를 표현할 수 없음.
  - 검색 시스템 등의 문제가 될 소지가 있음.
  - 이러한 단점을 해결하기 위해 단어의 잠재 의미를 반영하여 다차원 공간에 벡터화 하는 방법이 있다.
    - 카운트 기반의 벡터화
      - LSA(잠재 의미 분석)
      - HAL
    - 예측 기반의 벡터화
      - NNLM
      - RNNLM
      - Word2Vec
      - FastText
    - 두가지를 모두 사용하는 방법인 GloVe라는 방법도 존재