## 원-핫 인코딩(One-Hot Encoding)
[02-08 원-핫 인코딩(One-Hot Encoding)](https://wikidocs.net/22647)

- 문자를 숫자로 표현하는 방법 중 하나
- 원-핫 인코딩을 하기 전에 **단어 집합(vocabulary)** 을 만들어야 함.
    - ★단어 집합★: 서로 다른 단어들의 집합(단어 중복 허용x)
        - 텍스트에 단어가 총 5,000개 있다면 단어 집합의 크기는 5,000임.
        - 그 후, 각 단어에 인덱스 번호를 부여할 수 있음.

## 1. 원-핫 인코딩이란?
- 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고픈 단어의 인덱스에 1 값을 부여함(다른 인덱스에는 0을 부여함).
- 원-핫 인코딩 과정
    1. 정수 인코딩
    2.  표현하고 싶은 단어의 고유한 정수를 인덱스로 간주하고 해당 위치에 1을 부여하고, 다른 단어의 인덱스의 위치에는 0을 부여함.

## 2. 케라스를 이용한 원-핫 인코딩

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print('단어 집합 : ', tokenizer.word_index)

단어 집합 :  {'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


위와 같이 생성된 단어 집합(vocabulary)에 있는 단어들로만 구성된 텍스트가 있다면, texts_to_sequence()를 통해서 이를 정수 시퀀스로 변환 가능함.

In [2]:
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [7]:
# 원-핫 인코딩 진행
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


## 3. 원-핫 인코딩의 한계
- 단어 개수가 늘어날수록 벡터를 저장하기 위한 공간이 계속 늘어남.
    - 단어가 1,000개인 corpus로 원-핫 벡터를 만들면 모든 단어가 각각 1,000개의 차원을 갖는 벡터가 됨.
- 단어 간 유사도 파악 불가
- 이같은 단점 해결을 위해 카운트 기반 벡터화 방법, 예측 기반 벡터화, GolVe 방법이 존재함.