# 원-핫-인코딩 (One-Hot Encoding)
- 순서
    1. 단어 집합을 만든다. 
    2. 단어 집합에 고유한 정수를 부여하는 정수 인코딩을 진행한다
- 단점
    - 단어 개수가 늘어날수록 벡터를 저장하기 위해 필요한 공간이 늘어난다 ( 벡터의 차원이 늘어난다)
    - 단어의 유사도를 표현하지 못한다 ( 검색 시스템에 치명적)
- 이 단점들을 해결하기 위해 단어의 잠재 의미를 반영해서, 다차원 공간에 벡터화 하는 방법이 있음
    1. 카운트 기반의 벡터화 방법인 LSA(잠재 의미 분석), HAL 등
    2. 예측 기반의 벡터화 방법인 NNLM, RNNLM, Word2Vec, FastText 등
    3. 카운트 & 예측 기반 방법 GloVe

### 단어 집합 (vocabulary)
- 중복없이 서로 다른 단어들의 집합
    - 이때 변형 형태도 다른것으로 인식한다 (e.x. books / book)



In [3]:
from konlpy.tag import Okt

# 1. 문장 토큰화
okt = Okt()
tokens = okt.morphs("나는 자연어 처리를 배운다")
print(tokens)

['나', '는', '자연어', '처리', '를', '배운다']


In [6]:
# 2. 단어 집합 만들기
word_to_index = {word : index for index, word in enumerate(tokens)}
print("단어 집합 : ",word_to_index)

단어 집합 :  {'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [7]:
# 3. 토큰에 대한 원-핫 벡터 만들기

# 첫번째 방법
def one_hot_encoding(word, word_to_index):
    one_hot_vector = [0]*len(word_to_index)
    index = word_to_index[word]
    one_hot_vector[index]=1
    return one_hot_vector

one_hot_encoding("자연어",word_to_index)

[0, 0, 1, 0, 0, 0]

In [14]:
# 2번째 방법
# 케라스를 이용하기

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print("단어 집합 : ", tokenizer.word_index)
# 위와 같이 단어 집합에 있는 단어로만 구성된 텍스트가 있다면,
# text_to_sequences() 를 통해 정수 시퀀스로 변환 가능하다
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"

encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)

단어 집합 :  {'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}
[2, 5, 1, 6, 3, 7]


In [16]:
# 각 인덱스에 대하여 원-핫 벡터 (6개니까 6개의 리스트가 나옴)
one_hot = to_categorical(encoded)
one_hot

array([[0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1.]], dtype=float32)