# One-Hot Encoding
- 컴퓨터나 기계는 문자보다 숫자로 처리
- 먼저 단어집합을 만들어야 함. 그래서 앞에서 했던 정수인코딩이 필요
- 단어 집합의 단어마다 인덱스가 부여되었으면 이를 벡터로 바꿔주는 것이 원핫인코딩임
- 단점:<br>
 (1) 하나의 값만 1을 가지고 나머지는 0의 값을 가져 저장공간측명에서 비효율적<br>
 (2) 단어의 유사도를 표현하지 못함<br>
    예)삿포로 숙소를 검색하면, 삿포로 료칸, 호텔, 게스트하우스 등 유사단어도 찾아야 함<br>
 (3) 이러한 단점을 해결하고 위해 - 첫째는 카운트 기반의 벡터화 방법인 LSA, HAL 등이 있으며, 둘째는 예측 기반으로 벡터화하는 NNLM, RNNLM, Word2Vec, FastText 등

<b>1. One Hot Encoding이란?</b><br>
- 단어 집합의 크기를 벡터의 차원으로 표현하고 싶은 단어에 인덱스에 1을 부여하고 다른 인덱스에 0을 부여하는 표현방식<br>
1) 각 단어에 고유한 인덱스 부여 (정수 인코딩)<br>
2) 표현하고 싶은 단어에 인덱스에 1을 부여하고 다른 인덱스에 0을 부여

In [5]:
from konlpy.tag import Okt
okt = Okt()     #코엔엘파이의 Okt형태소 분석기로 토큰화
token = okt.morphs("나는 자연어 처리를 자연어에서 배운다")
print(token)

['나', '는', '자연어', '처리', '를', '자연어', '에서', '배운다']


In [7]:
word2index = {}
for voca in token:
    #딕셔너리에 없으면 새롭게 딕셔너리에 추가하고 해당 인덱스 길이를 키로 넣어줌
    if voca not in word2index.keys():   
        word2index[voca] = len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '에서': 5, '배운다': 6}


In [9]:
def one_hot_encoding(word, word2index):
    #딕서너리의 총 길이만큼 0으로 채워진 리스트 생성
    one_hot_vector = [0]*(len(word2index))  
    #원핫인코딩할 word의 인덱스 정보를 가지고 옴
    index=word2index[word]
    #해당 인덱스 위치에 1로 넣어줌
    one_hot_vector[index]=1
    return one_hot_vector

In [10]:
one_hot_encoding("자연어", word2index)

[0, 0, 1, 0, 0, 0, 0]

<b>2. Keras를 이용한 One-Hot-Encoding</b><br>
- to_categorical()을 통해 원핫인코딩 적용<br>

In [16]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

t = Tokenizer()
t.fit_on_texts([text])  # 각 단어에 대한 인코딩 결과 출력.
print(t.word_index)

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [19]:
sub_text="점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded=t.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [20]:
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]
