# 8) 원-핫 인코딩(One-Hot Encoding)

1. 단어 집합 만들기(book과 books는 다른 단어(같은 stem이지만..))
2. 벡터로 다루기...

### 1. 원 핫 인코딩이란?

단어집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 방식.

1. 정수 인코딩 수행
2. 표현하고 싶은 단어의 공유한 정소를 인덱스로 간주하고 해당위치에 1을 부여하고, 다른 단어의 인덱스의 위치에는 0을 부여.

In [1]:
from konlpy.tag import Okt

okt = Okt()
tokens = okt.morphs("나는 자연어 처리를 배운다")  
print(tokens)

['나', '는', '자연어', '처리', '를', '배운다']


In [2]:
# 원 핫 벡터 함수
# 먼저 제로 패딩을 만든 후에 단어가 있으면 1로 바꾸는 방식
def one_hot_encoding(word, word_to_index):
    one_hot_vector = [0]*(len(word_to_index))
    index = word_to_index[word]
    one_hot_vector[index] = 1
    return one_hot_vector

In [5]:
word_to_index = {word : index for index, word in enumerate(tokens)}
print('단어 집합 :',word_to_index)

단어 집합 : {'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [6]:
one_hot_encoding("자연어", word_to_index)

[0, 0, 1, 0, 0, 0]

케라스를 이용한 원-핫 인코딩

In [8]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

In [9]:
text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print('단어 집합 :',tokenizer.word_index)

단어 집합 : {'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [10]:
# 위와 같이 생성된 단어 집합에 있는 단어들로 구성된 텍스트가 있으면
# texts_to_sequences를 통해 정수 시퀀스를 만들 수 있다.
# text의 일부 단어들로 구성된 sub_text
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [11]:
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


원 핫 인코딩의 한계

단어개수가 늘어날 수록 벡터를 저장하기 위해 공간이 계속 필요하다는 점.

차원 수가 늘어나면 저장 공간 측면에선 매우 비효율적..

그리고 단어의 유사도를 표현하지 못함.

이에 대한 해결방안으로는
1. LSA, HAL(카운트 기반)
2. NNLM, RNNLM, Word2Vec, FastText (예측 기반)
3. 두 가지 모두 사용하는 GloVe