<h2>08) 원-핫 인코딩(One-Hot Encoding)</h2>

<p>
    컴퓨터 또는 기계는 문자보다는 숫자를 더 잘 처리한다.<br>
    문자를 숫자로 바꾸는 여러가지 기법중 하나이다. <br>
    단어를 표현하는 가장 기본적인 표현 방법이다.
</p>

<b>
    1. 각 단어에 고유한 인덱스를 부여합니다 (정수 인코딩)<br>
    2. 표현하고 싶은 단어의 인덱스의 위치에 1을 부여하고, 다른 단어의 인덱스의 위치에는 0을 부여합니다.
</b>

<b>8.1) 한국어 문장의 원-핫 인코딩</b>

In [1]:
from konlpy.tag import Okt
okt = Okt()
token = okt.morphs("나는 자연어 처리를 배운다")
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


<b>8.2) 코엔엘파이의 Qkt 형태소 분석기를 통해서 우선 문장 토큰화 수행</b>

In [2]:
word2index={}
for voca in token:
    if voca not in word2index.keys():
        word2index[voca]=len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [5]:
def one_hot_encoding(word, word2index):
    one_hot_vector = [0]*(len(word2index))
    index=word2index[word]
    one_hot_vector[index]=1
    return one_hot_vector

In [6]:
one_hot_encoding("자연어", word2index)

[0, 0, 1, 0, 0, 0]

<h3>2. 케라스를 이용한 원-핫 인코딩</h3>

In [7]:
text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [8]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index) # 각 단어에 대한 인코딩 결과 출력

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


<b>위와 같이 생성된 단어 집합에 있는 단어들로만 구성된 텍스트가 있다면,
    texts_to_sequences()를 통해서 이를 정수 시퀀스로 변환가능합니다.
<br></b>

In [10]:
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = t.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


<b>이제 해당 결과를 가지고 원-핫 인코딩 진행</b>

In [11]:
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]
