### 원핫인코딩

In [1]:
#정수인코딩의 단점: 단어의 순서가 없음
#원핫인코딩 : 단어의 순서에 맞게 배열

from konlpy.tag import Okt  

okt=Okt()  

#토근화(형태소 분석)

token=okt.morphs("나는 학교에 간다 나는 집에 간다")  

print(token)

['나', '는', '학교', '에', '간다', '나', '는', '집', '에', '간다']


In [2]:
#중복된 단어는 제외하고 단어를 key로 고유한 숫자 인덱스 부여

word2index={}

for idx,voca in enumerate(token):
    if voca not in word2index.keys():
        word2index[voca]=len(word2index)
print(word2index)

{'나': 0, '는': 1, '학교': 2, '에': 3, '간다': 4, '집': 5}


In [3]:
#원핫인코딩 함수

def one_hot_encoding(word, word2index):
    #전체 단어 갯수만큼 0으로 채운 리스트
    one_hot_vector = [0]*(len(word2index))

    #해당하는 단어의 인덱스를 찾아서
    index=word2index[word]

    #1로 설정(나머지는 0)
    one_hot_vector[index]=1

    return one_hot_vector

key_list=word2index.keys()

print(key_list)

for key in key_list:
    print(key, one_hot_encoding(key,word2index))

dict_keys(['나', '는', '학교', '에', '간다', '집'])
나 [1, 0, 0, 0, 0, 0]
는 [0, 1, 0, 0, 0, 0]
학교 [0, 0, 1, 0, 0, 0]
에 [0, 0, 0, 1, 0, 0]
간다 [0, 0, 0, 0, 1, 0]
집 [0, 0, 0, 0, 0, 1]


In [5]:
#케라스에서 지원하는 원핫인코딩 함수

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text="나는 학교에 간다 나는 집에 간다"
t = Tokenizer()

# 각 단어에 대한 정수 인코딩
t.fit_on_texts([text])
print(t.word_index)

sub_text="나는 집에 간다"

#각 단어에 매핑된 숫자로 변환된 리스트
encoded=t.texts_to_sequences([sub_text])[0]
print(encoded)

#원핫인코딩
one_hot = to_categorical(encoded)
print(one_hot)



{'나는': 1, '간다': 2, '학교에': 3, '집에': 4}
[1, 4, 2]
[[0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0.]]


In [None]:
#원핫인코딩의 단점:
# 단어 갯수가 많아지면 변수의 갯수가 많아지게 됨
# 메모리 활용의 비효율성: 변수가 100개 있다면 99개의 0과 1개의 0으로 구성됨
# 비슷한 단어들의 유사성을 표현하기 어려움
#   강아지 [0,1,1]와 개 [1,0,0] 이라면 비슷한 단어이지만 유사성을 찾기 어려움
# 유사성을 찾기 위한 방법으로 LSA, RNN, Word2Vec 등의 방법이 있음