all exercises based on [Introduction to Deep Learning](https://wikidocs.net/22647)

### One-Hot Encoding
자연어 문자를 숫자로 바꾸는 여러가지 기법 중 하나. 가장 기본적인 방법.<br>
단어 집합의 크기가 벡터의 차원, 표현하고자 하는 단어의 인덱스에 1의 값 부여, 다른 인덱스에는 0 부여.<br>

1. 각 단어에 고유한 인덱스 부여 (정수 인코딩)
2. 표현하고 싶은 단어의 인덱스 위치에 1, 다른 단어 인덱스 위치에는 0 부여

연습문장<br>
**나는 자연어 처리를 배운다**

In [1]:
from konlpy.tag import Okt
okt = Okt()
token=okt.morphs("나는 자연어 처리를 배운다")
token

['나', '는', '자연어', '처리', '를', '배운다']

In [2]:
word2index = {}
for i in token:
    if i not in word2index:
        word2index[i] = len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [3]:
def one_hot_encoding(word, word2index):
    one_hot_vector = [0]*(len(word2index))
    index = word2index[word]
    one_hot_vector[index] = 1
    return one_hot_vector

In [5]:
one_hot_encoding("자연어", word2index)

[0, 0, 1, 0, 0, 0]

### Keras를 이용한 원핫인코딩

In [6]:
text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

- 정수 인코딩

In [8]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

t = Tokenizer()
t.fit_on_texts([text]) # text를 []로 둘러싸면 자동으로 space 기준으로 tokenize 되는 건가... [] 안하면 한 글자씩 잘림
print(t.word_index)

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [13]:
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야" # 위에서 만든 단어사전(t)에 있는 단어들로만 이루어짐 -> 정수 인코딩 가능 (정수 시퀀스로의 변환)
encoded = t.texts_to_sequences([sub_text])[0] 
# 기본적으로 texts_to_sequences는 list를 입력으로
encoded

[2, 5, 1, 6, 3, 7]

- 원핫 인코딩

In [14]:
one_hot = to_categorical(encoded) # 정수 인코딩 결과를 바탕으로 원핫인코딩 한 모습
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


one-hot encoding의 한계
- 단어가 늘어날수록 벡터 차원이 계속 늘어나 희소행렬. 비효율적
- 단어의 유사도 표현하지 못함. 단순히 labeling 된 단어들 (검색 등에 치명적 단점)

- 이러한 단점을 해결하기 위해 단어의 잠재 의미를 반영해 다차원 공간에 벡터화 (카운트 기반 LSA, HAL 등, 예측 기반 NNLM, RNNLM, Word2Vec, FastText 등)