### One-Hot Encoding
- 아래 encoding은 사용방식만 다를뿐 모두 one-hot encoding

In [1]:
# 간단한 단어 one-hot encoding
import numpy as np

samples = ['The cat sat on the mat.', 'The dog ate my homework.']

token_index = {}
for sample in samples:
    for word in sample.split():
        if word not in token_index:
            token_index[word] = len(token_index) + 1 # 단어의 최초 등장시 고유 인덱스 할당

max_length = 10 # 10개 단어만 encoding하겠다.

results = np.zeros(shape=(len(samples), max_length, max(token_index.values()) + 1)) # +1은 왜 해준건지...

for i, sample in enumerate(samples):
    for j,word in list(enumerate(sample.split()))[:max_length]:
        index = token_index.get(word)
        results[i,j,index] = 1.
results

array([[[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]],

       [[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0

In [5]:
# 간단한 문자 one-hot encoding
import string

samples = ['The cat sat on the mat.', 'The dog ate my homework.']
characters = string.printable # 출력 가능한 모든 아스키 문자
token_index = dict(zip(characters, range(1, len(characters) + 1)))

print("characters' token 갯수 : ",len(token_index))

max_length = 50
results = np.zeros(shape=(len(samples), max_length, max(token_index.values()) + 1))

for i, sample in enumerate(samples):
    for j, character in enumerate(sample):
        index = token_index.get(character)
        results[i,j,index]
        
results

characters' token 갯수 :  100


array([[[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]]])

In [7]:
# keras를 활용한 단어 encoding
from keras.preprocessing.text import Tokenizer

samples = ['The cat sat on the mat.', 'The dog ate my homework.']

tokenizer = Tokenizer(num_words=1000) # 빈도수 상위 1000개 단어만 선택
tokenizer.fit_on_texts(samples) # 단어 index를 구축

sequences = tokenizer.texts_to_sequences(samples) # 문자열을 정수 인덱스의 리스트로 변환
print("text to sequences : ",sequences)

one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary') # text_to_sequences()와 sequences_to_matrix()를 차례대로 호출하는 메서드
word_index = tokenizer.word_index
print("{} 개의 고유한 토큰을 찾았습니다.\n 항목은 아래와 같습니다. \n {}".format(len(word_index), word_index))

text to sequences :  [[1, 2, 3, 4, 1, 5], [1, 6, 7, 8, 9]]
9 개의 고유한 토큰을 찾았습니다.
 항목은 아래와 같습니다. 
 {'the': 1, 'cat': 2, 'sat': 3, 'on': 4, 'mat': 5, 'dog': 6, 'ate': 7, 'my': 8, 'homework': 9}


##### One-Hot Hashing??
- 인덱스를 딕셔너리에 저장하는 대신 단어를 해싱하여 고정된 크기의 벡터로 변환한다.
- 명시적인 단어 인덱스가 필요 없기때문에 메모리 절약하고,
- 온라인 방식으로 데이터를 인코딩할 수 있다. (전체 데이터를 확인하지 않고 토큰 생성이 가능하다.)
- 2개의 단어가 같은 해시를 만들어 해싱 충돌이 발생할 수 있고, 이로 인해 모델이 단어사이의 차이를 인식하지 못한다.
- 따라서 해싱 공간의 차원이 해싱될 고유 토큰의 갯수보다 훨씬 커야 충돌이 감소한다.

In [11]:
# 해싱 기법을 사용한 단어 encoding
samples = ['The cat sat on the mat.', 'The dog ate my homework.']

dimensionality = 1000 # 단어를 크기가 1000인 벡터로 저장
max_length = 10

results = np.zeros(shape=(len(samples), max_length, dimensionality))

for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]:
        index = abs(hash(word)) % dimensionality # 0~1000 사이의 random한 정수 인덱스로 변환
        print("index in hashing : ", index)
        results[i,j,index] = 1.

index in hashing :  297
index in hashing :  690
index in hashing :  19
index in hashing :  821
index in hashing :  956
index in hashing :  647
index in hashing :  297
index in hashing :  584
index in hashing :  249
index in hashing :  397
index in hashing :  421
