## ont-hat encoding

In [17]:
import numpy as np

samples = ['This is test of ont hat encoding', 'ont hat encoding is very good']

token_index = {}
for sample in samples:
    for word in sample.split():
        if word not in token_index:
            token_index[word] = len(token_index) + 1
            
max_length = 10

results = np.zeros(shape = (len(samples),
                            max_length,
                            max(token_index.values()) + 1))
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]:
        index = token_index.get(word)
        results[i, j, index] = 1

In [18]:
token_index

{'This': 1,
 'encoding': 7,
 'good': 9,
 'hat': 6,
 'is': 2,
 'of': 4,
 'ont': 5,
 'test': 3,
 'very': 8}

In [19]:
import string

samples = ['This is test of ont hat encoding', 'ont hat encoding is very good']
characters = string.printable
token_index = dict(zip(characters, range(1, len(characters) + 1)))

max_length = 50
results = np.zeros((len(samples), max_length, max(token_index.values()) + 1))
for i, sample in enumerate(samples):
    for j, character in enumerate(sample):
        index = token_index.get(characters)
        results[i,j, index]=1.

In [21]:
from keras.preprocessing.text import Tokenizer

In [22]:
samples = ['This is test of ont hat encoding', 'ont hat encoding is very good']

tokenizer = Tokenizer(num_words=1000)
tokenizer.fit_on_texts(samples)

sequences = tokenizer.texts_to_sequences(samples)

one_hot_results = tokenizer.texts_to_matrix(samples, mode = 'binary')

word_index = tokenizer.word_index
print("find to num %s token" % len(word_index))

find to num 9 token


In [23]:
word_index

{'encoding': 4,
 'good': 9,
 'hat': 3,
 'is': 1,
 'of': 7,
 'ont': 2,
 'test': 6,
 'this': 5,
 'very': 8}

In [24]:
one_hot_results

array([[0., 1., 1., ..., 0., 0., 0.],
       [0., 1., 1., ..., 0., 0., 0.]])

In [26]:
samples = ['This is test of ont hat encoding', 'ont hat encoding is very good']

dimensionality = 1000
max_length = 10

results = np.zeros((len(samples), max_length, dimensionality))
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]:
        index = abs(hash(word)) % dimensionality
        results[i,j,index]=1.

In [27]:
results

array([[[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]]])

## word embedding

![word embeddings vs. one hot encoding](https://s3.amazonaws.com/book.keras.io/img/ch6/word_embeddings.png)

word embeddings과 one hot encoding의 차이점을 보여주는 그림이다. word embeddings은 좀 더 데이터가 밀집하게 구성돼있다.

#### word embeddings 제작 방법
* (문서 분류나 감성 예측과 같은) 관심 대상인 문제와 함께 단어 임베딩을 학습한다. 이런 경우에는 랜덤한 단어 벡터로 시작해서 신경망의 가중치를 학습하는 것과 같은 방식으로 단어 벡터를 학습힌다.
* 풀려는 문제가 아니고 다른 머신 러닝 작업에서 미리 계산된 단어 임베딩을 로드한다. 이를 사전 훈련된 단어 임베딩이라고 한다.

In [28]:
from keras.layers import Embedding

embedding_layer = Embedding(1000, 64)