# Embedding Layers

1. https://keras.io/layers/embeddings/
2. [Distributed Representations of Words and Phrases and their Compositionality](http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf)

### Embedding Layer

* **input_dim**: size of the vocabulary (즉 sentence로 제공되는 vector안에서 가장 큰 integer값)
* **output_dim**: dense embedding의 dimension
* **mask_zero**: input value 0을 특수 padding으로서 masked out해야 될지 결정. recurrent layers사용시 variable length input을 사용시 유용하게 사용될 수 있으며, mask_zero True로 사용시 그 이후의 모든 layers들은 masking을 지원해야함. 
* **input_length**: input sequence가 constant값일때 사용. 특히 Flatten 사용후 Dense사용시 input_length값을 지정해줘야 Keras가 dense output의 shape을 알 수 있음

### Input & Output Shape

* Input Shape은 **(batch_size, sequence_length)** 입니다.
* Output Shape은 **(batch_size, sequence_length, output_dim)** 입니다. 

In [2]:
import numpy as np 
from keras.models import Sequential
from keras.layers import Embedding

## Data

데이터의 shape은 (batch, sentence vector)입니다. 

In [132]:
data1 = np.array([[0, 1, 2, 3], 
                  [0, 0, 0, 1], 
                  [9, 9, 9, 9]])

## Model

Embedding(10, 1) 에서 input_dim을 10으로 주었습니다.<br>
이는 데이터의 가장 큰 값이 9이며 zero-based index를 사용하기 때문에 9 + 1 = 10 이 되기 때문입니다.

In [151]:
model = Sequential()
model.add(Embedding(10, 1))
model.compile('rmsprop', 'mse')

## Result

3번째 vector [9, 9, 9, 9]인데.. 이들의 값이 모두 동일하다는 것을 알 수 있습니다. <br>
즉 어떤 단어의 integer값 (예를 들어 hello 는 5000)이라면 Embedding을 거치고 나면 5000이 아닌 0에서 1사이의 다른 값으로 동일하게 사용됩니다. <br>

In [152]:
model.predict(data1)

array([[[ 0.01588077],
        [ 0.04561056],
        [ 0.02556488],
        [ 0.04706056]],

       [[ 0.01588077],
        [ 0.01588077],
        [ 0.01588077],
        [ 0.04561056]],

       [[-0.00760218],
        [-0.00760218],
        [-0.00760218],
        [-0.00760218]]], dtype=float32)