# Word embeddings
* 단어를 벡터로 표현하는 것을 말한다.
* One hot vector == 희소 벡터(sparse representation)로 단어를 표현할 수 있다.
* Dense Representation(밀집 표현) : 벡터 차원을 단어들의 갯수(클래스의 수)로 하지 않고 실수를 이용해 벡터를 표현하는 방법
* 밀집 벡터(dense vector)의 형태로 표현하는 방법을 **워드 임베딩(Word Embedding)** 이라고 한다.

In [1]:
from tensorflow import keras
from tensorflow.keras import layers
import tensorflow as tf
import tensorflow_datasets as tfds
tfds.disable_progress_bar()

In [2]:
embedding_layer = layers.Embedding(1000, 5)  

`tf.keras.layers.Embedding(
    input_dim, output_dim, embeddings_initializer='uniform',
    embeddings_regularizer=None, activity_regularizer=None,
    embeddings_constraint=None, mask_zero=False, input_length=None, **kwargs
)`

**input_dim** : 단어 집합의 크기, 즉 총 단어의 개수  
**output_dim** : 임베딩 벡터의 출력 차원. 결과로 나오는 임베딩 벡터의 크기  
**input_length** : 입력 시퀀스의 길이(입력되는 단어 벡터의 dim) `지정하지 않으면 입력으로 지정`  

**Input shape** : 2D tensor with shape: `(batch_size, input_length)`  
**Output shape** : 3D tensor with shape: `(batch_size, input_length, output_dim)`  

In [3]:
result = embedding_layer(tf.constant([1,2,3]))  # input_shape 1D => return shape 2D (samples, sequence_length)

In [4]:
result

<tf.Tensor: shape=(3, 5), dtype=float32, numpy=
array([[ 0.01252569,  0.03132298,  0.00022733, -0.02153258, -0.04925242],
       [-0.01496713, -0.02603277, -0.04903904, -0.02342935, -0.00967045],
       [ 0.04489234,  0.00932435, -0.02468461, -0.02606218, -0.02716891]],
      dtype=float32)>

In [5]:
result = embedding_layer(tf.constant([[0,1,2],[3,4,5]]))  # input_shape 2D => return shape 3D (samples, sequence_length, embedding_dimensionality)
result

<tf.Tensor: shape=(2, 3, 5), dtype=float32, numpy=
array([[[ 0.04870475, -0.02974765,  0.04016277, -0.01323519,
          0.03785861],
        [ 0.01252569,  0.03132298,  0.00022733, -0.02153258,
         -0.04925242],
        [-0.01496713, -0.02603277, -0.04903904, -0.02342935,
         -0.00967045]],

       [[ 0.04489234,  0.00932435, -0.02468461, -0.02606218,
         -0.02716891],
        [ 0.04982172,  0.04203205, -0.00197295,  0.03178382,
         -0.01912575],
        [ 0.02510169,  0.01088283,  0.04445273,  0.03136976,
          0.00875499]]], dtype=float32)>

# Embeddings from scratch
IMDB movie 데이터를 이용한 학습

In [6]:
(train_data, test_data), info = tfds.load(
    'imdb_reviews/subwords8k', 
    split = (tfds.Split.TRAIN, tfds.Split.TEST), 
    with_info=True, as_supervised=True)

Downloading and preparing dataset imdb_reviews/subwords8k/1.0.0 (download: 80.23 MiB, generated: Unknown size, total: 80.23 MiB) to C:\Users\multicampus\tensorflow_datasets\imdb_reviews\subwords8k\1.0.0...
Shuffling and writing examples to C:\Users\multicampus\tensorflow_datasets\imdb_reviews\subwords8k\1.0.0.incompleteXA0CLW\imdb_reviews-train.tfrecord
Shuffling and writing examples to C:\Users\multicampus\tensorflow_datasets\imdb_reviews\subwords8k\1.0.0.incompleteXA0CLW\imdb_reviews-test.tfrecord
Shuffling and writing examples to C:\Users\multicampus\tensorflow_datasets\imdb_reviews\subwords8k\1.0.0.incompleteXA0CLW\imdb_reviews-unsupervised.tfrecord
Dataset imdb_reviews downloaded and prepared to C:\Users\multicampus\tensorflow_datasets\imdb_reviews\subwords8k\1.0.0. Subsequent calls will reuse this data.


In [9]:
encoder = info.features['text'].encoder
encoder.subwords[:20]

['the_',
 ', ',
 '. ',
 'a_',
 'and_',
 'of_',
 'to_',
 's_',
 'is_',
 'br',
 'in_',
 'I_',
 'that_',
 'this_',
 'it_',
 ' /><',
 ' />',
 'was_',
 'The_',
 'as_']

train_data와 test_data는 tf.data 로 구성되어 있음

In [10]:
train_data

<DatasetV1Adapter shapes: ((None,), ()), types: (tf.int64, tf.int64)>

In [14]:
train_batches = train_data.shuffle(1000).padded_batch(10, padded_shapes=([None],[]))
test_batches = test_data.shuffle(1000).padded_batch(10, padded_shapes=([None],[]))

In [12]:
train_batches

<DatasetV1Adapter shapes: ((None, None), (None,)), types: (tf.int64, tf.int64)>

In [16]:
train_batch, train_labels = next(iter(train_batches))
train_batch.numpy()

array([[  12,  284,   14, ...,    0,    0,    0],
       [ 809,  931, 7968, ..., 2666, 4411, 3151],
       [6170, 4850, 2345, ...,    0,    0,    0],
       ...,
       [  62,  592, 5395, ...,    0,    0,    0],
       [7963, 7923,  311, ...,    0,    0,    0],
       [  62,  203,    2, ...,    0,    0,    0]], dtype=int64)

In [17]:
train_batch.numpy().shape

(10, 619)

## Create a simple model
* Embedding Layer는 integer로 encoded된 word vector를 입력으로 받게 된다. Vector는 학습되며 output array가 추가되어 반환된다. 반환값은 `(batch, sequence, embedding)`이다. 
* 그 다음, GlobalAveragePooling1D layer로 sequence dimension을 축소한다.
* 이 값들(fix-length output)를 16개의 hidden units가 있는 fully-connected(Dense)로 입력한다.
* 마지막 레이어는 single output으로, sigmoid function을 사용하여 이 review가 positive 여부를 판단한다.

In [20]:
embedding_dim=16

model = keras.Sequential([
  layers.Embedding(encoder.vocab_size, embedding_dim),  # (batch_size, sequence, embedding_dim)
  layers.GlobalAveragePooling1D(),  # (batch_size, embedding_dim)
  layers.Dense(16, activation='relu'), # (batch_size, 16)
  layers.Dense(1) # 
])

model.summary()

Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_3 (Embedding)      (None, None, 16)          130960    
_________________________________________________________________
global_average_pooling1d_2 ( (None, 16)                0         
_________________________________________________________________
dense_4 (Dense)              (None, 16)                272       
_________________________________________________________________
dense_5 (Dense)              (None, 1)                 17        
Total params: 131,249
Trainable params: 131,249
Non-trainable params: 0
_________________________________________________________________


## Compile and train the model
* 모델 학습 지정

In [21]:
model.compile(optimizer='adam',
             loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
             metrics=['accuracy'])

# 전처리(Preprocessing)
**Tokenizer() :** 토큰화와 정수 인코딩(단어에 대한 인덱싱)을 위해 keras에서 제공하는 Tokenizer를 사용한다.

In [19]:
from tensorflow.keras.preprocessing.text import Tokenizer
t  = Tokenizer()
fit_text = "The earth is an awesome place live"
t.fit_on_texts([fit_text])

test_text = "The earth is an great place live"
sequences = t.texts_to_sequences([test_text])[0]

print("sequences : ",sequences) # great는 단어 집합(vocabulary)에 없으므로 출력되지 않는다.
print("word_index : ",t.word_index) # 단어 집합(vocabulary) 출력

sequences :  [1, 2, 3, 4, 6, 7]
word_index :  {'the': 1, 'earth': 2, 'is': 3, 'an': 4, 'awesome': 5, 'place': 6, 'live': 7}


**pad_sequence()** : 전체 훈련 모델의 샘플 길이는 다르기 때문에 다른 데이터와의 통일성을 위해 padding을 넣어준다.

In [23]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
pad_sequences([[1, 2, 3], [3, 4, 5, 6], [7, 8]], maxlen=3, padding='pre')
# 전처리가 끝나서 각 단어에 대한 정수 인코딩이 끝났다고 가정하고, 3개의 데이터를 입력으로 합니다.

array([[1, 2, 3],
       [4, 5, 6],
       [0, 7, 8]])

**첫번째 인자 = 패딩을 진행할 데이터**

**maxlen = 모든 데이터에 대해서 정규화할 길이**

**padding = 'pre'는 앞에 pad를 채우고 'post'는 뒤에 pad를 채움**

**Embedding()** : Embedding()는 단어를 밀집 벡터로 만드는 역할을 한다. 입력은 (number of samples, input_length)인 2D를 입력받고 출력은 3D 인 (number of samples, input_length, embedding word dimentionality)를 반환한다.

In [29]:
# 문장 토큰화와 단어 토큰화
text=[['Hope', 'to', 'see', 'you', 'soon'],['Nice', 'to', 'see', 'you', 'again']]

# 각 단어에 대한 정수 인코딩
text=[[0, 1, 2, 3, 4],[5, 1, 2, 3, 6]]

# 위 데이터가 아래의 임베딩 층의 입력이 된다.
result = layers.Embedding(7, 2, input_length=5)
# 7은 단어의 개수. 즉, 단어 집합(vocabulary)의 크기이다.
# 2는 임베딩한 후의 벡터의 크기이다.
# 5는 각 입력 시퀀스의 길이. 즉, input_length이다.
'''
# 각 정수는 아래의 테이블의 인덱스로 사용되며 Embeddig()은 각 단어에 대해 임베딩 벡터를 리턴한다.
+------------+------------+
|   index    | embedding  |
+------------+------------+
|     0      | [1.2, 3.1] |
|     1      | [0.1, 4.2] |
|     2      | [1.0, 3.1] |
|     3      | [0.3, 2.1] |
|     4      | [2.2, 1.4] |
|     5      | [0.7, 1.7] |
|     6      | [4.1, 2.0] |
+------------+------------+
# 위의 표는 임베딩 벡터가 된 결과를 예로서 정리한 것이고 Embedding()의 출력인 3D 텐서를 보여주는 것이 아님.
'''

'\n# 각 정수는 아래의 테이블의 인덱스로 사용되며 Embeddig()은 각 단어에 대해 임베딩 벡터를 리턴한다.\n+------------+------------+\n|   index    | embedding  |\n+------------+------------+\n|     0      | [1.2, 3.1] |\n|     1      | [0.1, 4.2] |\n|     2      | [1.0, 3.1] |\n|     3      | [0.3, 2.1] |\n|     4      | [2.2, 1.4] |\n|     5      | [0.7, 1.7] |\n|     6      | [4.1, 2.0] |\n+------------+------------+\n# 위의 표는 임베딩 벡터가 된 결과를 예로서 정리한 것이고 Embedding()의 출력인 3D 텐서를 보여주는 것이 아님.\n'

AttributeError: 'Embedding' object has no attribute 'numpy'