# 19강. 딥러닝 레이어의 이해(2) Embedding, Recurrent

In [1]:
import tensorflow as tf

vocab = {      # 사용할 단어 사전 정의
    "i": 0,
    "need": 1,
    "some": 2,
    "more": 3,
    "coffee": 4,
    "cake": 5,
    "cat": 6,
    "dog": 7
}

sentence = "i i i i need some more coffee coffee coffee"
# 위 sentence
_input = [vocab[w] for w in sentence.split()]  # [0, 0, 0, 0, 1, 2, 3, 4, 4, 4]

vocab_size = len(vocab)   # 8

one_hot = tf.one_hot(_input, vocab_size)
print(one_hot.numpy())    # 원-핫 인코딩 벡터를 출력

[[1. 0. 0. 0. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0.]]


In [2]:
# 문자 -> 원핫벡터 -> 리니어 -> 가중치
distribution_size = 2   # 2차원으로 분산 표현(보기에 더 좋음)
linear = tf.keras.layers.Dense(units=distribution_size, use_bias=False)
one_hot_linear = linear(one_hot)

print("Linear Weight")
print(linear.weights[0].numpy()) # Dense로 넣을 때 가중치(임의로 설정됨)

print("\nOne-Hot Linear Result")
print(one_hot_linear.numpy())

Linear Weight
[[ 0.1095081   0.04754949]
 [-0.00087059 -0.4585561 ]
 [ 0.47489047 -0.21553373]
 [-0.4481258   0.05675715]
 [-0.29208452 -0.51049817]
 [-0.407333   -0.54923016]
 [-0.09801555 -0.2199983 ]
 [-0.7615632   0.05789697]]

One-Hot Linear Result
[[ 0.1095081   0.04754949]
 [ 0.1095081   0.04754949]
 [ 0.1095081   0.04754949]
 [ 0.1095081   0.04754949]
 [-0.00087059 -0.4585561 ]
 [ 0.47489047 -0.21553373]
 [-0.4481258   0.05675715]
 [-0.29208452 -0.51049817]
 [-0.29208452 -0.51049817]
 [-0.29208452 -0.51049817]]


원핫벡터에 linear layer 적용 -> Linear Layer의 Weight에서 단어 인덱스 배열 [ 0, 0, 0, 0, 1, 2, 3, 4, 4, 4 ]에 해당하는 행만 읽어오는 효과  

In [3]:
# 지금까지의 복잡한 과정을 임베딩으로 한번에 가능
some_words = tf.constant([[3, 57, 35]])
# 3번 단어 / 57번 단어 / 35번 단어로 이루어진 한 문장입니다.

# 원핫인코딩 후 임베딩
print("Embedding을 진행할 문장:", some_words.shape)
embedding_layer = tf.keras.layers.Embedding(input_dim=64, output_dim=100)
# 총 64개의 단어를 포함한 Embedding 레이어를 선언할 것이고(64차원으로 학습),
# 각 단어는 100차원으로 분산 표현 할 것입니다(100차원으로 표현).
# 64, 100은 학습 등의 숫자이므로 크게 신경쓰지 말기

print("Embedding된 문장:", embedding_layer(some_words).shape)
print("Embedding Layer의 Weight 형태:", embedding_layer.weights[0].shape)

Embedding을 진행할 문장: (1, 3)
Embedding된 문장: (1, 3, 100)
Embedding Layer의 Weight 형태: (64, 100)
