## F32 - 딥러닝 레이어의 이해 embedding, recurrent

단어는 어떻게 데이터화할까?   
희소표현(sparse representation): 단어의 의미를 벡터의 특정 차원에 매핑하는 방식 [1,0,2,1]   
분산표현(distributed representation): 다차원의 고정 벡터로 표현, 유산한 맥락에 나타나는 단어는 벡터의 차원 분포도 비슷할 것이다. 단어들 간의 유사도를 구할 수 있다.

In [1]:
import tensorflow as tf

vocab = {      # 사용할 단어 사전 정의
    "i": 0,
    "need": 1,
    "some": 2,
    "more": 3,
    "coffee": 4,
    "cake": 5,
    "cat": 6,
    "dog": 7
}

sentence = "i i i i need some more coffee coffee coffee"
# 위 sentence
_input = [vocab[w] for w in sentence.split()]  # [0, 0, 0, 0, 1, 2, 3, 4, 4, 4]

vocab_size = len(vocab)   # 8

one_hot = tf.one_hot(_input, vocab_size)
print(one_hot.numpy())    # 원-핫 인코딩 벡터를 출력해 봅시다.

[[1. 0. 0. 0. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0.]]


In [2]:
distribution_size = 2   # 보기 좋게 2차원으로 분산 표현하도록 하죠!
linear = tf.keras.layers.Dense(units=distribution_size, use_bias=False)
one_hot_linear = linear(one_hot)

print("Linear Weight")
print(linear.weights[0].numpy())

print("\nOne-Hot Linear Result")
print(one_hot_linear.numpy())

Linear Weight
[[ 0.04853195  0.3561622 ]
 [ 0.13450706 -0.5048895 ]
 [ 0.57812274  0.55528224]
 [-0.29981607  0.0317235 ]
 [-0.3184492   0.1663611 ]
 [ 0.15090555 -0.11178577]
 [-0.46332577  0.67837346]
 [ 0.1825419  -0.21235687]]

One-Hot Linear Result
[[ 0.04853195  0.3561622 ]
 [ 0.04853195  0.3561622 ]
 [ 0.04853195  0.3561622 ]
 [ 0.04853195  0.3561622 ]
 [ 0.13450706 -0.5048895 ]
 [ 0.57812274  0.55528224]
 [-0.29981607  0.0317235 ]
 [-0.3184492   0.1663611 ]
 [-0.3184492   0.1663611 ]
 [-0.3184492   0.1663611 ]]


In [3]:
some_words = tf.constant([[3, 57, 35]])
# 3번 단어 / 57번 단어 / 35번 단어로 이루어진 한 문장입니다.

print("Embedding을 진행할 문장:", some_words.shape)
embedding_layer = tf.keras.layers.Embedding(input_dim=64, output_dim=100)
# 총 64개의 단어를 포함한 Embedding 레이어를 선언할 것이고,
# 각 단어는 100차원으로 분산표현 할 것입니다.

print("Embedding된 문장:", embedding_layer(some_words).shape)
print("Embedding Layer의 Weight 형태:", embedding_layer.weights[0].shape)

Embedding을 진행할 문장: (1, 3)
Embedding된 문장: (1, 3, 100)
Embedding Layer의 Weight 형태: (64, 100)


In [4]:
# 순차적인 특성을 갖는 데이터를 처리하기 위해 고안된 것이 RNN(Recurrent Neural Network)
# RNN은 입력하는 모든 단어만큼 weight를 만들지 않는다.
# 단 하나의 weight를 순차적으로 업데이트 한다.
# 하나의 weight를 가지고 계속 업데이트 하다 보면 첫 데이터의 정보는 나중에 거의 소실하게 되는데
# 이를 vanishing gradient라고 한다.

sentence = "What time is it ?"
dic = {
    "is": 0,
    "it": 1,
    "What": 2,
    "time": 3,
    "?": 4
}

print("RNN에 입력할 문장:", sentence)

sentence_tensor = tf.constant([[dic[word] for word in sentence.split()]])

print("Embedding을 위해 단어 매핑:", sentence_tensor.numpy())
print("입력 문장 데이터 형태:", sentence_tensor.shape)

embedding_layer = tf.keras.layers.Embedding(input_dim=len(dic), output_dim=100)
emb_out = embedding_layer(sentence_tensor)

print("\nEmbedding 결과:", emb_out.shape)
print("Embedding Layer의 Weight 형태:", embedding_layer.weights[0].shape)

rnn_seq_layer = \
tf.keras.layers.SimpleRNN(units=64, return_sequences=True, use_bias=False)
rnn_seq_out = rnn_seq_layer(emb_out)

print("\nRNN 결과 (모든 Step Output):", rnn_seq_out.shape)
print("RNN Layer의 Weight 형태:", rnn_seq_layer.weights[0].shape)

rnn_fin_layer = tf.keras.layers.SimpleRNN(units=64, use_bias=False)
rnn_fin_out = rnn_fin_layer(emb_out)

print("\nRNN 결과 (최종 Step Output):", rnn_fin_out.shape)
print("RNN Layer의 Weight 형태:", rnn_fin_layer.weights[0].shape)

RNN에 입력할 문장: What time is it ?
Embedding을 위해 단어 매핑: [[2 3 0 1 4]]
입력 문장 데이터 형태: (1, 5)

Embedding 결과: (1, 5, 100)
Embedding Layer의 Weight 형태: (5, 100)

RNN 결과 (모든 Step Output): (1, 5, 64)
RNN Layer의 Weight 형태: (100, 64)

RNN 결과 (최종 Step Output): (1, 64)
RNN Layer의 Weight 형태: (100, 64)


In [5]:
lstm_seq_layer = tf.keras.layers.LSTM(units=64, return_sequences=True, use_bias=False)
lstm_seq_out = lstm_seq_layer(emb_out)

print("\nLSTM 결과 (모든 Step Output):", lstm_seq_out.shape)
print("LSTM Layer의 Weight 형태:", lstm_seq_layer.weights[0].shape)

lstm_fin_layer = tf.keras.layers.LSTM(units=64, use_bias=False)
lstm_fin_out = lstm_fin_layer(emb_out)

print("\nLSTM 결과 (최종 Step Output):", lstm_fin_out.shape)
print("LSTM Layer의 Weight 형태:", lstm_fin_layer.weights[0].shape)


LSTM 결과 (모든 Step Output): (1, 5, 64)
LSTM Layer의 Weight 형태: (100, 256)

LSTM 결과 (최종 Step Output): (1, 64)
LSTM Layer의 Weight 형태: (100, 256)


In [1]:
# LSTM(Long Short-Term Memory): vanishing gradient문제를 해결하기 위해 고안된 레이어
# 바닐라(simple) RNN보다 4배 큰 weight를 가진다. 4종류의 서로 다른 weight라고 생각하라.
# 각 weight들은 어떤 정보를 기억하고, 전달할지 등을 결정한다.
# https://dgkim5360.tistory.com/entry/understanding-long-short-term-memory-lstm-kr
# 첫 번째 gate: 전달해야 할 정보의 정도, sigmoid layer(0~1), 0이면 아무것도 넘기지 말고, 1이면 모든 걸 넘겨라 f_t
# 두 번째 gate: 저장해야 할 정보의 정도, sigmoid layer(0~1), 어떤 값을 업데이트할지 결정, h_t-1에서 i_t
# 세 번째 gate: tanh layer, 새로운 값(C_t)의 vector를 만들고 cell state에 더할 준비함, i_t X C_t + f_t * C_t-1
# 네 번째 gate: sigmoid layer, 보낼 정도를 정한다. 새로운 cell state을 tanh에 의해 나온 값과 output정도를 곱하여 최종적으로 내본내다.

# GRU: https://yjjo.tistory.com/18
# 양방향(Bidirectional) RNN: 번역 태스크에 유리, 예) 날이 너무 [  ] 에어컨을 켰다.

import tensorflow as tf

sentence = "What time is it ?"
dic = {
    "is": 0,
    "it": 1,
    "What": 2,
    "time": 3,
    "?": 4
}

sentence_tensor = tf.constant([[dic[word] for word in sentence.split()]])

embedding_layer = tf.keras.layers.Embedding(input_dim=len(dic), output_dim=100)
emb_out = embedding_layer(sentence_tensor)

print("입력 문장 데이터 형태:", emb_out.shape)

bi_rnn = \
tf.keras.layers.Bidirectional(
    tf.keras.layers.SimpleRNN(units=64, use_bias=False, return_sequences=True)
    # 양방향에 대한 weight가 필요하니 출력 units는 128개다.
)
bi_out = bi_rnn(emb_out)

print("Bidirectional RNN 결과 (최종 Step Output):", bi_out.shape)

입력 문장 데이터 형태: (1, 5, 100)
Bidirectional RNN 결과 (최종 Step Output): (1, 5, 128)
