# 딥 러닝을 이용한 자연어 처리 입문

아래 링크의 E-book을 보고 실습한 내용입니다.

WikiDocs 주소: https://wikidocs.net/31766

# 9장 딥 러닝 개요

## 1절 순환 신경망 RNN

### Python으로 RNN 구현하기

hidden state $h_t = tanh(W_{hh}h_{t-1} + W_{xh}X_{t} + b_n)$를 numpy로 구현한다.

In [24]:
import numpy as np

timesteps = 10
input_dim = 4
hidden_size = 8

# 입력은 랜덤으로 생성
inputs = np.random.random((timesteps, input_dim))
# 초기 은닉 상태는 0으로 초기화
hidden_state_t = np.zeros((hidden_size,)) 

# 입력 가중치와 은닉 상태 가중치도 초기에는 모두 0으로 초기화한다.
Wx = np.random.random((hidden_size, input_dim)) 
Wh = np.random.random((hidden_size, hidden_size))
b = np.random.random((hidden_size,))

print("입력 가중치:", np.shape(Wx))
print("은닉 상태 가중치:", np.shape(Wh))
print("편향:", np.shape(b))

입력 가중치: (8, 4)
은닉 상태 가중치: (8, 8)
편향: (8,)


In [25]:
total_hidden_states = []

# 각 timestamp에 해당하는 input에 대한 은닉 상태를 구한다.
for input_t in inputs:
  # hidden_state_t는 이전 시점의 은닉 상태를 의미한다.
  # ouput_t는 현재 시점의 출력값을 의미한다.
  output_t = np.tanh(np.dot(Wx,input_t) + np.dot(Wh,hidden_state_t) + b) 
  total_hidden_states.append(list(output_t)) 
  # 현재 시점의 출력값이 다음 시점의 은닉 상태를 계산할 때 사용된다.
  hidden_state_t = output_t
print(total_hidden_states)

[[0.7276336033707106, 0.8490200020474037, 0.7853212175989133, 0.8717201620718433, 0.6771430697183123, 0.9352470280257933, 0.6989087815254379, 0.9238688671349398], [0.9999380932964358, 0.9999756597481622, 0.9999673412241009, 0.9999705983502601, 0.9999525472770998, 0.9999936842955812, 0.9994026571578591, 0.9999590952237115], [0.9999587353970204, 0.9999927932485515, 0.9999845123483967, 0.9999943836449922, 0.9999843856147006, 0.9999972498922841, 0.9993035225380635, 0.9999740504242067], [0.9999116164896882, 0.9999848972892653, 0.9999737092911501, 0.9999868476587462, 0.9999746130388979, 0.9999902753173114, 0.9968847560797724, 0.9999468384395538], [0.9998792463387293, 0.9999900722618372, 0.9999693289316928, 0.999986750553711, 0.9999602914164797, 0.9999935477246452, 0.9980998518923018, 0.999910294988677], [0.999925852395544, 0.9999892833807649, 0.9999715601212564, 0.9999871060752451, 0.9999774248182295, 0.9999936535400421, 0.9983757536536944, 0.999952800545627], [0.9999731203320724, 0.99998529

### Keras로 RNN 구현하기

In [5]:
# 경고 메시지 무시
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN

In [11]:
# 출력 포맷은 (배치, 출력)이다.
model = Sequential()
model.add(SimpleRNN(3, input_shape=(2,10)))
model.summary()

Model: "sequential_7"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn_7 (SimpleRNN)    (None, 3)                 42        
                                                                 
Total params: 42
Trainable params: 42
Non-trainable params: 0
_________________________________________________________________


In [20]:
# return_sequences를 해주면 각 시점에 대한 출력값도 포함이 된다.
# 그렇기 때문에 출력 포맷이 (배치, 시점, 출력)이 된다.
model = Sequential()
model.add(SimpleRNN(3, input_shape=(2,10), return_sequences=True))
model.summary()

Model: "sequential_8"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn_8 (SimpleRNN)    (None, 2, 3)              42        
                                                                 
Total params: 42
Trainable params: 42
Non-trainable params: 0
_________________________________________________________________


### 깊은 순환 신경망

In [21]:
model = Sequential()
# return_sequences=True를 통해 이전 은닉층의 모든 시점에서의 은닉 상태들을 사용할 수 있게 해준다.
model.add(SimpleRNN(hidden_size, input_length=10, input_dim=5, return_sequences=True))
model.add(SimpleRNN(hidden_size, return_sequences=True))
model.summary()

Model: "sequential_9"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn_9 (SimpleRNN)    (None, 10, 8)             112       
                                                                 
 simple_rnn_10 (SimpleRNN)   (None, 10, 8)             136       
                                                                 
Total params: 248
Trainable params: 248
Non-trainable params: 0
_________________________________________________________________
