<a href="https://colab.research.google.com/github/chominyeong/PyTorch-DeepLearning-Start/blob/main/Ch07_%EC%88%9C%ED%99%98_%EC%8B%A0%EA%B2%BD%EB%A7%9D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 07-01 RNN

#### 파이썬으로 RNN 구현하기

In [None]:
import numpy as np

timesteps = 10 # 시점의 수. NLP에서는 보통 문장의 길이가 된다.
input_size = 4 # 입력의 차원. NLP에서는 보통 단어 벡터의 차원이 된다.
hidden_size = 8 # 은닉 상태의 크기. 메모리 셀의 용량이다.

inputs = np.random.random((timesteps, input_size)) # 입력에 해당되는 2D 텐서

hidden_state_t = np.zeros((hidden_size,)) # 초기 은닉 상태는 0(벡터)로 초기화
# 은닉 상태의 크기 hidden_size로 은닉 상태를 만듬.

In [None]:
print(inputs) # 10개의 단어로 된 문장, 그리고 그 단어는 4차원 벡터이다.

[[0.85482298 0.91474223 0.61272196 0.75971218]
 [0.12431433 0.02435886 0.7915536  0.29618307]
 [0.92637871 0.33426078 0.84202298 0.17935444]
 [0.08597966 0.48276765 0.95319959 0.95633523]
 [0.31718868 0.41383257 0.92795187 0.54814726]
 [0.86414138 0.42144139 0.30290708 0.81926815]
 [0.55305102 0.86599117 0.04820962 0.27046159]
 [0.52657503 0.68210718 0.63221473 0.79284059]
 [0.56088683 0.86285688 0.13136268 0.9086417 ]
 [0.11442805 0.75547308 0.71163161 0.64820262]]


In [None]:
print(hidden_state_t) # 8의 크기를 가지는 은닉 상태. 현재는 초기 은닉 상태로 모든 차원이 0의 값을 가짐.

[0. 0. 0. 0. 0. 0. 0. 0.]


In [None]:
# 가중치와 편향
Wx = np.random.random((hidden_size, input_size))  # (8, 4)크기의 2D 텐서 생성. 입력에 대한 가중치.
Wh = np.random.random((hidden_size, hidden_size)) # (8, 8)크기의 2D 텐서 생성. 은닉 상태에 대한 가중치.
b = np.random.random((hidden_size,)) # (8,)크기의 1D 텐서 생성. 이 값은 편향(bias).

In [None]:
print(np.shape(Wx))  # (hidden state 크기 x 입력의 차원)
print(np.shape(Wh))  # (hidden state 크기 x hidden state 크기)
print(np.shape(b))   # (hidden state 크기,)

(8, 4)
(8, 8)
(8,)


* RNN 수행

In [None]:
total_hidden_states = []

# 메모리 셀 동작
for input_t in inputs: # 각 시점에 따라서 입력값이 입력됨.

  # Wx * Xt + Wh * Ht-1 + b(bias)
  output_t = np.tanh(np.dot(Wx,input_t) + np.dot(Wh,hidden_state_t) + b)

  # 각 시점의 은닉 상태의 값을 계속해서 축적
  total_hidden_states.append(list(output_t))

  # 각 시점 t별 메모리 셀의 출력의 크기는 (timestep, output_dim)
  print(np.shape(total_hidden_states))
  print(total_hidden_states)

  hidden_state_t = output_t

(1, 8)
[[0.9999993679321734, 0.9999959258957578, 0.9993652927499846, 0.9999944747771686, 0.9999986810134721, 0.999992632909479, 0.9995934203848083, 0.9999817116449556]]
(2, 8)
[[0.9999993679321734, 0.9999959258957578, 0.9993652927499846, 0.9999944747771686, 0.9999986810134721, 0.999992632909479, 0.9995934203848083, 0.9999817116449556], [0.9999904364105806, 0.999978417090773, 0.9931737377908968, 0.9999366295983699, 0.9999828345560092, 0.9999911800125427, 0.9992730653310608, 0.9998121078615558]]
(3, 8)
[[0.9999993679321734, 0.9999959258957578, 0.9993652927499846, 0.9999944747771686, 0.9999986810134721, 0.999992632909479, 0.9995934203848083, 0.9999817116449556], [0.9999904364105806, 0.999978417090773, 0.9931737377908968, 0.9999366295983699, 0.9999828345560092, 0.9999911800125427, 0.9992730653310608, 0.9998121078615558], [0.9999956002517499, 0.9999938264367458, 0.9986885468551093, 0.9999734357104993, 0.9999972253178662, 0.9999929930326468, 0.9993318306822336, 0.9999439198445242]]
(4, 8)
[[

In [None]:
## 각 시점의 출력값 확인
total_hidden_states = np.stack(total_hidden_states, axis = 0)  # 출력 시 값을 깔끔하게 해준다.
print(total_hidden_states) # (timesteps, output_dim)의 크기. 이 경우 (10, 8)의 크기를 가지는 메모리 셀의 2D 텐서를 출력.

[[0.99999937 0.99999593 0.99936529 0.99999447 0.99999868 0.99999263
  0.99959342 0.99998171]
 [0.99999044 0.99997842 0.99317374 0.99993663 0.99998283 0.99999118
  0.99927307 0.99981211]
 [0.9999956  0.99999383 0.99868855 0.99997344 0.99999723 0.99999299
  0.99933183 0.99994392]
 [0.99999854 0.99999174 0.99696858 0.99999121 0.99999389 0.99999382
  0.9997716  0.99997337]
 [0.99999722 0.99999122 0.9973219  0.99998329 0.99999412 0.99999329
  0.99961632 0.9999514 ]
 [0.99999843 0.99999123 0.99874234 0.99998272 0.99999744 0.99998979
  0.99927584 0.99995537]
 [0.99999822 0.99998102 0.99834163 0.99996984 0.99999439 0.99998401
  0.99823135 0.99977977]
 [0.99999891 0.99999294 0.99859163 0.99999075 0.99999695 0.9999921
  0.99958314 0.99996852]
 [0.99999932 0.99998894 0.99875706 0.9999897  0.99999687 0.9999876
  0.99925145 0.99994687]
 [0.99999861 0.99998889 0.99742607 0.99998837 0.99999329 0.99999166
  0.99956773 0.99994125]]


#### 파이토치의 nn.RNN()

In [None]:
import torch
import torch.nn as nn

In [None]:
input_size = 5 # 입력의 크기
hidden_size = 8 # 은닉 상태의 크기

In [None]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, input_size)

RNN 실행

In [None]:
# RNN 셀 생성
cell = nn.RNN(input_size, hidden_size, batch_first=True)  # batch_first = True : 입력 텐서의 첫 번째 차원이 배치 크기이다.

In [None]:
# input 넣기
outputs, _status = cell(inputs)

In [None]:
print(outputs.shape) # 모든 time-step의 hidden_state

torch.Size([1, 10, 8])


10번의 시점동안 8차원의 은닉상태가 출력됨

In [None]:
print(_status.shape) # 최종 time-step의 hidden_state

torch.Size([1, 1, 8])


#### 깊은 순환 신경망

In [None]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

## num_layers = 2
cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2, batch_first=True)
outputs, _status = cell(inputs)

print(outputs.shape) # 모든 time-step의 hidden_state

torch.Size([1, 10, 8])


In [None]:
print(_status.shape) # (층의 개수, 배치 크기, 은닉 상태의 크기)

torch.Size([2, 1, 8])


#### 깊은 양방향 순환 신경망

In [None]:
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

## bidirectional = True
cell = nn.RNN(input_size = 5, hidden_size = 8, num_layers = 2, batch_first=True, bidirectional = True)
outputs, _status = cell(inputs)

In [None]:
print(outputs.shape) # (배치 크기, 시퀀스 길이, 은닉 상태의 크기 x 2)

torch.Size([1, 10, 16])


In [None]:
print(_status.shape) # (층의 개수 x 2, 배치 크기, 은닉 상태의 크기)

torch.Size([4, 1, 8])


### LSTM

In [None]:
nn.LSTM(input_dim, hidden_size, batch_fisrt=True)

### GRU

In [None]:
nn.GRU(input_dim, hidden_size, batch_fisrt=True)

### Char RNN(1)

In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np

1. 훈련 데이터 전처리

In [2]:
input_str = 'apple'
label_str = 'pple!'
char_vocab = sorted(list(set(input_str+label_str)))
vocab_size = len(char_vocab)
print ('문자 집합의 크기 : {}'.format(vocab_size))

문자 집합의 크기 : 5


In [4]:
char_vocab

['!', 'a', 'e', 'l', 'p']

In [5]:
input_size = vocab_size # 입력의 크기는 문자 집합의 크기
hidden_size = 5
output_size = 5
learning_rate = 0.1

In [6]:
char_to_index = dict((c, i) for i, c in enumerate(char_vocab)) # 문자에 고유한 정수 인덱스 부여
print(char_to_index)

{'!': 0, 'a': 1, 'e': 2, 'l': 3, 'p': 4}


In [7]:
# 나중에 예측 결과(정수)를 다시 문자 시퀀스로 보기 위해
index_to_char={}
for key, value in char_to_index.items():
    index_to_char[value] = key
print(index_to_char)

{0: '!', 1: 'a', 2: 'e', 3: 'l', 4: 'p'}


In [8]:
input_str

'apple'

In [9]:
x_data = [char_to_index[c] for c in input_str]
y_data = [char_to_index[c] for c in label_str]
print(x_data)
print(y_data)

[1, 4, 4, 3, 2]
[4, 4, 3, 2, 0]


파이토치의 nn.RNN()은 기본적으로 3차원 텐서를 입력받는다.

In [10]:
# 배치 차원 추가
# 텐서 연산인 unsqueeze(0)를 통해 해결할 수도 있었음.
x_data = [x_data]
y_data = [y_data]
print(x_data)
print(y_data)

[[1, 4, 4, 3, 2]]
[[4, 4, 3, 2, 0]]


In [14]:
# 입력 시퀀스의 각 문자들을 원-핫 벡터로 변경
x_one_hot = [np.eye(vocab_size)[x] for x in x_data]
print(x_one_hot)

[array([[0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0.],
       [0., 0., 1., 0., 0.]])]


In [15]:
# 입력 데이터와 레이블 데이터 → 텐서로 변환
X = torch.FloatTensor(x_one_hot)
Y = torch.LongTensor(y_data)

  X = torch.FloatTensor(x_one_hot)


In [16]:
print('훈련 데이터의 크기 : {}'.format(X.shape))
print('레이블의 크기 : {}'.format(Y.shape))

훈련 데이터의 크기 : torch.Size([1, 5, 5])
레이블의 크기 : torch.Size([1, 5])


2. 모델 구현하기

In [17]:
class Net(torch.nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(Net, self).__init__()
        self.rnn = torch.nn.RNN(input_size, hidden_size, batch_first=True) # RNN 셀 구현
        self.fc = torch.nn.Linear(hidden_size, output_size, bias=True) # 출력층 구현
            #fc : fully-connected layer

    def forward(self, x): # 구현한 RNN 셀과 출력층을 연결
        x, _status = self.rnn(x)
        x = self.fc(x)
        return x

In [18]:
net = Net(input_size, hidden_size, output_size)

In [19]:
outputs = net(X)
print(outputs.shape) # 3차원 텐서
# (배치 차원, 시점(timesteps), 출력의 크기)

torch.Size([1, 5, 5])


In [20]:
print(outputs.view(-1, input_size).shape) # 2차원 텐서로 변환

torch.Size([5, 5])


In [21]:
print(Y.shape)
print(Y.view(-1).shape)

torch.Size([1, 5])
torch.Size([5])


In [23]:
criterion = torch.nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), learning_rate)

In [24]:
# 100번의 에포크 학습
for i in range(100):
    optimizer.zero_grad()
    outputs = net(X)
    loss = criterion(outputs.view(-1, input_size), Y.view(-1)) # view를 하는 이유는 Batch 차원 제거를 위해
    loss.backward() # 기울기 계산
    optimizer.step() # 아까 optimizer 선언 시 넣어둔 파라미터 업데이트

    # 아래 세 줄은 모델이 실제 어떻게 예측했는지를 확인하기 위한 코드.
    result = outputs.data.numpy().argmax(axis=2) # 최종 예측값인 각 time-step 별 5차원 벡터에 대해서 가장 높은 값의 인덱스를 선택
    result_str = ''.join([index_to_char[c] for c in np.squeeze(result)])
    print(i, "loss: ", loss.item(), "prediction: ", result, "true Y: ", y_data, "prediction str: ", result_str)

0 loss:  1.6723861694335938 prediction:  [[2 4 4 3 3]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  eppll
1 loss:  1.3790686130523682 prediction:  [[4 4 4 4 4]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  ppppp
2 loss:  1.2026500701904297 prediction:  [[4 4 4 4 4]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  ppppp
3 loss:  1.0397974252700806 prediction:  [[4 4 3 4 4]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  pplpp
4 loss:  0.8639044761657715 prediction:  [[4 4 3 2 4]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  pplep
5 loss:  0.7000270485877991 prediction:  [[4 4 3 2 4]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  pplep
6 loss:  0.5418907403945923 prediction:  [[4 4 3 2 4]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  pplep
7 loss:  0.4186881482601166 prediction:  [[4 4 3 2 0]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  pple!
8 loss:  0.32870712876319885 prediction:  [[4 4 3 2 0]] true Y:  [[4, 4, 3, 2, 0]] prediction str:  pple!
9 loss:  0.25254496932029724 prediction:  [[4 4 3 2 0]

### Char RNN(2)

In [25]:
import torch
import torch.nn as nn
import torch.optim as optim

1. 훈련 데이터 전처리

In [26]:
sentence = ("if you want to build a ship, don't drum up people together to "
            "collect wood and don't assign them tasks and work, but rather "
            "teach them to long for the endless immensity of the sea.")

In [28]:
char_set = list(set(sentence)) # 중복을 제거한 문자 집합 생성
char_dic = {c: i for i, c in enumerate(char_set)} # 각 문자에 정수 인코딩

print(char_dic) # 공백도 여기서는 하나의 원소

{'d': 0, 'w': 1, 'y': 2, 'a': 3, 'p': 4, 'k': 5, 'f': 6, 'n': 7, ' ': 8, 'm': 9, ',': 10, 'o': 11, '.': 12, 'g': 13, 'l': 14, "'": 15, 't': 16, 'e': 17, 'h': 18, 'c': 19, 'u': 20, 's': 21, 'i': 22, 'b': 23, 'r': 24}


In [29]:
dic_size = len(char_dic)
print('문자 집합의 크기 : {}'.format(dic_size))

문자 집합의 크기 : 25


In [30]:
# 하이퍼파라미터 설정
hidden_size = dic_size
sequence_length = 10  # 임의 숫자 지정 : 샘플을 10개 단위로 끊기 위해
learning_rate = 0.1

In [31]:
# 데이터 구성
x_data = []
y_data = []

for i in range(0, len(sentence) - sequence_length):  # 10의 단위로 샘플을 자른다.
    x_str = sentence[i:i + sequence_length]
    y_str = sentence[i + 1: i + sequence_length + 1]
    print(i, x_str, '->', y_str)

    x_data.append([char_dic[c] for c in x_str])  # x str to index
    y_data.append([char_dic[c] for c in y_str])  # y str to index

0 if you wan -> f you want
1 f you want ->  you want 
2  you want  -> you want t
3 you want t -> ou want to
4 ou want to -> u want to 
5 u want to  ->  want to b
6  want to b -> want to bu
7 want to bu -> ant to bui
8 ant to bui -> nt to buil
9 nt to buil -> t to build
10 t to build ->  to build 
11  to build  -> to build a
12 to build a -> o build a 
13 o build a  ->  build a s
14  build a s -> build a sh
15 build a sh -> uild a shi
16 uild a shi -> ild a ship
17 ild a ship -> ld a ship,
18 ld a ship, -> d a ship, 
19 d a ship,  ->  a ship, d
20  a ship, d -> a ship, do
21 a ship, do ->  ship, don
22  ship, don -> ship, don'
23 ship, don' -> hip, don't
24 hip, don't -> ip, don't 
25 ip, don't  -> p, don't d
26 p, don't d -> , don't dr
27 , don't dr ->  don't dru
28  don't dru -> don't drum
29 don't drum -> on't drum 
30 on't drum  -> n't drum u
31 n't drum u -> 't drum up
32 't drum up -> t drum up 
33 t drum up  ->  drum up p
34  drum up p -> drum up pe
35 drum up pe -> rum up peo
36

In [32]:
print(x_data[0])   # if you wan에 해당됨.
print(y_data[0])   # f you want에 해당됨.

[22, 6, 8, 2, 11, 20, 8, 1, 3, 7]
[6, 8, 2, 11, 20, 8, 1, 3, 7, 16]


In [33]:
x_one_hot = [np.eye(dic_size)[x] for x in x_data] # x 데이터는 원-핫 인코딩
X = torch.FloatTensor(x_one_hot)
Y = torch.LongTensor(y_data)

In [34]:
print('훈련 데이터의 크기 : {}'.format(X.shape))
print('레이블의 크기 : {}'.format(Y.shape))

훈련 데이터의 크기 : torch.Size([170, 10, 25])
레이블의 크기 : torch.Size([170, 10])


In [35]:
print(X[0])

tensor([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,

In [36]:
print(Y[0])

tensor([ 6,  8,  2, 11, 20,  8,  1,  3,  7, 16])


2. 모델 구현하기

In [37]:
class Net(torch.nn.Module):
    def __init__(self, input_dim, hidden_dim, layers): # 현재 hidden_size는 dic_size와 같음.
        super(Net, self).__init__()
        self.rnn = torch.nn.RNN(input_dim, hidden_dim, num_layers=layers, batch_first=True)
        self.fc = torch.nn.Linear(hidden_dim, hidden_dim, bias=True)

    def forward(self, x):
        x, _status = self.rnn(x)
        x = self.fc(x)
        return x

In [38]:
net = Net(dic_size, hidden_size, 2) # 이번에는 층을 두 개 쌓습니다.(은닉층 2개)

In [39]:
criterion = torch.nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), learning_rate)

In [40]:
outputs = net(X)
print(outputs.shape) # 3차원 텐서

torch.Size([170, 10, 25])


In [41]:
print(outputs.view(-1, dic_size).shape) # 2차원 텐서로 변환.

torch.Size([1700, 25])


In [42]:
print(Y.shape)
print(Y.view(-1).shape)

torch.Size([170, 10])
torch.Size([1700])


In [43]:
for i in range(100):
    optimizer.zero_grad()
    outputs = net(X) # (170, 10, 25) 크기를 가진 텐서를 매 에포크마다 모델의 입력으로 사용
    loss = criterion(outputs.view(-1, dic_size), Y.view(-1))
    loss.backward()
    optimizer.step()

    # results의 텐서 크기는 (170, 10)
    results = outputs.argmax(dim=2)
    predict_str = ""
    for j, result in enumerate(results):
        if j == 0: # 처음에는 예측 결과를 전부 가져오지만
            predict_str += ''.join([char_set[t] for t in result])
        else: # 그 다음에는 마지막 글자만 반복 추가
            predict_str += char_set[result[-1]]

    print(predict_str)

gg'ggg'gggggggggggggggggggggggggggggggggg'g'gg'ggggggggggggggggggggggggggggggggggggggggggggggggg'ggggggggggggggg'gggggggggg'ggggg'gggg'gggggggggggggggggggggggggggggggggggg'ggggggg
                                                                                                                                                                                   
     e ele ele ele  e e ele   e e e  e   el        el e   e  l e  le  e     e ele   e  e       e e e e   ele    eele           eel     e l e  l   e  e e    e          e      e    
dt..bdt..h       h  ho   oh d ho  d hh   h           h   h  d h   hh   h   hh     d d      h  h  h  h  h   hh   hhh   hh  h   hh  h o  h  h    h  h       do    h       ho    fh   
ttrlatdmattttttttdtdttttdtttdtdttttmdttttttttdtdttttttttmttdlttdttdtdltttttttdttttttdtttttttdtttttlttdttdtt ttttdtttltdtdmdtdtdtdttdtdttlmtdttdtdttttlttdtdtdtdtttdttttttdttmtldttt
tt t t o tttttttt tttttt thttt tttttttttttttt tttttttttttttttttttt ttttttttttttttttttttttttttttttttt