## 07. [DL 입문] - 순환 신경망(Recurrent Neural Network)

cell : hidden layer에서 activation function을 통해 결과를 내보내는 역할


In [1]:
# 파이썬으로 RNN 구현

import numpy as np

timesteps = 10  # 시점의 수. NLP 에서 보통 문장의 길이가 된다.
input_size = 4  # 입력의 차원. NLP 에서 보통 단어 벡터의 차원이 된다.
hidden_size = 8  # 은닉 상태의 크기. 메모리 셀의 용량이다.

inputs = np.random.random((timesteps, input_size))  # 입력에 해당되는 2D 텐서

hidden_state_t = np.zeros((hidden_size,))  # 초기 은닉 상태는 0 vector로 초기화
# 은닉 상태의 크기 hidden_size 로 은닉 상태를 만듬.

print(hidden_state_t)

[0. 0. 0. 0. 0. 0. 0. 0.]


In [2]:
Wx = np.random.random(
    (hidden_size, input_size)
)  # (8,4) 크기의 2D 텐서 생성, 입력에 대한 가중치.
Wh = np.random.random(
    (hidden_size, hidden_size)
)  # (8,8) 크기의 2D 텐서 생성, 은닉 상태에 대한 가중치.
b = np.random.random((hidden_size,))  # (8,) 크기의 1D 텐서 생성. 이 값은 편향(bias)

print(np.shape(Wx))
print(np.shape(Wh))
print(np.shape(b))

(8, 4)
(8, 8)
(8,)


In [3]:
total_hidden_states = []

# 메모리 셀 동작
for input_t in inputs:  # 각 시점에 따라서 입력값이 입력됨.
    output_t = np.tanh(np.dot(Wx, input_t) + np.dot(Wh, hidden_state_t) + b)
    total_hidden_states.append(
        list(output_t)
    )  # 각 시점의 은닉 상태의 값을 계속해서 축적
    print(
        np.shape(total_hidden_states)
    )  # 각 시점 t별 메모리 셀의 출력의 크기는 (timestep, output_dim)
    hidden_state_t = output_t

total_hidden_states = np.stack(total_hidden_states, axis=0)
# 출력시 값을 깔끔하게 해준다.

print(
    total_hidden_states
)  # (timesteps, output_dim)의 크기. 이 경우 (10,8)의 크기를 가지는 메모리 셀의 2D 텐서를 출력.

(1, 8)
(2, 8)
(3, 8)
(4, 8)
(5, 8)
(6, 8)
(7, 8)
(8, 8)
(9, 8)
(10, 8)
[[0.9692762  0.76549866 0.85653569 0.91474923 0.87628104 0.85454369
  0.96317985 0.96867712]
 [0.99999351 0.99993606 0.99984555 0.99996551 0.99997311 0.99997925
  0.99998283 0.99999256]
 [0.99998908 0.99992825 0.99977554 0.99995359 0.99995399 0.99996073
  0.99996233 0.99995808]
 [0.99999049 0.999936   0.99960676 0.99983949 0.99997566 0.99997925
  0.99995508 0.99994487]
 [0.99999615 0.99996168 0.99989102 0.99998725 0.99996519 0.99997823
  0.99998415 0.9999921 ]
 [0.99998902 0.99993365 0.99973035 0.99989782 0.99996905 0.99997254
  0.9999581  0.99993299]
 [0.99999278 0.9999495  0.9997939  0.99993438 0.99997498 0.99997986
  0.99997124 0.99996553]
 [0.99999081 0.99992728 0.99983186 0.99995483 0.99990484 0.99994562
  0.99994381 0.99992649]
 [0.99999383 0.99995494 0.99989093 0.99997369 0.99996493 0.99997467
  0.99997764 0.99997264]
 [0.99999484 0.99995601 0.99981177 0.99996352 0.99997532 0.99998188
  0.99997846 0.99998545]

In [4]:
# 파이토치의 nn.RNN()
import torch
import torch.nn as nn

In [5]:
input_size = 5  # 입력의 크기 -> 매 시점마다 들어가는 입력의 크기
hidden_size = 8  # 은닉 상태의 크기

# 입력 텐서
# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

cell = nn.RNN(
    input_size, hidden_size, batch_first=True
)  # 입력 텐서의 첫번째 차원이 배치 크기

outputs, _status = cell(
    inputs
)  # outputs : 모든 시점의 은닉 상태, _status : 마지막 시점 은닉 상태

print(outputs.shape)  # 모든 time-step 의 hidden_state
print(_status.shape)  # 최종 time-step의 hidden_state

torch.Size([1, 10, 8])
torch.Size([1, 1, 8])


In [6]:
# Deep RNN

# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

cell = nn.RNN(input_size=5, hidden_size=8, num_layers=2, batch_first=True)
outputs, _status = cell(inputs)

print(outputs.shape)
print(_status.shape)  # (층의 갯수, 배치 크기, 은닉 상태의 크기)

torch.Size([1, 10, 8])
torch.Size([2, 1, 8])


In [7]:
# Bidirectional RNN

# (batch_size, time_steps, input_size)
inputs = torch.Tensor(1, 10, 5)

cell = nn.RNN(
    input_size=5, hidden_size=8, num_layers=2, batch_first=True, bidirectional=True
)
outputs, _status = cell(inputs)

print(outputs.shape)  # 배치 크기, 시퀀스 길이, 은닉 상태의 크기 x 2
print(_status.shape)  # (층의 개수 x2, 배치 크기, 은닉 상태의 크기)

torch.Size([1, 10, 16])
torch.Size([4, 1, 8])


## LSTM과 GRU
- 바닐라 RNN의 한계 : time-step이 길어질수록 앞의 정보가 뒤로 충분히 전달되지 못함
- 장기 의존성 문제(the problem of Long-Term Dependencies)

### LSTM
- Long SHort-Term Memory
1. 입력 게이트
    - 현재의 정보를 기억하기 위한 게이트
2. 삭제 게이트
    - 기억을 삭제하기 위한 게이트
3. 셀 상태(장기 상태)
    - 입력 게이트와 삭제 게이트의 조합
4. 출력 게이트와 은닉 상태(단기 상태)
    
### GRU
1. 업데이트 게이트
2. 리셋 게이트

LSTM, GRU 성능은 비슷하다고 알려짐
경험적으로 데이터 양이 ㅈ거을 때는 매개변수의 양이 적은 GRU가 조금 낫고
데이터 양이 많으면 LSTM이 더 낫다고도 함.

In [8]:
# 파이토치의 nn.LSTM()
# nn.LSTM(input_dim, hidden_size, batch_first = True)

# 파이토치의 nn.GRU()
# nn.GRU(input_dim, hidden_size, batch_first = True)

In [9]:
# 문자 단위 RNN (Char RNN)

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np

In [10]:
# 1.훈련 데이터 전처리하기
# apple -> pple!

input_str = "apple"
label_str = "pple!"
char_vocab = sorted(list(set(input_str + label_str)))
vocab_size = len(char_vocab)

print(f"문자 집합의 크기 : {vocab_size}")  # !,a,e,l,p

문자 집합의 크기 : 5


In [11]:
input_size = vocab_size  # 입력의 크기는 문자 집합의 크기, 원핫벡터사용
hidden_size = 5
output_size = 5
learning_rate = 0.1

In [12]:
char_to_index = dict((c,i) for i,c in enumerate(char_vocab)) # 문자에 고유한 정수 인덱스 부여
print(char_to_index)

{'!': 0, 'a': 1, 'e': 2, 'l': 3, 'p': 4}


In [13]:
# 예측 결과를 다시 문자 시퀀스로 보기 위해 정수로부터 문자를 얻을 수 있는 index_to_char
index_to_char = {}
for key, value in char_to_index.items():
    index_to_char[value] = key
print(index_to_char)

{0: '!', 1: 'a', 2: 'e', 3: 'l', 4: 'p'}


In [14]:
# 입력 데이터와 레이블 데이터의 각 문자들을 정수로 맵핑
x_data = [char_to_index[c] for c in input_str]
y_data = [char_to_index[c] for c in label_str]
print(x_data)
print(y_data)

[1, 4, 4, 3, 2]
[4, 4, 3, 2, 0]


In [15]:
# 파이토치 nn.RNN()은 기본적으로 3차원 텐서 받음
# 배치 차원 추가
# 텐서 연산인 unsqueeze(0)을 통해 해결할 수도 있었음.
x_data = [x_data]
y_data =[y_data]
print(x_data)
print(y_data)

[[1, 4, 4, 3, 2]]
[[4, 4, 3, 2, 0]]


In [16]:
# 입력 시퀀스의 각 문자들을 원-핫 벡터로 바꿔줌
x_one_hot = [np.eye(vocab_size)[x] for x in x_data]
print(x_one_hot)

[array([[0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0.],
       [0., 0., 1., 0., 0.]])]


In [17]:
# 입력 데이터와 레이블 데이터를 텐서로 바꿔줌
X = torch.FloatTensor(x_one_hot)
y = torch.LongTensor(y_data)

# 각 텐서 크기 확인
print(f'훈련 데이터의 크기 : {X.shape}')
print(f'레이블의 크기 : {y.shape}')

훈련 데이터의 크기 : torch.Size([1, 5, 5])
레이블의 크기 : torch.Size([1, 5])


  X = torch.FloatTensor(x_one_hot)


In [18]:
# 모델 구현
class Net(torch.nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(Net, self).__init__()
        self.rnn = torch.nn.RNN(input_size, hidden_size, batch_first = True) # RNN 셀 구현
        self.fc = torch.nn.Linear(hidden_size, output_size, bias=True) # 출력층 구현
    
    def forward(self, x): # 구현한 RNN 셀과 출력층을 연결
        x, _status = self.rnn(x)
        x = self.fc(x)
        return x
    
net = Net(input_size, hidden_size, output_size)

outputs = net(X)

print(outputs.shape) # 3차원 텐서
print(outputs.view(-1, input_size).shape) # 2차원 텐서로 변환
print(y.shape)
print(y.view(-1).shape)

torch.Size([1, 5, 5])
torch.Size([5, 5])
torch.Size([1, 5])
torch.Size([5])


In [19]:
criterion = torch.nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), learning_rate)

for i in range(100):
    optimizer.zero_grad()
    outputs = net(X)
    loss = criterion(outputs.view(-1, input_size), y.view(-1)) # view 하는 이유는 batch 차원 제거 위해
    loss.backward() # 기울기 계산
    optimizer.step()

    # 모델이 실제로 어떻게 예측했는지를 확인하기 위한 코드
    result = outputs.data.numpy().argmax(axis=2) # 최종 예측값인 각 time-step 별 5차원 벡터에 대해서 가장 높은 값의 인덱스를 선택
    result_str = ''.join([index_to_char[c] for c in np.squeeze(result)])
    print(i, "loss: ", loss.item(), "prediction: ", result, "true y: ", y_data, "prediction str: ", result_str)

0 loss:  1.7478086948394775 prediction:  [[1 1 1 1 1]] true y:  [[4, 4, 3, 2, 0]] prediction str:  aaaaa
1 loss:  1.4563896656036377 prediction:  [[4 4 4 4 3]] true y:  [[4, 4, 3, 2, 0]] prediction str:  ppppl
2 loss:  1.3306190967559814 prediction:  [[4 4 4 4 4]] true y:  [[4, 4, 3, 2, 0]] prediction str:  ppppp
3 loss:  1.2274348735809326 prediction:  [[4 4 4 4 0]] true y:  [[4, 4, 3, 2, 0]] prediction str:  pppp!
4 loss:  1.1237967014312744 prediction:  [[4 4 4 4 0]] true y:  [[4, 4, 3, 2, 0]] prediction str:  pppp!
5 loss:  1.0067049264907837 prediction:  [[4 4 4 4 0]] true y:  [[4, 4, 3, 2, 0]] prediction str:  pppp!
6 loss:  0.8778664469718933 prediction:  [[4 4 4 2 0]] true y:  [[4, 4, 3, 2, 0]] prediction str:  pppe!
7 loss:  0.732934296131134 prediction:  [[4 4 3 2 0]] true y:  [[4, 4, 3, 2, 0]] prediction str:  pple!
8 loss:  0.5749741792678833 prediction:  [[4 4 3 2 0]] true y:  [[4, 4, 3, 2, 0]] prediction str:  pple!
9 loss:  0.45975661277770996 prediction:  [[4 4 4 2 0]] 

In [20]:
# 더 많은 데이터로 학습한 문자 단위 RNN

# 훈련 데이터 전처리

sentence = ("if you want to build a ship, don't drum up people together to "
            "collect wood and don't assign them tasks and work, but rather "
            "teach them to long for the endless immensity of the sea.")

char_set = list(set(sentence)) # 중복 제거한 문자 집합 생성
char_dic = {c : i for i, c in enumerate(char_set)} # 각 문자에 정수 인코딩
print(char_dic)

dic_size = len(char_dic)
print(f'문자 집합의 크기 : {dic_size}')

{'f': 0, 'h': 1, 'd': 2, 'a': 3, 'i': 4, 'b': 5, 'u': 6, 't': 7, "'": 8, ',': 9, 'm': 10, 'w': 11, 'y': 12, ' ': 13, 'k': 14, 'p': 15, 'c': 16, 'o': 17, 'r': 18, '.': 19, 'n': 20, 'e': 21, 's': 22, 'g': 23, 'l': 24}
문자 집합의 크기 : 25


In [21]:
# 하이퍼 파라미터 설정
hidden_size = dic_size
sequence_length = 10 # 임의 숫자 가정
learning_rate = 0.1

In [22]:
# 임의의 sequence_length값 단위로 샘플들을 잘라서 데이터 만드는 모습

# 데이터 구성
x_data = []
y_data = []

for i in range(0, len(sentence) - sequence_length):
    x_str = sentence[i:i + sequence_length]
    y_str = sentence[i+1: i + sequence_length + 1]
    print(i, x_str, '->', y_str)

    x_data.append([char_dic[c] for c in x_str]) # x str to index
    y_data.append([char_dic[c] for c in y_str]) # y str to index

0 if you wan -> f you want
1 f you want ->  you want 
2  you want  -> you want t
3 you want t -> ou want to
4 ou want to -> u want to 
5 u want to  ->  want to b
6  want to b -> want to bu
7 want to bu -> ant to bui
8 ant to bui -> nt to buil
9 nt to buil -> t to build
10 t to build ->  to build 
11  to build  -> to build a
12 to build a -> o build a 
13 o build a  ->  build a s
14  build a s -> build a sh
15 build a sh -> uild a shi
16 uild a shi -> ild a ship
17 ild a ship -> ld a ship,
18 ld a ship, -> d a ship, 
19 d a ship,  ->  a ship, d
20  a ship, d -> a ship, do
21 a ship, do ->  ship, don
22  ship, don -> ship, don'
23 ship, don' -> hip, don't
24 hip, don't -> ip, don't 
25 ip, don't  -> p, don't d
26 p, don't d -> , don't dr
27 , don't dr ->  don't dru
28  don't dru -> don't drum
29 don't drum -> on't drum 
30 on't drum  -> n't drum u
31 n't drum u -> 't drum up
32 't drum up -> t drum up 
33 t drum up  ->  drum up p
34  drum up p -> drum up pe
35 drum up pe -> rum up peo
36

In [23]:
print(x_data[0])
print(y_data[0])

[4, 0, 13, 12, 17, 6, 13, 11, 3, 20]
[0, 13, 12, 17, 6, 13, 11, 3, 20, 7]


In [24]:
x_one_hot = [np.eye(dic_size)[x] for x in x_data] # x 데이터는 원-핫 인코딩
X = torch.FloatTensor(x_one_hot)
y = torch.LongTensor(y_data)

print(f"훈련 데이터의 크기 : {X.shape}")
print(f"레이블의 크기 : {y.shape}")
print(X[0])
print(y[0])

훈련 데이터의 크기 : torch.Size([170, 10, 25])
레이블의 크기 : torch.Size([170, 10])
tensor([[0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
         0., 0.

In [25]:
# 모델 구현
class Net(torch.nn.Module):
    def __init__(self, input_dim, hidden_size, layers): # 현재 hidden_size는 dic_size와 같음.
        super(Net, self).__init__()
        self.rnn = torch.nn.RNN(input_dim, hidden_size, num_layers=layers, batch_first = True)
        self.fc = torch.nn.Linear(hidden_size, hidden_size, bias=True)
    
    def forward(self, x):
        x, _status = self.rnn(x)
        x = self.fc(x)
        return x 

In [26]:
net = Net(dic_size, hidden_size, 2) # 이번에는 층 2개

criterion = torch.nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), learning_rate)

outputs = net(X)
print(outputs.shape) # 3차원 텐서
print(outputs.view(-1, dic_size).shape) # 2차원 텐서로 변환
print(y.shape)
print(y.view(-1).shape)


torch.Size([170, 10, 25])
torch.Size([1700, 25])
torch.Size([170, 10])
torch.Size([1700])


In [27]:
for i in range(100):
    optimizer.zero_grad()
    outputs = net(X) # (170, 10, 25) 크기를 가진 텐서를 매 에포크 마다 모델의 입력으로 사용
    loss = criterion(outputs.view(-1, dic_size), y.view(-1))
    loss.backward()
    optimizer.step()

    # results의 텐서 크기는 (170, 10)
    results = outputs.argmax(dim=2)
    predict_str = ""
    for j, result in enumerate(results):
        if j == 0 : # 처음에는 예측 결과를 전부 가져오지만
            predict_str += ''.join([char_set[t] for t in result])
        else : # 그 다음에는 마지막 글자만 반복 추가
            predict_str += char_set[result[-1]]
    print(predict_str)


nrrrrrrrrlrrrrrrrnrrrrrnrnnrrrrlnrrrrnrrrnrrrrnrrrrrlnrrllnrrryrrrrlrrrrrnrrlrrrrnnrrrnnrlrrrrlrrrrnrnrrnrrrrlnrrrrrrlnrrllnrrrlrrrrlrrrrrrrnlrrrrnrrlrrlrrrnnrrrrrlnrrrrrrrrrlrnrr
   nnnnnnn  onnnnn  nnnnnnn nnnnn   nnn n nnnnn nno nnnn nno nnn  nn  nnn nnn  nnnn  nnn nnn nnnn nnn nnn  nn nnnnn   nn  nno nn   nnnn nnnnnn nn non nnnn nnn nnnnnnn  nnnnonnnnnn
                                                                                                                                                                                   
smbm.m.m.m.m.mm''.bkmk.m.m.m.mbm.m.mambb.m.m.kbbkbbbm.m.m.b.'m.mb'bmkbm'm''k''.mnm.m.mnm.m.m.mkkbb.kkm.m.m.m.m.m.m.m.m.m.m.'.kkk'b..msm.'b'm.'bm'm'm.mb'.m.m.m.b.m.bk.b.mskb.bmbbbm
nrwoaodmni.isiiibahsmi.iaiainiaiaiainmsiaisiiniaiioiini.iam.iioi.oami.i.i..oilbiainiaismsiaili.swaoosiwiaosoaiaiaisinininiaisiabiwoamm.ahosi.oaibob.aininiamsiwoaisib.aoib..aaosi.i
eothdstohhet hhohhhotoehhhhoeheoehuhet hhhotohahhthtoe ehhtohheohehtohoeheeheotoehthehtt hhhoeheehhi

## 08. CNN

In [28]:
# CNN으로 MNIST 분류하기
import torch
import torch.nn as nn



In [29]:
# 배치크기 x 채널 x 높이(height) x 너비(width)의 크기의 텐서를 선언
inputs = torch.Tensor(1,1,28,28)
print(f'텐서의 크기 : {inputs.shape}')

텐서의 크기 : torch.Size([1, 1, 28, 28])


In [30]:
# 1번째 합성곱층 
# 1채널 짜리를 입력받아서 32채널을 뽑아내는데 커널 사이즈는 3 패딩은 1
conv1 = nn.Conv2d(1, 32, 3, padding=1)
print(conv1)

# 2번째 합성곱층
conv2 = nn.Conv2d(32,64, kernel_size = 3, padding = 1)
print(conv2)

# max pooling
pool = nn.MaxPool2d(2)
print(pool)

Conv2d(1, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)


In [31]:
# 구현체 연결하기
out = conv1(inputs)
print(out.shape)
out = pool(out)
print(out.shape)
out = conv2(out)
print(out.shape)
out = pool(out)
print(out.shape)

torch.Size([1, 32, 28, 28])
torch.Size([1, 32, 14, 14])
torch.Size([1, 64, 14, 14])
torch.Size([1, 64, 7, 7])


In [32]:
# 첫번째 차원인 배치 차원은 그대로 두고 나머지는 펼쳐라
out = out.view(out.size(0), -1)
print(out.shape)

torch.Size([1, 3136])


In [33]:
fc = nn.Linear(3136, 10) # input_dim = 3136, output_dim = 10
out = fc(out)
print(out.shape)

torch.Size([1, 10])


In [34]:
# CNN으로 MNIST 분류
import torchvision.datasets as dsets
import torchvision.transforms as transforms
import torch.nn.init

In [35]:
device = "mps" if torch.backends.mps.is_available() else "cpu"
print(f"Using device: {device}")
torch.manual_seed(777)

Using device: mps


<torch._C.Generator at 0x1148df4f0>

In [36]:
learning_rate = 0.001
training_epochs = 15
batch_size = 100

In [37]:
mnist_train = dsets.MNIST(root='MNIST_data/', train=True, transform=transforms.ToTensor(), download=True)
mnist_test = dsets.MNIST(root='MNIST_data/', train=False, transform = transforms.ToTensor(), download=True)

In [38]:
data_loader = torch.utils.data.DataLoader(dataset=mnist_train, batch_size = batch_size, shuffle=True, drop_last=True)

In [39]:
class CNN(torch.nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        # 첫번째층
        # ImgIn shape = (?, 28, 28, 1)
        # Conv -> (?, 28, 28, 32)
        # Pool -> (?, 14, 14, 32)
        self.layer1 = torch.nn.Sequential(
            torch.nn.Conv2d(1, 32, kernel_size=3, stride=1, padding=1),
            torch.nn.ReLU(),
            torch.nn.MaxPool2d(kernel_size=2, stride=2)
        )

        # 두번쨰 층
        # ImgIn shape= (?, 14, 14, 32)
        # Conv -> (?, 14, 14, 64)
        # Pool -> (?, 7, 7, 64)
        self.layer2 = torch.nn.Sequential(
            torch.nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1),
            torch.nn.ReLU(),
            torch.nn.MaxPool2d(kernel_size=2, stride=2)
        )

        # 전결합층 7x7x64 inputs -> 10 outputs
        self.fc = torch.nn.Linear( 7 * 7 * 64, 10, bias=True)

        # 전결합층 한정으로 가중치 초기화
        torch.nn.init.xavier_uniform_(self.fc.weight)

    def forward(self, x):
        out = self.layer1(x)
        out = self.layer2(out)
        out = out.view(out.size(0), -1) # Flatten
        out = self.fc(out)
        return out

In [40]:
model = CNN().to(device)
criterion = torch.nn.CrossEntropyLoss().to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

In [41]:
total_batch = len(data_loader)
print(f'총 배치의 수 : {total_batch}')

총 배치의 수 : 600


In [42]:
for epoch in range(training_epochs):
    avg_cost = 0 # 에포크당 평균 비용을 저장하기 위한 변수 초기화

    for X,Y in data_loader: # 미니 배치 단위로 꺼내옴. 
        X = X.to(device)
        Y = Y.to(device)

        optimizer.zero_grad()
        hypothesis = model(X)
        cost = criterion(hypothesis, Y)
        cost.backward()
        optimizer.step()

        avg_cost += cost / total_batch # 현재 배치의 비용을 전체 배치수로 나누어 누적
        
    print(f'[Epoch: {epoch +1:>4} cost = {avg_cost:>.9}]')

[Epoch:    1 cost = 0.224776238]
[Epoch:    2 cost = 0.0623787791]
[Epoch:    3 cost = 0.0460401401]
[Epoch:    4 cost = 0.0373748913]
[Epoch:    5 cost = 0.0311053004]
[Epoch:    6 cost = 0.0260943454]
[Epoch:    7 cost = 0.0215723086]
[Epoch:    8 cost = 0.0179226175]
[Epoch:    9 cost = 0.016017681]
[Epoch:   10 cost = 0.013170178]
[Epoch:   11 cost = 0.0102514522]
[Epoch:   12 cost = 0.00959763303]
[Epoch:   13 cost = 0.00850353297]
[Epoch:   14 cost = 0.00647186674]
[Epoch:   15 cost = 0.00649533421]


In [44]:
# 테스트
with torch.no_grad():
    # 테스트 데이터를 모델에 입력하기 위한 준비
    X_test = mnist_test.test_data.view(len(mnist_test),1,28,28).float().to(device) # 텍스트 데이터의 크기를 맞추고, 연산을 위한 장치로 이동
    Y_test = mnist_test.test_labels.to(device)

    prediction = model(X_test)
    correct_prediction = torch.argmax(prediction, 1) == Y_test
    accuracy = correct_prediction.float().mean()
    print('Accuracy:', accuracy.item())



Accuracy: 0.9861999750137329


In [45]:
# deep CNN 층 5개
import torchvision.datasets as dsets
import torchvision.transforms as transforms
import torch.nn.init

device = "mps" if torch.backends.mps.is_available() else "cpu"
print(f"Using device: {device}")
torch.manual_seed(777)

learning_rate = 0.001
training_epochs = 15
batch_size = 100

mnist_train = dsets.MNIST(root='MNIST_data/', train=True, transform=transforms.ToTensor(), download=True)
mnist_test = dsets.MNIST(root='MNIST_data/', train=False, transform = transforms.ToTensor(), download=True)

data_loader = torch.utils.data.DataLoader(dataset=mnist_train, batch_size = batch_size, shuffle=True, drop_last=True)

Using device: mps


In [58]:
class CNN(torch.nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.keep_prob = 0.5 # 드롭아웃 확률
        
        self.layer1 = torch.nn.Sequential(
            torch.nn.Conv2d(1,32,3,padding=1),
            torch.nn.ReLU(),
            torch.nn.MaxPool2d(2)
        )

        self.layer2 = torch.nn.Sequential(
            torch.nn.Conv2d(32,64,3,padding=1),
            torch.nn.ReLU(),
            torch.nn.MaxPool2d(2)
        )

        self.layer3 = torch.nn.Sequential(
            torch.nn.Conv2d(64,128,3,padding=1),
            torch.nn.ReLU(),
            torch.nn.MaxPool2d(kernel_size=2, stride=2, padding=1)
        )

        self.fc1 = torch.nn.Linear(4*4*128, 625, bias=True)
        torch.nn.init.xavier_uniform_(self.fc1.weight)

        self.layer4 = torch.nn.Sequential(
            self.fc1,
            torch.nn.ReLU(),
            torch.nn.Dropout(p=1-self.keep_prob)
        )

        self.fc2 = torch.nn.Linear(625,10, bias=True)
        torch.nn.init.xavier_uniform_(self.fc2.weight)

    def forward(self, x):
        out = self.layer1(x)
        out = self.layer2(out)
        out = self.layer3(out)
        out = out.view(out.size(0), -1)
        out = self.layer4(out)
        out = self.fc2(out)
        return out


In [59]:
model = CNN().to(device)
criterion = torch.nn.CrossEntropyLoss().to(device)
optimizer = torch.optim.Adam(model.parameters(), lr = learning_rate)

total_batch = len(data_loader)
print(f'총 배치의 수 : {total_batch}')

총 배치의 수 : 600


In [60]:
for epoch in range(training_epochs):
    avg_cost = 0

    for X, Y in data_loader:
        X = X.to(device)
        Y = Y.to(device)

        optimizer.zero_grad()
        hypothesis = model(X)
        cost = criterion(hypothesis, Y)
        cost.backward()
        optimizer.step()

        avg_cost += cost / total_batch
    
    print( f'[Epoch: {epoch +1:>4}] cost = {avg_cost:>.9}')

[Epoch:    1] cost = 0.188369885
[Epoch:    2] cost = 0.050810352
[Epoch:    3] cost = 0.0379315503
[Epoch:    4] cost = 0.0289165415
[Epoch:    5] cost = 0.0238476582
[Epoch:    6] cost = 0.0195887685
[Epoch:    7] cost = 0.0179885831
[Epoch:    8] cost = 0.0150393946
[Epoch:    9] cost = 0.0121504636
[Epoch:   10] cost = 0.0119604692
[Epoch:   11] cost = 0.0108334674
[Epoch:   12] cost = 0.00912533235
[Epoch:   13] cost = 0.00868707709
[Epoch:   14] cost = 0.00856188685
[Epoch:   15] cost = 0.00764752226


In [61]:
with torch.no_grad():
    X_test = mnist_test.test_data.view(len(mnist_test), 1,28,28).float().to(device)
    Y_test = mnist_test.test_labels.to(device)
    prediction = model(X_test)
    correct_prediction = torch.argmax(prediction, 1) == Y_test
    accuracy = correct_prediction.float().mean()
    print('Accuracy:', accuracy.item())




Accuracy: 0.9793000221252441
