## 머신러닝과 딥러닝

"A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E"  
즉, 어떠한 작업 T에 대해 꾸준한 경험 E를 통하여 그 T에 대한 성능 P를 높이는 것, 이것이 기계학습이라고 할 수 있다.
머신러닝은 컴퓨터를 인간처럼 학습을 시키면 스스로 규칙을 형성할 수 있지 않을까? 라는 생각으로 시작했다. 그래서 통계적인 접근 방법을 주로 사용한다.

그중 여러 기계학습 방법론중 인공신경망(artificial neural network)이 등장하게 되는데 소프트웨어 적으로 인간의 뉴런 구조를 본떠 만든 기계학습 모델

![뉴럴네트워크](../figure/deep_neural_network.png)
몇 개의 층위를 만들어서 그 안에 '세포'들을 집어넣고, 이들을 무작위 연결 강도로 연결한다. 각 '세포'들은 자신에게 들어온 신호를 가중치와 곱해 모두 더하고(wxwx), 역치와 비교해서(wx + bwx+b) 신호를 다음 뉴런으로 전달한다.

그리고 이 인공신경망을 수 많은 계층 형태로 연결하여 딥러닝 기법으로 발전하게 된다.

딥러닝과 머신러닝의 가장 큰 차이는 representation learning이라 불리는 것으로, 머신러닝의 경우 명시적인 feature engineering 과정을 거치지만, 딥러닝은 레이어와 비선형함수의 조합으로 이를 해결한다. 컴퓨터 비젼에서 backbone 혹은 feature extractor를 통해 object detection, video understanding 등의 task나, 자연어처리에서 tf-idf, LSA, LDA 등의 embedding 과정을 거치지 않고, look up table을 통해 embedding layer로 표현하는 것이 이러한 representation learning의 예시라고 할 수 있다. 

http://www.tcpschool.com/deep2018/deep2018_deeplearning_algorithm

![CNN](../figure/CNN_image.png)
인간의 시신경 구조를 모방해 만들어진 인공신경망 알고리즘. 다수의 Convolutional Layer(이때의 작은 행렬을 필터라 부른다)으로 부터 특징맵(Feature map)을 추출하고 서브샘플링(Subsampling)을 통해 차원을 축소하여 특징맵에서 중요한 부분만을 가져온다.

* 콘벌루션(convolution)은 하나의 함수와 또 다른 함수를 반전 이동한 값을 곱한 다음, 구간에 대해 적분하여 새로운 함수를 구하는 수학 연산자이다.

https://velog.io/@arittung/CNN-ResNet50
https://velog.io/@seongguk/AI-CNNConvolutional-Neural-Network-%ED%95%99%EC%8A%B5

![콘벌루션](../figure/Comparison_convolution_correlation.png)

주로 사용하는 알고리즘은 ResNet을 자주 쓰는데, TfNet이나 Torchvision에서 제공하는 pretrained weights를 사용하여 transfer learning을 하면 많은 분야에서 훌륭한 성능을 뽑아줌

### 파이토치를 이용한 딥러닝과 CNN
파이토치는 파이썬 기반의 오픈 소스 머신러닝 라이브러리로, 페이스북 인공지능 연구집단에 의해 개발. 간결하고 구현이 빨리되며, 텐서플로우보다 사용자가 익히기 훨씬 쉽다는 특징  

|패키지|기술|
|------|---|
|torch|강력한 GPU 지원 기능을 갖춘 Numpy와 같은 라이브러리|
|torch.autograd|Torch에서 모든 차별화된 Tensor 작업을 지원하는 테이프 기반 자동 미분화 라이브러리|
|torch.optim|SGD, RMSProp, LBFGS, Adam 등과 같은 표준 최적화 방법으로 torch.nn과 함께 사용되는 최적화 패키지|
|torch.nn|	최고의 유연성을 위해 설계된 자동 그래프와 깊이 통합된 신경 네트워크 라이브러리|
|torch.legacy(.nn/optim)|이전 버전과의 호환성을 위해 Torch에서 이식된 레거시 코드|
|torch.utils|편의를 위해 DataLoader, Trainer 및 기타 유틸리티 기능|
|torch.multiprocessing|	파이썬 멀티 프로세싱을 지원하지만, 프로세스 전반에 걸쳐 Torch Tensors의 마법같은 메모리 공유 기능을 제공. 데이터 로딩 및 호그 워트 훈련에 유용|


https://tutorials.pytorch.kr/  

PYTORCH로 딥러닝하기: 60분만에 끝장내기https://tutorials.pytorch.kr/beginner/deep_learning_60min_blitz.html


* neural_networks_tutorial.ipynb 파일 보시고 다시 여기서부터 시작해주시면 됩니다

### [파이토치] 파이토치로 CNN 모델을 구현 (기초  DataLoader 사용법)

CNN은 크게 아래와 같은 구성요소로 이루어진다.

![max_pooling](../figure/max_pooling.png)

합성곱 연산(CNN) : 이미지의 특성 추출   
맥스풀링(Max Pooling) : 이미지의 특성 축약  
완전연결 신경망(Fully Connected Network) : 추출 및 축약된 특징을 입력에 사용하여 downstream task 수행  

파이토치로하는 CNN모델 구현하기
https://wikidocs.net/62306

### Import Library

In [11]:
import torch
import torch.nn as nn # 신경망들이 포함됨
import torch.optim as optim # 최적화 알고리즘들이 포함힘
import torch.nn.init as init # 텐서에 초기값을 줌

import torchvision.datasets as datasets # 이미지 데이터셋 집합체
import torchvision.transforms as transforms # 이미지 변환 툴

from torch.utils.data import DataLoader # 학습 및 배치로 모델에 넣어주기 위한 툴

import numpy as np
import matplotlib.pyplot as plt

### Set Hyperparameter

batch_size : batch size는 한 번의 batch마다 주는 데이터 샘플의 size로, 나눠진 데이터 셋을 뜻하며, iteration는 한번의 epoch를 batch_size로 나누어서 실행하는 횟수라고 생각하면 됩니다.

learning_rate : learning_rate은 어느 정도의 크기로 기울기가 줄어드는 지점으로 이동하겠는가를 나타내는 지표로, 학습이 얼마나 빨리 진행되는가를 정해주는 지표라고 생각하면 됩니다.

num_epoch : 한 번의 epoch는 인공 신경망에서 전체 데이터 셋에 대해 forward pass/backward pass 과정을 거친 것을 말합니다. 즉, 전체 데이터 셋에 대해 한 번 학습을 완료한 상태라고도 볼 수 있는데요. 이렇게 전체 데이터셋을 몇번 볼 것인가를 num_epoch를 통해 정의해주게 됩니다.

In [12]:
batch_size = 100
learning_rate = 0.0002
num_epoch = 10

### Load MNIST Data
학습용 데이터셋인 MNIST를 가져와보겠습니다. 각각 함수는 다음과 같이 정의될 수 있습니다.  
**MNIST 데이터베이스 는 손으로 쓴 숫자들로 이루어진 대형 데이터베이스이며, 다양한 화상 처리 시스템을 트레이닝하기 위해 일반적으로 사용**

- root="원하는 경로"  
root는 우리가 데이터를 어디에다가 저장하고, 경로로 사용할지를 정의해줍니다.  
- train=True(또는 False)  
train은 우리가 지금 정의하는 데이터가 학습용인지 테스트용인지 정의해줍니다.  
- transform=transforms.ToTensor()  
데이터에 어떠한 변형을 줄 것인가를 정의해줍니다.해당 transforms.ToTensor()의 경우, 모델에 넣어주기 위해 텐서 변환을 해줌을 의미합니다.  
- target_transform=None  
라벨(클래스)에 어떠한 변형을 줄 것인가를 정의해줍니다.  
- download=True  
앞에서 지정해준 경로에 해당 데이터가 없을 시 다운로드하도록 정의해줍니다.  

In [13]:
mnist_train = datasets.MNIST(root="../Data/", train=True, transform=transforms.ToTensor(), target_transform=None, download=True)
mnist_test = datasets.MNIST(root="../Data/", train=False, transform=transforms.ToTensor(), target_transform=None, download=True)

In [14]:
image, label = mnist_train[0]
print(image.shape)
print(label)

torch.Size([1, 28, 28])
5


In [15]:
#plt.imshow(image.reshape(28,28),cmap='gist_yarg')

### Define Loaders
DataLoader는 앞에서도 말씀드렸듯이 DataLoader는 학습 및 배치로 모델에 넣어주기 위한 툴입니다. 앞에서 정의한 데이터셋을 DataLoader에 넣어주게 되면 우리가 정의해준 조건에 맞게 모델을 Train, Inference할 때 데이터를 Load해주게 됩니다.  

batch_size=batch_size  
- 정의된 데이터를 batch_size개수만큼 묶어서 모델에 넣어주겠다는 의미입니다.  

shuffle=True  
- 데이터를 섞어줄 것인가 지정해주는 파라미터입니다.  

num_workers=2  
- 데이터를 묶을때 사용할 프로세서의 개수를 의미합니다.  

drop_last=True  
- 묶고 남은 데이터를 버릴 것인가를 지정해주는 파라미터입니다.  

In [16]:
train_loader = DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=2, drop_last=True)
test_loader = DataLoader(mnist_test, batch_size=batch_size, shuffle=False, num_workers=2, drop_last=True)

### Define CNN(Base) Model  
먼저 class를 통해 CNN class를 정의해보겠습니다. torch의 nn.Module을 사용하여 nn.Module class를 상속받는 CNN을 다음과 같이 정의할 수 있습니다.

In [17]:
class CNN(nn.Module):
    def __init__(self):
    	# super함수는 CNN class의 부모 class인 nn.Module을 초기화
        super(CNN, self).__init__()
        
        # batch_size = 100
        self.layer = nn.Sequential(
            # [100,1,28,28] -> [100,16,24,24]
            nn.Conv2d(in_channels=1,out_channels=16,kernel_size=5),
            nn.ReLU(),
            
            # [100,16,24,24] -> [100,32,20,20]
            nn.Conv2d(in_channels=16,out_channels=32,kernel_size=5),
            nn.ReLU(),
            
            # [100,32,20,20] -> [100,32,10,10]
            nn.MaxPool2d(kernel_size=2,stride=2),
            
            # [100,32,10,10] -> [100,64,6,6]
            nn.Conv2d(in_channels=32, out_channels=64, kernel_size=5),
            nn.ReLU(),
            
            # [100,64,6,6] -> [100,64,3,3]
            nn.MaxPool2d(kernel_size=2,stride=2)          
        )
        self.fc_layer = nn.Sequential(
        	# [100,64*3*3] -> [100,100]
            nn.Linear(64*3*3,100),                                              
            nn.ReLU(),
            # [100,100] -> [100,10]
            nn.Linear(100,10)                                                   
        )       
        
    def forward(self,x):
    	# self.layer에 정의한 연산 수행
        out = self.layer(x)
        # view 함수를 이용해 텐서의 형태를 [100,나머지]로 변환
        out = out.view(batch_size,-1)
        # self.fc_layer 정의한 연산 수행    
        out = self.fc_layer(out)
        return out

device를 아래와 같이 선언하여 gpu가 사용 가능한 경우에는 device를 gpu로 설정하고, 불가능하면 cpu로 설정해줄 수 있습니다.

In [18]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

CNN().to(device)선언을 통해 정의한 모델 객체를 선언하고, 이를 지정한 장치(device)로 올려줍니다.

In [19]:
model = CNN().to(device)

모델이 학습을 수행하려면, 손실함수와 최적화함수가 필요한데 이는 아래와 같이 정의할 수 있습니다. (손실함수는 Cross Entropy, 최적화함수는 Adam Optimizer을 사용하였습니다)

또한, model.parameters()와 lr=learning_rate을 torch.optim.Adam()로 감싸줌으로써 모델의 파라미터들을 사전에 정의한 learning_rate로 업데이트 해주고자 합니다.

In [20]:
loss_func = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

### Train Model  
train_loader에서 image와 label의 쌍을 batch_size만큼 받아서 모델에 전달하여 손실을 계산하고, 손실에 대한 경사하강법을 진행하여 모델을 업데이트합니다. 이때 1000번째 iteration마다 loss를 출력하고, 이를 loss_arr에 추가하도록 코드를 작성하였습니다.  

* enumerate(train_loader)함수를 통해 각각 batch의 index(j)와 [image,label]를 받아서 x, y로 정의해줍니다  
* optimizer.zero_grad()를 통해 지난 loop에서 계산했던 기울기를 0으로 초기화해줍니다.  
* loss.backward()호출을 통해 각각의 model(weight) parameter에 대한 기울기를 계산하고, optimizer.step()함수를 호출하여 인수로 들어갔던 model.parameters()에서 리턴되는 변수들의 기울기에learning_rate를 곱하여 빼주면서 이를 업데이트하게 됩니다.  

In [21]:
loss_arr =[]
for i in range(num_epoch):
    for j,[image,label] in enumerate(train_loader):
        x = image.to(device)
        y = label.to(device)
        
        optimizer.zero_grad()
        
        output = model.forward(x)
        
        loss = loss_func(output,y)
        loss.backward()
        optimizer.step()
        
        if j % 1000 == 0:
            print(loss)
            loss_arr.append(loss.cpu().detach().numpy())

tensor(2.2984, grad_fn=<NllLossBackward0>)
tensor(0.1714, grad_fn=<NllLossBackward0>)
tensor(0.0941, grad_fn=<NllLossBackward0>)
tensor(0.1028, grad_fn=<NllLossBackward0>)
tensor(0.0312, grad_fn=<NllLossBackward0>)
tensor(0.0090, grad_fn=<NllLossBackward0>)
tensor(0.0458, grad_fn=<NllLossBackward0>)
tensor(0.0301, grad_fn=<NllLossBackward0>)
tensor(0.0535, grad_fn=<NllLossBackward0>)
tensor(0.0130, grad_fn=<NllLossBackward0>)


Test Model
마지막 부분은 학습된 모델을 바탕으로 테스트 데이터에 대하여 검증하는 부분입니다.

* model.eval() :model.eval은 해당 모델의 모든 레이어가 eval mode에 들어가게 해줍니다. 이 말은 곧, 학습할 때만 사용하는 개념인 Dropout이나 Batchnorm 등을 비활성화 시킨다는 것을 의미한다.

* torch.no_grad() : with torch.no_grad()는 pytorch의 autograd engine을 비활성화 시킵니다. 즉, 더이상 gradient를 트래킹하지 않음을 의미하고, 이에 따라 필요한 메모리가 줄어들고 계산속도가 증가하게 됩니다.

In [22]:
correct = 0
total = 0

# evaluate model
model.eval()

with torch.no_grad():
    for image, label in test_loader:
        x = image.to(device)
        y= label.to(device)

        output = model.forward(x)
        
        # torch.max함수는 (최댓값,index)를 반환 
        _,output_index = torch.max(output,1)
        
        # 전체 개수 += 라벨의 개수
        total += label.size(0)
        
        # 도출한 모델의 index와 라벨이 일치하면 correct에 개수 추가
        correct += (output_index == y).sum().float()
    
    # 정확도 도출
    print("Accuracy of Test Data: {}%".format(100*correct/total))

Accuracy of Test Data: 99.0999984741211%


## 파이토치로 CNN 모델을 구현 VGGNet

파이토치 VGG 설명 : https://pytorch.kr/hub/pytorch_vision_vgg/

ILSVRC (Imagenet Large Scale Visual Recognition Challenges)이라는 대회가 있는데, 본 대회는 거대 이미지를 1000개의 서브이미지로 분류하는 것을 목적으로 합니다. 아래 그림은 CNN구조의 대중화를 이끌었던 초창기 모델들로 AlexNet (2012) - VGGNet (2014) - GoogleNet (2014) - ResNet (2015) 순으로 계보를 이어나감

![VGGnet](../figure/Revolution_of_Depth.png)


그림에서 layers는 CNN layer의 개수(깊이)를 의미


![VGGnet](../figure/layer_depth.png)

VGGNet은 신경망의 깊이가 모델의 성능에 미치는 영향을 조사하기 위해 해당 연구를 시작 ILSVRC-2014 대회에서 GoogLeNet에 이어 2등을 차지하였으나, GoogLeNet에 비해 훨씬 간단한 구조로 인해 1등인 모델보다 더욱 널리 사용되었다는 특징을 갖고 있음

### 실험설계
모델은 3x3 convolution, Max-pooling, Fully Connected Network 3가지 연산으로만 구성이 되어 있으며 아래 표와 같이 A, A-LRN, B, C, D, E 5가지 모델에 대해 실험을 진행
![ConvNet](../figure/ConvNet.png)

이때 사용한 각각의 window_size와 activation function의 설정을 아래와 같습니다.

3x3 convolution filters (stride: 1)  
2x2 Max pooling (stride : 2)  
Activation function : ReLU  

![ConvNet_performance](../figure/ConvNet_performance.png)

결론 : 깊이가 깊어질 수록 모델의 성능이 좋아지는 것과 Local Response Normalization(LRN)은 성능에 큰 영향을 주지 않는다는 사실

### VGGNet 구현
그럼 VGGNet의 개요를 살펴봤으니 이번에는 이를 구현해볼까요? 구현은 위 실험 설계 표의 D열의 셋팅을 구현해보았습니다. 다시 한번 줄글로 해당 구조를 설명하자면 아래와 같습니다.

3x3 합성곱 연산 x2 (채널 64)  
3x3 합성곱 연산 x2 (채널 128)  
3x3 합성곱 연산 x3 (채널 256)  
3x3 합성곱 연산 x3 (채널 512)  
3x3 합성곱 연산 x3 (채널 512)  
FC layer x3  
- FC layer 4096  
FC layer 4096  
FC layer 1000  

![layer_block.png](../figure/layer_block.png)
![relu](../figure/relu_activation.png)

conv layer가 2개 있는 block과 3개 있는 block을 따로 선언

In [1]:
import torch
import torch.nn as nn # 신경망들이 포함됨
import torch.optim as optim # 최적화 알고리즘들이 포함힘
import torch.nn.init as init # 텐서에 초기값을 줌

import torchvision.datasets as datasets # 이미지 데이터셋 집합체
import torchvision.transforms as transforms # 이미지 변환 툴

from torch.utils.data import DataLoader # 학습 및 배치로 모델에 넣어주기 위한 툴

import numpy as np
import matplotlib.pyplot as plt

batch_size = 100
learning_rate = 0.0002
num_epoch = 100

In [2]:
# clnv_2_block
def conv_2_block(in_dim,out_dim):
    model = nn.Sequential(
        nn.Conv2d(in_dim,out_dim,kernel_size=3,padding=1),
        nn.ReLU(),
        nn.Conv2d(out_dim,out_dim,kernel_size=3,padding=1),
        nn.ReLU(),
        nn.MaxPool2d(2,2)
    )
    return model

# conv_3_block
def conv_3_block(in_dim,out_dim):
    model = nn.Sequential(
        nn.Conv2d(in_dim,out_dim,kernel_size=3,padding=1),
        nn.ReLU(),
        nn.Conv2d(out_dim,out_dim,kernel_size=3,padding=1),
        nn.ReLU(),
        nn.Conv2d(out_dim,out_dim,kernel_size=3,padding=1),
        nn.ReLU(),
        nn.MaxPool2d(2,2)
    )
    return model

### Define VGG16

In [3]:
class VGG(nn.Module):
    def __init__(self, base_dim, num_classes=10):
        super(VGG, self).__init__()
        self.feature = nn.Sequential(
            conv_2_block(3,base_dim), #64
            conv_2_block(base_dim,2*base_dim), #128
            conv_3_block(2*base_dim,4*base_dim), #256
            conv_3_block(4*base_dim,8*base_dim), #512
            conv_3_block(8*base_dim,8*base_dim), #512        
        )
        self.fc_layer = nn.Sequential(
            # CIFAR10은 크기가 32x32이므로 
            nn.Linear(8*base_dim*1*1, 4096),
            # IMAGENET이면 224x224이므로
            # nn.Linear(8*base_dim*7*7, 4096),
            nn.ReLU(True),
            nn.Dropout(),
            nn.Linear(4096, 1000),
            nn.ReLU(True),
            nn.Dropout(),
            nn.Linear(1000, num_classes),
        )

    def forward(self, x):
        x = self.feature(x)
        #print(x.shape)
        x = x.view(x.size(0), -1)
        #print(x.shape)
        x = self.fc_layer(x)
        return x

### model, loss, optimizer 선언

In [4]:
# device 설정
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# VGG 클래스를 인스턴스화
model = VGG(base_dim=64).to(device)

# 손실함수 및 최적화함수 설정
loss_func = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

### load CIFAR10 dataset
CIFAR10은 ‘비행기(airplane)’, ‘자동차(automobile)’, ‘새(bird)’, ‘고양이(cat)’, ‘사슴(deer)’, ‘개(dog)’, ‘개구리(frog)’, ‘말(horse)’, ‘배(ship)’, ‘트럭(truck)’로 10개의 클래스로 구성되어 있는 데이터셋입니다.

CIFAR10에 포함된 이미지의 크기는 3x32x32로, 이는 32x32 픽셀 크기의 이미지가 3개 채널(channel)의 색상로 이뤄져 있다는 것을 뜻합니다.

### TRAIN/TEST 데이터셋 정의

In [5]:
import torchvision
import torchvision.datasets as datasets
import torchvision.transforms as transforms
from torch.utils.data import DataLoader

# Transform 정의
transform = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

# CIFAR10 TRAIN 데이터 정의
cifar10_train = datasets.CIFAR10(root="../Data/", train=True, transform=transform, target_transform=None, download=True)
# CIFAR10 TEST 데이터 정의
cifar10_test = datasets.CIFAR10(root="../Data/", train=False, transform=transform, target_transform=None, download=True)
classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

Files already downloaded and verified
Files already downloaded and verified


In [6]:
image, label = cifar10_train[0]
print(image.shape)
print(label)

torch.Size([3, 32, 32])
6


Source : https://pytorch.org/tutorials/beginner/blitz/cifar10_tutorial.html

In [7]:
train_loader = DataLoader(cifar10_train, batch_size=batch_size, shuffle=True, num_workers=2, drop_last=True)
test_loader = DataLoader(cifar10_test, batch_size=batch_size, shuffle=False, num_workers=2, drop_last=True)

# 학습용 이미지를 무작위로 가져오기
dataiter = iter(train_loader)
images, labels = dataiter.next()

In [8]:
images

tensor([[[[-0.7725, -0.7804, -0.7804,  ..., -0.7176, -0.5765, -0.3961],
          [-0.7961, -0.7961, -0.7882,  ..., -0.4275, -0.2784, -0.1216],
          [-0.7882, -0.8196, -0.8196,  ..., -0.1216, -0.0353,  0.1137],
          ...,
          [-0.8510, -0.8588, -0.8745,  ..., -0.7804, -0.7882, -0.8118],
          [-0.8510, -0.8588, -0.8667,  ..., -0.7882, -0.7961, -0.7961],
          [-0.8196, -0.8353, -0.8353,  ..., -0.7882, -0.7804, -0.7725]],

         [[-0.8431, -0.8510, -0.8588,  ..., -0.6471, -0.4824, -0.3098],
          [-0.8667, -0.8667, -0.8588,  ..., -0.3020, -0.1686, -0.0353],
          [-0.8588, -0.8902, -0.8902,  ..., -0.0196,  0.0588,  0.2000],
          ...,
          [-0.9216, -0.9294, -0.9451,  ..., -0.8510, -0.8431, -0.8588],
          [-0.9216, -0.9373, -0.9373,  ..., -0.8588, -0.8510, -0.8431],
          [-0.9059, -0.9216, -0.9137,  ..., -0.8667, -0.8353, -0.8196]],

         [[-0.8039, -0.8118, -0.8196,  ..., -0.6784, -0.5765, -0.4118],
          [-0.8275, -0.8275, -

In [9]:
labels

tensor([2, 1, 0, 0, 5, 3, 2, 9, 1, 1, 9, 5, 3, 7, 9, 1, 4, 8, 7, 0, 1, 7, 6, 7,
        0, 3, 3, 7, 2, 7, 7, 6, 5, 8, 8, 8, 8, 8, 0, 2, 2, 0, 8, 0, 6, 2, 3, 8,
        9, 5, 1, 0, 7, 3, 9, 5, 1, 3, 1, 0, 8, 7, 5, 0, 2, 6, 0, 0, 9, 6, 5, 5,
        2, 5, 4, 0, 6, 0, 2, 6, 2, 3, 5, 6, 9, 0, 2, 4, 4, 9, 0, 9, 9, 1, 0, 4,
        2, 8, 8, 7])

In [10]:
"""
import matplotlib.pyplot as plt
import numpy as np

# 이미지를 보여주기 위한 함수

def imshow(img):
    img = img / 2 + 0.5     # unnormalize
    npimg = img.numpy()
    plt.imshow(np.transpose(npimg, (1, 2, 0)))
    plt.show()

# 이미지 보여주기
imshow(torchvision.utils.make_grid(images))

# 정답(label) 출력
print(' '.join('%5s' % classes[labels[j]] for j in range(batch_size)))
"""

"\nimport matplotlib.pyplot as plt\nimport numpy as np\n\n# 이미지를 보여주기 위한 함수\n\ndef imshow(img):\n    img = img / 2 + 0.5     # unnormalize\n    npimg = img.numpy()\n    plt.imshow(np.transpose(npimg, (1, 2, 0)))\n    plt.show()\n\n# 이미지 보여주기\nimshow(torchvision.utils.make_grid(images))\n\n# 정답(label) 출력\nprint(' '.join('%5s' % classes[labels[j]] for j in range(batch_size)))\n"

### TRAIN

In [None]:
loss_arr = []
for i in range(num_epoch):
    for j,[image,label] in enumerate(train_loader):
        x = image.to(device)
        y_= label.to(device)
        
        optimizer.zero_grad()
        
        output = model.forward(x)
        
        loss = loss_func(output,y_)
        loss.backward()
        optimizer.step()

        if i % 50 ==0:
            print(loss)
            loss_arr.append(loss.cpu().detach().numpy())

tensor(2.3010, grad_fn=<NllLossBackward0>)
tensor(2.3034, grad_fn=<NllLossBackward0>)
tensor(2.3034, grad_fn=<NllLossBackward0>)
tensor(2.3017, grad_fn=<NllLossBackward0>)
tensor(2.3051, grad_fn=<NllLossBackward0>)
tensor(2.3026, grad_fn=<NllLossBackward0>)
tensor(2.2943, grad_fn=<NllLossBackward0>)
tensor(2.3001, grad_fn=<NllLossBackward0>)
tensor(2.2950, grad_fn=<NllLossBackward0>)
tensor(2.3082, grad_fn=<NllLossBackward0>)
tensor(2.3204, grad_fn=<NllLossBackward0>)
tensor(2.3047, grad_fn=<NllLossBackward0>)
tensor(2.2992, grad_fn=<NllLossBackward0>)
tensor(2.3010, grad_fn=<NllLossBackward0>)
tensor(2.3011, grad_fn=<NllLossBackward0>)
tensor(2.3021, grad_fn=<NllLossBackward0>)
tensor(2.3117, grad_fn=<NllLossBackward0>)
tensor(2.3083, grad_fn=<NllLossBackward0>)
tensor(2.3041, grad_fn=<NllLossBackward0>)
tensor(2.2930, grad_fn=<NllLossBackward0>)
tensor(2.3037, grad_fn=<NllLossBackward0>)
tensor(2.3044, grad_fn=<NllLossBackward0>)
tensor(2.3024, grad_fn=<NllLossBackward0>)
tensor(2.30

tensor(1.8994, grad_fn=<NllLossBackward0>)
tensor(1.8016, grad_fn=<NllLossBackward0>)
tensor(1.9559, grad_fn=<NllLossBackward0>)
tensor(1.8609, grad_fn=<NllLossBackward0>)
tensor(1.9478, grad_fn=<NllLossBackward0>)
tensor(1.9354, grad_fn=<NllLossBackward0>)
tensor(1.9545, grad_fn=<NllLossBackward0>)
tensor(1.9314, grad_fn=<NllLossBackward0>)
tensor(1.9301, grad_fn=<NllLossBackward0>)
tensor(1.9434, grad_fn=<NllLossBackward0>)
tensor(1.9207, grad_fn=<NllLossBackward0>)
tensor(1.9563, grad_fn=<NllLossBackward0>)
tensor(1.9701, grad_fn=<NllLossBackward0>)
tensor(1.9743, grad_fn=<NllLossBackward0>)
tensor(1.9181, grad_fn=<NllLossBackward0>)
tensor(2.0088, grad_fn=<NllLossBackward0>)
tensor(1.9490, grad_fn=<NllLossBackward0>)
tensor(1.8982, grad_fn=<NllLossBackward0>)
tensor(1.8667, grad_fn=<NllLossBackward0>)
tensor(1.8671, grad_fn=<NllLossBackward0>)
tensor(2.0400, grad_fn=<NllLossBackward0>)
tensor(2.0031, grad_fn=<NllLossBackward0>)
tensor(2.0348, grad_fn=<NllLossBackward0>)
tensor(1.90

tensor(1.8134, grad_fn=<NllLossBackward0>)
tensor(1.9243, grad_fn=<NllLossBackward0>)
tensor(1.8760, grad_fn=<NllLossBackward0>)
tensor(1.8593, grad_fn=<NllLossBackward0>)
tensor(1.8511, grad_fn=<NllLossBackward0>)
tensor(1.8935, grad_fn=<NllLossBackward0>)
tensor(1.8882, grad_fn=<NllLossBackward0>)
tensor(1.8371, grad_fn=<NllLossBackward0>)
tensor(1.8381, grad_fn=<NllLossBackward0>)
tensor(1.7345, grad_fn=<NllLossBackward0>)
tensor(1.8670, grad_fn=<NllLossBackward0>)
tensor(1.7701, grad_fn=<NllLossBackward0>)
tensor(1.8827, grad_fn=<NllLossBackward0>)
tensor(1.8792, grad_fn=<NllLossBackward0>)
tensor(1.9835, grad_fn=<NllLossBackward0>)
tensor(1.7347, grad_fn=<NllLossBackward0>)
tensor(1.9065, grad_fn=<NllLossBackward0>)
tensor(1.7589, grad_fn=<NllLossBackward0>)
tensor(1.8224, grad_fn=<NllLossBackward0>)
tensor(1.8012, grad_fn=<NllLossBackward0>)
tensor(1.8948, grad_fn=<NllLossBackward0>)
tensor(1.9020, grad_fn=<NllLossBackward0>)
tensor(1.8315, grad_fn=<NllLossBackward0>)
tensor(1.86

In [None]:
# loss 시각화
plt.plot(loss_arr)
plt.show()

In [None]:
# test 결과
# 맞은 개수, 전체 개수를 저장할 변수를 지정합니다.
correct = 0
total = 0

model.eval()

# 인퍼런스 모드를 위해 no_grad 해줍니다.
with torch.no_grad():
    # 테스트로더에서 이미지와 정답을 불러옵니다.
    for image,label in test_loader:
        
        # 두 데이터 모두 장치에 올립니다.
        x = image.to(device)
        y= label.to(device)

        # 모델에 데이터를 넣고 결과값을 얻습니다.
        output = model.forward(x)
        _,output_index = torch.max(output,1)

        
        # 전체 개수 += 라벨의 개수
        total += label.size(0)
        correct += (output_index == y).sum().float()
    
    # 정확도 도출
    print("Accuracy of Test Data: {}%".format(100*correct/total))