## Loss는 어떻게 생기나?

- input(입력) : x
- ouput(출력) : y
- Label(정답) : d

우리는 입력(x)과 정답(d)만을 알고 있고, 모델은 입력(x)을 받아서 출력(y)을 만든다.    
$y = Wx + b$    
여기서 목적은  $d-y$가 0이 되는 것이다. 따라서 $d-y$가 0이 아닐 때에는 error가 있는 것으로 볼 수 있고 이것을 loss라 할 수 있다.

## Loss를 어떻게 계산하는가


| Type | Activation Function| Loss Function |
|------|--------------------|---------------|
|  Regression                  | 항등 사항                         |Squared Error(평균제곱오차|
|  Binary Classification       |  Logistic Function(ex. Sigmoid) | Binary Cross Entropy  |
|  Multi Class Classification  | Softmax Function                |Cross Entropy          |

- Sigmoid는 0 ~ 1 사이의 값이 나온다. 0.5 이상이면 T. 아니면 F로 판단할 수 있다.
- Softmax Function 은 출력의 합이 1이 나오므로 확률로 판단할 수 있다.

## Backpropagation

Gradient Descent Method : 경사 하강법

## 순서
- 라이브러리 import
- Dataset 만들기
- Model 만들기
- Optimizer와 loss 계산 함수 결정
- 학습을 위한 반복문
- 평가 및 모델 저장

### 라이브러리 import

In [2]:
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.autograd import Variable
from torch.utils.data import Dataset, DataLoader

import torchvision
import torchvision.transforms as transforms

import numpy as np

from collections import OrderedDict

### Dataset 만들기

In [4]:
transform = transforms.Compose([transforms.ToTensor(), #가져온 이미지를 Tensor 형테로 변환(np를 Tensor로) 채널이 변한다.
                                #ToTensor C x H x W 을 H x W x C로 바꿔준다.
                               transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
#transforms은 선처리를 위한 함수. #CenterCrop 등 다른 함수도 있다.
#transforms.Compose는 선처리를 위한 컨테이너

trainset = torchvision.datasets.CIFAR10(root="./data",
                                       train=True, #True로 하면 train 데이터로 가져온다.
                                       download=True,
                                       transform=transform)

testset = torchvision.datasets.CIFAR10(root="./data",
                                       train=False, #false로 하면 test 데이터로 가져온다.
                                       download=True,
                                       transform=transform)
#이미 선언되어 있는 데이터 셋을 가져온다. .을 붙여줘야 된다(안 붙이면 pemission denied).

trainloader = DataLoader(trainset, batch_size=8, shuffle=True, num_workers=2)
testloader = DataLoader(testset, batch_size=8, shuffle=True, num_workers=2)
#num_workers는 CPU 사용 설정. batch_size가 클 수록 num_workers가 큰 게 좋다.

Downloading https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz to ./data/cifar-10-python.tar.gz
Files already downloaded and verified


In [6]:
dataiter = iter(trainloader) #iter로 순차적으로 하나씩 가져올 수 있다.
images, labels = dataiter.next() #next로 다음 아이템으로 넘어간다.

Process Process-2:
Process Process-1:
Traceback (most recent call last):
Traceback (most recent call last):
  File "/anaconda/envs/turienv/lib/python3.6/multiprocessing/process.py", line 258, in _bootstrap
    self.run()
  File "/anaconda/envs/turienv/lib/python3.6/multiprocessing/process.py", line 258, in _bootstrap
    self.run()
  File "/anaconda/envs/turienv/lib/python3.6/multiprocessing/process.py", line 93, in run
    self._target(*self._args, **self._kwargs)
  File "/anaconda/envs/turienv/lib/python3.6/multiprocessing/process.py", line 93, in run
    self._target(*self._args, **self._kwargs)
  File "/anaconda/envs/turienv/lib/python3.6/site-packages/torch/utils/data/dataloader.py", line 96, in _worker_loop
    r = index_queue.get(timeout=MANAGER_STATUS_CHECK_INTERVAL)
  File "/anaconda/envs/turienv/lib/python3.6/site-packages/torch/utils/data/dataloader.py", line 96, in _worker_loop
    r = index_queue.get(timeout=MANAGER_STATUS_CHECK_INTERVAL)
  File "/anaconda/envs/turienv/lib

### Model 만들기

In [11]:
class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.conv1 = nn.Conv2d(3, 64, 5)
        self.conv2 = nn.Conv2d(64, 30, 5)
        self.fc1 = nn.Linear(30 * 5 * 5, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = F.relu(self.conv1(x), inplace=True)
        x = F.max_pool2d(x, (2, 2))
        x = F.relu(self.conv2(x), inplace=True)
        x = F.max_pool2d(x, (2, 2))
        x = x.view(x.shape[0], -1)
        x = F.relu(self.fc1(x), inplace=True)
        x = F.relu(self.fc2(x), inplace=True)
        return x

model = Model()

### Optimizer와 loss 계산 함수 결정

In [12]:
optim = torch.optim.SGD(model.parameters(), lr=0.001, momentum = 0.9) #momentum은 한 번씩 다른 방향으로 튀는 계수
loss_function = nn.CrossEntropyLoss()

### 학습을 위한 반복문

In [13]:
epoch_num = 3

for epoch in range(epoch_num):
    for i, data in enumerate(trainloader):
        inputs, labels = data
        
        optim.zero_grad()
        out = model(inputs)
        loss = loss_function(out, labels)
        loss.backward()
        optim.step()
        
        if i % 64 == 0:
            print("%d => loss : %.3f"%(i, loss))
            
print("train over")

0 => loss : 2.311
64 => loss : 2.323
128 => loss : 2.297
192 => loss : 2.256
256 => loss : 2.297
320 => loss : 2.209
384 => loss : 2.183
448 => loss : 2.007
512 => loss : 1.968
576 => loss : 2.275
640 => loss : 1.856
704 => loss : 1.926
768 => loss : 2.099
832 => loss : 1.946
896 => loss : 1.991
960 => loss : 1.921
1024 => loss : 1.448
1088 => loss : 1.461
1152 => loss : 1.634
1216 => loss : 1.477
1280 => loss : 1.571
1344 => loss : 1.667
1408 => loss : 1.692
1472 => loss : 1.113
1536 => loss : 2.463
1600 => loss : 1.980
1664 => loss : 2.016
1728 => loss : 1.642
1792 => loss : 2.230
1856 => loss : 1.689
1920 => loss : 1.322
1984 => loss : 2.308
2048 => loss : 1.687
2112 => loss : 1.453
2176 => loss : 1.119
2240 => loss : 1.253
2304 => loss : 1.415
2368 => loss : 1.735
2432 => loss : 1.123
2496 => loss : 1.725
2560 => loss : 2.288
2624 => loss : 1.436
2688 => loss : 1.591
2752 => loss : 1.390
2816 => loss : 1.329
2880 => loss : 1.303
2944 => loss : 1.554
3008 => loss : 0.998
3072 => los

## 평가

In [15]:
total = 0
correct = 0

for data in testloader:
    images, labels = data
    outputs = model(images)
    _, predicted = torch.max(outputs.data, 1) #예측한 클래스의 확률 중 가장 큰 값을 가져온다.
    total += labels.size(0)
    correct += (predicted==labels).sum()
    
print("Accuracy of the network on the 10000 test images: %f"%(100*correct/total))

Accuracy of the network on the 10000 test images: 65.000000


## Sequential을 사용할 때 Flatten

In [None]:
class Flatten(nn.Module):
    def forward(self, x):
        return x.view(x.size()[0], -1) #class를 따로 만들어 view를 해주면 된다.

class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        
        self.model = nn.Sequential(OrderedDict([
            ("conv1", nn.Conv2d(3, 64, 5)), 
            ("relu1", nn.ReLU(inplace=True)),
            ("pool1", nn.MaxPool2d(2, 2)),
            ("conv2", nn.Conv2d(64, 30, 5)),
            ("relu2", nn.ReLU(inplace=True)),
            ("pool2", nn.MaxPool2d(2, 2)),
            ("flatten", Flatten()),
            ("fc1", nn.Linear(30*5*5, 128)), 
            ("relu3", nn.ReLU(inplace=True)),
            ("fc2", nn.Linear(128, 10)),
            ("relu4", nn.ReLU(inplace=True))
        ]))
        
    def forward(self, x):
        return self.model(x)
    
model = Model()

optim = torch.optim.SGD(model.parameters(), lr=0.001, momentum = 0.9) #momentum은 한 번씩 다른 방향으로 튀는 계수
loss_function = nn.CrossEntropyLoss()

epoch_num = 3

for epoch in range(epoch_num):
    for i, data in enumerate(trainloader):
        inputs, labels = data
        
        optim.zero_grad()
        out = model(inputs)
        
        loss = loss_function(out, labels)
        loss.backward()
        optim.step()
        
        if i % 64 == 0:
            print("%d => loss : %.3f"%(i, loss))
            
print("train over")