# Master Pytorch Chapter 3 : Neural Networks
https://9bow.github.io/PyTorch-tutorials-kr-0.3.1/beginner/blitz/neural_networks_tutorial.html

## Neural Networks
- torch.nn 패키지를 이용한다.
- nn은 모델을 정의하고 미분할 때 autograd를 사용한다.
- 숫자 이미지를 분류하는 신경망을 예제로 실습한다.
![nn_example](image/nn_example.png)
- feed-forward-network(입력을 받아 여러 계층을 차례로 전달한 후 최종 출력하는 과정)

## Process of train neural network
1. 학습 가능한 매개변수(or 가중치)를 갖는 신경망을 정의
2. 데이터셋 입력을 반복
3. 입력을 신경망에서 처리(계산)
4. 손실(loss, 정답과 얼마나 다른지)을 계산
5. 변화도(gradiant, 기울기)를 신경망의 매개변수들에게 역으로 전파(역전파)
6. 신경망의 가중치 갱신
![weight_formula](image/weight_formula.png)

## 1. Define Neural Network
1. nn.Conv2d()
 ![conv2d](image/conv2d_explain.png)
 - 입력값의 채널 수는 filter의 개수와 같다.(ex. RGB(3개) = filter 3개)
 - in_channels : 입력값의 채널 수(= filter의 개수)
 - out_chnnels : 출력값의 채널 수(= filter 묶음(입력값의 채널 수)의 개수) 
 
2. nn.Linear()
 ![linear](image/linear_explain.png)
 - Kears의 dense와 같은 역할
 - flatten을 해줘야 적용이 가능함(1차원으로 펴버리기)

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
    
    def __init__(self):
        super(Net, self).__init__()
        
        self.conv1 = nn.Conv2d(1, 6, 5) # 1 input, 6 output, 5x5 filter
        self.conv2 = nn.Conv2d(6, 16, 5)
        
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
        
    def forward(self, x):
        x = F.max_pool2d(F.relu(self.conv1(x)), (2,2))
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        # max pooling 사이즈가 정사각형이면, single number 입력 가능
        
        x = x.view(-1, self.num_flat_features(x))
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        
        return x
    
    def num_flat_features(self, x):
        size = x.size()[1:] # 배치 크기만 제외한 나머지 차원 (1,2,3,4) -> (2,3,4)
        num_features = 1
        for s in size:
            num_features *= s
        
        return num_features
    
net = Net()
print(net)

Net(
  (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=400, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)


- forward 함수만 정의하면 backward(변화도를 계산하는 함수)는 autograd를 사용하여 자동으로 정의된다. forward 함수에서는 어떠한 Tensor연산을 사용해도 된다.

### 모델의 학습 가능한 매개변수들 확인
- 매 학습마다 갱신되는 매개변수들(가중치)
- 필터의 사이즈, 개수 등
- channel의 개수
- linear의 노드 개수 등

In [2]:
params = list(net.parameters())
print(len(params))
print(params[0].size()) # conv1의 가중치(필터의 가중치)

10
torch.Size([6, 1, 5, 5])


### Note
- torch.nn은 미니 배치만 지원한다. 하나의 샘플이 아닌 미니배치만 받는다.
- nnConv2D인 경우 4차원 Tensor(nSamples x nChannels x Height x Width)을 입력으로 해야된다.
- 하나의 샘플만 있다면, input.unsqueeze(0)을 사용해 가짜 차원을 추가해야한다.

In [4]:
input_x = torch.randn(1,1,32,32) # 미니배치로 만든 후 입력(이미지 size = 32x32)
out = net(input)
print(out)

tensor([[-0.0036, -0.0523,  0.0209,  0.0290, -0.0409, -0.0249,  0.0209, -0.1373,
          0.1564, -0.0951]], grad_fn=<AddmmBackward>)


# 손실함수(Loss Function)
- 입력값이 정답과 얼마나 떨어져 있는지 추정하는 방법
- nn패키지에는 여러 손실함수가 있음(ex. 평균제곱오차(mean-squared error) > nn.MSEloss)

## Example

In [19]:
output = net(input_x)
target = torch.arange(1, 11, dtype = torch.float)
target = target.view(1, -1) # output이랑 같은 shape 만들어주기
criterion = nn.MSELoss()

loss = criterion(output, target)
print('Loss : ', loss)

print('conv1.bias.grad before backward')
print(net.conv1.bias.grad)

loss.backward()

print('conv1.bias.grad after backward')
print(net.conv1.bias.grad)
#print(net.conv1.weight.grad) # conv1 가중치값의 기울기

Loss :  tensor(38.6575, grad_fn=<MseLossBackward>)
conv1.bias.grad before backward
tensor([-0.0324, -0.0157, -0.1070, -0.0273,  0.0748,  0.1471])
conv1.bias.grad after backward
tensor([-0.0487, -0.0236, -0.1604, -0.0409,  0.1122,  0.2206])


In [20]:
print(loss.grad_fn) # MSELoss
print(loss.grad_fn.next_functions[0][0]) # Linear
print(loss.grad_fn.next_functions[0][0].next_functions[0][0]) # ReLU

<MseLossBackward object at 0x0000015A1365C588>
<AddmmBackward object at 0x0000015A0A14FEF0>
<AccumulateGrad object at 0x0000015A0A14F400>


### 역전파
- 오차를 역전파하기 위해서는 loss.backward()가 전부이다.
- 기존 변화도를 지우는 작업이 필요하다.(변화도가 기존의 것에 누적된다.)

# 가중치 갱신
- 가중치의 갱신하여 정확도를 올린다.
- 가장 단순한 규칙은 확률적 경사하강법(SGD)<br>
가중치(weight) = 가중치(weight) - 학습율(learning rage) * 변화도(grad)

In [21]:
learning_rate = 0.01
for f in net.parameters():
    f.data.sub_(f.grad.data * learning_rate)

- 그러나 SGD, Nesterov-SGD, Adam, RMSProp 등의 다양한 갱신 규칙이 있다.
- torch.optim 패키지가 이러한 규칙들을 제공한다.

In [22]:
import torch.optim as optim

optimizer = optim.SGD(net.parameters(), lr = 0.01) # optimizer 생성

optimizer.zero_grad() # 0으로 초기화
output = net(input)
loss = criterion(output, target)
loss.backward()
optimizer.step() # optimizer 업데이트

# Note
- zero_grad()을 이용하여 수동으로 변화도 버퍼를 0으로 설정해야 한다.
- 변화도가 누적되는 것을 방지

# Question
### 1. what is super()?
- 클래스가 여러 클래스들에 대해 서로서로 상속을 받은 상태일 때,<br>
최상위 클라스의 생성자가 각각의 클래스에 대해 중복해서 출력되기 때문에<br>
이를 방지하기 위해 최상단 부모 클래스를 한 번만 호출하도록 하는 함수
- 참고http://bluese05.tistory.com/5