# 신경망 정의하기

In [8]:
%matplotlib inline

In [9]:
import torch

In [10]:
import torch.nn as nn

In [11]:
import torch.nn.functional as F

In [25]:
class Net(nn.Module):
    
    def __init__(self): #초기화 함수
        super(Net,self).__init__()
        # 1 input image channel, 6 output channels, 5*5 square convolution
        #kernel=filter와 같음, filter size 는 5*5
        self.conv1=nn.Conv2d(1,6,5)# 입력 채널 수, 출력 채널 수, 필터의 크기
        self.conv2=nn.Conv2d(6,16,5)# 입력 채널 수, 출력 채널 수, 필터의 크기
        #an affine operation: y=Wx+b
        self.fc1=nn.Linear(16*5*5,120) # output_channel_num*height*width
                                       # input_image_dimension 5*5
                                       # 120= output sample의 size
        self.fc2=nn.Linear(120,84)
        self.fc3=nn.Linear(84,10)
        
    def forward(self,x):
        #Max pooling over a (2,2) window
        x=F.max_pool2d(F.relu(self.conv1(x)),(2,2))
        #if the size is a squqre you can only specify a single number
        x=F.max_pool2d(F.relu(self.conv2(x)),2)
        x=x.view(-1,self.num_flat_features(x))
        x=F.relu(self.fc1(x))
        x=F.relu(self.fc2(x))
        x=self.fc3(x)
        return x
        
    def num_flat_features(self,x):
        size=x.size()[1:] #all dimension except the batch dimension
        num_features=1
        for s in size:
            num_features *=s
        return num_features
        
net=Net()
print(net)

Net(
  (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=400, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)


## forward 함수만 정의하고 나면, 변화도를 계산하는 backward 함수는 autograd를 사용하여 자동으로 정의됨. forward 함수에서는 어떠한 tensor연산을 이용해도 됨

## 모델 학습 가능한 매개변수들은 net.parameters()에 의해 반환됨

In [26]:
params=list(net.parameters())
print(len(params))
print(params[0].size()) #conv1's weight

10
torch.Size([6, 1, 5, 5])


In [27]:
input=torch.randn(1,1,32,32)
out=net(input)
#print(input)
#print(input.size())
print(out)
print(out.size())

tensor([[-0.0667,  0.1168, -0.0270,  0.0105,  0.1367,  0.1500,  0.1310,  0.0292,
          0.1249, -0.0259]], grad_fn=<AddmmBackward>)
torch.Size([1, 10])


## 모든 매개변수의 변화도 버퍼(gradient buffer)를 0으로 설정하고, 무작위 값으로 역전파한다

In [28]:
net.zero_grad()
out.backward(torch.randn(1,10))

# 손실 함수(Loss function)

## 손실함수 예: 평균제곱오차 계산 nn.MSELoss

In [29]:
output=net(input)
target=torch.randn(10)
target=target.view(1,-1)
criterion=nn.MSELoss()

loss=criterion(output,target)
print(loss)

tensor(1.3380, grad_fn=<MseLossBackward>)


In [30]:
print(loss.grad_fn) #MSELoss
print(loss.grad_fn.next_functions[0][0]) #linear
print(loss.grad_fn.next_functions[0][0].next_functions[0][0]) #ReLu

<MseLossBackward object at 0x000002CD3E6A9208>
<AddmmBackward object at 0x000002CD3E6A9B88>
<AccumulateGrad object at 0x000002CD3E6A9208>


# 역전파 (Backprop)

## loss.backward(): 오차 역전파

In [31]:
net.zero_grad() #zeros the gradient buffers of all parameters

print('conv1.bias.grad before backward')
print(net.conv1.bias.grad)

loss.backward()

print('conv1.bias.grad after backward')
print(net.conv1.bias.grad)

conv1.bias.grad before backward
tensor([0., 0., 0., 0., 0., 0.])
conv1.bias.grad after backward
tensor([-0.0121, -0.0040, -0.0015, -0.0077, -0.0043, -0.0173])


# 가중치 갱신

## 가중치(weight)=가중치(weight)-학습율(learning rate) * 변화도(gradient)

In [33]:
learning_rate=0.01
for f in net.parameters():
    f.data.sub_(f.grad.data*learning_rate)
print(f)

Parameter containing:
tensor([-0.0165,  0.0936, -0.0353, -0.0460,  0.1103,  0.0867,  0.0813, -0.1027,
         0.0761,  0.0513], requires_grad=True)


## torch.optim

### 신경망을 구성할 때 SGD,Nesterov-SGD,Adam,RMSProp 등과 같은 다양한 갱신 규칙을 사용하고 싶을 수 있습니다. 이를 위하여 torch.optim 라는 작은 패키지에 이러한 방법을 모두 구현해두었습니다.

In [35]:
import torch.optim as optim

#optimizer를 생성합니다.
optimizer=optim.SGD(net.parameters(),lr=0.01)

#학습과정(training loop)에서 다음과 같습니다.
optimizer.zero_grad() #zero the gradient buffers
output=net(input)
loss=criterion(output,target)
loss.backward()
optimizer.step() #does the update

# optimzer.zero_grad()를 사용하여 수동으로 변화도 버퍼 0을 설정해야함. 아니면 변화도가 누적됨.