1. 학습 가능한 매개변수(또는 가중치(weight))를 갖는 신경망을 정의합니다
2. 데이터셋(dataset) 입력을 반복합니다
3. 입력을 신경망에서 전파(process)합니다
4. 손실(loss; 출력이 정답으로부터 얼마나 떨어져있는지)을 계산합니다
5. 변화도(gradient)를 신경망의 매개변수들에 역으로 전파합니다
6. 신경망의 가중치를 갱신합니다. 일반적으로 다음과 같은 간단한 규칙을 사용합니다.:
가중치(weight)=가중치(weight)-학습률(learning rate) *변화도(gradient)

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1=nn.Conv2d(1,6,3) #input channel 1, output channel 6, kernel 3*3
        self.conv2=nn.Conv2d(6,16,3)
        # an affine operation : y=wx+b
        self.fc1=nn.Linear(16*6*6,120) #6*6 from image dimension
        self.fc2=nn.Linear(120,84)
        self.fc3=nn.Linear(84,10)
        
    def forward(self,x):
        x=F.max_pool2d(F.relu(self.conv1(x)),(2,2))
        #(2,2) 윈도우로 Maxpooling
        x=F.max_pool2d(F.relu(self.conv2(x)),2)
        #사이즈가 정사각형이면 하나의 숫자로 지정
        x=x.view(-1,self.num_flat_features(x))
        x=F.relu(self.fc1(x))
        x=F.relu(self.fc2(x))
        x=self.fc3(x)
        
        return x
    #forward함수만 정의하고 나면 변화도를 계산하는 backward함수는
    #autograd를 사용하여 자동으로 정의됩니다.
    #forward함수에서는 어떠한 tensor 연산을 사용해도 됩니다
    def num_flat_features(self,x):
        size=x.size()[1:]
        num_features=1
        for s in size:
            num_features *=s
        return num_features
    
net=Net()
print(net)
    

Net(
  (conv1): Conv2d(1, 6, kernel_size=(3, 3), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(3, 3), stride=(1, 1))
  (fc1): Linear(in_features=576, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)


-----------------------------------------------------------------------
2020.06.12

#### 모델의 학습 가능한 매개변수들은 net.parameters()에 의해 반환됩니다.

In [2]:
params=list(net.parameters())
print(len(params))
print(params[0].size()) #conv1's weight

10
torch.Size([6, 1, 3, 3])


이 신경망의 예상되는 입력 크기는 32*32입니다. 이 신경망에 MNIST데이터셋을 사용하기 위해서는, 데이터셋의 이미지 크기를 32*32로 변경해야합니다

In [3]:
input=torch.randn(1,1,32,32)
out=net(input)
print(out)

tensor([[ 0.0633, -0.0402, -0.0824,  0.0380,  0.0205,  0.1995,  0.0507,  0.0271,
          0.0754,  0.0083]], grad_fn=<AddmmBackward>)


모든 매개변수의 변화도 버퍼(gradient buffer)를 0으로 설정하고, 무작위 값으로 역전파를 합니다

In [4]:
net.zero_grad()
out.backward(torch.randn(1,10))

torch.nn은 미니 배치만 지원합니다. torch.nn패키지 전체는 하나의 샘플이 아닌, 샘플들의 미니배치만을 입력으로 받습니다.
예를 들어, nnConv2d는 nSamples*nChannels*height*width의 4차원 tensor를 입력으로 합니다. 만약 하나의 샘플만 있다면, input.unsqueeze(0)을 사용해서 가짜 차원을 추가합니다

# 손실함수(loss function)
손실 함수는 (output,target)을 한 쌍(pair)의 입력으로 받아, 출력(output)이 정답(target)으로부터 얼마나 멀리 떨어져있는지 추정하는 값을 계산합니다.
nn 패키지에는 여러가지 손실함수들이 존재합니다. 간단한 손실 함수로는 출력과 대상간의 평균제곱오차(mean squared error)를 계산하는 nn.MSEloss가 있습니다. 
## mean square value
integral(x^2*f_X(x))dx

In [5]:
output=net(input)
target=torch.randn(10) #a dummy target, for example
target=target.view(1,-1) #make it the same shape as output
criterion=nn.MSELoss()

loss=criterion(output,target)
print(loss)

tensor(1.2071, grad_fn=<MseLossBackward>)


loss.backward()를 실행할 때, 전체 그래프는 손실(loss)에 대하여 미분되며, 
그래프 내의 requires_grad=True인 모든 Tensor는 변화도가 누적된 .grad Tensor를 갖게된다

In [7]:
print(loss.grad_fn) #MSELoss
print(loss.grad_fn.next_functions[0][0]) #Linear
print(loss.grad_fn.next_functions[0][0].next_functions[0][0]) #ReLU

<MseLossBackward object at 0x0000019F144E1648>
<AddmmBackward object at 0x0000019F144E1648>
<AccumulateGrad object at 0x0000019F0F0D5288>


# 역전파(backprop)
오차를 역전파하기 위해서는 loss.backward()만 해주면 됩니다. 기존 변화도를 없애는 작업이 필요한데, 그렇지 않으면 변화도가 기존의 것에 누적되기 때문입니다.
loss.backward()를 호출하여 역전파 전과 후에 conv1의 bias gradient를 살펴보자

In [8]:
net.zero_grad() #zeros the gradient buffers of all parameters

print('conv1.bias.grad.before backward')
print(net.conv1.bias.grad)

loss.backward()

print('conv1.bias.grad after backward')
print(net.conv1.bias.grad)

conv1.bias.grad.before backward
tensor([0., 0., 0., 0., 0., 0.])
conv1.bias.grad after backward
tensor([ 0.0177, -0.0199,  0.0193,  0.0163,  0.0294, -0.0035])


# 가중치 갱신
실제로 많이 사용되는 가장 단순한 갱신 규칙은 확률적 경사하강법(SGD;stochastic Gradient Descent)입니다
가중치=가중치(weight)-학습율(learning rate)*변화도(gradient)

In [9]:
learning_rate=0.01
for f in net.parameters():
    f.data.sub_(f.grad.data *learning_rate)

신경망을 구성할 때 SGD, Nestrov-SGD,Adam,RMSProp등과 같은 다양한 갱신 규칙을 사용하고 싶을 수 있습니다. 이를 위해서 torch.optim라는 작은 패키지에 이러한 방법들을 모두 구현해두었습니다. 사용법은 매우 간단합니다

In [12]:
import torch.optim as optim

#optimizer를 생성합니다. 
optimizer=optim.SGD(net.parameters(),lr=0.01)

#학습과정(training loop)에서는 다음과 같습니다:
optimizer.zero_grad() #버퍼 0으로 설정 잊지않기
output=net(input)
loss=criterion(output,target)
loss.backward()
optimizer.step() #dose the update