# Neural Networks

神经网络能够使用torch.nn包来进行构建。

![image.png](attachment:image.png)

一个典型的对于神经网络来说的训练流程如下所示：

1）定义有一些可学习参数的神经网络

2）通过输入的数据集进行迭代

3）通过网络处理输入

4）计算损失函数（即输出距离正确有多远）

5）反向传播梯度到网络参数中去

6）更新网络的权重，通常使用一种较为简单的更新规则。

# 定义网络


In [4]:
import torch
import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
    def __init__(self):
        super(Net,self).__init__()
        self.conv1=nn.Conv2d(1,6,3)
        self.conv2=nn.Conv2d(6,16,3)
        self.fc1=nn.Linear(16*6*6,120)
        self.fc2=nn.Linear(120,84)
        self.fc3=nn.Linear(84,10)
        #注意上图是一个卷积神经网络，这里1 input channel,6 output channels,3x3 square convolution kernel
        #靠后一些的fc1-fc3则表示的是多层放射变换
        
    def forward(self,x):
        x=F.max_pool2d(F.relu(self.conv1(x)),(2,2))
        x=F.max_pool2d(F.relu(self.conv2(x)),2)
        x=x.view(-1,self.num_flat_features(x))
        x=F.relu(self.fc1(x))
        x=F.relu(self.fc2(x))
        x=self.fc3(x)
        return x
    
    def num_flat_features(self,x):
        size=x.size()[1:]
        num_features=1
        for s in size:
            num_features*=s
        return num_features
        
net=Net()
print(net)    

Net(
  (conv1): Conv2d(1, 6, kernel_size=(3, 3), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(3, 3), stride=(1, 1))
  (fc1): Linear(in_features=576, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)


只需要定义前向函数，而后向函数（其用来计算梯度）就在使用autograd的时候自动为你定义了。你可以使用任何tensor才做在前向函数当中（forward）。

模型的可学习参数由net.parameters()返回


In [5]:
params=list(net.parameters())
print(len(params))
print(params[0].size())

10
torch.Size([6, 1, 3, 3])


In [6]:
input = torch.randn(1, 1, 32, 32)
out = net(input)
print(out)

tensor([[-0.0440, -0.0875, -0.0920,  0.0572, -0.0178, -0.0891, -0.0739,  0.0906,
         -0.0016, -0.1433]], grad_fn=<AddmmBackward>)


使所有参数和带有随机梯度的梯度的缓冲为0

In [8]:
net.zero_grad()
out.backward(torch.randn(1,10))

注意：

torch.nn只支持小批量。整个torch.nn包只支持具有小批量样本的并且不是一个单一的样本的输入。比如说，nn.Conv2d可以处理一个4维的张量（batch_size,n_channels,height,width）

如果硬是要处理单一样本的话，使用input.unsqueeze(theta)来添加一个需batch_dimension

说实话，并不是对单一样本这一概念有十分清晰的认识，使batch_size=1?

# 损失函数

在nn这个包里有几种不同的损失函数。一个最简单的损失函数是：nn.MSELoss它计算在输入和目标之间的均方误差。下面是一个具体的案例：

In [9]:
output = net(input)
target = torch.randn(10)  # a dummy target, for example
target = target.view(1, -1)  # make it the same shape as output
criterion = nn.MSELoss()

loss = criterion(output, target)
print(loss)

tensor(1.3048, grad_fn=<MseLossBackward>)


现在，如果沿着后向方向，使用它的.grad_fn性质，你将看到一个像这样的计算图：
![image.png](attachment:image.png)

所以，当我们使用loss.backward()的时候，整张图会关于损失函数进行微分（w.r.t.关于），并且所有的在图中的具有requires_grad=True这一性质的Tensors将会有其自己的沿着梯度积累的.grad。

# Backprop(后向传播)

为了后向传播误差，我们所需要做的就是loss.backward()。然而，你需要清除现存的梯度，否则，梯度将会累积到现存梯度上。

In [11]:
net.zero_grad()

print('conv1.bias.grad before backward')
print(net.conv1.bias.grad)

loss.backward()

print('conv1.bias.grad after backward')
print(net.conv1.bias.grad)

conv1.bias.grad before backward
tensor([0., 0., 0., 0., 0., 0.])
conv1.bias.grad after backward
tensor([ 0.0125, -0.0153,  0.0146, -0.0095, -0.0126,  0.0142])


现在，我们已经见识了如何使用损失函数了。现在还需要了解的就是如何更新网络的权重了！


# 更新权重

最常见的方法就是随机梯度下降法（SGD)，详细原理这里我们不再赘述！

In [13]:
learning_rate=0.01
for f in net.parameters():
    f.data.sub_(f.grad.data*learning_rate)


有一个小包可以方便地实现上述功能：torch.optim.

In [15]:
import torch.optim as optim

#创造优化器
optimizer=optim.SGD(net.parameters(),lr=0.01)

#在你的训练循环中：
optimizer.zero_grad() 
#清零梯度缓冲
output=net(input)
loss=criterion(output,target)
loss.backward()
optimizer.step()
