# [NEURAL NETWORKS](https://pytorch.org/tutorials/beginner/blitz/neural_networks_tutorial.html)

torch.nn

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim


import numpy
import time
import traceback


##  Define a network

和autograd一样,nn也是torch的一个包.

nn依赖于autograd的梯度/网络的定义。

nn.Module 有layers的概念。


feed-forward(前馈)

在输入层,使用forward(input), 返回output结果

![](https://pytorch.org/tutorials/_images/mnist.png)

这里实现一个LeNet

注意: 图片是5x5的LeNet
下面代码是3x3的Lenet

### 5x5 LeNet-5

输入 32x32

conv1: 5x5,stride=1, 输出 $\frac{32-5}{stride}+1 = 28$

max_pool1 : 2x2,stride 2，输出 $\frac{28-2}{stride}+1 = 14$


conv2: 5x5,stride 1 ,输出 $\frac{14-5}{stride}+1 = 10$

max_pool2 : 2x2,stride 2，输出 $\frac{10-2}{stride}+1 = 5$

这时图片是 5*5的

### 3x3 LeNet:

输入 32x32

conv1:6个 3x3 x1 ,stride=1, 输出 $\frac{32-3}{stride}+1 = 30$

max_pool1 : 2x2,stride 2，输出 $\frac{30-2}{stride}+1 = 15$


conv2:16个 3x3 x6,stride 1 ,输出 $\frac{15-3}{stride}+1 = 13$

max_pool2 : 2x2,stride 2，输出 $\frac{13-2}{stride}+1 = 6$

这时图片是 6*6 的


In [2]:
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        # Q: conv是卷积层,输入层在哪里?
        # A: 这里定义了模型的参数。
        #    其他的非参数层（输入层, 激活函数层，池化层等）在forward中定义
        # nn.Module用于参数的封装
        
        # 当然 max_pool relu也可以在这里定义 
        # 例子
        # self.pool = nn.MaxPool2d(2, 2)
        # self.relu = nn.ReLU()

        # 注意：
        # LeNet-5原来是5x5的卷积核，fc1输入大小是 16 * 5 * 5
        # 这里是3x3, 因此fc1输入大小是 16 * 6 * 6

        self.conv1 = nn.Conv2d(1, 6, 3)  # 3x3
        self.conv2 = nn.Conv2d(6, 16, 3)  # 3x3

        # 卷积的输入可以是任意的
        # 但是，全连接层的输入必须指定大小
        # 因此，整个网络的输入大小是固定的

        self.fc1 = nn.Linear(16 * 6 * 6, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        # functional与nn
        # 至于卷积层，输入层，输出层，全连接层,是实际保存数据的“层”,是 tensor Variable
        # 其中,卷积层，全连接层保存的是参数， 是神经网络 (nn)， 要计算梯度,要激活

        # 激活函数,池化层, 不是“层”,而是和 + - * / 类似的一个函数, 因此是functional

        # nn.conv2d 和 F.max_pool2d 的尺寸指定, 可以是 (h,w) ,也可以直接一个数值
        # max pool 1 2x2
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        # max pool 2 2x2
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)

        # 二维矩阵 转 向量
        x = x.view(-1, self.num_flat_features(x))

        # 另一种写法
        # hard ocde LeNet 3*3
        # x = x.view(-1,36)

        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)  # 最后一个不用激活？计算10个分类的可能性
        return x

    def num_flat_features(self, x):
        size = x.size()[1:]  # 第0维是batch size，后面是特征维度
        num_features = 1
        for s in size:
            num_features *= s
        return num_features

小结

* nn.Module 用于参数的封装，形成一个网络Module
* nn.Paramter 一种Tensor, 作为Module的属性。例如, Conv Linear

In [3]:
net = Net()
print(net)

Net(
  (conv1): Conv2d(1, 6, kernel_size=(3, 3), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(3, 3), stride=(1, 1))
  (fc1): Linear(in_features=576, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)


## Processing inputs and calling backward
autograd auto在哪里?

我们只需要定义forward
autograd自动backward

### 参数的定义清晰明了 & 参数的计算
卷积层 全连接层 的参数分两部分 W 和 b

卷积参数
W 卷积个数 * 输入深度 * 高 * 宽
b 卷积个数 

全连接层
W 输入的向量维度
b 输出的向量维度


上面的LeNet有2个卷积层，3个全连接层
共10个参数

In [4]:

params = list(net.parameters())
print(len(params))
for  i in range(len(params)):
    print(params[i].size())  # conv1's .weight

10
torch.Size([6, 1, 3, 3])
torch.Size([6])
torch.Size([16, 6, 3, 3])
torch.Size([16])
torch.Size([120, 576])
torch.Size([120])
torch.Size([84, 120])
torch.Size([84])
torch.Size([10, 84])
torch.Size([10])


### forward and backward

In [5]:
input = torch.randn(1, 1, 32, 32)
out = net(input)  # 自动调用forward, batch, size 1 
print(out)

tensor([[-0.0570, -0.1049,  0.0301,  0.0120,  0.0016,  0.0582, -0.1153,  0.0798,
          0.1301, -0.1239]], grad_fn=<AddmmBackward>)


torch.nn 只支持mini-batches,不支持单样本

单样本处理方法：
* 可以处理成size=1的batch
* input.unsqueeze(0)

In [6]:
net.zero_grad() # 把参数的梯度清零, 避免错误
out.backward(torch.randn(1,10)) 

# 如何打印梯度呢？

## 损失函数

In [7]:
output = net(input)
target = torch.randn(10) # label

target = target.view(1,-1) # batch size 1 

criterion = nn.MSELoss() # mean square error 均方误差
loss = criterion(output,target)
print(loss)

tensor(1.6746, grad_fn=<MseLossBackward>)


input -> conv2d -> relu -> maxpool2d -> conv2d -> relu -> maxpool2d
      -> view -> linear -> relu -> linear -> relu -> linear
      -> MSELoss
      -> loss

通过 grad_fn 和 next_functions 来保存记录

In [8]:
print(loss.grad_fn)  # MSELoss

print(loss.grad_fn.next_functions[0][0])  # Linear [0][1] 是什么意思
print(loss.grad_fn.next_functions[0][0].next_functions[0][0])  # ReLU

print(loss.grad_fn.next_functions) 
print(len(loss.grad_fn.next_functions)) # 可能有很多个分支

<MseLossBackward object at 0x7fe1991a8c18>
<AddmmBackward object at 0x7fe1991a8c50>
<AccumulateGrad object at 0x7fe1991a8c18>
((<AddmmBackward object at 0x7fe1991a8cc0>, 0),)
1


In [9]:
a = torch.randn(1, requires_grad=True)
b = a*(a+2)
print (b.grad_fn)
print (b.grad_fn.next_functions)
print (b.grad_fn.next_functions[1][0].next_functions)
print (b.grad_fn.next_functions[0][0].variable is a)

<MulBackward0 object at 0x7fe1991a8e80>
((<AccumulateGrad object at 0x7fe1991a8dd8>, 0), (<AddBackward0 object at 0x7fe1991a8e48>, 0))
((<AccumulateGrad object at 0x7fe1991a8e80>, 0), (None, 0))
True


## 反向传播 

In [10]:
net.zero_grad()     # zeroes the gradient buffers of all parameters

print('conv1.bias.grad before backward')
print(net.conv1.bias.grad)

loss.backward()

print('conv1.bias.grad after backward')
print(net.conv1.bias.grad)

conv1.bias.grad before backward
tensor([0., 0., 0., 0., 0., 0.])
conv1.bias.grad after backward
tensor([-0.0122,  0.0092, -0.0261, -0.0123,  0.0125, -0.0110])


## 梯度下降 更新权值

In [11]:
learning_rate = 0.01
for f in net.parameters():
    f.data.sub_(f.grad.data * learning_rate)

### 内置优化方法
The simplest update rule used in practice is the Stochastic Gradient Descent (SGD):

```
weight = weight - learning_rate * gradient
```


SGD
Adam 动量方法

In [12]:
optimizer = optim.SGD(net.parameters(),lr=0.01)               
for i in range(1):  # 循环输入数据
    optimizer.zero_grad()
    output = net(input)
    loss = criterion(output, target)
    loss.backward()
    optimizer.step()