# 深度神经网络的正向传播

我们了解从左向右的过程是神经网络的正向传播(也叫做前向传播，或者向前传播)。还记得我们的架构图吗? 在过去的课程中我们所学习的内容都是在torch.nn这个模块下，现在我们就使用封装好的torch.nn模块来实现一个完整、多层的神经网络的正向传播。

假设我们有500条数据，20个特征，标签为3分类。我们现在要实现一个三层神经网络，这个神经网络的架构如下: 第一层有13个神经元，第二层有8个神经元，第三层是输出层。其中，第一层的激活函数是relu，第二层是sigmoid。我们要如何实现它呢?来看代码:

In [1]:
import torch
import torch.nn as nn
from torch.nn import functional as F

In [3]:
# 确定数据
torch.random.manual_seed(420)
X = torch.rand((500,20),dtype = torch.float32)
y = torch.randint(low=0,high=3,size=(500,1),dtype=torch.float32)

In [14]:
# 继承神经网络里面nn.Module的架构
class Model(nn.Module):
    def __init__(self,in_features=10,out_features=2):
        '''
        in_features:  输入该神经网络的特征数目(输入层上的神经元的数目)
        out_features: 神经网络的输出的数目 (输出层上的神经元的数目)
        '''
        super().__init__() 
        self.linear1 = nn.Linear(in_features,13,bias=True)
        self.linear2 = nn.Linear(13,8,bias=True)
        self.output = nn.Linear(8,out_features,bias=True)
    # 定义神经网络向前传播函数
    def forward(self,x):
        z1 = self.linear1(x)
        sigma1 = torch.relu(z1)
        z2 = self.linear2(sigma1)
        sigma2 = torch.sigmoid(z2)
        z3 = self.output(sigma2)
        sigma3 = torch.softmax(z3,dim = 1)
        return sigma3

In [15]:
input_ = X.shape[1]
output_ = len(y.unique())

In [16]:
# 实例化神经网络
torch.random.manual_seed(420)
net = Model(in_features=input_,out_features=output_)

In [18]:
# 向前传播
net.forward(X)

tensor([[0.4140, 0.3496, 0.2365],
        [0.4210, 0.3454, 0.2336],
        [0.4011, 0.3635, 0.2355],
        ...,
        [0.4196, 0.3452, 0.2352],
        [0.4153, 0.3455, 0.2392],
        [0.4153, 0.3442, 0.2405]], grad_fn=<SoftmaxBackward0>)

In [20]:
net.forward(X).shape

torch.Size([500, 3])

线性层上生成的权重矩阵

In [27]:
net.linear1.weight.shape

torch.Size([13, 20])

X(500,20) -> X(20,500)<br>
w * X = w(13,20) * (20,500) -> (13,500)

In [28]:
net.linear2.weight.shape

torch.Size([8, 13])

w * X = w(8,13) * (13,500) -> (8,500)

In [29]:
net.output.weight.shape

torch.Size([3, 8])

w * X = w(3,8) * (8,500) -> (3,500) -> (500,3)

线性层上生成的偏置矩阵

In [30]:
net.linear1.bias.shape

torch.Size([13])

In [31]:
net.linear2.bias.shape

torch.Size([8])

In [32]:
net.output.bias.shape

torch.Size([3])

# Module中经典的属性和方法

## 属性的继承

In [33]:
# 模型是否用于训练
net.training

True

## 方法的继承

In [35]:
# 将整个网络转移到GPU上来运行
net.cuda()

Model(
  (linear1): Linear(in_features=20, out_features=13, bias=True)
  (linear2): Linear(in_features=13, out_features=8, bias=True)
  (output): Linear(in_features=8, out_features=3, bias=True)
)

In [36]:
# 将整个网络转移到cpu上来运行
net.cpu()

Model(
  (linear1): Linear(in_features=20, out_features=13, bias=True)
  (linear2): Linear(in_features=13, out_features=8, bias=True)
  (output): Linear(in_features=8, out_features=3, bias=True)
)

In [40]:
# net.apply()：对神经网络中所有的层，int函数中所有的对象都执行同样的操作

def initial_0(m):
    print(m)
    if type(m) == nn.Linear:
        m.weight.data.fill_(0)
        print(m.weight)
        
net.apply(initial_0) # 参数为函数

Linear(in_features=20, out_features=13, bias=True)
Parameter containing:
tensor([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.

Model(
  (linear1): Linear(in_features=20, out_features=13, bias=True)
  (linear2): Linear(in_features=13, out_features=8, bias=True)
  (output): Linear(in_features=8, out_features=3, bias=True)
)

In [41]:
# net.parameters()包含所有参数的迭代器
for param in net.parameters():
    print(param)

Parameter containing:
tensor([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0