# 4 Network

## 4.1 CNN构建及网络参数的使用
在Network类中，我们定义了两个卷积层和三个线性层；两个主要的部分封装在其中，即前向函数的定义和权重张量；每个层中权重张量包含了随着我们的网络在训练过程中学习而更新的权重值（这就是在网络类中将层定义为类属性的原因）；在Module类中，pytorch可以跟踪每一层的权重张量，由于我们在创建Network类时扩展了Module类，也就自动继承了该功能。
- Parameter和Argument的区别：
    - Parameter在函数定义中使用，可将其看作是占位符；(形参)
    - Argument是当函数被调用时传递给函数的实际值；（实参）
- Parameter的两种类型：
    - 1.Hyperparameters:其值是手动和任意确定的；要构建神经网络：kernel_size, out_channels, out_features都需要手动选择
    - 2.Data dependent Hyperparameters:其值是依赖于数据的参数
        - 该参数位于网络的开始或末端，即第一个卷积层的输入通道和最后一个卷积层的输出特征图
        - 第一个卷积层的输入通道依赖于构成训练集的图像内部的彩色通道的数量（灰度图像是1，彩色图像是3）
        - 输出层的输出特征依赖于训练集中类的数量（fashion-MNIST数据集中的类型为10，则输出层的out_features=10）
        - 通常情况下，一层的输入是上一层的输出（即：卷积层中所有输入通道和线性层中的输入特征都依赖于上一层的数据）
- 当张量从卷积层传入线性层时，张量必须是flatten的

|     Parameter     |     Description      |
|:----------------------|:-------------------------|
|kernel_size| 设置滤波器的大小；滤波器的数量就是输出通道数|
|out_channels| 设置滤波器的数量，即为输出通道数|
|out_features| 设置输出张量的大小|

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

import torchvision
import torchvision.transforms as transforms

torch.__version__

'1.6.0'

In [4]:
class Network(nn.Module):
    def __init__(self):
        super().__init__()
        
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)
        
        self.fc1 = nn.Linear(in_features=12 * 4 * 4, out_features=120)
        self.fc2 = nn.Linear(in_features=120, out_features=60)
        self.out = nn.Linear(in_features=60, out_features=10)
        
    def forward(self, t):
        # (1) input layer
        t = t
        
        # (2) conv layer1
        t = F.relu(self.conv1(t))
        t = F.max_pool2d(t, kernel_size=2, stride=2)
        
        # (3) conv layer2
        t = F.relu(self.conv2(t))
        t = F.max_pool2d(t, kernel_size=2, stride=2)
        
        # (4) linear layer1
        t = t.flatten(start_dim=1)
        t = F.relu(self.fc1(t))
        
        # (5) linear layer2
        t = F.relu(self.fc2(t))
        
        # (6) output layer
        t = self.out(t)
        
        return t

In [5]:
network = Network()
network

Network(
  (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 12, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=192, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=60, bias=True)
  (out): Linear(in_features=60, out_features=10, bias=True)
)

## 4.2 CNN的权重
* 可学习参数：是在训练过程中学习的参数，初值是选择的任意值，其值在网络学习的过程中以迭代的方式进行更新
* 说网络在学习是指：网络在学习参数的适合的值，适合的值就是能使损失函数最小化的值
* 可学习的参数是网络的权重，存在于每一层中
* 当我们扩展类的时候，我们会得到它的所有功能，为了得到它，我们可以添加额外的功能，也可覆盖现有的功能
* 在python中，所有特殊的面向对象的方法通常都有前双下划线和后双下划线（__init__, __repr__）

In [6]:
network.conv1

Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))

In [7]:
network.conv1.weight

Parameter containing:
tensor([[[[ 0.1131, -0.1885,  0.0338,  0.1422,  0.0272],
          [-0.0711, -0.0092,  0.0719, -0.1647,  0.1972],
          [ 0.1608,  0.0520,  0.0904, -0.1318, -0.0272],
          [-0.1267, -0.1063,  0.1072,  0.1634,  0.1675],
          [ 0.1182, -0.0100, -0.0458,  0.1479, -0.0369]]],


        [[[-0.0973,  0.0234,  0.1178,  0.1783, -0.1630],
          [ 0.1498, -0.1367, -0.0878,  0.0890, -0.0679],
          [ 0.0222, -0.1330, -0.0074, -0.1481, -0.0741],
          [ 0.1086, -0.1967, -0.1706, -0.0103,  0.0219],
          [ 0.1799,  0.1173,  0.0560, -0.1916,  0.0922]]],


        [[[-0.0108,  0.1815, -0.0545, -0.0817, -0.0975],
          [-0.0986, -0.1424,  0.0542, -0.0620, -0.1166],
          [ 0.1297, -0.0579, -0.1588, -0.1736, -0.1321],
          [-0.1871,  0.1328,  0.1452,  0.1526, -0.1546],
          [-0.1944, -0.1146,  0.0055,  0.0473, -0.0308]]],


        [[[-0.1284,  0.0007, -0.1176, -0.1789, -0.0312],
          [ 0.0440, -0.0423,  0.0432, -0.0043,  0.1099