学习资料来源：https://github.com/zergtant/pytorch-handbook/blob/master/chapter1/1.3-deep-learning-with-pytorch-60-minute-blitz.md
# 官方60min快速入门

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import torch
import numpy as np
%matplotlib inline
#可以直接在控制台显示图片
from __future__ import print_function # print函数需要按照python3的版本使用，没啥用对python3

## 张量

### 基本语法
* empty, ones, zeros  和numpy语法基本一致，torch不用必须加括号
* 随机不同
* torch.tensor
* x.new_ones(size)用现有张量创建新张量，继承例如dtype的属性（也可以覆盖）
* 注意随机是torch.randn_like(x,dtype)——size相同
* 张量的size就是numpy的shape，返回tuple类型

In [2]:
x = torch.empty(5,3)
x

tensor([[1.1708e-19, 7.2128e+22, 9.2216e+29],
        [7.5546e+31, 1.6932e+22, 3.0728e+32],
        [2.9514e+29, 2.8940e+12, 7.5338e+28],
        [1.8037e+28, 3.4740e-12, 1.7743e+28],
        [2.0535e-19, 1.4609e-19, 7.5630e+28]])

注意随机与np不同

In [3]:
np.random.rand(5,4)
torch.rand(5,4) 

tensor([[0.1083, 0.7738, 0.4164, 0.4323],
        [0.6527, 0.3028, 0.9184, 0.6372],
        [0.7753, 0.9411, 0.4715, 0.3372],
        [0.7655, 0.6662, 0.5293, 0.1384],
        [0.7863, 0.9241, 0.3506, 0.1970]])

In [4]:
x = torch.tensor([5.5, 3],dtype = torch.float)
x

tensor([5.5000, 3.0000])

In [5]:
x = x.new_ones(5,3)
x = x.new_zeros(5,3)
torch.rand_like(x)

tensor([[0.9963, 0.1840, 0.4217],
        [0.9977, 0.3394, 0.8645],
        [0.0879, 0.4361, 0.9397],
        [0.8742, 0.0347, 0.8551],
        [0.4751, 0.1461, 0.4133]])

In [6]:
x.size() == x.shape # 返回tuple类型

True

### 基本运算
* 加法1、2
* 替换

* add可以提供输出

In [7]:
y = torch.rand(5,3)
x + y

tensor([[0.8789, 0.1793, 0.1661],
        [0.4038, 0.2294, 0.3223],
        [0.1402, 0.8160, 0.6614],
        [0.6570, 0.4837, 0.2277],
        [0.2464, 0.0190, 0.0142]])

In [8]:
torch.add(x,y) == x+y

tensor([[True, True, True],
        [True, True, True],
        [True, True, True],
        [True, True, True],
        [True, True, True]])

In [9]:
result = torch.empty(5,3)
torch.add(x,y,out = result)

tensor([[0.8789, 0.1793, 0.1661],
        [0.4038, 0.2294, 0.3223],
        [0.1402, 0.8160, 0.6614],
        [0.6570, 0.4837, 0.2277],
        [0.2464, 0.0190, 0.0142]])

In [10]:
x = torch.ones(5,3)

<div class = "alert alert-info"><h4>Note<p>任何以"_"结尾的操作都会用结果替换原变量。

In [11]:
y.add_(x)

tensor([[1.8789, 1.1793, 1.1661],
        [1.4038, 1.2294, 1.3223],
        [1.1402, 1.8160, 1.6614],
        [1.6570, 1.4837, 1.2277],
        [1.2464, 1.0190, 1.0142]])

In [12]:
x.copy_(y)

tensor([[1.8789, 1.1793, 1.1661],
        [1.4038, 1.2294, 1.3223],
        [1.1402, 1.8160, 1.6614],
        [1.6570, 1.4837, 1.2277],
        [1.2464, 1.0190, 1.0142]])

In [13]:
x.t_()

tensor([[1.8789, 1.4038, 1.1402, 1.6570, 1.2464],
        [1.1793, 1.2294, 1.8160, 1.4837, 1.0190],
        [1.1661, 1.3223, 1.6614, 1.2277, 1.0142]])

### 索引、变形
* 索引和numpy差不多
* 变形用view（reshape）
* 如果你有只有一个元素的张量，使用.item()来得到Python数据类型的数值

In [14]:
x[:,3]

tensor([1.6570, 1.4837, 1.2277])

In [15]:
x.size()

torch.Size([3, 5])

In [16]:
x.contiguous().view(5,3)
# 搞不懂为啥这里不加.contiguous()就会报错

tensor([[1.8789, 1.4038, 1.1402],
        [1.6570, 1.2464, 1.1793],
        [1.2294, 1.8160, 1.4837],
        [1.0190, 1.1661, 1.3223],
        [1.6614, 1.2277, 1.0142]])

In [17]:
x.reshape(15)

tensor([1.8789, 1.4038, 1.1402, 1.6570, 1.2464, 1.1793, 1.2294, 1.8160, 1.4837,
        1.0190, 1.1661, 1.3223, 1.6614, 1.2277, 1.0142])

In [18]:
x = torch.randn(4,4)
y = x.view(16)
x.view(16)
z = x.view(-1,8)
x.size(), y.size(), z.size()

(torch.Size([4, 4]), torch.Size([16]), torch.Size([2, 8]))

In [19]:
x = torch.randn(1)
print(x)
print(x.item())

tensor([0.0880])
0.0879632905125618


### NumPy转换
* 两者共享底层内存地址，修改一个会导致另一个的变化。

Tensor → NumPy

In [20]:
a = torch.ones(5)
b = a.numpy()
b,a

(array([1., 1., 1., 1., 1.], dtype=float32), tensor([1., 1., 1., 1., 1.]))

In [21]:
a.add_(1)
a,b

(tensor([2., 2., 2., 2., 2.]), array([2., 2., 2., 2., 2.], dtype=float32))

Numpy → Tensor

``torch.from_numpy(array)``

In [22]:
a = np.ones(5)
b = torch.from_numpy(a)
a,b

(array([1., 1., 1., 1., 1.]),
 tensor([1., 1., 1., 1., 1.], dtype=torch.float64))

In [23]:
np.add(a,1,out = a)
a,b

(array([2., 2., 2., 2., 2.]),
 tensor([2., 2., 2., 2., 2.], dtype=torch.float64))

所有的 Tensor 类型默认都是基于CPU， CharTensor 类型不支持到 NumPy 的转换.

### CUDA张量
* ``.to``方法可以将Tensor移动到任何设备中

In [24]:
torch.cuda.is_available()

True

In [25]:
torch.device('cuda')
torch.device('cpu')

device(type='cpu')

In [26]:
# if torch.cuda.is_available():
device = torch.device('cuda')
y_1 = torch.ones_like(x, device = device)
x_1 = x.to(device)
z_1 = x_1 + y_1
z_1

tensor([1.0880], device='cuda:0')

In [27]:
y_1 + z_1

tensor([2.0880], device='cuda:0')

In [28]:
z_1 = z_1.to('cpu')
z_1

tensor([1.0880])

In [29]:
z_1.to("cpu")

tensor([1.0880])

In [30]:
# y_1 + z_1
'''
Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!
'''

'\nExpected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!\n'

In [31]:
y_2 = torch.ones_like(x, device = 'cuda')
x_2 = x.to("cuda")
z_2 = y_2 + x_2

x_1 == x_2, y_1 == y_2

(tensor([True], device='cuda:0'), tensor([True], device='cuda:0'))

In [32]:
#  z_1 == z_2
'''
Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!
'''

'\nExpected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!\n'

### 更多
100+ Tensor operations, including transposing, indexing, slicing, mathematical operations, linear algebra, random numbers, etc., are described here <https://pytorch.org/docs/torch>_.

# Autograd:自动求导机制
## Tensor 张量

* ```torch.Tensor```是这个包的核心类
* 如果设置```.requires_grad```为```True```,会追踪所有对于该张量的操作
* ```.backward()```自动计算所有的梯度，积累到```.grad```属性
* ```.detach()```方法将张量与其计算历史记录分离，禁止跟踪它将来的计算记录
* ```with torch.no_grad():```将代码块包装其中，以阻止跟踪历史记录占用内存。在评估模型时特别有用，因为模型可能具有```requires_grad = True```的可训练参数，但是我们不需要梯度计算。
* ```Function```是另一个自动梯度计算的重要类

Tensor 和 Function互相连接并生成一个非循环图，它表示和存储了完整的计算历史。 每个张量都有一个```.grad_fn```属性，这个属性引用了一个创建了Tensor的Function（除非这个张量是用户手动创建的，即，这个张量的 ```grad_fn ```是 ```None```）。

如果需要计算导数，你可以在```Tensor```上调用```.backward()```。 如果Tensor是一个标量（即它包含一个元素数据）则不需要为```backward()```指定任何参数， 但是如果它有更多的元素，你需要指定一个```gradient``` 参数来匹配张量的形状。

创建一个张量并设置追踪他的计算历史

In [33]:
import torch
x = torch.ones(2, 2, requires_grad=True)
x

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)

In [34]:
y = x + 2
y

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)

结果y已经被计算出来了，所以，grad_fn已经被自动生成了。

In [35]:
y.grad_fn

<AddBackward0 at 0x1d28569d430>

对y进行一个操作

In [36]:
z = y * y * 3
out = z.mean()

z, out

(tensor([[27., 27.],
         [27., 27.]], grad_fn=<MulBackward0>),
 tensor(27., grad_fn=<MeanBackward0>))

```.requires_grad_( ... ) ```可以改变现有张量的```requires_grad```属性。 如果没有指定的话，默认输入的```flag```是 ```False```。

In [37]:
a = torch.randn(2, 2)
a = ((a * 3) / (a - 1))
print(a.requires_grad)

a.requires_grad_(True)
print(a.requires_grad)

b = (a * a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x000001D2856A6E80>


## 梯度
<font color='red'>反向传播 </font>因为 ```out```是一个纯量```（scalar）```，```out.backward()``` 等于```out.backward(torch.tensor(1))```
* 啥意思？必须是标量对矩阵求导？？
* 雅可比矩阵是一阶偏导数以一定方式排列成的矩阵，类似于多元函数的导数
* ```torch.autograd```就是用来计算`vector-Jacobian product`的工具
* 基于链式法则![image.png](attachment:image.png)

![image.png](attachment:image.png)
vector-Jacobian product 这种特性使得将外部梯度返回到具有非标量输出的模型变得非常方便。

In [38]:
out.backward()

print gradients ```d(out)/dx```

In [39]:
x.grad

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])

In [40]:
'''
    x.data可以去掉requires_grad属性，只保留值
    tensor.norm()是计算范数
'''
x = torch.randn(3, requires_grad=True)
i = 1
y = x + 2
while y.data.norm() < 1000:
    y = y * 2
    i *= 2
y

tensor([1710.1665,  864.4301,  312.8878], grad_fn=<MulBackward0>)

<font color = 'red'> ``.backward()``括号里是啥玩意？？？

在这个情形中，y不再是个标量。`torch.autograd`无法直接计算出完整的雅可比行列，但是如果我们只想要`vector-Jacobian product`，只需将向量作为参数传入`backward`：

* 括号里面的参数是上面的$v$，<font color = 'red'>如果正好是某个标量函数$l = g(y)$的梯度的话</font>，就能求出来$l$关于$x$的梯度
* 总的来说`.backward()`括号中加一个向量就是原雅可比矩阵乘上括号中的向量
* <font color = 'red'>那原雅可比行列式又是啥玩意？</font>
* <font color = 'red'>就是说如果要输出一个向量y对向量x的雅可比矩阵，我括号里应该输入（1，1，1...）?</font>

In [41]:
gradients = torch.tensor([1, 1, 1], dtype = torch.float)
y.backward(gradients)

x.grad

tensor([512., 512., 512.])

In [42]:
y/(x+2)

tensor([512., 512., 512.], grad_fn=<DivBackward0>)

In [43]:
'''
    没搞懂为啥要取这个例子
'''
# gradients = torch.tensor([0.1, 1.0, 0.0001], dtype = torch.float)
# y.backward(gradients)

# x.grad

'\n    没搞懂为啥要取这个例子\n'

如果`.requires_grad=True`但是你有不希望进行autograd运算，那么可以把变量包裹在`with torch.no_grad()`中
* <font color = "red">`with`语句是个啥东西</font>

In [44]:
x.requires_grad

True

In [45]:
(x ** 2).requires_grad

True

In [46]:
with torch.no_grad():
    print((x ** 2).requires_grad)

False


### 再小试一下with torch.no_grad():
* 来源：https://zhuanlan.zhihu.com/p/386454263

In [47]:
a = torch.tensor([1.1], requires_grad=True)
b = a * 2
b

tensor([2.2000], grad_fn=<MulBackward0>)

grad_fn=\<MulBackward0>表示乘法的反向梯度函数

In [48]:
b.add_(2)

tensor([4.2000], grad_fn=<AddBackward0>)

grad_fn=\<AddBackward0>表明是add的反向梯度函数

In [49]:
with torch.no_grad():
    b.mul_(2)
b

tensor([8.4000], grad_fn=<AddBackward0>)

tensor([8.4000], grad_fn=\<AddBackward0>) 可以看到没有跟踪乘法的梯度，还是上面的加法的梯度函数，不过乘法是执行了的

# 神经网络
## Neural Networks
* `torch.nn`
* `nn`包依赖`autograd`包来定义模型并求导。 一个`nn.Module`包含各个层和一个`forward(input)`方法，该方法返回`output`。

![image.png](attachment:image.png)

<font color = 'red'>我估计这个$s_2$写错了，应该是$c_2$</font>

<font color = 'red'>前馈神经网络</font>，它接受一个输入，然后一层接着一层地传递，最后输出计算的结果。

神经网络的典型训练过程如下：
1. 定义包含一些可学习的参数(或者叫权重)神经网络模型；
2. 在数据集上迭代；
3. 通过神经网络处理输入；
4. 计算损失(输出结果和正确值的差值大小)；
5. 将梯度反向传播回网络的参数；
6. 更新网络的参数，主要使用如下简单的更新原则： `weight = weight - learning_rate * gradient`

## 定义网络
开始定义一个网络：

In [50]:
import torch
import torch.nn as nn
import torch.nn.functional as F

* `super`这里没看懂

In [55]:
class Net(nn.Module):
    #定义Net的初始化函数，这个函数定义了该神经网络的基本结构
    
    def __init__(self):
        super(Net, self).__init__() # ??这是啥操作，在初始化函数里面自己调用自己的初始化函数？
        # 1 input image channel, 6 output channels, 5x5 square convolution
        #复制并使用Net的父类的初始化方法，即先运行nn.Module的初始化函数
        
        # kernel
        self.conv1 = nn.Conv2d(1, 6, 5) # in_channel=1,out_channel=6,kennel_size=5*5
        self.conv2 = nn.Conv2d(6, 16, 5) # 定义conv2函数的是图像卷积函数：输入为6张特征图,输出为16张特征图, 卷积核为5x5正方形
        
        # an affine operation: y = Wx + b 仿射运算
        self.fc1 = nn.Linear(16 * 5 * 5, 120) #in_features【16个channel，5*5的图片】,out_features
        self.fc2 = nn.Linear(120, 84) #定义fc2（fullconnect）全连接函数2为线性函数：y = Wx + b，并将120个节点连接到84个节点上。
        self.fc3 = nn.Linear(84, 10)
        '''
            上面都是网络基本架构，卷积层和全连接层
        '''
        
    #定义该神经网络的向前传播函数，该函数必须定义，一旦定义成功，向后传播函数也会自动生成（autograd）
    def forward(self, x):
        
        # Max pooling over a (2,2) window
        x = F.max_pool2d(F.relu(self.conv2(x)), (2, 2))
        # If the size is a suare you can only specify a single number
        #输入x经过卷积conv2之后，经过激活函数ReLU，使用2x2的窗口进行最大池化Max pooling，然后更新到x。
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        
        x = x.view(-1, self.num_flat_features(x)) # 类似于np.resize()，数将张量x变形成一维的向量形式，总特征数并不改变，为接下来的全连接作准备。
        
        x = F.relu(self.fc1(x)) #输入x经过全连接1，再经过ReLU激活函数，然后更新x
        x = F.relu(self.fc2(x)) #输入x经过全连接2，再经过ReLU激活函数，然后更新x
        
        x = self.fc3(x) #输入x经过全连接3，然后更新x
        return x
    
    
    #使用num_flat_features函数计算张量x的总特征量（把每个数字都看出是一个特征，即特征总量），比如x是4*2*2的张量，那么它的特征总量就是16。
    def num_flat_features(self, x):
        size = x.size()[1:]  # 这里为什么要使用[1:],是因为pytorch只接受批输入，也就是说一次性输入好几张图片，那么输入数据张量的维度自然上升到了4维。【1:】让我们把注意力放在后3维上面
        '''
            这里的x应该是什么，84in,10out的全连接？？10个线性函数？？
            为啥从1开始？？
        '''
        
        num_features = 1
        for s in size:
            num_features *= s
        return num_features

In [57]:
net = Net()
net

Net(
  (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=400, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)

* 看需要训练的参数总量

In [63]:
params[0]

Parameter containing:
tensor([[[[ 0.1201,  0.1724,  0.1250, -0.1018, -0.0763],
          [-0.1532, -0.0789,  0.0058, -0.0700,  0.1168],
          [-0.0676,  0.0537,  0.1654,  0.1784,  0.0983],
          [-0.0471, -0.0853, -0.0114,  0.0042,  0.0661],
          [ 0.1528, -0.1002,  0.1555,  0.0973,  0.0265]]],


        [[[-0.1882, -0.0283,  0.1865,  0.1472, -0.0647],
          [-0.1239,  0.1587, -0.0212,  0.0362,  0.0561],
          [-0.0238,  0.0610,  0.1704,  0.0501, -0.1079],
          [ 0.0134,  0.1259,  0.1956,  0.1203, -0.0139],
          [-0.0082,  0.0320,  0.1224, -0.0162, -0.1445]]],


        [[[-0.1931,  0.0109,  0.0767,  0.1314,  0.0499],
          [-0.0644, -0.1566,  0.1484, -0.1052,  0.0476],
          [ 0.0391, -0.1369,  0.1497, -0.0338,  0.0366],
          [ 0.0439, -0.1714,  0.1072,  0.0399,  0.1225],
          [-0.0890,  0.0918,  0.1953, -0.1993,  0.1309]]],


        [[[-0.0974,  0.0140, -0.1911,  0.0419, -0.0794],
          [ 0.1124,  0.1718, -0.1258, -0.0973,  0.1417

In [64]:
params = list(net.parameters())
print(len(params))
print(params[0].size()) # convl's weight
'''
    这里没看懂，为啥[0]??
    6,1,5,5分别是啥
'''

10
torch.Size([6, 1, 5, 5])


'\n    这里没看懂，为啥[0]??\n    6,1,5,5分别是啥\n'

In [67]:
k = 0
for i in params:
    l =1
    print("该层的结构："+str(list(i.size())))
    for j in i.size():
        l *= j
    print("参数和："+str(l))
    k = k+l

print("总参数和："+ str(k))

该层的结构：[6, 1, 5, 5]
参数和：150
该层的结构：[6]
参数和：6
该层的结构：[16, 6, 5, 5]
参数和：2400
该层的结构：[16]
参数和：16
该层的结构：[120, 400]
参数和：48000
该层的结构：[120]
参数和：120
该层的结构：[84, 120]
参数和：10080
该层的结构：[84]
参数和：84
该层的结构：[10, 84]
参数和：840
该层的结构：[10]
参数和：10
总参数和：61706


测试随机输入32×32。 注：这个网络（LeNet）期望的输入大小是32×32，如果使用MNIST数据集来训练这个网络，请把图片大小重新调整到32×32。

In [75]:
input = torch.randn(1, 1, 32, 32)
out = net(input)
print(out)

RuntimeError: Given groups=1, weight of size [16, 6, 5, 5], expected input[1, 1, 32, 32] to have 6 channels, but got 1 channels instead

## 例子中用到的`nn.`方法
### `nn.Conv1d`
`nn.Conv2d(self, in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True))`
参数：
* `in_channel`:　输入数据的通道数，例RGB图片通道数为3；
* `out_channel`: 输出数据的通道数，这个根据模型调整；
* `kennel_size`: 卷积核大小，可以是int，或tuple；`kennel_size=2`,意味着卷积大小2， `kennel_size=（2,3）`，意味着卷积在第一维度大小为2，在第二维度大小为3；
* `stride`：步长，默认为1，与kennel_size类似，stride=2,意味在所有维度步长为2， `stride=（2,3）`，意味着在第一维度步长为2，意味着在第二维度步长为3；
* `padding`：　零填充

https://blog.csdn.net/qq_26369907/article/details/88366147

### `nn.Conv2d`
`nn.Conv2d(self, in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True))`
参数：
* `in_channel`:　输入数据的通道数，例RGB图片通道数为3；
* `out_channel`: 输出数据的通道数，这个根据模型调整；
* `kennel_size`: 卷积核大小，可以是int，或tuple；kennel_size=2,意味着卷积大小(2,2)， kennel_size=（2,3），意味着卷积大小（2，3）即非正方形卷积
* `stride`：步长，默认为1，与kennel_size类似，stride=2,意味着步长上下左右扫描皆为2， stride=（2,3），左右扫描步长为2，上下为3；
* `padding`：　零填充

### `nn.Linear()`
PyTorch的`nn.Linear（）`是用于设置网络中的全连接层的，需要注意在二维图像处理的任务中，全连接层的输入与输出一般都设置为二维张量，形状通常为`[batch_size, size]`，<font color = 'red'>不同于卷积层要求输入输出是四维张量</font>。其用法与形参说明如下：
* `in_features`指的是输入的二维张量的大小，即输入的`[batch_size, size]`中的size。
* `out_features`指的是输出的二维张量的大小，即输出的二维张量的形状为`[batch_size，output_size]`，当然，它也代表了该全连接层的神经元个数。

从输入输出的张量的shape角度来理解，相当于一个输入为`[batch_size, in_features]`的张量变换成了`[batch_size, out_features]`的输出张量。

————————————————
版权声明：本文为CSDN博主「风雪夜归人o」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_42079689/article/details/102873766

### `F.Maxpool2d`

`class torch.nn.MaxPool2d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)`

* `kernel_size(int or tuple)` - `max pooling`的窗口大小
* `stride(int or tuple, optional)` - `max pooling`的窗口移动的步长。默认值是`kernel_size`
* `padding(int or tuple, optional)` - 输入的每一条边补充0的层数
* `dilation(int or tuple, optional)` – 一个控制窗口中元素步幅的参数
* `return_indices` - 如果等于`True`，会返回输出最大值的序号，对于上采样操作会有帮助
* `ceil_mode` - 如果等于`True`，计算输出信号大小的时候，会使用向上取整，代替默认的向下取整的操作

————————————————
版权声明：本文为CSDN博主「小白827」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_24503095/article/details/103646957


In [76]:
import torch
import torch.nn as nn
import torch.nn.functional as F


class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()
        # 1 input image channel, 6 output channels, 5x5 square convolution
        # kernel
        self.conv1 = nn.Conv2d(1, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        # an affine operation: y = Wx + b
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        # Max pooling over a (2, 2) window
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        # If the size is a square you can only specify a single number
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = x.view(-1, self.num_flat_features(x))
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

    def num_flat_features(self, x):
        size = x.size()[1:]  # all dimensions except the batch dimension
        num_features = 1
        for s in size:
            num_features *= s
        return num_features


net = Net()
print(net)

Net(
  (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=400, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)


In [77]:
input = torch.randn(1, 1, 32, 32)
out = net(input)
print(out)

tensor([[-0.0799, -0.1245,  0.0236,  0.0102,  0.1001,  0.0958,  0.0636,  0.0279,
          0.0887, -0.0395]], grad_fn=<AddmmBackward>)
