# BERT baseline课程：Pytorch快速入门

### Author: Michael


利用这个notebook，我带领大家对pytorch这个框架进行学习。

大家同时可以参考： 
* Official PyTorch Documentation on [Deep Learning with PyTorch: A 60 Minute Blitz](https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html) by Soumith Chintala
* PyTorch Tutorial Notebook, [Build Basic Generative Adversarial Networks (GANs) | Coursera](https://www.coursera.org/learn/build-basic-generative-adversarial-networks-gans) by Sharon Zhou, offered on Coursera


主要内容:

1. tensor：
1.1. tensor 初始化；
1.2. tensor 的一些属性；
1.3. tensor 的运算；

2. torch.nn 初探
2.1. 神经网络基本模块
2.2. 利用nn.Module写更复杂

3. torch.optim

## Introduction

[PyTorch](https://pytorch.org/)目前在学术界和工业界都有很广泛的应用。

PyTorch相比于[TensorFlow](https://www.tensorflow.org/)要更加灵活，因为PyTorch允许用户在执行代码时定义操作，也就是动态图。而TensorFlow需要在执行操作之前定义静态图。

目前，“TensorFlow”在业界更受欢迎，但“PyTorch”常常是研究人员首选的机器学习框架。


我们现在来学习(或者复习)一下[PyTorch](https://pytorch.org/)的基础知识。首先，我们把它导入到notebook中：

In [1]:
import torch
import torch.nn as nn

In [2]:
# Import pprint, 让打印出来的内容更美观
import pprint
pp = pprint.PrettyPrinter()

We are all set to start our tutorial. Let's dive in!

## Tensors

张量(Tensors)是PyTorch中最基本的元素。张量类似于矩阵，但有一些额外的性质，他们可以代表高维度的数据。例如，两边有256个像素的图像可以用3x256x256张量表示，其中前3个维度表示颜色通道，红色、绿色和蓝色。


### Tensor 初始化

有几种方法可以实例化“PyTorch”中的张量

#### **From a List**

我们可以从一个python list初始化tensor。

In [3]:
# 从一个python list初始化tensor
# sublist的长度需要统一
data = [
        [0, 1], 
        [2, 3],
        [4, 5]
       ]
x_python = torch.tensor(data)

# Print the tensor
x_python

tensor([[0, 1],
        [2, 3],
        [4, 5]])

In [4]:
# bad case: 长度不统一
data = [
        [0, 1], 
        [2],
        [4, 5]
       ]
x_python = torch.tensor(data)

# Print the tensor
x_python

ValueError: expected sequence of length 2 at dim 1 (got 1)

In [5]:
# bad case: 类型不支持
data = [
        [0, 1], 
        [2, "aaa"],
        [4, 5]
       ]
x_python = torch.tensor(data)

# Print the tensor
x_python

TypeError: new(): invalid data type 'str'

#### tensor类型

torch.tensor()支持我们指定类型 dtype。 常见的类型包括： `torch.bool`, `torch.float`, and `torch.long`

In [6]:
# 指定tensor的类型
data = [
        [0, 1], 
        [2, 3],
        [4, 5]
       ]
x_float = torch.tensor(data, dtype=torch.float)
x_float

tensor([[0., 1.],
        [2., 3.],
        [4., 5.]])

In [7]:
# 指定tensor的类型为bool： 不为零为True
x_bool = torch.tensor(data, dtype=torch.bool)
x_bool

tensor([[False,  True],
        [ True,  True],
        [ True,  True]])

可以用 `x.float()` 或者 `x.long()` 这样的写法来指定类型

In [8]:
x_python.float()  # not inplace: 原数据没有改变

tensor([[0., 1.],
        [2., 3.],
        [4., 5.]])

In [9]:
x_python

tensor([[0, 1],
        [2, 3],
        [4, 5]])

我们同样可以使用`tensor.FloatTensor`, `tensor.LongTensor`, `tensor.Tensor`。

`tensor.LongTensor` 我们会用的很多，因为涉及编号的数据，都用这个。比如词在词汇表的编号。

In [10]:
# `torch.Tensor` 默认是 float
# Same as torch.FloatTensor(data)
x = torch.Tensor(data) 
x

tensor([[0., 1.],
        [2., 3.],
        [4., 5.]])

#### **From a NumPy Array**
从 `NumPy` array 初始化. 

In [12]:
import numpy as np

# 初始化 from a NumPy array
ndarray = np.array(data)
# x_numpy = torch.from_numpy(ndarray)
x_numpy = torch.FloatTensor(ndarray)

# Print the tensor
x_numpy.type()

'torch.FloatTensor'

#### **From a Tensor**
通过以下方法，我们可以从一个torch tensor初始化另一个tensor:

* `torch.ones_like(old_tensor)`: 初始化一个全为1的tensor.
* `torch.zeros_like(old_tensor)`: 初始化一个全为0的tensor.
* `torch.rand_like(old_tensor)`: 初始化一个tensor，每个元素都是从0-1的uniform 分布中采样得到.
* `torch.randn_like(old_tensor)`: 初始化一个tensor，每个元素都是从标准正态分布中采样得到.

新tensor会继承old_tensor的一些性质，比如shape，device；

In [13]:
# 原tensor
x = torch.tensor([[1., 2], [3, 4]])
x

tensor([[1., 2.],
        [3., 4.]])

In [14]:
# 初始化一个全为0的tensor
x_zeros = torch.zeros_like(x)
x_zeros

tensor([[0., 0.],
        [0., 0.]])

In [15]:
# 初始化一个全为1的tensor
x_ones = torch.ones_like(x)
x_ones

tensor([[1., 1.],
        [1., 1.]])

In [16]:
# 初始化一个tensor，每个元素都是从0-1的uniform 分布中采样得到
# between 0 and 1
x_rand = torch.rand_like(x)
x_rand

tensor([[0.5996, 0.6581],
        [0.5531, 0.0815]])

In [17]:
# 初始化一个tensor，每个元素都是从标准正态分布中采样得到
x_randn = torch.randn_like(x)
x_randn

tensor([[ 1.0096, -0.4681],
        [ 0.2669, -0.4227]])

#### **By Specifying a Shape**

指定形状初始化tensor

方法我们已经见过类似的了:
* `torch.zeros()`
* `torch.ones()`
* `torch.rand()`
* `torch.randn()`

In [19]:
# shape 通过tuple传入
shape = (4, 2, 2)
x_zeros = torch.zeros(shape) # x_zeros = torch.zeros(4, 3, 2) is an alternative
x_zeros

tensor([[[0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.]]])

#### **With `torch.arange()`**
We can also create a tensor with `torch.arange(end)`, which returns a `1-D` tensor with elements ranging from `0` to `end-1`. We can use the optional `start` and `step` parameters to create tensors with different ranges.  

我们也可以用torch.arange(end)；

叫做arange，所以我们也能猜到是做啥的： a `1-D` tensor，元素是 ranging from `0` to `end-1`。

同样，我们也可以用torch.arange(start, step, end)

In [20]:
# 元素从0-9的tensor
x = torch.arange(10)
x

tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [21]:
# 元素从3-9，间隔2的tensor
x = torch.arange(3, 9, 2)
x

tensor([3, 5, 7])

### Tensor Properties

Tensor有几个性质我们需要熟知；


#### Data Type

`dtype` ： 数据类型

In [22]:
# x.dtype
x = torch.ones(3, 2)
x.dtype

torch.float32

#### Shape

`shape`: 形状。告诉我们tensor有多少维，每个维度上面有几个元素

In [23]:
# Initialize a 3x2 tensor, with 3 rows and 2 columns
x = torch.Tensor([[1, 2], [3, 4], [5, 6]])

# 也可以使用 x.size()
x.shape

torch.Size([3, 2])

In [24]:
# Print out its shape
# Same as x.size()
x.size()

torch.Size([3, 2])

In [25]:
# 拿到特定维度上的元素个数
# 0th dimension corresponds to the rows
x.shape[0] 

3

In [26]:
# 也可以使用x.size(0)
x.size(0)

3

用 `x.view()` 方法改变tensor形状

In [27]:
# x.view()
# x_view 和 x 指向同样的内存，所以对x_view做操作，也会改变x;
x_view = x.view(2, 3)
x_view

tensor([[1., 2., 3.],
        [4., 5., 6.]])

In [28]:
# 用 -1： 让pytorch帮你算应该有多大的维数
x_view = x.view(3, -1)
x_view

tensor([[1., 2.],
        [3., 4.],
        [5., 6.]])

In [29]:
# bad case: only one dimension can be inferred
x_view = x.view(3, -1, -1)
x_view

RuntimeError: only one dimension can be inferred

也可以使用`torch.reshape()`方法。但是可能会引入新的内存消耗(这里涉及到contiguous概念)。

In [30]:
#  3x2 --> 2x3 
x_reshaped = torch.reshape(x, (2, 3))
x_reshaped

tensor([[1., 2., 3.],
        [4., 5., 6.]])

`torch.unsqueeze(x, dim)`： 添加一个维数为1的维度到dim维度

`torch.squeeze(x)`： 去掉维数为1的维度；

In [31]:
# 初始化一个tensor
x = torch.arange(10).reshape(5, 2)
x

tensor([[0, 1],
        [2, 3],
        [4, 5],
        [6, 7],
        [8, 9]])

In [32]:
# Add a new dimension of size 1 at the 1st dimension
x = x.unsqueeze(1)
x.shape

torch.Size([5, 1, 2])

In [33]:
# Squeeze the dimensions of x by getting rid of all the dimensions with 1 element
x = x.squeeze()
x.shape

torch.Size([5, 2])

`x.numel()`： 计算元素个数总量；

In [34]:
# 计算元素个数总量.
x.numel()

10

#### **Device**

Device: 深度学习一个非常重要的性质；因为我们有时候需要写代码将tensor从cpu加载进入gpu，进行网络的训练；有的时候预测结果需要从gpu拿出来；


In [35]:
# 初始化一个tensor
x = torch.Tensor([[1, 2], [3, 4]])
x

tensor([[1., 2.],
        [3., 4.]])

In [37]:
# 打印出device信息
x.device

device(type='cpu')

`x.to(device)`: 将数据传到指定设备.

In [38]:
# 检查是否有GPU设备
torch.cuda.is_available()

False

In [39]:
if torch.cuda.is_available():
  x.to('cuda') 

### Tensor Indexing

tensor可以进行索引，与numpy相似；

In [40]:
# Initialize an example tensor
x = torch.Tensor([
                  [[1, 2], [3, 4]],
                  [[5, 6], [7, 8]], 
                  [[9, 10], [11, 12]] 
                 ])
x

tensor([[[ 1.,  2.],
         [ 3.,  4.]],

        [[ 5.,  6.],
         [ 7.,  8.]],

        [[ 9., 10.],
         [11., 12.]]])

In [41]:
x.shape

torch.Size([3, 2, 2])

In [42]:
# 第一行
x[0] # Equivalent to x[0, :]

tensor([[1., 2.],
        [3., 4.]])

`:`： 该维度都取出来

In [43]:
# 左上方的元素
x[:, 0, 0]

tensor([1., 5., 9.])

We can also access arbitrary elements in each dimension. 

In [44]:
x.shape

torch.Size([3, 2, 2])

In [45]:
# 可以使用torch tensor来进行indexing

i = torch.tensor([0, 0, 1, 1])
y = x[i]
y.shape

torch.Size([4, 2, 2])

In [46]:
y

tensor([[[1., 2.],
         [3., 4.]],

        [[1., 2.],
         [3., 4.]],

        [[5., 6.],
         [7., 8.]],

        [[5., 6.],
         [7., 8.]]])

In [47]:
# 两个tensor来索引：
# 有一个遍历的过程：x[1, 0], x[2, 0]
i = torch.tensor([1, 2])
j = torch.tensor([0])
x[i, j]

tensor([[ 5.,  6.],
        [ 9., 10.]])

In [48]:
x[1, 0]

tensor([5., 6.])

In [49]:
x[2, 0]

tensor([ 9., 10.])

We can get a `Python` scalar value from a tensor with `item()`. 

用`item()`把数据从tensor中取出为python标量

In [50]:
x[0, 0, 0]

tensor(1.)

In [51]:
x[0, 0, 0].item()

1.0

### Operations

运算： 与numpy非常相似；

In [52]:
# Create an example tensor
x = torch.ones((3,2,2))
x

tensor([[[1., 1.],
         [1., 1.]],

        [[1., 1.],
         [1., 1.]],

        [[1., 1.],
         [1., 1.]]])

In [53]:
# elementwise addition
# `-`  for minus
x + 2

tensor([[[3., 3.],
         [3., 3.]],

        [[3., 3.],
         [3., 3.]],

        [[3., 3.],
         [3., 3.]]])

In [54]:
# elementwise multiplication
# Use / for division
x * 2

tensor([[[2., 2.],
         [2., 2.]],

        [[2., 2.],
         [2., 2.]],

        [[2., 2.],
         [2., 2.]]])


我们可以在大小兼容的不同张量之间应用上述的运算。

In [55]:
# Create a 4x3 tensor of 6s
a = torch.ones((4,3)) * 6
a

tensor([[6., 6., 6.],
        [6., 6., 6.],
        [6., 6., 6.],
        [6., 6., 6.]])

In [56]:
# Create a 1D tensor of 2s
b = torch.ones(3) * 2
b

tensor([2., 2., 2.])

In [57]:
# Divide a by b
a / b

tensor([[3., 3., 3.],
        [3., 3., 3.],
        [3., 3., 3.],
        [3., 3., 3.]])

`tensor.matmul(other_tensor)`： matrix multiplication， 同时可以使用 `@`

In [58]:

# a @ b.T returns the same result since b is 1D tensor and the 2nd dimension
# is inferred
a.matmul(b)

tensor([36., 36., 36., 36.])

In [59]:
# Alternative to a.matmul(b)
a @ b

tensor([36., 36., 36., 36.])

`tensor.T`： matrix 转置

In [60]:
pp.pprint(a.shape)
pp.pprint(a.T.shape)

torch.Size([4, 3])
torch.Size([3, 4])


#### 求和&求标准差

`tensor.mean()`: 对所有维度求和；
`tensor.mean(dim)`: 对指定维度求和；

`tensor.std()`: 
`tensor.std(dim)`: 

In [61]:
# Create an example tensor
m = torch.tensor(
    [
     [1., 1.],
     [2., 2.],
     [3., 3.],
     [4., 4.]
    ]
)

pp.pprint("Mean: {}".format(m.mean()))
pp.pprint("Mean in the 0th dimension: {}".format(m.mean(0)))
pp.pprint("Mean in the 1st dimension: {}".format(m.mean(1)))

'Mean: 2.5'
'Mean in the 0th dimension: tensor([2.5000, 2.5000])'
'Mean in the 1st dimension: tensor([1., 2., 3., 4.])'


#### concat操作

`torch.cat`： 拼接tensors

In [62]:
# Concatenate in dimension 0 and 1
a_cat0 = torch.cat([a, a, a], dim=0)
a_cat1 = torch.cat([a, a, a], dim=1)

print("Initial shape: {}".format(a.shape))
print("Shape after concatenation in dimension 0: {}".format(a_cat0.shape))
print("Shape after concatenation in dimension 1: {}".format(a_cat1.shape))

Initial shape: torch.Size([4, 3])
Shape after concatenation in dimension 0: torch.Size([12, 3])
Shape after concatenation in dimension 1: torch.Size([4, 9])


#### inplace操作

在操作名称后面加一个 underscore (`_`)，操作就变成了inplace

In [63]:
# Print our tensor
a

tensor([[6., 6., 6.],
        [6., 6., 6.],
        [6., 6., 6.],
        [6., 6., 6.]])

In [64]:
# add() is not in place
a.add(a)
a

tensor([[6., 6., 6.],
        [6., 6., 6.],
        [6., 6., 6.],
        [6., 6., 6.]])

In [65]:
# add_() is in place
a.add_(a)
a

tensor([[12., 12., 12.],
        [12., 12., 12.],
        [12., 12., 12.],
        [12., 12., 12.]])

## Autograd & backprop

`PyTorch`或者其他深度学习框架都包含自动微分功能。所以求梯度是不需要我们自己来做的。

自动微分对应的操作是:

`backward()`: 要求torch计算梯度，然后存到tensor的`grad`属性；

In [66]:
# Create an example tensor
# requires_grad parameter： 告诉torch我需要梯度
x = torch.tensor([2.], requires_grad=True)

# Print the gradient if it is calculated
# Currently None since x is a scalar
pp.pprint(x.grad)

None


In [67]:
# 计算y 对 x 的梯度
y = x * x * 3 # 3x^2
y.backward()


In [68]:
pp.pprint(x.grad) # d(y)/d(x) = d(3x^2)/d(x) = 6x = 12


tensor([12.])


In [69]:
pp.pprint(y.grad) # 看看这里有啥问题！看下warning

None




In [None]:
# #bad case: requires_grad=False
# x = torch.tensor([2.], requires_grad=False)
# pp.pprint(x.grad)

# y = x * x * 3 # 3x^2
# y.backward()
# pp.pprint(x.grad)
# pp.pprint(y.grad)

Let's run backprop from a different tensor again to see what happens.

我们继续计算梯度，来看会有什么问题

In [72]:
# 跑多次试试有什么效果

z = x * x * 3 # 3x^2
z.backward()
pp.pprint(x.grad)

tensor([48.])


我们可以看到，“x.grad”被更新为迄今为止计算的梯度之和。当我们在神经网络中运行backprop时，在进行更新之前，我们将特定神经元的所有梯度相加。这也是为什么我们需要在每个训练迭代中运行`zero_grad()`的原因。否则，从一个训练迭代到另一个迭代，我们的梯度会不断增加，这会导致我们的更新错误。

`zero_grad()`在项目中会用到。大家注意用在哪里。

## Neural Network Module

到目前为止，我们已经研究了张量，以及其性质和基本运算。如果我们要从头开始构建网络的各个层，那么熟悉这些功能尤其有用。

但接下来，我们将在`PyTorch`的`torch.nn`模块中使用预定义的块。然后我们将把这些块放在一起创建复杂的网络。

In [None]:
# 最流行的写法
import torch.nn as nn

### **Linear Layer**

`nn.Linear(H_in, H_out)`: 线性层；输入形状： `(N, *, H_in)`； 输出形状： `(N, *, H_out)`；(`*`表示中间可以有任意多的维度和维数)。操作是`Ax+b`，其中`A` and `b`是随机初始化的。可以设置`bias=False`。

In [None]:
# Create the inputs
input = torch.ones(2,3,4)
# N* H_in -> N*H_out


# linear layers： transforming N,*,H_in inputs to N,*,H_out
# dimensional outputs
linear = nn.Linear(4, 2)
nn.Linear(2,1)
linear_output = linear(input)
linear_output

In [None]:
list(linear.parameters()) # Ax + b

### **Other Module Layers**

`nn` module有很多方法可以使用，比如`nn.Conv2d`, `nn.BatchNorm1d`, `nn.LayerNorm`, etc。我们后面会看到很多例子。
我们只需要记住的是，我们可以将这些层视为即插即用组件,我们只提供网络的维度维数信息。


### **Activation Function Layer**

激活函数： `nn.ReLU()`, `nn.Sigmoid()` and `nn.LeakyReLU()`等；Activation functions是elementwise的，所以输入与输出形状一致。


In [None]:
linear_output

In [None]:
sigmoid = nn.Sigmoid()
output = sigmoid(linear_output)
output

### **Putting the Layers Together**

我们可以根据这些基础模块来写自己设计的网络了。

这里先介绍`nn.Sequentual`：让input依次经过一些网络操作

In [73]:
block = nn.Sequential(
    nn.Linear(4, 2),
    nn.Sigmoid()
)

input = torch.ones(2,3,4)
output = block(input)
output

tensor([[[0.4368, 0.6556],
         [0.4368, 0.6556],
         [0.4368, 0.6556]],

        [[0.4368, 0.6556],
         [0.4368, 0.6556],
         [0.4368, 0.6556]]], grad_fn=<SigmoidBackward>)

### Custom Modules

刚才我们的写法只是一次使用了linear+sigmoid的结构，还不能复用；

我们有可能希望我们写的神经网络层能像nn中的模块一样，可以多次复用，而且和项目中数据处理的代码分离出来，形成模块化的代码。这是网络训练中必要的。

所以，我们可以扩展`nn.Module`类，而不是使用预定义的模块来构建自己的模块。

要创建自定义模块，我们首先要做的就是扩展`nn.module`。然后，我们可以在`__init__`函数中初始化参数，首先调用超级类的`__init__`函数。我们定义的所有类属性都是'nn'模块对象，在训练期间可以import进来进行学习。

张量不是参数，但如果将张量封装在`nn.Parameter`类中，则可以将它们转换为模型参数。

扩展`nn.Module`的所有类也都将实现一个`forward（x）`function，其中'x'是张量。这是传递给模块的参数时调用的函数，使用它是直接将模型实例像方法一样使用`model（x）`。这里涉及`__call__`。

`__call__`： Python 类中一个非常特殊的实例方法，使得类实例对象可以像调用普通函数那样，以“对象名()”的形式使用。


In [None]:
# 实现一个 MLP：

class MultilayerPerceptron(nn.Module):

  def __init__(self, input_size, hidden_size):
    # 首先调用超级类的__init__函数
    super(MultilayerPerceptron, self).__init__()

    # 输入输出维数参数 parameters
    self.input_size = input_size 
    self.hidden_size = hidden_size 

    # 定义我们的网络.
    self.mlp = nn.Sequential(
        nn.Linear(self.input_size, self.hidden_size),
        nn.ReLU(),
        nn.Linear(self.hidden_size, self.input_size),
        nn.Sigmoid()
    )
    
  def forward(self, x):
    output = self.mlp(x)
    return output

Here is an alternative way to define the same class. You can see that we can replace `nn.Sequential` by defining the individual layers in the `__init__` method and connecting the in the `forward` method. 

我们不一定要使用nn.Sequential：因为网络不全是像规范的单链表一样，有可能有分叉；（e.g., residual connection）。

我们可以分别定义细粒度的网络操作；

In [77]:
class MultilayerPerceptron(nn.Module):

  def __init__(self, input_size, hidden_size):
    # Call to the __init__ function of the super class
    super(MultilayerPerceptron, self).__init__()

    # Bookkeeping: Saving the initialization parameters
    self.input_size = input_size 
    self.hidden_size = hidden_size 

    # Defining of our layers
    self.linear = nn.Linear(self.input_size, self.hidden_size)
    self.relu = nn.ReLU()
    self.linear2 = nn.Linear(self.hidden_size, self.input_size)
    self.sigmoid = nn.Sigmoid()
    
  def forward(self, x):
    linear = self.linear(x)
    relu = self.relu(linear)
    linear2 = self.linear2(relu)
    output = self.sigmoid(linear2)
    return output

我们可以实例化和使用网络了。

In [78]:
# Make a sample input
input = torch.randn(2, 5)

# Create our model
model = MultilayerPerceptron(5, 3)

# Pass our input through our model
model(input)

tensor([[0.6426, 0.5003, 0.6154, 0.4535, 0.4123],
        [0.6168, 0.4951, 0.5925, 0.4235, 0.4066]], grad_fn=<SigmoidBackward>)

We can inspect the parameters of our model with `named_parameters()` and `parameters()` methods. 

In [79]:
list(model.named_parameters())

[('linear.weight',
  Parameter containing:
  tensor([[ 0.2299,  0.1601,  0.1233, -0.1475,  0.0587],
          [-0.0364,  0.3609, -0.0430,  0.3758,  0.3563],
          [ 0.3821,  0.2915, -0.4395,  0.1851,  0.0661]], requires_grad=True)),
 ('linear.bias',
  Parameter containing:
  tensor([0.3389, 0.4166, 0.0383], requires_grad=True)),
 ('linear2.weight',
  Parameter containing:
  tensor([[ 0.2364, -0.5334,  0.2881],
          [ 0.3399, -0.0017,  0.3080],
          [ 0.4521, -0.3788, -0.3862],
          [ 0.5328, -0.4981,  0.2491],
          [-0.4304, -0.2723,  0.3521]], requires_grad=True)),
 ('linear2.bias',
  Parameter containing:
  tensor([ 0.5351, -0.0731,  0.3715, -0.3025, -0.2606], requires_grad=True))]

## Optimization

网络的优化：计算梯度是一部分，但是网络参数还是没有更新，所以这时候需要优化器`torch.optim`了。

`torch.optim`： 包含一些已经写好的优化器。比如：  `optim.SGD` and `optim.Adam`。（注意：BERT使用了AdamW，这个我们在后面课程会讲）。

我们通过`model.parameters()`或者`model.named_parameters()`将模型参数传给优化器。

优化器最重要的参数当然是： learning rate (`lr`) 。

In [80]:
import torch.optim as optim

网络优化当然需要有一个优化的目标：`loss`。

`nn`中有损失函数可以选择（such as `nn.BCELoss()`），当然，我们可以选择自己写。比如，我们后面会实现focal loss。


In [81]:
# Create the y data
y = torch.ones(1000, 5)

# Add some noise to our goal y to generate our x
# We want out model to predict our original data, albeit the noise
x = y + torch.randn_like(y)
x.shape

torch.Size([1000, 5])

Now, we can define our model, optimizer and the loss function. 

In [82]:
# Instantiate the model
model = MultilayerPerceptron(5, 3)

# Define the optimizer
adam = optim.Adam(model.parameters(), lr=1e-1)

# Define loss using a predefined loss function
loss_function = nn.BCELoss()

# Calculate how our model is doing now
y_pred = model(x)
loss_function(y_pred, y).item()

0.7418498992919922

training 过程：每一轮中，将数据给模型，可以是分批给，然后不断更新参数，反复多次。


In [83]:
# Set the number of epoch, which determines the number of training iterations
n_epoch = 100

for epoch in range(n_epoch):
  # Set the gradients to 0
  adam.zero_grad()

  # Get the model predictions
  y_pred = model(x)

  # Get the loss
  loss = loss_function(y_pred, y)

  # Print stats
  print(f"Epoch {epoch}: traing loss: {loss}")

  # Compute the gradients
  loss.backward()

  # Take a step to optimize the weights
  adam.step()


Epoch 0: traing loss: 0.7418498992919922
Epoch 1: traing loss: 0.6527495384216309
Epoch 2: traing loss: 0.530566394329071
Epoch 3: traing loss: 0.3904207944869995
Epoch 4: traing loss: 0.2569248676300049
Epoch 5: traing loss: 0.15106557309627533
Epoch 6: traing loss: 0.08078690618276596
Epoch 7: traing loss: 0.04125015437602997
Epoch 8: traing loss: 0.021573727950453758
Epoch 9: traing loss: 0.011932962574064732
Epoch 10: traing loss: 0.0071051171980798244
Epoch 11: traing loss: 0.0046133920550346375
Epoch 12: traing loss: 0.0031928708776831627
Epoch 13: traing loss: 0.0023333963472396135
Epoch 14: traing loss: 0.001775500481016934
Epoch 15: traing loss: 0.001396326581016183
Epoch 16: traing loss: 0.0011346820974722505
Epoch 17: traing loss: 0.0009461692534387112
Epoch 18: traing loss: 0.000804872892331332
Epoch 19: traing loss: 0.0006984971114434302
Epoch 20: traing loss: 0.000617033161688596
Epoch 21: traing loss: 0.0005527936737053096
Epoch 22: traing loss: 0.0005011251196265221
Epo

In [84]:
list(model.parameters())

[Parameter containing:
 tensor([[-1.9180,  1.3026,  1.4166,  1.2837,  0.1992],
         [ 1.5523,  1.7444,  1.1611,  1.4998,  1.2552],
         [ 1.5084,  1.2855,  1.7644,  0.3926,  0.7827]], requires_grad=True),
 Parameter containing:
 tensor([1.6776, 1.5555, 1.6371], requires_grad=True),
 Parameter containing:
 tensor([[1.5044, 1.5184, 1.9674],
         [2.2033, 1.6009, 2.2161],
         [1.8232, 2.0888, 2.2699],
         [1.6227, 1.6755, 1.3923],
         [2.0391, 1.9366, 1.8840]], requires_grad=True),
 Parameter containing:
 tensor([1.3140, 1.5559, 1.0383, 1.8267, 0.9656], requires_grad=True)]

You can see that our loss is decreasing. Let's check the predictions of our model now and see if they are close to our original `y`, which was all `1s`. 

我们来做下推理：看给出预测结果，看是否和原来的一致

In [85]:
# See how our model performs on the training data
y_pred = model(x)
y_pred

tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        ...,
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]], grad_fn=<SigmoidBackward>)