# 第一章：学习目标与预备知识

**前言：**
1. 本项目参考Aston Zhang等人编著的`动手深度从学习`一书，由于在安装`MXNET`会出现问题，为了追求方便(主要是懒)，同时加深对`MXNET`以及`Pytorch`的理解，在接下来的代码实现中，将会使用`Pytorch`替代`MXNET`来完成代码的编写。
2. 为了最求简介明了，本项目将尽可能的减少无用的话术，由于本人才疏学浅，难免会有所遗漏，如有此问题，还请谅解

## 1.1 环境准备

在本项目中，使用`Python`版本为`3.10.5`，通过现有的`Python`安装`Jupyter Notebook`，命令如下：
```cmd
pip install -i https://pypi.douban.com/simple/ jupyter
```

紧接着，你需要安装一些必备的库文件，但是在后面使用时，我也会按照顺序，提示如何安装，但就目前而言，我们只需要安装`Pytorch`，这里推荐前往官网查找安装命令，选择与自己相适应的组合，然后官网会主动给出对应的安装命令，地址如下。
>https://pytorch.org/get-started/locally/


## 1.2 数据操作

在深度学习中，打交道最多的就是数据，在个人看来，深度学习无非就是将预先清洗好的数据，放进搭建好的框架结构中进行进一步分析处理，抽丝剥茧，最终最终期待该模型能够窥探该数据的本质，即规则，并能够在同类中进行良好的泛化。因此，无论如何，其中的重点，依旧是数据。

### 1.2.1 创建数据容器

在原文的书中，描述的是创建`NDArray`，怎么去准确描述而不产生歧义，这便成了一个问题，在主流的不同类型体系下，叫法也不一致，甚至于调用的方法也各不相同，但无论如何改变，都改变不了一个事实，那就是它们都是存储数据的容器。

我们最常用的一个，就是`numpy`，在数据处理阶段，我们比较常见，而要想使用`numpy`创建一个数据容器，首先的安装，安装命令如下：
```cmd
pip install -i https://ptpi.douban.com/simple/ numpy
```

接下来，我们导入`numpy`库，并使用`arange`函数创建一个行向量。

In [3]:
# 导入numpy库，并为其起一个别名np
import numpy as np

# 使用arange函数创建行向量
x = np.arange(12)

print(x)

# 在 jupyter notebook 中，你也可以直接不使用 print 输出
x

[ 0  1  2  3  4  5  6  7  8  9 10 11]


array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

从上面可以看出，通过`arange`生成了一个`[0,12)`左闭右开的一个行向量，在直接使用`jupyter notebook`本身输出时，可以看到该向量的数据类型是`array`类型。

我们可以通过`shape`属性获取该向量的形状。

In [4]:
x.shape

(12,)

我们还能够通过`size`属性来获取该实例中的元素总数。

In [5]:
x.size

12

我们还可以使用`reshape`函数改变行向量`x`的形状，当然，改变形状必须是合法的，即两者的元素总数不变。

In [11]:
x1 = x.reshape((3, 4))
x1

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [8]:
# 查看改变后的形状以及元素总数
print(x1.shape)
print(x1.size)

(3, 4)
12


这里需要说明，上面说了可以直接使用`jupyter notebook`自己的输出，但是该方案有一个缺陷，那就是只会输出最后一个内容，前面的内容将会被覆盖，因此倘若需要输出多个内容，那么还是需要使用`print`函数。

在`reshape`过程中，我们常见这样的形势`x.reshape(-1,1)`或者`x.reshape(1,-1)`，就是将数据`x`转换成行向量(列向量)，由于`x`的元素个数是已知的，上面的-1是能够通过元素个数和其他维度大小推断出来的。

在深度学习中，我们会使用到一些特殊的数据初始化，比如创建一个形状为(2,3,4),所有元素都为0的张量。实际上，之前创建的向量和矩阵都是特殊的张量。

In [10]:
np.zeros((2, 3, 4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

类似地，我们可以创建各元素为1的张量。

In [12]:
np.ones((3,4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

倘若已经有了数据，且是通过列表(`list`)存储的，那么我们就可以直接通过`Python`的列表`list`创建与该列表一致的张量。

In [13]:
y = np.array([[2, 1, 2, 3], [3, 5, 6, 1], [7, 5, 1, 3]])
y

array([[2, 1, 2, 3],
       [3, 5, 6, 1],
       [7, 5, 1, 3]])

上面描述的如此多的内容，都是使用`numpy`完成的，但其实在`Pytorch`中，我们的数据类型都要转为对应类型，而在`Pytorch`中，一般的数据被称为张量。

在前面，我们已经安装好了`pytorch`，现在就导入该包，并完成上面的内容，其实本质都是一样的。

In [1]:
import torch

torch_x = torch.arange(12)

torch_x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

从上面可以看到，在`pytorch`中，容器被称为`tensor`，即张量。

接下来，我们也使用`torch`完成其他的工作。

首先，查看`torch_x`的形状。

In [16]:
torch_x.shape

torch.Size([12])

从上面可以看出，除了输出的形式不一样，其他的基本一致，接下来，我们调用`size`。

In [18]:
torch_x.size()

torch.Size([12])

与`numpy`有点不一样的是，`Pytorch`张量的`size`不是一个属性，而是一个方法，因此要在使用时是`torch_x.size()`，而非`torch_x.size`。

下面我们使用`reshape`对`torch`的张量进行形状的改变，使用方法如下。

In [2]:
torch_x1 = torch_x.reshape((3, 4))
torch_x1

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

查看`torch_x1`的形状和大小。

In [21]:
print(torch_x1.shape)
print(torch_x1.size())

torch.Size([3, 4])
torch.Size([3, 4])


进一步的尝试我们可以发现，`pytorch`张量的`size()`方法和`numpy`中的`size`其实是不一样的，在`pytorch`中的`size()`更像是`shape`属性的另一个调用形式。

那`pytorch`的变量可以和之前一样调用`reshape(1,-1)`或者`reshape(-1,1)`吗？下面我们尝试一下。

In [3]:
torch_x.reshape(-1, 1)

tensor([[ 0],
        [ 1],
        [ 2],
        [ 3],
        [ 4],
        [ 5],
        [ 6],
        [ 7],
        [ 8],
        [ 9],
        [10],
        [11]])

In [4]:
torch_x.reshape(1, -1)

tensor([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11]])

从上面可以看出，`pytorch`的`reshape`操作和`numpy`是一致的。

接下来，我们创建一个形状为`(2,3,4)`，各元素全为0的张量。

In [5]:
torch.zeros((2, 3, 4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

类似地，我们可以创建各元素为1的张量。

In [6]:
torch.ones((3, 4))

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])

我们也可以通过`Python`的列表(`list`)指定需要创建的`tensor`中每个元素的值。

In [7]:
torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

有些情况下，我们需要随机⽣成数据容器中每个元素的值。下⾯我们创建⼀个形状为(3,4)的`tensor`。它的每个元素都随机采样于均值为0、标准差为1的正态分布。

In [8]:
torch.normal(mean=0, std=1, size=(3, 4))

tensor([[ 3.3456, -1.4106, -0.2198, -1.1699],
        [ 2.3045,  1.0154, -0.3354,  0.6758],
        [ 0.9367,  0.3095, -1.8830,  0.9611]])

### 1.2.2 运算

科学计算的数据容器⽀持⼤量的运算符(`operator`)。例如，我们可以对之前创建的两个形状为(3,4)的`tensor`做按元素加法。所得结果形状不变。

In [21]:
x = torch.rand(2, 3)
print(x)
y = torch.rand(2, 3)
print(y)
print(x+y)

tensor([[0.1116, 0.5664, 0.7239],
        [0.9995, 0.9278, 0.2037]])
tensor([[0.4575, 0.5238, 0.7656],
        [0.6652, 0.1884, 0.8272]])
tensor([[0.5691, 1.0902, 1.4895],
        [1.6647, 1.1162, 1.0310]])


按元素乘法(在`torch`也可以使用`torch.mul`计算元素乘法)：

In [10]:
x * y

tensor([[0.3384, 0.0097, 0.7252],
        [0.0183, 0.3628, 0.1490]])

按元素除法：

In [11]:
x / y

tensor([[0.8587, 0.4555, 0.9782],
        [0.0754, 1.2396, 0.2269]])

按元素做指数运算：

In [12]:
y.exp()

tensor([[1.8734, 1.1568, 2.3656],
        [1.6370, 1.7177, 2.2489]])

除了按元素计算外，我们还可以使⽤`torch.mm`函数做矩阵乘法。下⾯将`x`与`y`的转置做矩阵乘法。由于`x`是2⾏3列的矩阵，`y`转置为3⾏2列的矩阵，因此两个矩阵相乘得到2⾏2列的矩阵。

In [16]:
torch.mm(x, y.T)

tensor([[1.0732, 0.9841],
        [0.2793, 0.5301]])

我们也可以将多个`tensor`连结(`concatenate`)。下⾯分别在⾏上(维度0，即形状中的最左边元素)和列上(维度1，即形状中左起第⼆个元素)连结两个矩阵。可以看到，输出的第⼀个`tensor`在
维度`0`的⻓度(`4`)为两个输⼊矩阵在维度`0`的⻓度之和(`3+3`)，而输出的第⼆个`tensor`在维
度`1`的⻓度(`6`)为两个输⼊矩阵在维度`1`的⻓度之和(`4+4`)。

In [27]:
torch.cat([x, y], dim=0)

tensor([[0.5390, 0.0663, 0.8422],
        [0.0372, 0.6706, 0.1839],
        [0.6278, 0.1456, 0.8610],
        [0.4929, 0.5410, 0.8105]])

In [26]:
torch.cat([x, y], dim=1)

tensor([[0.5390, 0.0663, 0.8422, 0.6278, 0.1456, 0.8610],
        [0.0372, 0.6706, 0.1839, 0.4929, 0.5410, 0.8105]])

使⽤条件判断式可以得到元素为`True`或`False`的新的`tensor`。以`x == y`为例，如果`x`和`y`在相同位置的条件判断为真(值相等)，那么新的`tensor`在相同位置的值为`True`；反之为`False`。

In [29]:
# 设置 x, y 对应位置元素
x[0, 1] = 1
y[0, 1] = 1
x == y

tensor([[False,  True, False],
        [False, False, False]])

对`tensor`中的所有元素求和得到只有⼀个元素的`tensor`。

In [30]:
x.sum()

tensor(3.2729)

我们可以通过`norm`函数计算例⼦中`x`的$L_1,L_2$范数结果,同上例⼀样是单元素`tensor`。

In [33]:
# x 的 L1 范数
x.norm(p=1)

tensor(3.2729)

In [34]:
# x 的 L2 范数
x.norm(p=2)

tensor(1.5763)

除上面以外，我们还可以通过`dim`关键字选择求取对应范数的维度，比如`dim=0`时按列求取对应范数，当`dim=1`时按行求解对应范数。

In [35]:
# 按列求解范数
x.norm(p=1, dim=0)

tensor([0.5762, 1.6706, 1.0261])

In [37]:
# 按行求解范数
x.norm(p=1, dim=1)

tensor([2.3813, 0.8917])

**`tensor`与`Numpy`中的`array`之间的转换**

其中`tensor`变量可以通过`numpy`函数转为普通`numpy`中的`array`变量或者数组。

In [22]:
x.numpy()

array([[0.11157459, 0.5663688 , 0.7239244 ],
       [0.9994676 , 0.92776114, 0.20373732]], dtype=float32)

当然，在使用`pytorch`进行机器学习编程时，其内部的数据容器都要保持一致，因此我们需要将`numpy`的`array`类型转为`tensor`类型。

In [24]:
x = x.numpy()
torch.from_numpy(x)

tensor([[0.1116, 0.5664, 0.7239],
        [0.9995, 0.9278, 0.2037]])

我们也可以把`y.exp()、x.sum()、x.norm()`等分别改写为`torch.exp(y)、torch.sum(x)、torch.norm(x)`等。

### 1.2.3 广播机制

前⾯我们看到如何对两个形状相同的`tensor`做按元素运算。当对两个形状不同的`tensor`按元素运算时，可能会触发⼴播(`broadcasting`)机制：先适当复制元素使这两个`tensor`形状相同后再按元素运算。

定义两个`tensor`:

In [47]:
A = torch.arange(3).reshape((3, 1))
B = torch.arange(2).reshape((1, 2))
A, B

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

由于`A`和`B`分别是3⾏1列和1⾏2列的矩阵，如果要计算`A+B`，那么`A`中第⼀列的3个元素被⼴播(复制)到了第⼆列，而`B`中第⼀⾏的2个元素被⼴播(复制)到了第⼆⾏和第三⾏。如此，就可以对2个3⾏2列的矩阵按元素相加。

In [48]:
A + B

tensor([[0, 1],
        [1, 2],
        [2, 3]])

### 1.2.4 索引

在`tensor`中，索引(`index`)代表了元素的位置。`tensor`的索引从0开始逐⼀递增。例如，⼀个3⾏2列的矩阵的⾏索引分别为0、1和2，列索引分别为0和1。

在下⾯的例⼦中，我们指定了`tensor`的⾏索引截取范围[1:3]。依据左闭右开指定范围的惯例，它截取了矩阵`X`中⾏索引为1和2的两⾏。

In [3]:
X = torch.arange(12).reshape(3, 4)
X[1:3]

tensor([[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

我们可以指定`tensor`中需要访问的单个元素的位置，如矩阵中⾏和列的索引，并为该元素重新赋值。

In [4]:
X[1, 2] = 9
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  9,  7],
        [ 8,  9, 10, 11]])

当然，我们也可以截取⼀部分元素，并为它们重新赋值。在下⾯的例⼦中，我们为⾏索引为1的每⼀列元素重新赋值。

In [5]:
X[1:2, :] = 12
X

tensor([[ 0,  1,  2,  3],
        [12, 12, 12, 12],
        [ 8,  9, 10, 11]])

### 1.2.5 运算的内存开销

在前⾯的例⼦⾥我们对每个操作新开内存来存储运算结果。举个例⼦，即使像`Y = X + Y`这样的运算，我们也会新开内存，然后将`Y`指向新内存。为了演⽰这⼀点，我们可以使⽤`Python`⾃带的`id`函数：如果两个实例的`ID`⼀致，那么它们所对应的内存地址相同；反之则不同。

In [6]:
Y = torch.arange(12).reshape(3, 4)

before = id(Y)
Y = Y + X
id(Y) == before

False

如果想指定结果到特定内存，我们可以使⽤前⾯介绍的索引来进⾏替换操作。在下⾯的例⼦中，我们先通过`zeros_like`创建和`Y`形状相同且元素为0的`tensor`，记为`Z`。接下来，我们把`X +
Y`的结果通过`[:]`写进`Z`对应的内存中。

In [7]:
Z = Y.zero_()
before = id(Z)
Z[:] = X + Y
id(Z) == before

True

实际上，上例中我们还是为`X + Y`开了临时内存来存储计算结果，再复制到`Z`对应的内存。如果
想避免这个临时内存开销，我们可以使⽤运算符全名函数中的`out`参数。

In [8]:
torch.add(X, Y, out=Z)
id(Z) == before

True

如果`X`的值在之后的程序中不会复⽤，我们也可以⽤`X[:] = X + Y`或者`X += Y`来减少运算
的内存开销。

In [10]:
before = id(X)
X += Y
id(X) == before

True

还可以直接在元素本身进行运算，使用`add_`方法，其效果和上面的是一样的。

In [14]:
X.add_(Y)
id(X) == before

True

这里有一个点需要注意，`add_`是`in-place`操作，即原地运算，需要和`add`进行区分，`add`可以视为运算符，如`a.add(b)`等同于`a+b`，运算后需要指定结果存储位置，因此完整的运算语句应该为`a = a.add(b)`，`a = a + b`，而这两个运算分别等同于`a.add_(b)`和`a += b`。

## 1.3 自动求解梯度

在深度学习中，无论什么样的网络构型，都不可避免地需要使用到对函数求梯度(`gradient`)。本节将介绍如何使用`pytorch`提供的`autograd`模块来自动求梯度。如果对本节中的数学概念(如梯度)不是很熟悉，可以参阅附录中“数学基础”一节。

下面，首先导入`torch`以及`torch`下面的`autograd`包。

In [25]:
import torch
from torch import autograd

### 1.3.1 简单实例

我们首先来看一个简单的例子：对函数$\pmb{y}=2\pmb{x}^T\pmb{x}$求关于列向量$\pmb{x}$的梯度。我们先创建变量$\pmb{x}$，并初始化。

In [48]:
x = torch.arange(4).reshape((4, 1))
x

tensor([[0],
        [1],
        [2],
        [3]])

为了求有关变量$\pmb{x}$的梯度，我们需要先设置`requires_grad=True`来告诉系统我们需要对变量$\pmb{x}$进行求导。

在设置`requires_grad`，需要将矩阵$\pmb{x}$的数据类型设置为`float`类型，只有连续的数值，才可求导。当然，一般时候初始化就是`float`类型，上面的使用的是`arange`进行初始化，因此我们需要手动的将其转为`float`类型。

>此外，在设置是否需要求导时，方法多样，你可以在初始化时就进行设置，当然，这个时候你首先得确认这个张量中的数据是浮点型数据，你可以采用下面这种方式：
```python
x = torch.ones((2, 4), requires_grad=True)
```
>当然，你也可以先初始化数据，此时默认该数据是不需要求导的，然后采取下面格式设置为需要求导：
```python
x.requires_grad = True
```

In [55]:
x = x.float()
x.requires_grad = True

下面定义函数运算$\pmb{y}=2\pmb{x}^T\pmb{x}$，同时查看$\pmb{y}$是否可导。

In [56]:
y = 2 * torch.mm(x.T, x)
y.requires_grad

True

从上面可以发现$\pmb{y}$不需要进行设置，是可导的，也就说明，当一个函数，变量矩阵可导，则结果也可导，有点像广播机制。

接下来对$\pmb{y}$执行反向传播，同时查看$\pmb{x}$的梯度。

In [52]:
y.backward()

In [53]:
x.grad

tensor([[ 0.],
        [ 4.],
        [ 8.],
        [12.]])

**要点注意 1**

自动求解梯度的细节并未结束，在上面的描述中，设置张量可导的方法描述了两种，其实还有一种，当你使用提示时会发现，还有一个方法`requires_grad_`，该方法可以写成`x1.requires_grad_=True`，不会报错，但其实并没有任何效果，并不能使张量标记为可导。在`pytorch`中，该方法的正确使用为`x1.requires_grad_(True)`。

In [161]:
x1 = torch.ones((2, 4))
x1

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.]])

下面使用`x1.requires_grad_=True`方式设置该张量可导，可以发现，并未设置成功。

In [155]:
x1.requires_grad_ = True
x1

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.]])

接下来使用`x1.requires_grad_(True)`方式，便可以成功。

>这里需要重点注意，如果你先执行了上面的`x1.requires_grad_ = True`，在执行下面的代码时会报错，因为在上面相当于将`x1`中的`requires_grad_`方法设置成一个属性，且该属性为`True`。因此再调用`x1.requires_grad_(True)`时便会报错。所以你需要再次执行上面张量`x1`初始化语句，然后执行下面的代码。

In [162]:
x1.requires_grad_(True)
x1

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.]], requires_grad=True)

**要点注意 2**

下面执行函数的定义以及函数反向传播。这里又需要注意，在上面执行反向传播时，使用的语句是`y.backward()`，但是在这次的例子中，使用上面的方式执行`y1.backward()`的话，那么你只能收获报错。错误的原因在于，这次函数的结果并不是一个标量，而是一个张量，因此需要设置`output`类型，因此在反向传播时应该执行`y1.backward(torch.ones_like(y1))`。其实，稳妥起见，你可以将所有的反向传播都写成`y1.backward(torch.ones_like(y1))`，这样的话，不论函数结果是标量还是张量，都是正确的。

In [163]:
y1 = 2 * torch.mm(x1.T, x1)
y1.backward(torch.ones_like(y1))
x1.grad

tensor([[16., 16., 16., 16.],
        [16., 16., 16., 16.]])

### 1.3.2 训练模式和预测模式

从上面我们可以看出，当一个数据容器(在这里是张量，即`tensor`)被告知需要进行求导，那么`pytorch`会记录并计算梯度。

此外，当张量的`requires_grad`被设置为`True`时，那么该张量，或者说使用了该张量的数据模型就变成**训练模式**，在该模式下，张量可进行求导并将结果保存。当`requires_grad`未被设置为`True`时，我们则称之为**预测模式**，此时不能进行求导。

**训练模式**与**预测模式**的理解，其实代入到机器学习模型中就能更好的理解。例如，在一个神经网络中，训练传播过程中需要对函数求导，因此此时就需要张量具备求导功能，这个模式就被称为**训练模式**；而在训练好模型之后，我们只需要通过该模型进行预测，此时并不存在对其中张量求导的需求，为了节省空间、提高运行速度，一般会关闭张量的求导功能，即设置`requires_grad=False`，而这个模式，就被称为**预测模式**。

简而言之，**训练模式**即张量可被求导的模式，**预测模式**即张量不可被求导的模式。

### 1.3.3 对`Python`控制流求梯度

对于大多数的机器学习框架而言，都能对`Python`的控制流进行梯度求解。

考虑下⾯程序，其中包含`Python`的条件和循环控制。需要强调的是，这⾥循环(`while`循环)迭
代的次数和条件判断(`if`语句)的执⾏都取决于输⼊`a`的值。

In [164]:
def f(a):
    b = a * 2
    while b.norm(p=2) < 500:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c

上文描述了梯度广播机制(自己取的名称，不确定是否有该机制，主要是便于理解)，因此只要输入是可求导的参数，则运算后的结果也是可求导的。

下面我们初始化一个张量`a`，并设置为可导，调用函数`f()`计算，并对结果进行求导。

In [191]:
a = torch.normal(mean=0, std=1, size=(2,3), requires_grad=True)
c = f(a)
c.backward(torch.ones_like(c))

下面输出求张量`a`的求导结果。

In [192]:
a.grad

tensor([[25600., 25600., 25600.],
        [25600., 25600., 25600.]])

我们来分析⼀下上⾯定义的f函数。事实上，给定任意输⼊`a`，其输出必然是 `f(a) = x * a`的
形式，其中标量系数`x`的值取决于输⼊`a`。由于`c = f(a)`有关`a`的梯度为`x`，且值为`c / a`，我们可以像下⾯这样验证对本例中控制流求梯度的结果的正确性。

In [193]:
a.grad == c / a

tensor([[True, True, True],
        [True, True, True]])

## 1.4 拓展学习

文章篇幅有限，无法去详细描述`pytorch`框架所具有的所有特性，但总之，学习是一个循序渐进的过程，同时也是一个永无止境的道路。

在学习时，遇到问题多百度，基本上你遇到的问题，别人也遇到过，并且在网上也会有人给出答案，这种概率说为99%也不为过，倘若你遇到一个网上至今没有人遇到的问题，那么也不用灰心，说明你已经到达一个前所未有的高度。

查阅官方文档是一个不错的习惯，当你在使用某个`API`遇到问题时。首先，科学技术可以打破壁垒，面对英文文档，即便英语不佳，也不用太过担心，现在的很多翻译软件翻译的结果可能远胜于一般的人工翻译，因此，即便英语不好也不用太过于担心，这也不是学不好的借口。

就个人而言，兴趣是最好的老师，当你带着兴趣学习，那么就会充满动力，同时在学习的过程中应该带着疑问，求知欲，多尝试，而不要担心出错，错误是前进路上的老师。

当然，初期也可以尽量的避免错误发生，严格按照实例进行学习理解，如果进行新的尝试时出现错误，也可以适当的忽略，浅尝辄止。这样建议的原因是学习初期过多的错误可能会打击学习的信心以及初期的兴趣，因此为了慢慢培养信心和兴趣，前期可以照葫芦画瓢，但你必须要摆脱一直照葫芦画瓢，随着不断地深入了解，要学会举一反三，比如示例是一个乘法，你用加法去尝试，示例使用地是`pytorch`所写，那你可以尝试使用`tensorflow`写一遍，这样不仅加深理解，同时让你对两个框架都有更深一步地了解。

下一章，我们将进一步学习深度学习基础，希望大家继续努力。