# PyTorch 基本数据操作

PyTorch 是一个基于 Python 的科学计算包，充分发挥 GPU 能力而设计的 NumPy 的 GPU 版本替代方案，提供更大灵活性和速度的深度学习研究平台。

在深度学习中，我们通常会频繁地对数据进行操作。


---

## 创建 Tensor 

在 PyTorch 中，`Tensor` 是一个类，也是存储和变换数据的主要工具。为了简洁，人们常将 `Tensor` 实例直接称作 `Tensor`。如果你之前用过 NumPy，你会发现 `Tensor` 和 NumPy 的多维数组非常类似。然而，`Tensor` 提供 GPU 计算和自动求梯度等更多功能，这些使 `Tensor` 更加适合深度学习。


我们先介绍 `Tensors` 的最基本功能。

- 张量初始化

In [1]:
import torch  # 加载 torch 库 
torch.__version__   # 查看版本

'1.10.2'

我们首先用一个非常实用的 `arange` 函数创建一个行向量。`arange` 函数用于生成一定范围内等间隔的一维数组。参数有三个，分别是范围的起始值、范围的结束值和步长。

（`Shift + TAB` 快捷键可以在 Jupyter 中的代码块中快速查看帮助）

In [2]:
x = torch.arange(12)
print(type(x))
x

<class 'torch.Tensor'>


tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

这时返回了一个 `Tensor` 实例，其中包含了从 0 开始的 12 个连续整数。可以打印 `x` 显示出属性 `<class 'torch.Tensor'>`。

我们可以通过 `shape` 属性来获取 `Tensor` 实例的形状。

In [3]:
x.shape

torch.Size([12])

我们也能够通过 `size` 函数得到 `Tensor` 实例中元素（element）的总数。

> 注意区别：NumPy 中是调用 NDArray 的 `size` 属性。

In [4]:
x.size()

torch.Size([12])

`torch.Size` 本质上是一个 `tuple`，通过上面的例子也可以看出，它支持元组的操作。

下面使用 `reshape` 函数把行向量 `x` 的形状改为 (3, 4)，也就是一个 3 行 4 列的矩阵，并记作 `X`。除了形状改变之外，`X` 中的元素保持不变。

In [5]:
X = x.reshape((-1, 4))
print(X.shape)
X

torch.Size([3, 4])


tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

注意X属性中的形状发生了变化。上面 `x.reshape((3, 4))` 也可写成 `x.reshape((-1, 4))` 或 `x.reshape((3, -1))`。由于 `x` 的元素个数是已知的，这里的 `-1` 是能够通过元素个数和其他维度的大小推断出来的。

接下来，我们创建一个各元素为 0，形状为 (2, 3, 4) 的张量。实际上，之前创建的向量和矩阵都是一种特殊的张量。

In [6]:
torch.zeros((2, 3, 4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

类似地，我们可以创建各元素为 1 的张量。

In [7]:
torch.ones((3, 4))

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])

还可以构建一个未初始化的 (5, 3) 的空矩阵（张量）：

In [8]:
torch.empty(5, 3)

tensor([[ 0.0000e+00,  3.6893e+19, -7.7206e+29],
        [ 8.5920e+09,  5.4526e-26,  4.5894e-41],
        [ 5.4873e-26,  4.5894e-41,  5.4912e-26],
        [ 4.5894e-41,  5.4909e-26,  4.5894e-41],
        [ 5.4908e-26,  4.5894e-41,  5.4945e-26]])

注意，对于未初始化的张量，它的取值是不固定的，取决于它创建时分配的那块内存的取值。

- 可以通过 `dtype` 属性来指定 `tensor` 的数据类型。

这里我们再次构建一个使用 0 填充的 `tensor`，将 `dtype` 属性设置为长整型，并打印结果的数据类型，注意观察区别

In [9]:
print(torch.zeros(2, 3).dtype)
tensor_zeros_int = torch.zeros(2, 3, dtype=torch.long)
print(tensor_zeros_int.dtype)

torch.float32
torch.int64


注意，对于未初始化的张量，它的取值是不固定的，取决于它创建时分配的那块内存的取值。

- 随机初始化

和 NumPy 类似，除了常见的 0/1 取值的初始化，我们还可以进行随机初始化，或者直接用现有数据进行张量的初始化。

有些情况下，我们需要随机生成 `tensor` 中每个元素的值。下面我们创建一个形状为 (3, 4) 的 `tensor`。它的每个元素都随机采样于均值为 0、标准差为 1 的正态分布。

In [10]:
torch.randn(3,4)

tensor([[-0.7534, -1.2917, -0.1485, -0.9819],
        [-0.7884, -0.0641, -1.5173, -1.4442],
        [-1.8179,  0.0217, -0.1954, -0.6445]])

生成服从区间 `[0,1)` 均匀分布的随机张量：

In [11]:
torch.rand(5, 3)

tensor([[0.0797, 0.3468, 0.4761],
        [0.7740, 0.7935, 0.4432],
        [0.4779, 0.8248, 0.4850],
        [0.4818, 0.5336, 0.8103],
        [0.5565, 0.8913, 0.9144]])

- 直接用现有数据进行张量的初始化

我们也可以通过 Python 的列表（list）指定需要创建的 `Tensor` 中每个元素的值。

In [12]:
Y = torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
Y

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

也可以基于已有的 `tensor` 来创建新的 `tensor`，通常是为了复用已有 `tensor` 的一些属性，包括 `shape` 和 `dtype`。观察下面的示例：

In [13]:
x = torch.tensor([5.5, 3], dtype=torch.double)
print(x.dtype)
x = x.new_ones(5, 3)      # new_* methods take in sizes
print(x)
x = torch.randn_like(x, dtype=torch.float)    # override dtype!
print(x)

torch.float64
tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[-0.5130, -1.9519, -1.3216],
        [ 0.2640,  0.9898,  0.9462],
        [-0.8379,  0.4547, -0.5359],
        [ 0.5690, -2.2511,  0.8680],
        [-0.6998, -0.4122, -0.5754]])


可以看到，`new_ones` 函数复用了 `x` 的 `dtype` 属性，`randn_like` 函数复用了 `x` 的 `shape` 同时通过手动指定数据类型覆盖了原有的 `dtype` 属性.

---

## Tensor 运算

`Tensor` 支持大量的运算符operator，涉及的语法和函数很多，但大多数都是相通的，下面我们列举一些常用操作及其用法示例。

- 四则运算

下面来看下张量间的元素级的四则运算，即加减乘除的用法。

例如，我们可以对之前创建的两个形状为 (3, 4) 的 `Tensor` 做按元素加法。所得结果形状不变。

In [14]:
# 按元素加法如下：
X + Y

tensor([[ 2,  2,  6,  6],
        [ 5,  7,  9, 11],
        [12, 12, 12, 12]])

In [15]:
torch.add(X, Y)

tensor([[ 2,  2,  6,  6],
        [ 5,  7,  9, 11],
        [12, 12, 12, 12]])

In [16]:
# alpha 参数
torch.add(X, Y, alpha = 1)

tensor([[ 2,  2,  6,  6],
        [ 5,  7,  9, 11],
        [12, 12, 12, 12]])

In [17]:
# out 参数
Z = torch.empty(3, 4)
torch.add(X, Y, out=Z)
Z

tensor([[ 2.,  2.,  6.,  6.],
        [ 5.,  7.,  9., 11.],
        [12., 12., 12., 12.]])

In [18]:
# 通过 in-place 操作直接将计算结果覆盖到 Y 上 
Z.add_(X)
Z

tensor([[ 2.,  3.,  8.,  9.],
        [ 9., 12., 15., 18.],
        [20., 21., 22., 23.]])

注意：在 PyTorch 中，我们约定凡是会覆盖函数调用主体的 in-place 操作，都以后缀 `_` 结束，例如：`x.copy_(y)`，`x.t_()` 等等，都会改变 `x` 的取值。

张量之间的减法、点乘和点除的用法是类似的：

In [19]:
# 按元素减法如下：
X - Y == torch.sub(X, Y)

tensor([[True, True, True, True],
        [True, True, True, True],
        [True, True, True, True]])

In [20]:
# 按元素乘法如下：
X * Y == torch.mul(X, Y)

tensor([[True, True, True, True],
        [True, True, True, True],
        [True, True, True, True]])

In [21]:
# 按元素除法如下：
X / Y == torch.div(X, Y)

tensor([[True, True, True, True],
        [True, True, True, True],
        [True, True, True, True]])

当然，张量和常数间的基本运算也是支持的。

除了按元素计算外，我们还可以使用 `torch.mm` 函数做矩阵乘法计算。

下面将 X 与 Y 的转置做矩阵乘法。由于 X 是 3 行 4 列的矩阵，Y 转置 (`Y.T`) 为 4 行 3 列的矩阵，因此两个矩阵相乘得到 3 行 3 列的矩阵。

In [22]:
torch.mm(X, Y.T)

tensor([[ 18,  20,  10],
        [ 58,  60,  50],
        [ 98, 100,  90]])

下面我们来看看其他的一些基础操作:

- `torch.abs` 函数可以用来计算张量的绝对值;
- `torch.exp` 函数用于进行求幂操作。
- `torch.pow` 函数用于进行求幂操作;

(`Ctrl + /` 或 `Commond + /` 快捷键快速注释掉某行)

In [23]:
a =torch.randn(2, 3)
print(a)
# b =torch.abs(a)
# b =torch.exp(a)
b =torch.pow(a, 2)
print(b)

tensor([[-0.6457, -0.7714, -0.0353],
        [-0.0553, -0.0271, -0.1796]])
tensor([[0.4169, 0.5950, 0.0012],
        [0.0031, 0.0007, 0.0323]])


我们也可以将多个 `Tensor` 连结（concatenate）。下面分别在行上（维度 0，即形状中的最左边元素）和列上（维度1，即形状中左起第二个元素）连结两个矩阵。可以看到，输出的第一个 `Tensor` 在维度0的长度（ 6 ）为两个输入矩阵在维度 0 的长度之和（ 3+3 ），而输出的第二个NDArray在维度1的长度（ 8 ）为两个输入矩阵在维度1的长度之和（ 4+4 ）。

In [24]:
torch.cat((X, X))

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [25]:
# torch.cat((X, X), dim=1)
torch.cat((X, Y), dim=1)

tensor([[ 0,  1,  2,  3,  2,  1,  4,  3],
        [ 4,  5,  6,  7,  1,  2,  3,  4],
        [ 8,  9, 10, 11,  4,  3,  2,  1]])

使用条件判断式可以得到元素为 0 或 1 的新的 `Tensor`。以 `X == Y` 为例，如果 X 和 Y 在相同位置的条件判断为真（值相等），那么新的 `Tensor` 在相同位置的值为 1 或 `True`；反之为 0 或 `False`。

In [26]:
X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

如果你想要对 `Tensor` 进行类似 resize/reshape 的操作，你可以使用 `torch.view`:

In [27]:
x = torch.randn(4, 4)
y = x.view(16)
z = x.view(-1, 8)   # 使用 -1 时 pytorch 将会自动根据其他维度进行推导
print(x.size(), y.size(), z.size())  

torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])


对 `Tensor` 中的所有元素求和得到只有一个元素的 `Tensor`:

In [28]:
X.sum()

tensor(66)

In [29]:
X.sum().item()

66

我们可以通过 `.item()` 函数将结果变换为 Python 中的标量。下面例子中 Z 的 L2 范数结果同上例一样是单元素 `Tensor`，但最后结果变换成了 Python 中的标量。

In [30]:
# norm only supports floating-point dtypes
Z.norm()

tensor(52.7826)

In [31]:
Z.norm().item()

52.78257369995117

我们也可以把 `Y.exp()`、`X.sum()`、`X.norm()` 等分别改写为 `torch.exp(Y)`、`torch.sum(X)`、`torch.norm(X)` 等。

通常我们在需要控制张量的取值范围不越界时，需要用到 `torch.clamp` 函数，它可以对输入参数按照自定义的范围进行裁剪，最后将参数裁剪的结果作为输出。输入参数一共有三个，分别是需要进行裁剪的 `Tensor` 变量、裁剪的下边界和裁剪的上边界。

In [32]:
a =torch.randn(2,3)
print(a)
b =torch.clamp(a, -0.5, 0.5)
print(b)

tensor([[ 0.6062, -0.0078, -0.2199],
        [-0.3511,  0.4959,  0.6582]])
tensor([[ 0.5000, -0.0078, -0.2199],
        [-0.3511,  0.4959,  0.5000]])


---


## 广播机制

前面我们看到如何对两个形状相同的 `Tensor` 做按元素运算。当对两个形状不同的 `Tensor` 按元素运算时，可能会触发**广播（broadcasting）机制**：先适当复制元素使这两个 `Tensor` 形状相同后再按元素运算。

先定义两个 `Tensor`。

In [33]:
A = torch.arange(3).reshape((3, 1))
B = torch.arange(2).reshape((1, 2))
A, B

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

由于A和B分别是 3 行 1 列和 1 行 2 列的矩阵，如果要计算 A + B，那么 A 中第一列的 3 个元素被广播（复制）到了第二列，而 B 中第一行的 2 个元素被广播（复制）到了第二行和第三行。如此，就可以对 2 个 3 行 2 列的矩阵按元素相加。



简单地说，对两个矩阵进行元素级操作时，PyTorch/NumPy 逐元素地比较它们的形状。只有两种情况下 NumPy/PyTorch 会认为两个矩阵内的两个对应维度是兼容的：

>1. 它们相等；
>2. 其中一个是 1 维的。

举个牛逼的例子：

```text
A      (4d array): 8 x 1 x 6 x 1
B      (3d array):     7 x 1 x 5
Result (4d array): 8 x 7 x 6 x 5
```

当任何一个维度是 1，那么另一个不为 1 的维度将被用作最终结果的维度。也就是说，尺寸为 1 的维度将延展或“逐个复制”到与另一个维度匹配。

In [35]:
A = torch.arange(48).reshape((8, 1, 6, 1))
B = torch.arange(35).reshape((7, 1, 5))
(A + B).size()

torch.Size([8, 7, 6, 5])

--- 
## 索引

在 `Tensor` 中，可以使用标准的 **NumPy-like** 的索引（index）代表了元素的位置。`Tensor` 的索引从 0 开始逐一递增。例如，一个 3 行 2 列的矩阵的行索引分别为 0、1 和 2，列索引分别为 0 和 1。

在下面的例子中，我们指定了 `Tensor` 的行索引截取范围 `[1:3]`。依据**左闭右开**指定范围的惯例，它截取了矩阵 X 中行索引为 1 和 2 的两行。

In [36]:
X[1:3]

tensor([[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

我们可以指定 `Tensor` 中需要访问的单个元素的位置，如矩阵中行和列的索引，并为该元素重新赋值。

In [37]:
X[1, 2] = 9
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  9,  7],
        [ 8,  9, 10, 11]])

当然，我们也可以截取一部分元素，并为它们重新赋值。在下面的例子中，我们为行索引为 1 的每一列元素重新赋值。

In [38]:
X[1:2, :] = 12
X

tensor([[ 0,  1,  2,  3],
        [12, 12, 12, 12],
        [ 8,  9, 10, 11]])

---

## 运算的内存开销

在前面的例子里我们对每个操作新开内存来存储运算结果。举个例子，即使像 `Y = X + Y` 这样的运算，我们也会新开内存，然后将 Y 指向新内存。为了演示这一点，我们可以使用Python 自带的 `id` 函数：如果两个实例的ID一致，那么它们所对应的内存地址相同；反之则不同。

In [39]:
before = id(Y)
Y = Y + X
id(Y) == before

False

如果想指定结果到特定内存，我们可以使用前面介绍的索引来进行替换操作。在下面的例子中，我们先通过 `torch.zeros_like` 创建和 Y 形状相同且元素为 0 的 `Tensor`，记为 Z。接下来，我们把 X + Y 的结果通过 `[:]` 写进 Z 对应的内存中。

In [40]:
Z = torch.zeros_like(Y)
before = id(Z)
Z[:] = X + Y
id(Z) == before

True

实际上，上例中我们还是为 X + Y 开了临时内存来存储计算结果，再复制到 Z 对应的内存。如果想避免这个临时内存开销，我们可以使用运算符全名函数中的 out 参数。

In [41]:
torch.add(X, Y, out=Z)
id(Z) == before

True

In [42]:
# 与上例对比着看
Z = torch.add(X, Y)
id(Z) == before

False

如果 X 的值在之后的程序中不会复用，我们也可以用 `X[:] = X + Y` 或者 `X += Y` 来减少运算的内存开销。

In [43]:
before = id(X)
X += Y
id(X) == before

True

---

## `Tensor` 和 NumPy 相互变换

PyTorch 中可以很方便的将 Torch 的 `Tensor` 同 NumPy 的 `ndarray` 进行互相转换，相当于在 NumPy 和 PyTorch 间建立了一座沟通的桥梁，这将会让我们的想法实现起来变得非常方便。

>注意：Torch Tensor 和 NumPy ndarray 底层是分享内存空间的，也就是说改变其中之一会同时改变另一个（前提是你是在 CPU 上使用 Torch Tensor）。

我们可以通过 `torch.from_numpy` 函数和 `.numpy()` 函数令数据在 `Tensor` 和 NumPy 格式之间相互变换。下面将 NumPy 实例变换成 `Tensor` 实例。

将一个 Torch Tensor 转换为 Numpy Array:

In [44]:
a = torch.ones(5)
print(a, type(a))
b = a.numpy()
print(b, type(b))

tensor([1., 1., 1., 1., 1.]) <class 'torch.Tensor'>
[1. 1. 1. 1. 1.] <class 'numpy.ndarray'>


我们来验证下它们的取值是如何互相影响的:

In [45]:
a.add_(1)
print(a)
print(b)

tensor([2., 2., 2., 2., 2.])
[2. 2. 2. 2. 2.]


将一个 NumPy Array 转换为 Torch Tensor:

In [46]:
import numpy as np

a = np.ones(5)
b = torch.from_numpy(a)
np.add(a, 1, out=a)
print(a)
print(b) 

[2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2.], dtype=torch.float64)


注：所有 CPU 上的 Tensors，除了 CharTensor 均支持与 NumPy 的互相转换

--- 

## CUDA Tensors

可以通过以下代码进行验证，是否安装 GPU 版本的 PyTorch。

In [47]:
print(torch.cuda.is_available())

False


如果输出 `True`，代表你安装了 GPU 版本的 PyTorch。

`Tensor` 可以通过 `.to` 函数移动到任何我们定义的设备 device 上，观察如下代码：

In [48]:
# let us run this cell only if CUDA is available
# We will use ``torch.device`` objects to move tensors in and out of GPU
if torch.cuda.is_available():
    device = torch.device("cuda")          # a CUDA device object
    y = torch.ones_like(x, device=device)  # directly create a tensor on GPU
    x = x.to(device)                       # or just use strings ``.to("cuda")``
    z = x + y
    print(z)
    print(z.to("cpu", torch.double))       # ``.to`` can also change dtype together!  

---

想要学习更多？这里的[官方教程](https://pytorch.org/docs/stable/torch.html)有更多关于 `tensor` 操作的介绍，介绍了 100 多个Tensor运算，包括转置，索引，切片，数学运算，线性代数，随机数等。

---

# PyTorch 自动求梯度


在深度学习中，我们经常需要对函数求梯度（gradient）。PyTorch 提供的 `autograd` 包能够根据输入和前向传播过程自动构建计算图，并执行反向传播。本节将介绍如何使用 `autograd` 包来进行自动求梯度的有关操作。


---

## 基本概念

`Tensor` 是 PyTorch 实现多维数组计算和自动微分的关键数据结构。一方面，它类似于 NumPy 的 NDArray，用户可以对 `Tensor` 进行各种数学运算；另一方面，当设置 `.requires_grad = True` 之后，在其上进行的各种操作就会被记录下来，它将开始追踪在其上的所有操作，从而利用链式法则进行梯度传播。完成计算后，可以调用 `.backward()` 来完成所有梯度计算。此 `Tensor` 的梯度将累积到 `.grad` 属性中。

如果不想要被继续追踪，可以调用 `.detach()` 将其从追踪记录中分离出来，可以防止将来的计算被追踪，这样梯度就传不过去了。此外，还可以用 `with torch.no_grad()` 将不想被追踪的操作代码块包裹起来，这种方法在评估模型的时候很常用，因为在评估模型时，我们并不需要计算可训练参数（`requires_grad=True`）的梯度。


我们先看一个简单例子：对函数  $y=2x^⊤x$ 求关于列向量  $x$  的梯度。

我们先创建变量 x，并赋初值。

In [49]:
x = torch.arange(4, dtype=torch.float).reshape((4, 1))
x

tensor([[0.],
        [1.],
        [2.],
        [3.]])

设定 `requires_grad` 为 `True`，因为需要计算梯度：

In [50]:
# only Tensors of floating point dtype can require gradients
x.requires_grad = True 
x

tensor([[0.],
        [1.],
        [2.],
        [3.]], requires_grad=True)

下面定义有关变量 x 的函数，$y=2x^⊤x$。

In [51]:
y = 2 * torch.mm(x.T, x)
y

tensor([[28.]], grad_fn=<MulBackward0>)

由于 x 的形状为（4, 1），y 是一个标量。接下来我们可以通过调用 `backward` 函数自动求梯度。

In [52]:
# y.backward()
y.backward(retain_graph=True)

函数 $y=2x^⊤x$ 关于 x 的梯度应为 4x 。现在我们来验证一下求出来的梯度是正确的。

In [53]:
# assert (x.grad - 4 * x).norm().item() == 0
x.grad  # 注意，x.grad 是和 x 同形的张量。

tensor([[ 0.],
        [ 4.],
        [ 8.],
        [12.]])

从代码中可以发现对 y 求导使用的是 `y.backward()` 方法，也就是张量中的类方法，是 `Tensor.py` 中的一个类方法的函数,这个函数只有一行代码，就是调用 `torch.autograd.backward()`:

```python
def backward(self, gradient=None, retain_graph=None, create_graph=False):
    torch.autograd.backward(self, gradient, retain_graph, create_graph)
```

从代码调试中可以知道张量中的 `backward()` 方法实际直接调用了 `torch.autograd` 中的 `backward()`。 `backward()` 中有一个 `retain_grad` 参数，它是用来保存计算图的，如果还想执行一次反向传播 ，必须将`retain_grad` 参数设置为 `retain_grad=True`，否则代码会报错。因为如果没有 `retain_grad=True`，每进行一次 `backward` 之后，计算图都会被清空，没法再进行一次 `backward()` 操作。

再来个例子：

In [54]:
torch.manual_seed(10)  #用于设置随机数

w = torch.tensor([1.], requires_grad=True) #创建叶子张量，并设定requires_grad为True，因为需要计算梯度；
x = torch.tensor([2.], requires_grad=True) #创建叶子张量，并设定requires_grad为True，因为需要计算梯度；

a = torch.add(w, x)    #执行运算并搭建动态计算图
b = torch.add(w, 1)
y = torch.mul(a, b)

y.backward(retain_graph=True)   
print(w.grad)   #输出为tensor([5.])

tensor([5.])


**我们不允许张量对张量求导，只允许标量对张量求导，求导结果是和自变量同形的张量**。所以必要时我们要把张量通过将所有张量的元素加权求和的方式转换为标量。举个例子，假设 `y` 由自变量 `x` 计算而来，`w` 是和 `y` 同形的张量，则 `y.backward(w)` 的含义是：先计算 `l = torch.sum(y * w)`，则 `l` 是个标量，然后求 `l` 对自变量 `x` 的导数。

我们举个例子看看：

In [55]:
x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True)
y = 2 * x
z = y.view(2, 2)
print(z)

tensor([[2., 4.],
        [6., 8.]], grad_fn=<ViewBackward0>)


现在 `z` 不是一个标量，所以在调用 `backward` 时需要传入一个和 `z` 同形的权重向量进行加权求和得到一个标量。

In [56]:
# z.backward() # 会报错

In [57]:
v = torch.tensor([[1.0, 0.1], [0.01, 0.001]], dtype=torch.float)
z.backward(v, retain_graph=True)
print(x.grad)
# 注意，x.grad 是和 x 同形的张量。

tensor([2.0000, 0.2000, 0.0200, 0.0020])


---

## 训练模式和测试模式

在有些情况下，同一个模型在训练模式和预测模式下的行为并不相同。与训练模型不同的是，由于不需要计算梯度，所以测试网络的代码通常使用 `.detach()` 函数或者在 `torch.no_grad()` 下完成。

来看看，我们可以中断梯度追踪的例子：

In [58]:
x = torch.tensor(1.0, requires_grad=True)
y1 = x ** 2 

# Way 1
with torch.no_grad():
    y2 = x ** 3
################

# # Way 2
# y2 = x ** 3
# y2 = y2.detach()
################

y3 = y1 + y2
    
print(x.requires_grad)
print(y1, y1.requires_grad) # True
print(y2, y2.requires_grad) # False
print(y3, y3.requires_grad) # True

True
tensor(1., grad_fn=<PowBackward0>) True
tensor(1.) False
tensor(2., grad_fn=<AddBackward0>) True


可以看到，上面的 `y2` 是没有 `grad_fn` 而且 `y2.requires_grad=False` 的，而 `y3` 是有 `grad_fn` 的。如果我们将 `y3` 对 `x` 求梯度的话会是多少呢？

In [59]:
y3.backward()
print(x.grad)

tensor(2.)


为啥是 2 呢？$y_3 = y_1 + y_2 = x^2 + x^3$，当初始 $x=1$ 时，$y_3$ 对 $x$ 的梯度 $\frac{dy_3}{dx}=2x+3x^2$ 不该是 5 嘛？

事实上，由于 y2 的定义是被 `torch.no_grad():` 所包裹的，所以与 y2 有关的梯度是不会回传的，只有与 $y_1$ 有关的梯度才会回传。

 此外，如果我们想要修改 `tensor` 的数值，但是又不希望被 `autograd` 记录（即不会影响反向传播），那么我么可以对 `tensor.data` 进行操作。

In [60]:
x = torch.ones(1,requires_grad=True)

print(x.data) # 还是一个tensor
print(x.data.requires_grad) # 但是已经是独立于计算图之外

y = 2 * x
x.data *= 100 # 只改变了值，不会记录在计算图，所以不会影响梯度传播

y.backward()
print(x) # 更改data的值也会影响tensor的值
print(x.grad)

tensor([1.])
False
tensor([100.], requires_grad=True)
tensor([2.])


---

## 对 Python 控制流求梯度

使用 Pytorch 的一个便利之处是，即使函数的计算图包含了 Python 的控制流（如条件和循环控制），我们也有可能对变量求梯度。

考虑下面程序，其中包含 Python 的条件和循环控制。需要强调的是，这里循环（while循环）迭代的次数和条件判断（if 语句）的执行都取决于输入 `a` 的值。

In [61]:
def f(a):
    b = a * 2
    while b.norm().item() < 1000:
        b = b * 2
    if b.sum().item() > 0:
        c = b
    else:
        c = 100 * b
    return c

我们像之前一样使用 `requires_grad` 函数记录计算梯度，并调用 `backward` 函数求梯度。

In [62]:
a = torch.randn(1, requires_grad=True)
c = f(a)
c.backward()

我们来分析一下上面定义的 `f` 函数。事实上，给定任意输入 `a`，其输出必然是 `f(a) = Para * a` 的形式，其中标量系数 `Para` 的值取决于输入 `a`。由于 `c = f(a)` 有关 `a` 的梯度为 `Para`，且值为 `c / a`，我们可以像下面这样验证对本例中控制流求梯度的结果的正确性。

In [63]:
a.grad == c / a

tensor([True])

---

> 注意事项：
>1. 梯度不自动清零，如果不清零梯度会累加，所以需要在每次梯度后人为清零。
2. 依赖于叶子结点的结点，`requires_grad` 默认为 `True`。
3. 叶子结点不可执行 in-place，因为其他节点在计算梯度时需要用到叶子节点，所以叶子地址中的值不得改变否则会是其他节点求梯度时出错。所以叶子节点不能进行原位计算。
3. 注意在 `y.backward()` 时，如果 y 是标量，则不需要为 `backward()` 传⼊任何参数；否则，需要传⼊一个与 y 同形的 `Tensor`。