In [5]:
import torch

In [6]:
import torchaudio  

In [7]:
import torchvision

In [8]:
dir(torchvision)

['_HAS_OPS',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__version__',
 '_image_backend',
 '_internally_replaced_utils',
 '_is_tracing',
 '_video_backend',
 'datasets',
 'extension',
 'get_image_backend',
 'get_video_backend',
 'io',
 'models',
 'ops',
 'os',
 'set_image_backend',
 'set_video_backend',
 'torch',
 'transforms',
 'utils',
 'version',

In [9]:
x = torch.empty(5,3)
print(x)

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])


`torch.empty(5, 3)` 会创建一个形状为 (5, 3) 的张量，但不会初始化其内部数值，因此打印出的结果是内存中当前存在的随机垃圾值（每次运行结果可能不同）。

In [10]:
x = torch.rand(5,3)
print(x)

tensor([[0.7231, 0.0619, 0.5011],
        [0.0921, 0.4521, 0.5870],
        [0.3273, 0.7985, 0.8557],
        [0.0207, 0.4971, 0.9601],
        [0.6301, 0.2233, 0.6446]])


torch.rand(5, 3)：生成一个维度为 (5, 3) 的张量，其中每个元素都是从区间 [0, 1) 中随机采样的浮点数。

In [11]:
x = torch.zeros(5,3)
print(x)

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])


`dtype=torch.long`：指定张量的数据类型为 int64（长整型），这是 PyTorch 中常用的整数类型（尤其适用于标签、索引等场景）。

In [12]:
x = torch.tensor([5.5, 3])
print(x)

tensor([5.5000, 3.0000])


也可以自主生成

In [17]:
x = x.new_ones(5, 3, dtype=torch.float64) # x.new_ones(5, 3)：基于原张量 x 的设备（CPU/GPU）创建一个新的全一张量，形状为 (5, 3)（5 行 3 列）。
print(x)
x = torch.randn_like(x, dtype=torch.float) # 指定新的数据类型
print(x)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[ 0.6478, -0.0959,  0.4177],
        [ 0.8985, -0.1680,  1.1329],
        [-0.5323,  2.0668, -1.7331],
        [ 0.2527, -0.0564, -1.1100],
        [ 0.0308, -0.5756,  0.5339]])


`torch.randn_like(x)`：生成一个与 x 形状完全相同的新张量，元素值从标准正态分布（N (0,1)）中随机采样。

我们可以通过 `shape` 或者 `size()` 来获取 `Tensor` 的形状:

In [19]:
import torch
x = torch.rand(5,3)
print(x.size())
print(x.shape)

torch.Size([5, 3])
torch.Size([5, 3])


常见的`Tensor` 函数

`Tensor(*sizes)` 基础构造函数

`tensor(data,)` 类似np.array的构造函数

`ones(*sizes)` 全1Tensor

`zeros(*sizes)` 全0Tensor

`eye(*sizes)` 对⻆线为1，其他为0

`arange(s,e,step)` 从s到e，步⻓为step

`linspace(s,e,steps)` 从s到e，均匀切分成steps份

`rand`/`randn(*sizes)` 均匀/标准分布

`normal(mean,std)`/`uniform(from,to)` 正态分布/均匀分布

`randperm(m)` 随机排列

在深度学习中，我们通常会频繁地对数据进⾏操作。作为动⼿学深度学习的基础，本节将介绍如何对内
存中的数据进⾏操作。

`Tensor` 和`NumPy`的多维数组⾮常类似。然⽽， `Tensor` 提供GPU计算和⾃动求梯度等更多功能，这
些使 `Tensor` 更加适合深度学习。

In [None]:
# 加法形式1
y = torch.rand(5,3)
print(x+y)

# 加法形式2
print(torch.add(x,y))

result = torch.empty(5,3)
torch.add(x,y,out= result)
print(result) 

# 加法形式3
y.add_(x)
print(y)


tensor([[1.6883, 0.4681, 1.4635],
        [0.9395, 1.1340, 0.8437],
        [0.6980, 0.8644, 1.1809],
        [1.3395, 0.7018, 1.1553],
        [1.5251, 1.2684, 0.6868]])
tensor([[1.6883, 0.4681, 1.4635],
        [0.9395, 1.1340, 0.8437],
        [0.6980, 0.8644, 1.1809],
        [1.3395, 0.7018, 1.1553],
        [1.5251, 1.2684, 0.6868]])
tensor([[1.6883, 0.4681, 1.4635],
        [0.9395, 1.1340, 0.8437],
        [0.6980, 0.8644, 1.1809],
        [1.3395, 0.7018, 1.1553],
        [1.5251, 1.2684, 0.6868]])
tensor([[1.6883, 0.4681, 1.4635],
        [0.9395, 1.1340, 0.8437],
        [0.6980, 0.8644, 1.1809],
        [1.3395, 0.7018, 1.1553],
        [1.5251, 1.2684, 0.6868]])


通过 `out=result` 参数，将加法结果直接写入到预先创建的 `result` 张量中，覆盖其原始的未初始化值；

索引：类似`Numpy`的索引需要注意的是：索引出来的结果与
原数据共享内存，也即修改⼀个，另⼀个会跟着修改。

In [None]:
y = x[0,:]
y +=1
print(y)
print(x[0,:]) # 索引出来的结果与原数据共享内存，修改一个另一个也跟着修改

tensor([1.8244, 1.1842, 1.6296])
tensor([1.8244, 1.1842, 1.6296])


除了常⽤的索引选择数据之外，PyTorch还提供了⼀些⾼级的选择函数:

`index_select(input, dim, index)` 在指定维度dim上选取，⽐如选取某些⾏、某些列

`masked_select(input, mask)` 例⼦如上，a[a>0]，使⽤ByteTensor进⾏选取

`non_zero(input)` ⾮0元素的下标

`gather(input, dim, index)` 根据index，在dim维度上选取数据，输出的size与index⼀样

这⾥不详细介绍，⽤到了再查官⽅⽂档。

In [24]:
# 改变形状，类似numpy 的 reshape
y = x.view(15)
z = x.view(-1, 5) # -1所指的维度可以根据其他维度的值推出来
print(x.size(), y.size(), z.size())

torch.Size([5, 3]) torch.Size([15]) torch.Size([3, 5])


用 `view()` 改变 `Tensor` 的形状与 `numpy` 中的 `reshape()`类似

注意 `view()` 返回的新`tensor`与源`tensor`共享内存（其实是同⼀个`tensor`），也即更改其中的⼀个，另
外⼀个也会跟着改变。(顾名思义，`view`仅仅是改变了对这个张量的观察⻆度)

In [25]:
x += 1
print(x)
print(y)

tensor([[2.8244, 2.1842, 2.6296],
        [1.6415, 1.4235, 1.8173],
        [1.0322, 1.4709, 1.9113],
        [1.5678, 1.3300, 1.1745],
        [1.5515, 1.7992, 1.4200]])
tensor([2.8244, 2.1842, 2.6296, 1.6415, 1.4235, 1.8173, 1.0322, 1.4709, 1.9113,
        1.5678, 1.3300, 1.1745, 1.5515, 1.7992, 1.4200])


但当我们需要一个真正的新副本该怎么办？

用`clone` 创造⼀个副本然后再使⽤ `view`

In [26]:
x_cp = x.clone().view(15)
x -= 1
print(x)
print(x_cp)

tensor([[1.8244, 1.1842, 1.6296],
        [0.6415, 0.4235, 0.8173],
        [0.0322, 0.4709, 0.9113],
        [0.5678, 0.3300, 0.1745],
        [0.5515, 0.7992, 0.4200]])
tensor([2.8244, 2.1842, 2.6296, 1.6415, 1.4235, 1.8173, 1.0322, 1.4709, 1.9113,
        1.5678, 1.3300, 1.1745, 1.5515, 1.7992, 1.4200])


另外⼀个常⽤的函数就是 `item()` , 它可以将⼀个标量 `Tensor` 转换成⼀个`Python number`

In [27]:
x = torch.randn(1)
print(x)
print(x.item())

tensor([0.3042])
0.3041820228099823


线性函数：另外，PyTorch还⽀持⼀些线性函数，这⾥提⼀下，免得⽤起来的时候⾃⼰造轮⼦，具体⽤法参考官⽅
⽂档。如下表所示：

`trace` 对⻆线元素之和(矩阵的迹)

`diag` 对⻆线元素

`triu`/`tril` 矩阵的上三⻆/下三⻆，可指定偏移量

`mm`/`bmm` 矩阵乘法，batch的矩阵乘法

`addmm`/`addbmm`/`addmv`/`addr`/`badbmm`.. 矩阵运算

`t` 转置

`dot`/`cross` 内积/外积

`inverse` 求逆矩阵

`svd` 奇异值分解


前⾯我们看到如何对两个形状相同的 Tensor 做按元素运算。当对两个形状不同的 Tensor 按元素运算
时，可能会触发⼴播（broadcasting）机制：先适当复制元素使这两个 Tensor 形状相同后再按元素
运算。例如

In [29]:
x = torch.arange(1,3).view(1,2)
print(x)
y = torch.arange(1,4).view(3,1)
print(y)
print(x+y)
#由于 x 和 y 分别是1⾏2列和3⾏1列的矩阵，如果要计算 x + y ，那么 x 中第⼀⾏的2个元素被⼴播（复制）到了第⼆⾏和第三⾏，⽽ y 中第⼀列的3个元素被⼴播（复制）到了第⼆列。

tensor([[1, 2]])
tensor([[1],
        [2],
        [3]])
tensor([[2, 3],
        [3, 4],
        [4, 5]])


运算内存开销：前面说了，索引，`view`是不会开辟新内存的，而像 `y = x+y` 这样的运算是会新开内存的，然后将`y` 指向新内存，下面使用`python`演示这一点。

In [None]:
x = torch.tensor([1,2])
y = torch.tensor([3,4])
id_before = id(y)
y = y+x
print(id(y) == id_before) #先将y的内存存入 id_before 变量中，更改 y 的值，查看两个 y 的内存是否相同

#False 

False


In [32]:
# 如果想置顶结果道原来 y 的内存，该如何操作呢？

x = torch.tensor([1,2])
y = torch.tensor([3,4])
id_before = id(y)
y[:] = y+x
print(y[:])
print(id(y)== id_before)
# 这里我们把 x + y 的结果通过 [:] 写进 y 对应的内存中。

tensor([4, 6])
True


In [34]:
x = torch.tensor([1, 2])
y = torch.tensor([3, 4])
id_before = id(y)
y += x
print(id_before == id(y))

# 我们发现如果使用 y+=x 则不会生成新的内存

True


**Tensor 与 Numpy 的相互转换**

⽤ `numpy()` 和 `from_numpy()` 将 `Tensor` 和`NumPy`中的数组相互转换。但是需要注意的⼀
点是： 这两个函数所产⽣的的 `Tensor` 和`NumPy`中的数组共享相同的内存（所以他们之间的转换很
快），改变其中⼀个时另⼀个也会改变

有⼀个常⽤的将`NumPy`中的`array`转换成 `Tensor` 的⽅法就是 `torch.tensor()` , 需要注意的
是，此⽅法总是会进⾏数据拷⻉（就会消耗更多的时间和空间），所以返回的 `Tensor` 和原来的数
据不再共享内存。

In [None]:
a = torch.ones(5)
b = a.numpy()
print(a,b)

a+=1
print(a,b)
b+=1
print(a,b) # 改变 a ,b 中的任意一项都会导致两项发生改变

tensor([1., 1., 1., 1., 1.]) [1. 1. 1. 1. 1.]
tensor([2., 2., 2., 2., 2.]) [2. 2. 2. 2. 2.]
tensor([3., 3., 3., 3., 3.]) [3. 3. 3. 3. 3.]


`Numpy` 数组转 `Tensor`

使用`from_numpy()` 将 `Numpy` 数组转换成 `Tensor`

In [36]:
import numpy as np
a = np.ones(5)
b = torch.from_numpy(a)
print(a,b)

a+=1
print(a,b)
b+=1
print(a,b)

[1. 1. 1. 1. 1.] tensor([1., 1., 1., 1., 1.], dtype=torch.float64)
[2. 2. 2. 2. 2.] tensor([2., 2., 2., 2., 2.], dtype=torch.float64)
[3. 3. 3. 3. 3.] tensor([3., 3., 3., 3., 3.], dtype=torch.float64)


此外上⾯提到还有⼀个常⽤的⽅法就是直接⽤ `torch.tensor()` 将`NumPy`数组转换成 `Tensor` ，需要
注意的是该⽅法总是会进⾏数据拷⻉，返回的 `Tensor` 和原来的数据不再共享内存。

In [37]:
c = torch.tensor(a)
a += 1
print(a,c)

[4. 4. 4. 4. 4.] tensor([3., 3., 3., 3., 3.], dtype=torch.float64)


**自动求梯度**

如果将其属性 .requires_grad 设置为 True ，它将开始追踪(track)在其上的所有操作（这样就可以利⽤链式法则进⾏梯度传播了）。完成计算后，可以调⽤ .backward() 来完成所有梯度计算。此 Tensor 的梯度将累积到 .grad 属性中。

如果不想要被继续追踪，可以调⽤ `.detach()` 将其从追踪记录中分离出来，这样就可以防⽌将来的计算被追踪，这样梯度就传不过去了。此外，还可以⽤ `with torch.``no_grad()` 将不想被追踪的操作代码块包裹起来，这种⽅法在评估模型的时候很常⽤，因为在评估模型时，我们并不需要计算可训练参数（ `requires_grad=True` ）的梯度。

`Function` 是另外⼀个重要的类。 `Tensor` 和 `Function` 互相结合就可以构建⼀个记录有整个计算过程的有向⽆环图（DAG）。每个` Tensor` 都有⼀个 `.grad_fn` 属性，该属性即创建该 `Tensor` 的`Function` , 就是说该`Tensor` 是不是通过某些运算得到的，若是，则 `grad_fn` 返回⼀个与这些运算相关的对象，否则是`None`。

In [50]:
x = torch.ones(2,2,requires_grad=True)
print(x)
print(x.grad_fn)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
None


In [51]:
# 加入运算操作
y = x+2
print(y)
print(y.grad_fn)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)
<AddBackward0 object at 0x7fe0287bdb70>


x 是直接创建的，所以它没有 `grad_fn`，而y 是通过一个加法操作创建的，所以它有一个为 `<AddBackward>`的`grad_fn`

像 x 这种直接创建的称为叶子节点，叶子节点对应的 `grad_fn`是 `None`

In [52]:
print(x.is_leaf,y.is_leaf)

True False


In [53]:
# 运行复杂度运算操作

z = y*y*3
out = z.mean()
print(z,out)


tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward0>)


tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) 是第一个张量
`grad_fn=<MulBackward0>` 表示这个张量是通过乘法操作（* 或 torch.mul()）生成的，并且开启了梯度追踪（因为存在 grad_fn 属性）。



tensor(27., grad_fn=<MeanBackward0>) 是第二个张量
`grad_fn=<MeanBackward0>` 表示这个标量是通过求均值操作（.mean()）生成的，同样开启了梯度追踪


In [54]:
a = torch.randn(2, 2) # 缺失情况下默认 requires_grad = False
a = ((a * 3) / (a - 1))
print(a.requires_grad) # False
a.requires_grad_(True)
print(a.requires_grad) # True

b = (a*a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x7fe0287e60b8>


我们令 $\text{out}$ 为 $o$，因为  

$$
o = \frac{1}{4} \sum_{i=1}^{4} z_i = \frac{1}{4} \sum_{i=1}^{4} 3(x_i + 2)^2
$$  

所以  

$$
\left. \frac{\partial o}{\partial x_i} \right|_{x_i=1} = \frac{9}{2} = 4.5
$$

`out.backward()`会沿计算图反向传播，自动计算 `out` 对所有上游可训练张量（`requires_grad=True`）的梯度，并将结果存入这些张量的 `.grad` 属性中

In [55]:
out.backward()

In [None]:
print(x.grad) # 结果正确

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


量都为向量的函数 $\vec{y} = f(\vec{x})$，那么 $\vec{y}$ 关于 $\vec{x}$ 的梯度就是一个**雅可比矩阵（Jacobian matrix）**：  

$$
J = \begin{pmatrix} 
\frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_n} \\
\vdots & \ddots & \vdots \\
\frac{\partial y_m}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_n} 
\end{pmatrix}
$$  

而 `torch.autograd` 这个包就是用来计算一些雅可比矩阵的乘积的。例如，如果 $v$ 是一个标量函数 $l = g(\vec{y})$ 的梯度：  

$$
v = \begin{pmatrix} 
\frac{\partial l}{\partial y_1} & \cdots & \frac{\partial l}{\partial y_m} 
\end{pmatrix}
$$  

那么根据**链式法则**，$l$ 关于 $\vec{x}$ 的雅可比矩阵就为：  

$$
vJ = \begin{pmatrix} 
\frac{\partial l}{\partial y_1} & \cdots & \frac{\partial l}{\partial y_m} 
\end{pmatrix}
\begin{pmatrix} 
\frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_1}{\partial x_n} \\
\vdots & \ddots & \vdots \\
\frac{\partial y_m}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_n} 
\end{pmatrix} 
= \begin{pmatrix} 
\frac{\partial l}{\partial x_1} & \cdots & \frac{\partial l}{\partial x_n} 
\end{pmatrix}
$$  

`grad`在反向传播过程中是累加的，这意味着每一次运行反向传播，梯度都会累加之前的梯度，所以在反向传播之前需要把梯度清零。

In [58]:
out2 = x.sum()
out2.backward()
print(x.grad)
# 1+4.5 = 5.5

tensor([[6.5000, 6.5000],
        [6.5000, 6.5000]])


In [59]:
out3 = x.sum()
x.grad.data.zero_()
out3.backward()
print(x.grad)

tensor([[1., 1.],
        [1., 1.]])


不允许张量对张量求导，只允许标量对张量求导，求导结果是和⾃变量同形的张量。所以必要时我们要把张量通过将所有张量的元素加权求和的⽅式转换为标量，举个例⼦，假设 y 由 ⾃ 变 量 x 计 算 ⽽ 来 ， w 是 和 y 同 形 的 张 量 ，则 `y.backward(w)` 的含义是：先计算 `l = torch.sum(y * w)` ，则 `l` 是个标量，然后求 `l` 对⾃变量 `x` 的导数。


In [60]:
# 张量对张量求导：
x = torch.randn(3,requires_grad=True)
print(x)
y = x**2
y.backward(torch.ones(3))
print(x.grad)

tensor([1.1170, 1.5816, 0.5540], requires_grad=True)
tensor([2.2339, 3.1631, 1.1081])


In [63]:
# 再来一个
x1 = torch.tensor(1,requires_grad=True,dtype=torch.float)
x2 = torch.tensor(2,requires_grad=True,dtype=torch.float)
x3 = torch.tensor(3,requires_grad=True,dtype=torch.float)
y = torch.randn(3)
y[0]=x1**2+2*x2+x3 # define each vector function
y[1]=x1+x2**3+x3**2
y[2]=2*x1+x2**2+x3**3
y.backward(torch.ones(3))
print(x1.grad)
print(x2.grad)
print(x3.grad)

tensor(5.)
tensor(18.)
tensor(34.)


上面代码中 Jacobian 矩阵为:  

$$
J = \begin{pmatrix} 
2x_1 & 2 & 1 \\
1 & 3x_2^2 & 2x_3 \\
2 & 2x_2 & 3x_3^2 
\end{pmatrix}
$$  

各分量函数为分别为:  

$$
\begin{cases} 
y_1 = x_1^2 + 2x_2 + x_3 \\
y_2 = x_1 + x_2^3 + x_3^2 \\
y_3 = 2x_1 + x_2^2 + x_3^3 
\end{cases}
$$  

投影方向：  

$$
v = (1, 1, 1)
$$  

$$
v \circ J = \left[ 2x_1 + 1 + 2,\, 2 + 3x_2^2 + 2x_2,\, 1 + 2x_3 + 3x_3^2 \right] = [5, 18, 34]
$$  

代码结果与分析相互印证  

再来看看投影到不同的方向 $v = (3,2,1)$

先分析

$$
v \circ J = \left[ 3 * 2x_1 + 2 * 1 + 1 * 2,\, 3 * 2 + 2 * 3x_2^2 + 1 * 2x_2,\, 3 * 1 + 2 * 2x_3 + 1 * 3x_3^2 \right] = [10, 34, 42]
$$

In [None]:
# 再来看看投影到不同方向v =(3,2,1)
x1 = torch.tensor(1,requires_grad=True,dtype=torch.float)
x2 = torch.tensor(2,requires_grad=True,dtype=torch.float)
x3 = torch.tensor(3,requires_grad=True,dtype=torch.float)
y = torch.randn(3)
y[0] = x1**2+2*x2+x3
y[1] = x1+x2**3+x3**2
y[2] = 2*x1+x2**2+x3**3
v = torch.tensor([3,2,1],dtype=torch.float)
y.backward(v)
print(x1.grad)
print(x2.grad)
print(x3.grad) #依旧吻合

tensor(10.)
tensor(34.)
tensor(42.)


总结如下
- 如果 $v$ 是权重或向量函数的投影方向，它的大小必须与向量函数的个数对应
- 如果最后的函数值是标量，则说明向量函数只有1个，`backward()`可以不传值，默认为1

In [71]:
# 再来看看一些例子
x = torch.tensor([1.0,2.0,3.0,4.0],requires_grad=True)
y = 2*x
z = y.view(2,2)
print(z)

tensor([[2., 4.],
        [6., 8.]], grad_fn=<ViewBackward0>)


In [72]:
#现在 y 不是⼀个标量，所以在调⽤ backward 时需要传⼊⼀个和 y 同形的权重向量进⾏加权求和得到⼀个标量
v = torch.tensor([[1.0, 0.1], [0.01, 0.001]], dtype=torch.float)
z.backward(v)
print(x.grad)

tensor([2.0000, 0.2000, 0.0200, 0.0020])


中断梯度追踪

In [73]:
x = torch.tensor(1.0,requires_grad=True)
y1 = x**2
with torch.no_grad():
    y2 = x**3
y3 = y1+y2
print(x.requires_grad)
print(y1,y1.requires_grad)
print(y2,y2.requires_grad)
print(y3,y3.requires_grad)

True
tensor(1., grad_fn=<PowBackward0>) True
tensor(1.) False
tensor(2., grad_fn=<AddBackward0>) True


这里的`y2`是没有`grad_fn`的，而`y3`是有的。

那么将 `y3`对`x`求梯度的话是多少呢

In [74]:
y3.backward()
print(x.grad)

tensor(2.)


为什么是2呢？$y_3 = y_1 + y_2 = x^2 + x^3$，当 $x = 1$ 时 $\frac{dy_3}{dx}$ 不应该是5吗？事实上，由于 $y_2$ 的定义是被 `torch.no_grad():` 包裹的，所以与 $y_2$ 有关的梯度是不会回传的，只有与 $y_1$ 有关的梯度才会回传，即 $x^2$ 对 $x$ 的梯度。

既然不被追踪就不会影响最终的梯度，那么就可以这样：如果我们想要修改`tensor`的值，但是又不希望被`autograd`记录，那么我们可以对`tensor.data`进行操作

In [86]:
x = torch.ones(1,requires_grad=True)
print(x.data)
print(x.data.requires_grad) #还是tensor，但是默认的追踪为 False
y1 = 2*x
y2 = 3*x.data
y3 = y1+y2
y3.backward()
print(x.grad) #这里随意更改x.data 的值都不会影响结果梯度

tensor([1.])
False
tensor([2.])
