### 2.2.1 创建TENSOR

In [1]:
import torch

In [2]:
x = torch.empty(5,3)
print(x)

tensor([[1.3563e-19, 1.3563e-19, 1.3563e-19],
        [1.3563e-19, 1.3563e-19, 1.3563e-19],
        [1.3563e-19, 1.3563e-19, 1.3563e-19],
        [1.3563e-19, 1.3563e-19, 1.3563e-19],
        [7.4086e+28, 1.1080e+27, 1.6907e-01]])


In [4]:
x = torch.rand(5,3)
x

tensor([[0.3320, 0.6531, 0.0371],
        [0.0510, 0.5216, 0.3359],
        [0.1716, 0.2196, 0.7359],
        [0.2634, 0.9219, 0.4500],
        [0.8874, 0.8148, 0.5997]])

In [6]:
x = torch.zeros(5,3,dtype = torch.long)
x

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])

In [7]:
x = torch.tensor([5.5,3])
x

tensor([5.5000, 3.0000])

In [8]:
x = x.new_ones(5,3,dtype = torch.float64)
x

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)

In [9]:
x = torch.randn_like(x,dtype = torch.float)
x

tensor([[ 0.5645, -0.5010,  2.0084],
        [ 0.5837, -1.0808, -1.3660],
        [ 0.1866, -0.3498,  1.3330],
        [ 1.3123,  0.9505, -0.4278],
        [ 0.3170, -0.1877,  0.7905]])

In [11]:
x.size()

torch.Size([5, 3])

In [13]:
x.shape

torch.Size([5, 3])

### 2.2.2操作

本节介绍tensor的各种操作

### 算术操作

In [14]:
y = torch.rand(5,3)

x+y

tensor([[ 0.5680,  0.1010,  2.5338],
        [ 1.2850, -0.5814, -0.4363],
        [ 0.7093,  0.4492,  1.6771],
        [ 2.2748,  1.5493, -0.0091],
        [ 0.7623,  0.6533,  1.2320]])

In [15]:
torch.add(x,y)

tensor([[ 0.5680,  0.1010,  2.5338],
        [ 1.2850, -0.5814, -0.4363],
        [ 0.7093,  0.4492,  1.6771],
        [ 2.2748,  1.5493, -0.0091],
        [ 0.7623,  0.6533,  1.2320]])

In [17]:
#可以指定输出
result = torch.empty(5,3)
torch.add(x,y,out = result)
result

tensor([[ 0.5680,  0.1010,  2.5338],
        [ 1.2850, -0.5814, -0.4363],
        [ 0.7093,  0.4492,  1.6771],
        [ 2.2748,  1.5493, -0.0091],
        [ 0.7623,  0.6533,  1.2320]])

In [18]:
y.add_(x)

tensor([[ 0.5680,  0.1010,  2.5338],
        [ 1.2850, -0.5814, -0.4363],
        [ 0.7093,  0.4492,  1.6771],
        [ 2.2748,  1.5493, -0.0091],
        [ 0.7623,  0.6533,  1.2320]])

### 索引

我们还可以使⽤类似NumPy的索引操作来访问 Tensor 的⼀部分，需要注意的是：索引出来的结果与
原数据共享内存，也即修改⼀个，另⼀个会跟着修改。

In [19]:
x = x[0,:]
y += 1
y

tensor([[1.5680, 1.1010, 3.5338],
        [2.2850, 0.4186, 0.5637],
        [1.7093, 1.4492, 2.6771],
        [3.2748, 2.5493, 0.9909],
        [1.7623, 1.6533, 2.2320]])

In [22]:
x

tensor([ 0.5645, -0.5010,  2.0084])

### 改变形状

⽤ view() 来改变 Tensor 的形状：

In [24]:
x = torch.randn(5,3,dtype = torch.float)

In [30]:
y = x.view(15)
z = x.view(-1,5)#-1所指的维度可以根据其他维度的值推出来

In [26]:
x.size()

torch.Size([5, 3])

In [27]:
y.size()

torch.Size([15])

In [29]:
z.size()

torch.Size([3, 5])

注意 view() 返回的新tensor与源tensor共享内存（其实是同⼀个tensor），也即更改其中的⼀个，另
外⼀个也会跟着改变。(顾名思义，view仅仅是改变了对这个张量的观察⻆度)

In [34]:
x += 1
print(x)
print(y)

tensor([[3.5871, 1.8630, 2.7170],
        [3.1505, 5.6289, 4.0952],
        [3.3564, 2.7228, 2.8769],
        [2.6255, 2.6450, 2.9651],
        [2.3015, 3.2637, 3.3986]])
tensor([3.5871, 1.8630, 2.7170, 3.1505, 5.6289, 4.0952, 3.3564, 2.7228, 2.8769,
        2.6255, 2.6450, 2.9651, 2.3015, 3.2637, 3.3986])


所以如果我们想返回⼀个真正新的副本（即不共享内存）该怎么办呢？Pytorch还提供了⼀
个 reshape() 可以改变形状，但是此函数并不能保证返回的是其拷⻉，所以不推荐使⽤。推荐先
⽤ clone 创造⼀个副本然后再使⽤ view 。

In [35]:
x_cp = x.clone().view(15)

In [36]:
x -=1
print(x)
print(x_cp)

tensor([[2.5871, 0.8630, 1.7170],
        [2.1505, 4.6289, 3.0952],
        [2.3564, 1.7228, 1.8769],
        [1.6255, 1.6450, 1.9651],
        [1.3015, 2.2637, 2.3986]])
tensor([3.5871, 1.8630, 2.7170, 3.1505, 5.6289, 4.0952, 3.3564, 2.7228, 2.8769,
        2.6255, 2.6450, 2.9651, 2.3015, 3.2637, 3.3986])


使⽤ clone 还有⼀个好处是会被记录在计算图中，即梯度回传到副本时也会传到源 Tensor 。

另外⼀个常⽤的函数就是 item() , 它可以将⼀个标量 Tensor 转换成⼀个Python number：

In [37]:
x = torch.randn(1)
print(x)
print(x.item())

tensor([-0.2649])
-0.2648509740829468


### 线性代数

PyTorch中的 Tensor ⽀持超过⼀百种操作，包括转置、索引、切⽚、数学运算、线性代数、随机数等
等，

### 2.2.3 ⼴播机制

In [38]:
x = torch.arange(1,3).view(1,2)
print(x)
y = torch.arange(1,4).view(3,1)
print(y)
print(x+y)

tensor([[1, 2]])
tensor([[1],
        [2],
        [3]])
tensor([[2, 3],
        [3, 4],
        [4, 5]])


由于 x 和 y 分别是1⾏2列和3⾏1列的矩阵，如果要计算 x + y ，那么 x 中第⼀⾏的2个元素被⼴播
（复制）到了第⼆⾏和第三⾏，⽽ y 中第⼀列的3个元素被⼴播（复制）到了第⼆列。如此，就可以对2 个3⾏2列的矩阵按元素相加。

### 2.2.4 运算的内存开销

前⾯说了，索引、 view 是不会开辟新内存的，⽽像 y = x + y 这样的运算是会新开内存的，然后
将 y 指向新内存。为了演示这⼀点，我们可以使⽤Python⾃带的 id 函数：如果两个实例的ID⼀致，那
么它们所对应的内存地址相同；反之则不同。

In [39]:
x  = torch.tensor([1,2])
y = torch.tensor([3,4])
id_before = id(y)
y[:] = y+x
print(id(y) == id_before)

True


如果想指定结果到原来的 y 的内存，我们可以使⽤前⾯介绍的索引来进⾏替换操作。在下⾯的例⼦中，
我们把 x + y 的结果通过 [:] 写进 y 对应的内存中。

In [40]:
x = torch.tensor([1,2])
y = torch.tensor([3,4])
id_before = id(y)
y[:] = x+y
print(id(y) == id_before)

True


我们还可以使⽤运算符全名函数中的 out 参数或者⾃加运算符 += (也即 add_() )达到上述效果，例如
torch.add(x, y, out=y) 和 y += x ( y.add_(x) )

In [41]:
x = torch.tensor([1,2])
y = torch.tensor([3,4])
id_before = id(y)
torch.add(x,y,out = y)# y += x, y.add_(x)
print(id(y) == id_before)

True


### 2.2.5 TENSOR 和NUMPY相互转换

我们很容易⽤ numpy() 和 from_numpy() 将 Tensor 和NumPy中的数组相互转换。但是需要注意的⼀
点是： 这两个函数所产⽣的的 Tensor 和NumPy中的数组共享相同的内存（所以他们之间的转换很
快），改变其中⼀个时另⼀个也会改变！！！

还有⼀个常⽤的将NumPy中的array转换成 Tensor 的⽅法就是 torch.tensor() , 需要注意的
是，此⽅法总是会进⾏数据拷⻉（就会消耗更多的时间和空间），所以返回的 Tensor 和原来的数
据不再共享内存

### tensor 转 numpy

使⽤ numpy() 将 Tensor 转换成NumPy数组:

In [43]:
a = torch.ones(5)
b = a.numpy()
print(a,b)

tensor([1., 1., 1., 1., 1.]) [1. 1. 1. 1. 1.]


In [44]:
a +=1
print(a,b)
b +=1
print(a,b)

tensor([2., 2., 2., 2., 2.]) [2. 2. 2. 2. 2.]
tensor([3., 3., 3., 3., 3.]) [3. 3. 3. 3. 3.]


### NumPy数组转 Tensor

使⽤ from_numpy() 将NumPy数组转换成 Tensor :

In [46]:
import numpy as np
a = np.ones(5)
b = torch.from_numpy(a)
print(a,b)

a+=1
print(a,b)
b += 1
print(a,b)

[1. 1. 1. 1. 1.] tensor([1., 1., 1., 1., 1.], dtype=torch.float64)
[2. 2. 2. 2. 2.] tensor([2., 2., 2., 2., 2.], dtype=torch.float64)
[3. 3. 3. 3. 3.] tensor([3., 3., 3., 3., 3.], dtype=torch.float64)


所有在CPU上的 Tensor （除了 CharTensor ）都⽀持与NumPy数组相互转换。

此外上⾯提到还有⼀个常⽤的⽅法就是直接⽤ torch.tensor() 将NumPy数组转换成 Tensor ，需要
注意的是该⽅法总是会进⾏数据拷⻉，返回的 Tensor 和原来的数据不再共享内存。

In [47]:
c = torch.tensor(a)
a +=1 
print(a,c)

[4. 4. 4. 4. 4.] tensor([3., 3., 3., 3., 3.], dtype=torch.float64)


### 2.2.6 TENSOR ON GPU

⽤⽅法 to() 可以将 Tensor 在CPU和GPU（需要硬件⽀持）之间相互移动。

## 2.3 ⾃动求梯度

在深度学习中，我们经常需要对函数求梯度（gradient）。PyTorch提供的autograd 包能够根据输⼊
和前向传播过程⾃动构建计算图，并执⾏反向传播。本节将介绍如何使⽤autograd包来进⾏⾃动求梯
度的有关操作。

### 2.3.1 概念

上⼀节介绍的 Tensor 是这个包的核⼼类，如果将其属性 .requires_grad 设置为 True ，它将开始追
踪(track)在其上的所有操作（这样就可以利⽤链式法则进⾏梯度传播了）。完成计算后，可以调
⽤ .backward() 来完成所有梯度计算。此 Tensor 的梯度将累积到 .grad 属性中

注意在 y.backward() 时，如果 y 是标量，则不需要为 backward() 传⼊任何参数；否则，需要
传⼊⼀个与 y 同形的 Tensor 。解释⻅ 2.3.2 节

如果不想要被继续追踪，可以调⽤ .detach() 将其从追踪记录中分离出来，这样就可以防⽌将来的计
算被追踪，这样梯度就传不过去了。此外，还可以⽤ with torch.no_grad() 将不想被追踪的操作代
码块包裹起来，这种⽅法在评估模型的时候很常⽤，因为在评估模型时，我们并不需要计算可训练参数
（ requires_grad=True ）的梯度。

Function 是另外⼀个很᯿要的类。 Tensor 和 Function 互相结合就可以构建⼀个记录有整个计算过
程的有向⽆环图（DAG）。每个 Tensor 都有⼀个 .grad_fn 属性，该属性即创建该 Tensor 的
Function , 就是说该 Tensor 是不是通过某些运算得到的，若是，则 grad_fn 返回⼀个与这些运算相
关的对象，否则是None。

### 2.3.2 TENSOR

创建⼀个 Tensor 并设置 requires_grad=True :

In [49]:
x = torch.ones(2,2,requires_grad = True)
print(x)
print(x.grad_fn)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
None


再做⼀下运算操作：

In [50]:
y = x + 2
print(y)
print(y.grad_fn)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)
<AddBackward0 object at 0x000002787195E198>


注意x是直接创建的，所以它没有 grad_fn , ⽽y是通过⼀个加法操作创建的，所以它有⼀个为
<AddBackward> 的 grad_fn 。

像x这种直接创建的称为叶⼦节点，叶⼦节点对应的 grad_fn 是 None 。

In [51]:
print(x.is_leaf,y.is_leaf)

True False


再来点复杂度运算操作：

In [52]:
z = y*y*3
out = z.mean()
print(z,out)

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward0>)


通过 .requires_grad_() 来⽤in-place的⽅式改变 requires_grad 属性：

In [53]:
a = torch.randn(2,2)
a = ((a*3)/(a-1))
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b = (a*a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x000002787195AE80>


### 2.3.2 梯度

因为 out 是⼀个标量，所以调⽤ backward() 时不需要指定求导变量：

In [None]:
out.backward() # 等价于 out.backward(torch.tensor(1.))

我们来看看 out 关于 x 的梯度 :

In [57]:
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


注意：grad在反向传播过程中是累加的(accumulated)，这意味着每⼀次运⾏反向传播，梯度都会累
加之前的梯度，所以⼀般在反向传播之前需把梯度清零。

In [58]:
# 再来反向传播⼀次，注意grad是累加的
out2 = x.sum()
out2.backward()
print(x.grad)

out3 = x.sum()
x.grad.data.zero_()
out3.backward()
print(x.grad)

tensor([[5.5000, 5.5000],
        [5.5000, 5.5000]])
tensor([[1., 1.],
        [1., 1.]])


现在我们解释2.3.1节留下的问题，为什么在 y.backward() 时，如果 y 是标量，则不需要
为 backward() 传⼊任何参数；否则，需要传⼊⼀个与 y 同形的 Tensor ? 简单来说就是为了避
免向量（甚⾄更⾼维张量）对张量求导，⽽转换成标量对张量求导。举个例⼦，假设形状为 m x
n 的矩阵 X 经过运算得到了 p x q 的矩阵 Y，Y ⼜经过运算得到了 s x t 的矩阵 Z。那么按照
前⾯讲的规则，dZ/dY 应该是⼀个 s x t x p x q 四维张量，dY/dX 是⼀个 p x q x m x n
的四维张量。问题来了，怎样反向传播？怎样将两个四维张量相乘？？？这要怎么乘？？？就算能
解决两个四维张量怎么乘的问题，四维和三维的张量⼜怎么乘？导数的导数⼜怎么求，这⼀连串的
问题，感觉要疯掉…… 为了避免这个问题，我们不允许张量对张量求导，只允许标量对张量求
导，求导结果是和⾃变量同形的张量。所以必要时我们要把张量通过将所有张量的元素加权求和的
⽅式转换为标量，举个例⼦，假设 y 由 ⾃ 变 量 x 计 算 ⽽ 来 ， w 是 和 y 同 形 的 张 量 ，
则 y.backward(w) 的含义是：先计算 l = torch.sum(y * w) ，则 l 是个标量，然后求 l 对
⾃变量 x 的导数。

In [59]:
x = torch.tensor([1.0,2.0,3.0,4.0],requires_grad = True)
y = 2 * x
z = y.view(2,2)
print(z)

tensor([[2., 4.],
        [6., 8.]], grad_fn=<ViewBackward>)


现在 y 不是⼀个标量，所以在调⽤ backward 时需要传⼊⼀个和 y 同形的权᯿向量进⾏加权求和得到
⼀个标量。

In [61]:
v = torch.tensor([[1.0,.01],[0.01,0.001]],dtype = torch.float)
z.backward(v)
print(x.grad)

tensor([2.0000, 0.0200, 0.0200, 0.0020])


注意， x.grad 是和 x 同形的张量。
再来看看中断梯度追踪的例⼦：

In [62]:
x = torch.tensor(1.0,requires_grad = True)
y1 = x**2
with torch.no_grad():
    y2 = x**3
y3 = y1 + y2

print(x.requires_grad)
print(y1,y1.requires_grad)
print(y2,y2.requires_grad)
print(y3,y3.requires_grad)

True
tensor(1., grad_fn=<PowBackward0>) True
tensor(1.) False
tensor(2., grad_fn=<AddBackward0>) True


可以看到，上⾯的 y2 是没有 grad_fn ⽽且 y2.requires_grad=False 的，⽽ y3 是有 grad_fn
的。如果我们将 y3 对 x 求梯度的话会是多少呢？

In [63]:
y3.backward()
print(x.grad)

tensor(2.)


为什么是2呢？ ，当 时 不应该是5吗？事实上，由于 的定义是
被 torch.no_grad(): 包裹的，所以与 有关的梯度是不会回传的，只有与 有关的梯度才会回
传，即 对 的梯度。

上⾯提到， y2.requires_grad=False ，所以不能调⽤ y2.backward() ，会报错：

此外，如果我们想要修改 tensor 的数值，但是⼜不希望被 autograd 记录（即不会影响反向传播），
那么我么可以对 tensor.data 进⾏操作。

In [64]:
x = torch.ones(1,requires_grad = True)
print(x.data)#还是一个tensor
print(x.data.requires_grad)#但是已经独立于计算图之外

y = 2*x
x.data *= 100 #只改变了值，不会记录在计算图中，所以不会影响梯度传播

y.backward()
print(x)#更改data的值也会影响tensor的值
print(x.grad)


tensor([1.])
False
tensor([100.], requires_grad=True)
tensor([2.])
