# 数据操作
---
"tensor"这个单词一般可译作“张量”，张量可以看作是一个多维数组。标量可以看作是0维张量，向量可以看作1维张量，矩阵可以看作是二维张量。

## 创建Tensor

创建一个5x3的未初始化的Tensor

In [2]:
import torch

In [3]:
x = torch.empty(5, 3)
print(x)

tensor([[9.2755e-39, 1.0837e-38, 8.4490e-39],
        [1.1112e-38, 1.0194e-38, 9.0919e-39],
        [8.7245e-39, 8.4489e-39, 9.6429e-39],
        [8.4490e-39, 9.6429e-39, 9.2755e-39],
        [1.0286e-38, 9.0919e-39, 8.9082e-39]])


创建一个5x3的随机初始化的Tensor

In [4]:
x = torch.rand(5, 3)
print(x)

tensor([[0.8427, 0.3978, 0.3781],
        [0.9266, 0.9541, 0.3382],
        [0.8265, 0.4127, 0.1807],
        [0.3206, 0.6836, 0.5329],
        [0.3361, 0.5693, 0.4444]])


创建一个5x3的long型全0的Tensor

In [5]:
x = torch.zeros(5, 3, dtype=torch.long)
print(x)

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


直接根据数据创建

In [6]:
x = torch.tensor([5.5, 3])
print(x)

tensor([5.5000, 3.0000])


通过现有的Tensor来创建，此方法会默认重用输入Tensor的一些属性，例如数据类型，除非自定义数据类型

In [7]:
# 返回的tensor默认具有相同的torch.dtype和torch.device
x = x.new_ones(5, 3, dtype=torch.float64)
x

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)

In [8]:
# rand_like:返回一个与输入相同大小的张量，该张量由均值为0、方差为1的正态分布的随机数填充
x = torch.rand_like(x, dtype=torch.float)
x

tensor([[0.7552, 0.3201, 0.7086],
        [0.5939, 0.9713, 0.6202],
        [0.8617, 0.7830, 0.6377],
        [0.5623, 0.3388, 0.8145],
        [0.5055, 0.0037, 0.3862]])

通过shape或者size()来获取Tensor的形状

In [9]:
print("shape: ", x.shape)
print("size: ", x.size())

shape:  torch.Size([5, 3])
size:  torch.Size([5, 3])


对角线为1，其他为0

In [10]:
x = torch.eye(3)
x

tensor([[1., 0., 0.],
        [0., 1., 0.],
        [0., 0., 1.]])

从s到e，步长为step

In [11]:
x = torch.arange(1, 10, 1)
x

tensor([1, 2, 3, 4, 5, 6, 7, 8, 9])

从s到e，均匀切分成steps份

In [12]:
x = torch.linspace(-10, 10, 5)
print(x)
y = torch.linspace(-10, 10, 1)
print(y)
z = torch.linspace(-10, 10, 2)
print(z)
v = torch.linspace(-10, 10, 4)
print(v)

tensor([-10.,  -5.,   0.,   5.,  10.])
tensor([-10.])
tensor([-10.,  10.])
tensor([-10.0000,  -3.3333,   3.3333,  10.0000])


均匀/标准分布
Returns a tensor filled with random numbers from a uniform distribution on the interval [0, 1)[0,1)

In [13]:
# 返回一个由区间[0,1)[0,1]上的均匀分布的随机数组成的张量
x = torch.rand(4)
print(x)
y = torch.rand(2, 3)
print(y)

tensor([0.6365, 0.4761, 0.0628, 0.9736])
tensor([[0.7196, 0.5166, 0.9913],
        [0.7014, 0.7980, 0.4820]])


正态分布
normal:返回一个从独立的正态分布中抽取的随机数的张量，其平均值和标准差已给定
* mean:是一个张量，包含每个输出元素的正态分布的平均值
* std:是一个张量，包含每个输出元素的正态分布的标准差

In [14]:
torch.arange(1, 0, -0.1)

tensor([1.0000, 0.9000, 0.8000, 0.7000, 0.6000, 0.5000, 0.4000, 0.3000, 0.2000,
        0.1000])

In [15]:
torch.arange(1., 11.)

tensor([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [16]:
x = torch.normal(mean=torch.arange(1., 11.), std=torch.arange(1, 0, -0.1))
#第一个数字是从均值为1，标准差为1的正态分布中随机生成的
#第二个是从均值为2，标准差为0.9的正态分布中随机生成
print(x)
y = torch.normal(mean=0.5, std=torch.arange(1., 6.))
print(y)
z = torch.normal(mean=torch.arange(1., 6.))
print(z)
v = torch.normal(2, 3, size=(1, 4))
print(v)

tensor([2.9345, 2.8076, 4.0208, 3.9346, 4.1944, 6.1756, 7.7775, 8.3139, 9.1035,
        9.9307])
tensor([ 0.4745,  0.7276, -2.7955, -3.4684, -0.6250])
tensor([-0.2344,  2.5589,  4.7012,  3.8044,  6.9503])
tensor([[2.3079, 3.5329, 2.2496, 4.3742]])


randperm 随机置换
返回一个从0到n-1的整数的随机置换

In [17]:
torch.randperm(10)

tensor([4, 8, 2, 9, 1, 3, 5, 6, 7, 0])

## 操作

### 算数操作

In [18]:
x = x.new_ones(5, 3, dtype=torch.float64)
x = torch.randn_like(x, dtype=torch.float)
y = torch.rand(5, 3)
y

tensor([[0.5615, 0.6131, 0.5585],
        [0.5437, 0.9413, 0.2551],
        [0.6378, 0.6153, 0.6793],
        [0.4757, 0.7385, 0.8357],
        [0.2890, 0.3955, 0.4032]])

In [19]:
print(x + y)

tensor([[-0.9888, -0.2924, -0.4634],
        [ 2.6660,  1.4676,  0.5621],
        [-0.3135,  0.4980, -0.5778],
        [ 1.4999,  2.1278,  0.6126],
        [ 1.1733, -0.0397, -0.8265]])


In [20]:
torch.add(x, y)

tensor([[-0.9888, -0.2924, -0.4634],
        [ 2.6660,  1.4676,  0.5621],
        [-0.3135,  0.4980, -0.5778],
        [ 1.4999,  2.1278,  0.6126],
        [ 1.1733, -0.0397, -0.8265]])

In [21]:
y.add_(x)
y

tensor([[-0.9888, -0.2924, -0.4634],
        [ 2.6660,  1.4676,  0.5621],
        [-0.3135,  0.4980, -0.5778],
        [ 1.4999,  2.1278,  0.6126],
        [ 1.1733, -0.0397, -0.8265]])

### 索引
可以使用类似NumPy的索引操作来访问Tensor的一部分，需要注意的是：索引出来的结果与原数据共享内存，也即修改一个，另一个会跟着修改

In [22]:
print(x)
y = x[0, :]
print(y)
y += 1
print(y)
print(x[0, :])

tensor([[-1.5502, -0.9055, -1.0219],
        [ 2.1223,  0.5264,  0.3070],
        [-0.9514, -0.1173, -1.2571],
        [ 1.0242,  1.3893, -0.2232],
        [ 0.8842, -0.4352, -1.2297]])
tensor([-1.5502, -0.9055, -1.0219])
tensor([-0.5502,  0.0945, -0.0219])
tensor([-0.5502,  0.0945, -0.0219])


index_select(input, dim, index)在指定维度dim上选取，比如选取某些行、某些列
* input (Tensor) – the input tensor.
* dim (int) – the dimension in which we index
* index (IntTensor or LongTensor) – the 1-D tensor containing the indices to index

In [23]:
indices = torch.tensor([0, 2])
indices

tensor([0, 2])

In [24]:
torch.index_select(y, 0, indices)

tensor([-0.5502, -0.0219])

masked_select(input, mask) 返回一个新的一维张量，该张量根据布尔掩码Mask对输入张量进行索引，而Mask是一个BoolTensor
* input (Tensor) – the input tensor.
* mask (BoolTensor) – the tensor containing the binary mask to index with

In [25]:
v = torch.randn(3, 4)
v

tensor([[ 1.0737, -0.2925, -0.2399,  1.0978],
        [-0.3030,  0.3558, -0.8019,  2.2121],
        [-0.9186, -0.2112,  1.3251, -0.5383]])

In [26]:
mask = v.ge(0.5)
mask

tensor([[ True, False, False,  True],
        [False, False, False,  True],
        [False, False,  True, False]])

In [27]:
torch.masked_select(v, mask)

tensor([1.0737, 1.0978, 2.2121, 1.3251])

nonzero(input)	非0元素的下标

In [28]:
w = torch.eye(3, 4)
w

tensor([[1., 0., 0., 0.],
        [0., 1., 0., 0.],
        [0., 0., 1., 0.]])

In [29]:
torch.nonzero(w)

tensor([[0, 0],
        [1, 1],
        [2, 2]])

gather(input, dim, index)	 沿给定轴dim，将输入索引张量index指定位置的值进行聚合
理解：https://www.cnblogs.com/HongjianChen/p/9451526.html

In [30]:
# 如果dim=0，那么它表示的就是你接下来的操作是对于第一维度进行的，也就是行；如果dim=1,那么它表示的就是你接下来的操作是对于第二维度进行的，也就是列
t = torch.tensor([[1,2], [3,4]])
t

tensor([[1, 2],
        [3, 4]])

In [31]:
b = torch.gather(t,1,torch.LongTensor([[1,0],[1,0]]))
b

tensor([[2, 1],
        [4, 3]])

In [32]:
b = torch.gather(t,1,torch.LongTensor([[1,1],[1,0]]))
b

tensor([[2, 2],
        [4, 3]])

In [33]:
b = torch.gather(t, 0, torch.tensor([[0,0], [0,1]]))
b

tensor([[1, 2],
        [1, 4]])

In [34]:
a = torch.arange(0, 16).view(4, 4)
a

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15]])

In [35]:
index = torch.tensor([[0,1,2,3]])
a.gather(0, index)

tensor([[ 0,  5, 10, 15]])

In [36]:
a.gather(1, index)

tensor([[0, 1, 2, 3]])

### 改变形状

In [37]:
print(x)
y = x.view(15)
z = x.view(-1, 5)  # -1所指的维度可以根据其他维度的值推出来
print(y)
print(z)
print(x.size(), y.size(), z.size())

tensor([[-0.5502,  0.0945, -0.0219],
        [ 2.1223,  0.5264,  0.3070],
        [-0.9514, -0.1173, -1.2571],
        [ 1.0242,  1.3893, -0.2232],
        [ 0.8842, -0.4352, -1.2297]])
tensor([-0.5502,  0.0945, -0.0219,  2.1223,  0.5264,  0.3070, -0.9514, -0.1173,
        -1.2571,  1.0242,  1.3893, -0.2232,  0.8842, -0.4352, -1.2297])
tensor([[-0.5502,  0.0945, -0.0219,  2.1223,  0.5264],
        [ 0.3070, -0.9514, -0.1173, -1.2571,  1.0242],
        [ 1.3893, -0.2232,  0.8842, -0.4352, -1.2297]])
torch.Size([5, 3]) torch.Size([15]) torch.Size([3, 5])


In [38]:
x += 1
print(x)
print(y) # 也加了1

tensor([[ 0.4498,  1.0945,  0.9781],
        [ 3.1223,  1.5264,  1.3070],
        [ 0.0486,  0.8827, -0.2571],
        [ 2.0242,  2.3893,  0.7768],
        [ 1.8842,  0.5648, -0.2297]])
tensor([ 0.4498,  1.0945,  0.9781,  3.1223,  1.5264,  1.3070,  0.0486,  0.8827,
        -0.2571,  2.0242,  2.3893,  0.7768,  1.8842,  0.5648, -0.2297])


Pytorch还提供了一个reshape()可以改变形状，但是此函数并不能保证返回的是其拷贝，所以不推荐使用。推荐先用clone创造一个副本然后再使用view

In [39]:
# 使用clone还有一个好处是会被记录在计算图中，即梯度回传到副本时也会传到源Tensor。
x_cp = x.clone().view(15)
x -= 1
print(x)
print(x_cp)

tensor([[-0.5502,  0.0945, -0.0219],
        [ 2.1223,  0.5264,  0.3070],
        [-0.9514, -0.1173, -1.2571],
        [ 1.0242,  1.3893, -0.2232],
        [ 0.8842, -0.4352, -1.2297]])
tensor([ 0.4498,  1.0945,  0.9781,  3.1223,  1.5264,  1.3070,  0.0486,  0.8827,
        -0.2571,  2.0242,  2.3893,  0.7768,  1.8842,  0.5648, -0.2297])


item(), 它可以将一个标量Tensor转换成一个Python number

In [40]:
x = torch.randn(1)
print(x)
print(x.item())

tensor([-0.0153])
-0.015278167091310024


### 线性代数

In [41]:
x = torch.eye(3) + 1
x

tensor([[2., 1., 1.],
        [1., 2., 1.],
        [1., 1., 2.]])

In [42]:
# 对角线元素之和(矩阵的迹)
torch.trace(x)

tensor(6.)

In [43]:
# 对角线元素
x = x.clone() + 1
torch.diag(x)

tensor([3., 3., 3.])

In [44]:
# 矩阵的上三角/下三角，可指定偏移量
# triu: 返回矩阵（二维张量）的上三角部分或输入的一批矩阵，结果张量的其他元素被设置为0
# tril
x = torch.randn(3,3)
x

tensor([[-0.7511, -0.2346,  1.0392],
        [ 0.7944,  0.5402, -1.3615],
        [-2.1461, -0.4689,  0.1641]])

In [45]:
torch.triu(x)


tensor([[-0.7511, -0.2346,  1.0392],
        [ 0.0000,  0.5402, -1.3615],
        [ 0.0000,  0.0000,  0.1641]])

In [46]:
# diagonal参数 (int, optional) – “1“对角线向右上一次，"-1"对角线向左下一次
torch.triu(x, diagonal=1)

tensor([[ 0.0000, -0.2346,  1.0392],
        [ 0.0000,  0.0000, -1.3615],
        [ 0.0000,  0.0000,  0.0000]])

In [47]:
x = torch.randn(5, 5)
torch.triu(x, diagonal=-1)

tensor([[ 0.8090, -1.1776,  0.4133,  0.1061, -1.2073],
        [-2.1458, -0.4703, -0.2549, -0.2104,  0.3840],
        [ 0.0000, -0.7530, -0.0139,  0.5775,  0.9320],
        [ 0.0000,  0.0000, -2.2893, -1.9402,  1.1488],
        [ 0.0000,  0.0000,  0.0000, -0.3985, -0.1751]])

In [48]:
# mm/bmm 矩阵乘法，batch的矩阵乘法
x = torch.tensor([[1,2],[3,4]])
x

tensor([[1, 2],
        [3, 4]])

In [49]:
y = torch.tensor([[5,6],[7,8]])
y

tensor([[5, 6],
        [7, 8]])

In [50]:
torch.mm(x, y)

tensor([[19, 22],
        [43, 50]])

In [51]:
input = torch.rand(10, 3, 4)
input

tensor([[[0.9632, 0.0296, 0.9487, 0.0221],
         [0.1470, 0.0163, 0.1988, 0.6000],
         [0.4407, 0.8579, 0.1926, 0.3959]],

        [[0.9962, 0.1716, 0.0696, 0.1922],
         [0.1825, 0.9752, 0.7741, 0.9751],
         [0.6935, 0.6885, 0.1900, 0.6347]],

        [[0.7103, 0.9228, 0.1450, 0.3555],
         [0.8738, 0.6252, 0.3647, 0.3361],
         [0.8122, 0.4566, 0.2099, 0.0398]],

        [[0.2573, 0.3206, 0.0261, 0.3618],
         [0.6330, 0.1651, 0.3888, 0.3686],
         [0.7123, 0.1138, 0.5415, 0.5213]],

        [[0.7184, 0.6829, 0.9144, 0.4189],
         [0.3127, 0.1605, 0.2438, 0.7043],
         [0.8717, 0.7632, 0.0868, 0.5055]],

        [[0.2046, 0.1821, 0.2941, 0.0775],
         [0.3385, 0.4854, 0.3297, 0.1493],
         [0.8363, 0.8132, 0.3609, 0.6692]],

        [[0.6849, 0.8005, 0.6520, 0.1599],
         [0.9816, 0.2925, 0.4066, 0.2128],
         [0.2195, 0.3144, 0.2010, 0.4741]],

        [[0.1778, 0.3487, 0.5145, 0.6161],
         [0.3364, 0.5266, 0.1605, 0.7420

In [52]:
mat = torch.randn(10, 4, 5)
res = torch.bmm(input, mat)
res.size()

torch.Size([10, 3, 5])

In [53]:
# t	转置
x

tensor([[1, 2],
        [3, 4]])

In [54]:
torch.t(x)

tensor([[1, 3],
        [2, 4]])

In [55]:
# 与NumPy的dot不同，torch.dot故意只支持计算两个元素数量相同的一维张量的点乘
# dot/cross	内积/外积
torch.dot(torch.tensor([2,3]), torch.tensor([2,1]))

tensor(7)

In [56]:
# cross注意事项：
# input和other必须有相同的尺寸，并且其dim维度的尺寸应该是3。
# 如果没有给出dim，则默认为找到的第一个尺寸为3的尺寸。
x = torch.tensor([1,2,3])
x

tensor([1, 2, 3])

In [57]:
y = torch.tensor([4,5,6])
y

tensor([4, 5, 6])

In [58]:
#？？？？？？？？？？？？？？？？？？？？？？？？？
torch.cross(x, y)

tensor([-3,  6, -3])

In [59]:
torch.dot(x, y)

tensor(32)

In [60]:
# svd	奇异值分解


## 广播机制
当对两个形状不同的Tensor按元素运算时，可能会触发广播（broadcasting）机制：先适当复制元素使这两个Tensor形状相同后再按元素运算

In [61]:
# 由于x和y分别是1行2列和3行1列的矩阵，如果要计算x + y，那么x中第一行的2个元素被广播（复制）到了第二行和第三行，而y中第一列的3个元素被广播（复制）到了第二列。如此，就可以对2个3行2列的矩阵按元素相加
x = torch.arange(1,3).view(1,2)
print(x)
y = torch.arange(1,4).view(3,1)
print(y)
print(x + y)

tensor([[1, 2]])
tensor([[1],
        [2],
        [3]])
tensor([[2, 3],
        [3, 4],
        [4, 5]])


## 运算的内存开销
前面说了，索引操作是不会开辟新内存的，而像y = x + y这样的运算是会新开内存的，然后将y指向新内存。为了演示这一点，我们可以使用Python自带的id函数：如果两个实例的ID一致，那么它们所对应的内存地址相同；反之则不同

In [62]:
x = torch.tensor([1,2])
y = torch.tensor([3,4])
before_id = id(y)
y = x + y
print(id(y) == before_id)

False


In [63]:
# 把x + y的结果通过[:]写进y对应的内存中
x = torch.tensor([1,2])
y = torch.tensor([3,4])
before_id = id(y)
y[:] = x + y
print(id(y) == before_id)

True


In [64]:
# 可以使用运算符全名函数中的out参数或者自加运算符+=(也即add_())达到上述效果，例如torch.add(x, y, out=y)和y += x(y.add_(x))
x = torch.tensor([1,2])
y = torch.tensor([3,4])
before_id = id(y)
torch.add(x, y, out=y) # y += x, y.add_(x)
print(id(y) == before_id)

True


## Tensor和Numpy相互转换

### Tensor转NumPy

In [65]:
a = torch.ones(5)
a

tensor([1., 1., 1., 1., 1.])

In [66]:
b = a.numpy()
b

array([1., 1., 1., 1., 1.], dtype=float32)

In [67]:
a += 1
a

tensor([2., 2., 2., 2., 2.])

In [68]:
b += 1
b

array([3., 3., 3., 3., 3.], dtype=float32)

### NumPy数组转Tensor

In [69]:
import numpy as np
a = np.ones(5, dtype='int')
b = torch.from_numpy(a)
b

tensor([1, 1, 1, 1, 1], dtype=torch.int32)

In [70]:
a += 1
a

array([2, 2, 2, 2, 2])

In [71]:
b += 1
b

tensor([3, 3, 3, 3, 3], dtype=torch.int32)

In [72]:
# 直接通过构造函数创建
c = torch.tensor(a)
c

tensor([3, 3, 3, 3, 3], dtype=torch.int32)

# 自动求梯度
---

![1](./img/Snipaste_2021-09-20_17-51-54.png)
* grad: 该Tensor的梯度值，每次在计算backward时需要将前一时刻的梯度归零，否则梯度会一直累加
* grad_fn: 叶子节点通常为None，只有结果节点的grad_fn才有效，用于指示梯度函数时哪种类型

In [73]:
x = torch.ones(2, 2, requires_grad=True)
print(x)
print(x.grad_fn)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
None


In [74]:
y = x + 2
print(y)
print(y.grad_fn)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)
<AddBackward0 object at 0x000001AF8F3B7760>


In [75]:
# x是直接创建的，所以它没有grad_fn; y是通过一个加法操作创建的，所以它有一个为<AddBackward>的grad_fn
# 像x这种直接创建的称为叶子节点，叶子节点对应的grad_fn是None

# 只有叶子张量有梯度
print(x.is_leaf)
print(y.is_leaf)

True
False


In [76]:
z = y * y * 3
out = z.mean
print(z)
print(out)

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>)
<built-in method mean of Tensor object at 0x000001AF8F3B47C0>


In [77]:
a = torch.randn(2, 2)
a = ((a * 3) / (a - 1))
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b = (a * a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x000001AF8F3B7790>


## 梯度

In [78]:
x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True)
y = 2 * x
z = y.view(2, 2)

print(z)

tensor([[2., 4.],
        [6., 8.]], grad_fn=<ViewBackward>)


backward():
* tensor: 用于计算梯度的tensor
* grad_tensor: 在计算矩阵的梯度时会用到。他其实也是一个tensor,shape一般需要和前面的tensor保持一致
* retain_graph: 通常调用一次backward后，pytorch会自动把计算图销毁，所以要想对某个变量重复调用backward，则需要将该参数设置为True
* create_graph: 如果为True，那么就创建一个专门的graph of the derivative, 这可以方便计算高阶微分

grad():计算和返回output关于inputs的梯度和
* outputs: 函数的因变量，即需要求导的那个函数
* input: 函数的自变量，可以定义多个tensor
* grad_outputs: 同backward
* only_inputs: 只计算input的梯度
* allow_unused(bool 可选)：如果为false，当计算输出出错时（因此他们的梯度永远为0）指明不适应inputs

In [79]:
v = torch.tensor([[1.0, 0.1], [0.01, 0.001]], dtype=torch.float)
z.backward(v)
print(x.grad)

tensor([2.0000, 0.2000, 0.0200, 0.0020])


In [80]:
x = torch.tensor(1.0, requires_grad=True)
y1 = x ** 2
with torch.no_grad():
    y2 = x ** 3
y3 = y1 + y2

print(x.requires_grad)
print(y1, y1.requires_grad)
print(y2, y2.requires_grad)
print(y3, y3.requires_grad)

True
tensor(1., grad_fn=<PowBackward0>) True
tensor(1.) False
tensor(2., grad_fn=<AddBackward0>) True


In [81]:
y3.backward()
print(x.grad)

tensor(2.)


In [82]:
# y2.backward() # 报错

In [86]:
# 如果我们想要修改tensor的数值，但是又不希望被autograd记录（即不会影响反向传播），那么我么可以对tensor.data进行操作。
x = torch.ones(1, requires_grad=True)
print(x.data)
print(x.data.requires_grad)

y = x * 2
x.data *= 100 # 只改变了值，不会记录在计算图，所以不会影响梯度传播

y.backward()
print(x)
print(x.grad)

tensor([1.])
False
tensor([100.], requires_grad=True)
tensor([2.])


torch.autograd.Function
每一个原始的自动求导运算实际上是两个在Tensor上运行的函数
* forward函数计算从输入Tensor获得的输出Tensors
* backward函数接收了输出Tensor对于某个标量值的梯度，并且计算输入Tensors相对于该相同标量值的梯度
* 最后，利用apply方法执行相应的运算

In [13]:
import torch

x = torch.tensor([1.0,2.0,3.0], requires_grad=True)
y = x ** 2
print(y.sum())
# y.backward() ×
y.sum().backward()
print(x.grad)

tensor(14., grad_fn=<SumBackward0>)
tensor([2., 4., 6.])


In [1]:
import torch


In [2]:
x = torch.arange(1,4).view(1,3)
print(x)
y = torch.arange(1,5).view(4,1)
print(y)
print(x + y)

tensor([[1, 2, 3]])
tensor([[1],
        [2],
        [3],
        [4]])
tensor([[2, 3, 4],
        [3, 4, 5],
        [4, 5, 6],
        [5, 6, 7]])
