# 张量
简介
几何代数中定义的张量是基于向量和矩阵的推广，比如我们可以将标量视为零阶张量，矢量可以视为一阶张量，矩阵就是二阶张量。
    0维张量/标量 标量是一个数字
    1维张量/向量 1维张量称为“向量”。
    2维张量 2维张量称为矩阵
    3维张量 公用数据存储在张量 时间序列数据 股价 文本数据 彩色图片(RGB)
这里有一些存储在各种类型张量的公用数据集类型
    3维=时间序列
    4维=图像
    5维=视频
例子：一个图像可以用三个字段表示

(width, height, channel) = 3D

但是，在机器学习工作中，我们经常要处理不止一张图片或一篇文档——我们要处理一个集合。我们可能有10,000张郁金香的图片，这意味着，我们将用到4D张量：

(sample_size, width, height, channel) = 4D

在PyTorch中， torch.Tensor 是存储和变换数据的主要工具。如果你之前用过NumPy，你会发现 Tensor 和NumPy的多维数组非常类似。然而，Tensor 提供GPU计算和自动求梯度等更多功能，这些使 Tensor 这一数据类型更加适合深度学习。

In [2]:
# 导入模块
from __future__ import print_function
import torch

In [6]:
# 创建tensor，构建一个随机初始化的矩阵
x = torch.rand(4,3)
print(x)

tensor([[0.4256, 0.5607, 0.2223],
        [0.2262, 0.8031, 0.8144],
        [0.9208, 0.8809, 0.9964],
        [0.2176, 0.6535, 0.8428]])


In [9]:
# 构建一个矩阵为全0，数据类型设置为long
x = torch.zeros(4,3, dtype=torch.long)
print(x)

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


In [12]:
# 直接构建张量
x = torch.tensor([6.6, 3])
print(x)

tensor([6.6000, 3.0000])


In [15]:
x = x.new_ones(4,3, dtype=torch.double) # 创建一个新的tensor，返回的tensor默认具有相同的torch.dtype和torch.device
print(x)
x = torch.randn_like(x,dtype=torch.float)
# 重置 数据类型
print(x)
# 结果会有一样的size

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[-1.6948, -0.0314,  1.8921],
        [ 0.6539, -0.7992, -0.9246],
        [-1.3707, -0.3535,  0.3868],
        [-1.4615, -0.5193,  0.6136]])


In [19]:
# 获取它的维度信息
print(x.size())
print(x.shape)

torch.Size([4, 3])
torch.Size([4, 3])


# 操作：加法

In [20]:
# 方式1
y = torch.rand(4, 3) 
print(x + y)

# 方式2
print(torch.add(x, y))

# 方式3 提供一个输出 tensor 作为参数
result = torch.empty(5, 3) 
torch.add(x, y, out=result) 
print(result)

# 方式4 in-place
y.add_(x) 
print(y)

tensor([[-1.2949,  0.1528,  2.7512],
        [ 1.6422,  0.1278, -0.2436],
        [-0.4987,  0.2130,  0.6826],
        [-1.0456,  0.2382,  1.5065]])
tensor([[-1.2949,  0.1528,  2.7512],
        [ 1.6422,  0.1278, -0.2436],
        [-0.4987,  0.2130,  0.6826],
        [-1.0456,  0.2382,  1.5065]])
tensor([[-1.2949,  0.1528,  2.7512],
        [ 1.6422,  0.1278, -0.2436],
        [-0.4987,  0.2130,  0.6826],
        [-1.0456,  0.2382,  1.5065]])
tensor([[-1.2949,  0.1528,  2.7512],
        [ 1.6422,  0.1278, -0.2436],
        [-0.4987,  0.2130,  0.6826],
        [-1.0456,  0.2382,  1.5065]])


## 需要注意的是：索引出来的结果与原数据共享内存，也即修改一个，另一个会跟着修改。

In [24]:
# 取第二列
print(x[0,:]) 
y = x[0,:]
y += 1
print(y)
print(x[0, :]) # 源tensor也被改了了

tensor([1.3052, 2.9686, 4.8921])
tensor([2.3052, 3.9686, 5.8921])
tensor([2.3052, 3.9686, 5.8921])


# 改变张量大小
想改变一个tensor的大小或者形状，可以使用torch.view

In [26]:
x = torch.randn(4, 4)
y = x.view(16)
z = x.view(-1, 8) # -1是指这一维的维数由其他维度决定
print(x.size(), y.size(), z.size())

torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])


In [28]:
'''
注意 view() 返回的新tensor与源tensor共享内存(其实是同一个tensor)，也即更改其中的一个，另 外一个也会跟着改变。
(顾名思义，view仅仅是改变了对这个张量的观察⻆度)
'''
x +=1
print(x)
print(y)# 也加了1

tensor([[1.3469, 2.5170, 2.5744, 3.4734],
        [2.5887, 2.1250, 2.2133, 3.5821],
        [2.3016, 1.8480, 1.9123, 2.1498],
        [2.4869, 1.7523, 2.9804, 1.9380]])
tensor([1.3469, 2.5170, 2.5744, 3.4734, 2.5887, 2.1250, 2.2133, 3.5821, 2.3016,
        1.8480, 1.9123, 2.1498, 2.4869, 1.7523, 2.9804, 1.9380])


In [30]:
# clone()深拷贝，clone 创造一个真正新的副本
import torch

a = torch.tensor(1.0, requires_grad=True)
b = a.clone()
a.data *= 3
b += 1

print(a)   # tensor(3., requires_grad=True)
print(b)

tensor(3., requires_grad=True)
tensor(2., grad_fn=<AddBackward0>)


In [32]:
# 如果你有一个元素 tensor ，使用 .item() 来获得这个 value：
x = torch.randn(1) 
print(x) 
print(x.item())

tensor([1.7170])
1.716983437538147


# 广播机制
当对两个形状不同的 Tensor 按元素运算时，可能会触发广播(broadcasting)机制：先适当复制元素使这两个 Tensor 形状相同后再按元素运算

In [35]:
x = torch.arange(1, 3).view(1, 2)
print(x)
y = torch.arange(1, 4).view(3, 1)
print(y)
print(x + y)

tensor([[1, 2]])
tensor([[1],
        [2],
        [3]])
tensor([[2, 3],
        [3, 4],
        [4, 5]])


由于 x 和 y 分别是1行2列和3行1列的矩阵，如果要计算 x + y ，那么 x 中第一行的2个元素被广播 (复制)到了第二行和第三行，⽽ y 中第⼀列的3个元素被广播(复制)到了第二列。如此，就可以对2 个3行2列的矩阵按元素相加。

# 自动求导

pyTorch 中，所有神经网络的核心是 autograd 包。autograd包为张量上的所有操作提供了自动求导机制。它是一个在运行时定义 ( define-by-run ）的框架，这意味着反向传播是根据代码如何运行来决定的，并且每次迭代可以是不同的。

torch.Tensor 是这个包的核心类。如果设置它的属性 .requires_grad 为 True，那么它将会追踪对于该张量的所有操作。当完成计算后可以通过调用 .backward()，来自动计算所有的梯度。这个张量的所有梯度将会自动累加到.grad属性。

注意：在 y.backward() 时，如果 y 是标量，则不需要为 backward() 传入任何参数；否则，需要传入一个与 y 同形的Tensor。

要阻止一个张量被跟踪历史，可以调用.detach()方法将其与计算历史分离，并阻止它未来的计算记录被跟踪。为了防止跟踪历史记录(和使用内存），可以将代码块包装在 with torch.no_grad(): 中。在评估模型时特别有用，因为模型可能具有 requires_grad = True 的可训练的参数，但是我们不需要在此过程中对他们进行梯度计算。

还有一个类对于autograd的实现非常重要：Function。Tensor 和 Function 互相连接生成了一个无环图 (acyclic graph)，它编码了完整的计算历史。每个张量都有一个.grad_fn属性，该属性引用了创建 Tensor 自身的Function(除非这个张量是用户手动创建的，即这个张量的grad_fn是 None )。

如果需要计算导数，可以在 Tensor 上调用 .backward()。如果 Tensor 是一个标量(即它包含一个元素的数据），则不需要为 backward() 指定任何参数，但是如果它有更多的元素，则需要指定一个gradient参数，该参数是形状匹配的张量。

In [40]:
# 创建一个张量设置requires_grad=True用来追踪其计算
import torch
x = torch.ones(2,2,requires_grad=True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


In [44]:
y = x**2
print(y)
print(y.grad_fn)
'''
tensor([[1., 1.],
        [1., 1.]], grad_fn=<PowBackward0>)
y是计算的结果，所以它有grad_fn属性
'''

tensor([[1., 1.],
        [1., 1.]], grad_fn=<PowBackward0>)
<PowBackward0 object at 0x0000027A07EE6070>


'\ntensor([[1., 1.],\n        [1., 1.]], grad_fn=<PowBackward0>)\ny是计算的结果，所以它有grad_fn属性\n'

In [46]:
# 对y进行更多的操作
z = y*y*3
out = z.mean()
print(z,out)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<MulBackward0>) tensor(3., grad_fn=<MeanBackward0>)


In [48]:
# 默认情况下 requires_grad = False
a = torch.randn(2,2)
a = ((a * 3)/(a - 1))
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b = (a * a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x0000027A07E40580>


## 梯度

现在开始进行反向传播，因为 out 是一个标量，因此out.backward()和 out.backward(torch.tensor(1.)) 等价。

In [56]:
# 输出导数 d(out)/dx
out.backward()
print(x.grad)

tensor([[3., 3.],
        [3., 3.]])


In [59]:
# 注意：grad在反向传播过程中是累加的，这意味这每一次运行反向传播，梯度都会累加之前的梯度，所以一般在反向传播之前需把梯度清零
# 再来反向传播一次，注意grad是累加的2 out2 = x.sum()
out2 = x.sum()
out2.backward()
print(x.grad)
out3 = x.sum()
x.grad.data.zero_()
out3.backward()
print(x.grad)

tensor([[2., 2.],
        [2., 2.]])
tensor([[1., 1.],
        [1., 1.]])


In [60]:
# 雅可比向量积的例子：
x = torch.randn(3, requires_grad=True)
print(x)

y = x * 2
i = 0
while y.data.norm() < 1000:
    y = y * 2
    i = i + 1
print(y)
print(i)

tensor([-0.4186, -1.3713, -0.4784], requires_grad=True)
tensor([ -428.6697, -1404.2080,  -489.9154], grad_fn=<MulBackward0>)
9


In [61]:
# 在这种情况下，y 不再是标量。torch.autograd 不能直接计算完整的雅可比矩阵，但是如果我们只想要雅可比向量积，只需将这个向量作为参数传给 backward：
v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(v)

print(x.grad)

tensor([1.0240e+02, 1.0240e+03, 1.0240e-01])


In [62]:
# 也可以通过将代码块包装在 with torch.no_grad(): 中，来阻止 autograd 跟踪设置了.requires_grad=True的张量的历史记录。
print(x.requires_grad)
print((x ** 2).requires_grad)

with torch.no_grad():
    print((x ** 2).requires_grad)

True
True
False


In [63]:
# 如果我们想要修改 tensor 的数值，但是又不希望被 autograd 记录(即不会影响反向传播)， 那么我么可以对 tensor.data 进行操作。
x = torch.ones(1,requires_grad=True)

print(x.data) # 还是一个tensor
print(x.data.requires_grad) # 但是已经是独立于计算图之外

y = 2 * x
x.data *= 100 # 只改变了值，不会记录在计算图，所以不会影响梯度传播

y.backward()
print(x) # 更改data的值也会影响tensor的值 
print(x.grad)

tensor([1.])
False
tensor([100.], requires_grad=True)
tensor([2.])
