# 认识Pytorch中的Tensor
## 什么是Tensor?
Tensor在程序中，类似于Numpy中的ndarrays,并且Tensor可以使用GPU进行计算

In [1]:
from __future__ import print_function
import torch

In [2]:
# 构建一个5 * 3的矩阵，不初始化
# 通过观察加过可以发现，每一次的初始值是随机的
# 实际上，在pytorch1.4版本中，个人认为torch.empty()方法和torch.rand()作用一样
x = torch.empty(5, 3)
print(x)

tensor([[8.3870e-33, 6.8608e+22, 1.8497e+31],
        [6.1101e-04, 4.8419e+30, 1.7256e+25],
        [1.2118e+25, 1.2039e+30, 2.9777e+35],
        [8.9036e-15, 1.9431e-19, 1.8987e+28],
        [7.1061e+31, 4.2964e+24, 3.0607e+32]])


In [3]:
# 但是与empty()方法不同的是，rand()生成的数值在0~1
x = torch.rand(5, 3)
print(x)

tensor([[0.7639, 0.3414, 0.6534],
        [0.7058, 0.1155, 0.3478],
        [0.2522, 0.2480, 0.3909],
        [0.4598, 0.5333, 0.9211],
        [0.4702, 0.2319, 0.0703]])


In [4]:
# 构造一个全为0的矩阵，且数据类型为long
x = torch.zeros(5, 3, dtype=torch.long)
print(x)

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


In [5]:
# 当然也可以直降将Python list对象转化成一个Tensor,这种操作与numpy.array()一样
x = torch.tensor([5.5, 3])
print(x)

tensor([5.5000, 3.0000])


In [6]:
# 可以基于已有的Tensor构建一个新的Tensor
x = x.new_ones(5, 3, dtype=torch.double)
print(x)
x = torch.rand_like(x, dtype=torch.float)
print(x)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[5.5243e-01, 9.8879e-01, 9.9122e-01],
        [6.1828e-01, 7.7484e-01, 5.6105e-01],
        [2.9816e-03, 5.3450e-01, 8.1157e-01],
        [2.7998e-01, 2.5154e-01, 9.2710e-01],
        [2.0629e-01, 9.3400e-05, 7.2138e-01]])


In [7]:
# 通过Tensor对象的size()方法可以获取其形状
print(x.size())
print(type(x.size()))
# 值得注意的是，torch.Size是一个tuple,支持所有的tuple操作

torch.Size([5, 3])
<class 'torch.Size'>


## 多个Tensor的操作

In [8]:
# 加法 method 1
y = torch.rand(5, 3) # 令x与y的形状相同
print(x + y)

# 加法 method 2
print(torch.add(x, y))

# 加法 method 3,提供一个输出Tensor作为参数，即指定操作结果的存放变量
result = torch.empty(5, 3)
torch.add(x, y, out=result)
print(result)

# 当然也可以实现将Tensor x的值加到Tensor的所有对应位置上
y.add_(x)
print(y)

tensor([[0.9659, 1.5883, 1.5235],
        [1.1187, 0.9180, 1.5058],
        [0.8229, 0.5997, 1.0227],
        [1.1775, 0.5293, 1.1344],
        [0.7374, 0.3774, 0.9909]])
tensor([[0.9659, 1.5883, 1.5235],
        [1.1187, 0.9180, 1.5058],
        [0.8229, 0.5997, 1.0227],
        [1.1775, 0.5293, 1.1344],
        [0.7374, 0.3774, 0.9909]])
tensor([[0.9659, 1.5883, 1.5235],
        [1.1187, 0.9180, 1.5058],
        [0.8229, 0.5997, 1.0227],
        [1.1775, 0.5293, 1.1344],
        [0.7374, 0.3774, 0.9909]])
tensor([[0.9659, 1.5883, 1.5235],
        [1.1187, 0.9180, 1.5058],
        [0.8229, 0.5997, 1.0227],
        [1.1775, 0.5293, 1.1344],
        [0.7374, 0.3774, 0.9909]])


In [9]:
# 我们也可以使用类似Numpy的索引操作
print(x[:, 1])
print(x[:, 1].size())
print(type(x))

tensor([9.8879e-01, 7.7484e-01, 5.3450e-01, 2.5154e-01, 9.3400e-05])
torch.Size([5])
<class 'torch.Tensor'>


In [10]:
# 如果想改变一个Tensor的形状，可以使用torch.view()方法
x = torch.rand(4, 4)
y = x.view(16)
z = x.view(-1, 8) # 这个地方的-1，代表占位，它具体的值可以由其他维度的值推断出来
print(x.size(), y.size(), z.size())

torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])


In [11]:
# 必须警惕的一点是，view中的参数相乘，等于原来Tensor的元素个数才行
print(x.view(4, -1))

tensor([[0.6676, 0.3595, 0.7837, 0.1519],
        [0.9069, 0.0993, 0.0733, 0.6308],
        [0.7212, 0.0625, 0.7546, 0.0824],
        [0.5844, 0.2093, 0.0984, 0.2156]])


In [12]:
# 如果有一个只有一个元素的Tensor(这种Tensor被称为标量),那么可以使用item()方法获取其数值
x = torch.rand(1)
print(x)
print(x.item())
print(x.dtype)

tensor([0.1163])
0.11626172065734863
torch.float32


In [13]:
# 默认情况下，torch.cat操作沿着最高维连接
x_1 = torch.randn(3, 5)
x_2 = torch.randn(2, 5)
y = torch.cat([x_1, x_2])
print(y.size())
# torch.Size([5, 5])

torch.Size([5, 5])


In [14]:
# 当然我们也可以指定沿着哪个维度，例如我们使用convolution处理文本数据的时候，需要多个filter并行
# 最后的feature map需要cat操作
x_1 = torch.randn(3, 5)
x_2 = torch.randn(3, 3)
y = torch.cat([x_1, x_2], 1)
# 注意torch.cat 第二个参数，它代表要扩展维度的下标
print(y.size())
# torch.Size([3, 8])

torch.Size([3, 8])


### 仿射变换
深度学习最核心的内容之一就是仿射变换，它其实是线性变化，在数学上的表达式为
$$f(x) = A\vec{x} + b$$
但是在深度学习上，每一个样本以行的形式存在的，所以实际上的操作是
$$f(x) = \vec{x}\cdot A + b$$
值得注意的是多个仿射变换仍然是仿射变换。

In [16]:
# 定义一个从五维到三维的仿射
line = torch.nn.Linear(5, 3)
data = torch.randn(3, 5)
print(line(data))

tensor([[-0.2304,  0.9203, -0.3519],
        [-1.2158,  0.5064, -0.5361],
        [ 0.7637, -0.1092,  0.5906]], grad_fn=<AddmmBackward>)


### 非线性变换
由上面的多个仿射组合仍然是仿射可知，在深度学习中，如果仅仅是靠线性层的堆叠，实际上和一层线性变化没有区别，那么就需要引入非线性变换。非线性函数就只指在不同的点上微分结果不同
<br>
常见的非线性函数非常多，在深度学习上主要有sigmoid、Tanh、ReLU等等，选择这几个函数主要是这几个函数偏导数容易求,以sigmoid为例
$$\frac{\partial \sigma}{\partial x} = \sigma(x)(1 - \sigma(x))$$
在实际的深度学习模型中，应该尽量减少sigmoid的时候，这是因为$\sigma(x)$取值逼近0或者1的时候，求得梯度非常小，那么模型难以收敛到最优状态。

# Tensor自动求导

Pytorch中的autograd包可以为Tensor对象上的所有操作提供自动微分。
<br>
torch.Tensor包是Pytorch的核心，一切网络都围绕它展开。如何设置Tensor对象的required_grad属性为True,那么Pytorch将会追踪在该对象上的所有操作。完成计算后，调用Tensor类的backward()方法来自动计算所有的梯度。该Tensor对象的梯度被累计到其grad属性中。
<br>
<br>
如何要停止tensor历史记录的跟踪，可以调用Tensor类的detach()方法，它将该Tensor从计算图中剥离，但变量仍指向原始内存地址，它的具体操作是设置grad_fn属性为None，requires_grad属性设置为False
<br>
还有一种方法是使用$with\ torch.no\_grad()$把代码块包装起来，这个方法在评估模型的时候用得比较多。

在使用backward()自动求梯度的时候，假设操作是`x.backward(args)`，如果x是一个标量，那么不需要指定任何参数，如果不是，则需要一个gradient参数来指定张量的形状。(这个参数的作用会在后面解释)

In [17]:
# 创建一个张量，设置requires_grad = True来跟踪与它相关的计算
x = torch.ones(2, 2, requires_grad=True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


In [18]:
y = x + 2
# y作为操作的结果创建，所以它有grad_fn属性。
print(y)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)


In [19]:
z = y * y * 3
out = z.mean()
print(z, out)

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward0>)


In [20]:
out.backward()
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


### backward参数的解释

In [21]:
# 先给出程序示例
x = torch.tensor([1., 2.], requires_grad=True)
y = torch.tensor([[1., 2.], [2., 3.]])
print(y)
z = x@y
print(z)
gradient_vector = torch.tensor([1., 2.], dtype=torch.float)
z.backward(gradient_vector)
print(x.grad)

tensor([[1., 2.],
        [2., 3.]])
tensor([5., 8.], grad_fn=<SqueezeBackward3>)
tensor([5., 8.])


上述代码断中$\vec{a} = (1, 2)$, 变量y为一个矩阵$\begin{bmatrix}
   1 & 2 \\
   2 & 3
\end{bmatrix}$,z为$[1, 2] \cdot\begin{bmatrix}
   1 & 2 \\
   2 & 3
\end{bmatrix} = [5, 8]$，
那么$\frac{\partial\vec{z}}{\partial\vec{a}} = \begin{bmatrix}
   \frac{\partial z_1}{\partial a_1} & \frac{\partial z_2}{\partial a_2} \\
   \frac{\partial z_1}{\partial a_1} & \frac{\partial z_2}{\partial a_2}
\end{bmatrix} = \begin{bmatrix}
   1 & 2 \\
   2 & 3
\end{bmatrix}$,而gradient参数为$[1, 2]$，实际输出的结果为$\vec{gradient}\cdot \frac{\partial\vec{z}}{\partial\vec{a}}$