# PyTorch基础知识

## 张量

本章我们开始介绍Pytorch基础知识，我们从张量说起，建立起对数据的描述，再介绍张量的运算，最后再讲PyTorch 中所有神经网络的核心包 `autograd `，也就是自动微分，了解完这些内容我们就可以较好地理解PyTorch代码了。下面我们开始吧～

**简介**

几何代数中定义的张量是基于向量和矩阵的推广，比如我们可以将标量视为零阶张量，矢量可以视为一阶张量，矩阵就是二阶张量。

- 0维张量/**标量** 标量是一个数字
- 1维张量/**向量**  1维张量称为“向量”。
- 2维张量  2维张量称为**矩阵**
- 3维张量 公用数据存储在张量 时间序列数据 股价 文本数据 彩色图片(**RGB**)

张量是现代机器学习的基础。它的核心是一个数据容器，多数情况下，它包含数字，有时候它也包含字符串，但这种情况比较少。因此可以把它想象成一个数字的水桶。

这里有一些存储在各种类型张量的公用数据集类型：

- **3维=时间序列**
- **4维=图像**
- **5维=视频**

例子：一个图像可以用三个字段表示：

```
(width, height, channel) = 3D
```

但是，在机器学习工作中，我们经常要处理不止一张图片或一篇文档——我们要处理一个集合。我们可能有10,000张郁金香的图片，这意味着，我们将用到4D张量：

```
(sample_size, width, height, channel) = 4D
```

在PyTorch中， torch.Tensor 是存储和变换数据的主要工具。如果你之前用过NumPy，你会发现 Tensor 和NumPy的多维数组非常类似。然而，Tensor 提供GPU计算和自动求梯度等更多功能，这些使 Tensor 这一数据类型更加适合深度学习。

In [2]:
#引入pytorch包
from __future__ import print_function
import torch

**创建tensor**

构造一个随机初始化的矩阵：

In [3]:
x = torch.rand(4, 3) 
print(x)

tensor([[0.7193, 0.5077, 0.8020],
        [0.8887, 0.4076, 0.1221],
        [0.6902, 0.1987, 0.5009],
        [0.2861, 0.8817, 0.0311]])


构造一个矩阵全为 0，而且数据类型是 long.

In [4]:
x = torch.zeros(4, 3, dtype=torch.long)
print(x)

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


直接使用数据，构造一个张量：

In [5]:
x = torch.tensor([5.5, 3]) 
print(x)

tensor([5.5000, 3.0000])


基于已经存在的 tensor，创建一个 tensor ：

In [6]:
x = x.new_ones(4, 3, dtype=torch.double) # 创建一个新的tensor，返回的tensor默认具有相同的 torch.dtype和torch.device
# 也可以像之前的写法 x = torch.ones(4, 3, dtype=torch.double)
print(x)
x = torch.randn_like(x, dtype=torch.float)
# 重置数据类型
print(x)
# 结果会有一样的size

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[-0.2645,  1.6522, -1.7242],
        [-1.0598,  0.5122, -1.0262],
        [ 0.5059,  1.2221,  0.0102],
        [-1.1656, -0.1463, -0.7669]])


获取它的维度信息：

In [7]:
print(x.size())
print(x.shape)

torch.Size([4, 3])
torch.Size([4, 3])


返回的torch.Size其实就是一个tuple，⽀持所有tuple的操作。

还有一些常见的构造Tensor的函数：

|                                  函数 | 功能                   |
| ------------------------------------: | ---------------------- |
|                      Tensor(**sizes*) | 基础构造函数           |
|                        tensor(*data*) | 类似于np.array         |
|                        ones(**sizes*) | 全1                    |
|                       zeros(**sizes*) | 全0                    |
|                         eye(**sizes*) | 对角为1，其余为0       |
|                    arange(*s,e,step*) | 从s到e，步长为step     |
|                 linspace(*s,e,steps*) | 从s到e，均匀分成step份 |
|                  rand/randn(**sizes*) |                        |
| normal(*mean,std*)/uniform(*from,to*) | 正态分布/均匀分布      |
|                         randperm(*m*) | 随机排列               |

**操作**

一些加法操作：

In [8]:
# 方式1
y = torch.rand(4, 3) 
print(x + y)

tensor([[-0.2330,  1.7095, -1.4154],
        [-0.1940,  0.6805, -0.9287],
        [ 1.0082,  1.8536,  0.1932],
        [-1.0129,  0.8391, -0.4155]])


In [9]:
# 方式2
print(torch.add(x, y))


tensor([[-0.2330,  1.7095, -1.4154],
        [-0.1940,  0.6805, -0.9287],
        [ 1.0082,  1.8536,  0.1932],
        [-1.0129,  0.8391, -0.4155]])


In [10]:
# 方式3 提供一个输出 tensor 作为参数
result = torch.empty(5, 3) 
torch.add(x, y, out=result) 
print(result)

tensor([[-0.2330,  1.7095, -1.4154],
        [-0.1940,  0.6805, -0.9287],
        [ 1.0082,  1.8536,  0.1932],
        [-1.0129,  0.8391, -0.4155]])


In [12]:
# 方式4 in-place
y.add_(x) 
print(y)

tensor([[-0.2330,  1.7095, -1.4154],
        [-0.1940,  0.6805, -0.9287],
        [ 1.0082,  1.8536,  0.1932],
        [-1.0129,  0.8391, -0.4155]])


索引操作：（类似于numpy）

**需要注意的是：索引出来的结果与原数据共享内存，也即修改一个，另一个会跟着修改。**


In [13]:
# 取第二列
print(x[:, 1]) 

tensor([ 1.6522,  0.5122,  1.2221, -0.1463])


In [14]:
y = x[0,:]
y += 1
print(y)
print(x[0, :]) # 源tensor也被改了了

tensor([ 0.7355,  2.6522, -0.7242])
tensor([ 0.7355,  2.6522, -0.7242])


改变大小:如果你想改变一个 tensor 的大小或者形状，你可以使用 torch.view：


In [15]:
x = torch.randn(4, 4)
y = x.view(16)
z = x.view(-1, 8) # -1是指这一维的维数由其他维度决定
print(x.size(), y.size(), z.size())

torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])


注意 **view()** 返回的新**tensor**与源**tensor**共享内存(其实是同一个**tensor**)，也即更改其中的一个，另 外一个也会跟着改变。**(**顾名思义，**view**仅仅是改变了对这个张量的观察⻆度**)**


In [16]:
x += 1
print(x)
print(y) # 也加了1

tensor([[-0.7112, -0.4096,  0.7150,  1.8708],
        [-0.4251,  1.9195,  1.3022,  1.5564],
        [-0.1128,  1.6987,  1.1790,  0.6751],
        [ 1.0930,  1.1913,  1.3658,  1.7555]])
tensor([-0.7112, -0.4096,  0.7150,  1.8708, -0.4251,  1.9195,  1.3022,  1.5564,
        -0.1128,  1.6987,  1.1790,  0.6751,  1.0930,  1.1913,  1.3658,  1.7555])


所以如果我们想返回一个真正新的副本(即不共享内存)该怎么办呢？Pytorch还提供了一 个 reshape() 可以改变形状，但是此函数并不能保证返回的是其拷贝，所以不推荐使用。推荐先用 clone 创造一个副本然后再使用 view 。

注意：使用 clone 还有一个好处是会被记录在计算图中，即梯度回传到副本时也会传到源 Tensor 。

如果你有一个元素 tensor ，使用 .item() 来获得这个 value：

In [17]:
x = torch.randn(1) 
print(x) 
print(x.item())

tensor([0.1581])
0.1580623984336853


PyTorch中的 Tensor 支持超过一百种操作，包括转置、索引、切片、数学运算、线性代数、随机数等等，可参考官方文档。

##### 广播机制

当对两个形状不同的 Tensor 按元素运算时，可能会触发广播(broadcasting)机制：先适当复制元素使这两个 Tensor 形状相同后再按元素运算。

In [18]:
x = torch.arange(1, 3).view(1, 2)
print(x)
y = torch.arange(1, 4).view(3, 1)
print(y)
print(x + y)

tensor([[1, 2]])
tensor([[1],
        [2],
        [3]])
tensor([[2, 3],
        [3, 4],
        [4, 5]])


由于 x 和 y 分别是1行2列和3行1列的矩阵，如果要计算 x + y ，那么 x 中第一行的2个元素被广播 (复制)到了第二行和第三行，⽽ y 中第⼀列的3个元素被广播(复制)到了第二列。如此，就可以对2 个3行2列的矩阵按元素相加。

## 自动求导
PyTorch 中，所有神经网络的核心是 `autograd `包。autograd包为张量上的所有操作提供了自动求导机制。它是一个在运行时定义 ( define-by-run ）的框架，这意味着反向传播是根据代码如何运行来决定的，并且每次迭代可以是不同的。

`torch.Tensor `是这个包的核心类。如果设置它的属性` .requires_grad` 为 `True`，那么它将会追踪对于该张量的所有操作。当完成计算后可以通过调用` .backward()`，来自动计算所有的梯度。这个张量的所有梯度将会自动累加到`.grad`属性。

注意：在 y.backward() 时，如果 y 是标量，则不需要为 backward() 传入任何参数；否则，需要传入一个与 y 同形的Tensor。

要阻止一个张量被跟踪历史，可以调用` .detach() `方法将其与计算历史分离，并阻止它未来的计算记录被跟踪。为了防止跟踪历史记录(和使用内存），可以将代码块包装在 `with torch.no_grad(): `中。在评估模型时特别有用，因为模型可能具有 `requires_grad = True` 的可训练的参数，但是我们不需要在此过程中对他们进行梯度计算。

还有一个类对于`autograd`的实现非常重要：`Function`。`Tensor `和` Function` 互相连接生成了一个无环图 (acyclic graph)，它编码了完整的计算历史。每个张量都有一个` .grad_fn `属性，该属性引用了创建 `Tensor `自身的`Function`(除非这个张量是用户手动创建的，即这个张量的` grad_fn `是 `None` )。

如果需要计算导数，可以在 `Tensor` 上调用 `.backward()`。如果` Tensor` 是一个标量(即它包含一个元素的数据），则不需要为 `backward() `指定任何参数，但是如果它有更多的元素，则需要指定一个` gradient `参数，该参数是形状匹配的张量。


In [19]:
#引入包
import torch

创建一个张量并设置`requires_grad=True`用来追踪其计算历史


In [20]:
x = torch.ones(2, 2, requires_grad=True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


对这个张量做一次运算

In [21]:
y = x**2
print(y)

tensor([[1., 1.],
        [1., 1.]], grad_fn=<PowBackward0>)


`y`是计算的结果，所以它有`grad_fn`属性。

In [22]:
print(y.grad_fn)


<PowBackward0 object at 0x7faf43bc9b00>


对 y 进行更多操作

In [23]:
z = y * y * 3
out = z.mean()

print(z, out)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<MulBackward0>) tensor(3., grad_fn=<MeanBackward1>)


`.requires_grad_(...) `原地改变了现有张量的` requires_grad `标志。如果没有指定的话，默认输入的这个标志是` False`。


In [24]:
a = torch.randn(2, 2) # 缺失情况下默认 requires_grad = False
a = ((a * 3) / (a - 1))
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b = (a * a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x7faf43b61400>


**梯度**

现在开始进行反向传播，因为` out` 是一个标量，因此` out.backward() `和` out.backward(torch.tensor(1.))` 等价。

In [25]:
out.backward()

输出导数` d(out)/dx`

In [26]:
print(x.grad)

tensor([[3., 3.],
        [3., 3.]])


数学上，若有向量函数$\vec{y}=f(\vec{x})$，那么 $\vec{y}$ 关于 $\vec{x}$ 的梯度就是一个雅可比矩阵：
$$
J=\left(\begin{array}{ccc}\frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{1}}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_{m}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}}\end{array}\right)
$$
而 `torch.autograd` 这个包就是用来计算一些雅可比矩阵的乘积的。例如，如果 $v$ 是一个标量函数 $l = g(\vec{y})$ 的梯度：
$$
v=\left(\begin{array}{lll}\frac{\partial l}{\partial y_{1}} & \cdots & \frac{\partial l}{\partial y_{m}}\end{array}\right)
$$
由链式法则，我们可以得到：
$$
v J=\left(\begin{array}{lll}\frac{\partial l}{\partial y_{1}} & \cdots & \frac{\partial l}{\partial y_{m}}\end{array}\right)\left(\begin{array}{ccc}\frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{1}}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_{m}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}}\end{array}\right)=\left(\begin{array}{lll}\frac{\partial l}{\partial x_{1}} & \cdots & \frac{\partial l}{\partial x_{n}}\end{array}\right)
$$


注意：grad在反向传播过程中是累加的(accumulated)，这意味着每一次运行反向传播，梯度都会累加之前的梯度，所以一般在反向传播之前需把梯度清零。

In [30]:
# 再来反向传播⼀一次，注意grad是累加的 2 
out2 = x.sum()
out2.backward()
print(x.grad)

out3 = x.sum()
x.grad.data.zero_()
out3.backward()
print(x.grad)

tensor([[4., 4.],
        [4., 4.]])
tensor([[1., 1.],
        [1., 1.]])


现在我们来看一个雅可比向量积的例子：


In [31]:
x = torch.randn(3, requires_grad=True)
print(x)

y = x * 2
i = 0
while y.data.norm() < 1000:
    y = y * 2
    i = i + 1
print(y)
print(i)

tensor([-0.2283, -1.7334,  1.9509], requires_grad=True)
tensor([-116.8734, -887.4992,  998.8815], grad_fn=<MulBackward0>)
8


在这种情况下，`y `不再是标量。`torch.autograd` 不能直接计算完整的雅可比矩阵，但是如果我们只想要雅可比向量积，只需将这个向量作为参数传给 `backward：`


In [32]:
v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(v)

print(x.grad)

tensor([5.1200e+01, 5.1200e+02, 5.1200e-02])


也可以通过将代码块包装在` with torch.no_grad():` 中，来阻止 autograd 跟踪设置了` .requires_grad=True `的张量的历史记录。


In [33]:
print(x.requires_grad)
print((x ** 2).requires_grad)

with torch.no_grad():
    print((x ** 2).requires_grad)

True
True
False


如果我们想要修改 tensor 的数值，但是又不希望被 autograd 记录(即不会影响反向传播)， 那么我么可以对 tensor.data 进行操作。


In [34]:
x = torch.ones(1,requires_grad=True)

print(x.data) # 还是一个tensor
print(x.data.requires_grad) # 但是已经是独立于计算图之外

y = 2 * x
x.data *= 100 # 只改变了值，不会记录在计算图，所以不会影响梯度传播

y.backward()
print(x) # 更改data的值也会影响tensor的值 
print(x.grad)

tensor([1.])
False
tensor([100.], requires_grad=True)
tensor([2.])


# 并行计算简介

在利用PyTorch做深度学习的过程中，可能会遇到数据量较大无法在单块GPU上完成，或者需要提升计算速度的场景，这时就需要用到并行计算。本节让我们来简单地了解一下并行计算的基本概念和主要实现方式，具体的内容会在课程的第二部分详细介绍。

#### 2.3.1  为什么要做并行计算

我们学习PyTorch的目的就是可以编写我们自己的框架，来完成特定的任务。可以说，在深度学习时代，GPU的出现让我们可以训练的更快，更好。所以，如何充分利用GPU的性能来提高我们模型学习的效果，这一技能是我们必须要学习的。这一节，我们主要讲的就是PyTorch的并行计算。PyTorch可以在编写完模型之后，让多个GPU来参与训练。

#### 2.3.2  CUDA是个啥

`CUDA`是我们使用GPU的提供商——NVIDIA提供的GPU并行计算框架。对于GPU本身的编程，使用的是`CUDA`语言来实现的。但是，在我们使用PyTorch编写深度学习代码时，使用的`CUDA`又是另一个意思。在PyTorch使用 `CUDA`表示要开始要求我们的模型或者数据开始使用GPU了。

在编写程序中，当我们使用了 `cuda()` 时，其功能是让我们的模型或者数据迁移到GPU当中，通过GPU开始计算。

#### 2.3.3  做并行的方法：

- **网络结构分布到不同的设备中(Network partitioning)**

在刚开始做模型并行的时候，这个方案使用的比较多。其中主要的思路是，将一个模型的各个部分拆分，然后将不同的部分放入到GPU来做不同任务的计算。其架构如下：

![模型并行.png](./figures/模型并行.png)

- **同一层的任务分布到不同数据中**(**Layer-wise partitioning**)

第二种方式就是，同一层的模型做一个拆分，让不同的GPU去训练同一层模型的部分任务。其架构如下：

![拆分.png](./figures/拆分.png)

这样可以保证在不同组件之间传输的问题，但是在我们需要大量的训练，同步任务加重的情况下，会出现和第一种方式一样的问题。

- **不同的数据分布到不同的设备中，执行相同的任务(Data parallelism)**

第三种方式有点不一样，它的逻辑是，我不再拆分模型，我训练的时候模型都是一整个模型。但是我将输入的数据拆分。所谓的拆分数据就是，同一个模型在不同GPU中训练一部分数据，然后再分别计算一部分数据之后，只需要将输出的数据做一个汇总，然后再反传。其架构如下：

![数据并行.png](./figures/数据并行.png)

这种方式可以解决之前模式遇到的通讯问题。

**PS:现在的主流方式是数据并行的方式(Data parallelism)**

### 代码演示部分：配合本章学习材料使用
#### 第一部分：张量运算示例

这里将演示Tensor的一些基本操作

In [35]:
#引入包
import torch

In [36]:
torch.tensor

<function _VariableFunctions.tensor>

In [37]:
# 创建tensor，用dtype指定类型。注意类型要匹配
a = torch.tensor(1.0, dtype=torch.float)
b = torch.tensor(1, dtype=torch.long)
c = torch.tensor(1.0, dtype=torch.int8)
print(a, b, c)

tensor(1.) tensor(1) tensor(1, dtype=torch.int8)


In [38]:
# 使用指定类型函数随机初始化指定大小的tensor
d = torch.FloatTensor(2,3)
e = torch.IntTensor(2)
f = torch.IntTensor([1,2,3,4])  #对于python已经定义好的数据结构可以直接转换
print(d, '\n', e, '\n', f)

tensor([[-4.1437e-19,  3.0948e-41,  0.0000e+00],
        [ 0.0000e+00,  0.0000e+00,  0.0000e+00]]) 
 tensor([-1594855312,       22085], dtype=torch.int32) 
 tensor([1, 2, 3, 4], dtype=torch.int32)


In [39]:
# tensor和numpy array之间的相互转换
import numpy as np

g = np.array([[1,2,3],[4,5,6]])
h = torch.tensor(g)
print(h)
i = torch.from_numpy(g)
print(i)
j = h.numpy()
print(j)

tensor([[1, 2, 3],
        [4, 5, 6]])
tensor([[1, 2, 3],
        [4, 5, 6]])
[[1 2 3]
 [4 5 6]]


In [40]:
# 常见的构造Tensor的函数
k = torch.rand(2, 3) 
l = torch.ones(2, 3)
m = torch.zeros(2, 3)
n = torch.arange(0, 10, 2)
print(k, '\n', l, '\n', m, '\n', n)

tensor([[0.4514, 0.8580, 0.0304],
        [0.0845, 0.3068, 0.7103]]) 
 tensor([[1., 1., 1.],
        [1., 1., 1.]]) 
 tensor([[0., 0., 0.],
        [0., 0., 0.]]) 
 tensor([0, 2, 4, 6, 8])


In [41]:
# 查看tensor的维度信息（两种方式）
print(k.shape)
print(k.size())

torch.Size([2, 3])
torch.Size([2, 3])


In [42]:
# tensor的运算
o = torch.add(k,l)
print(o)

tensor([[1.4514, 1.8580, 1.0304],
        [1.0845, 1.3068, 1.7103]])


In [43]:
# tensor的索引方式与numpy类似
print(o[:,1])
print(o[0,:])

tensor([1.8580, 1.3068])
tensor([1.4514, 1.8580, 1.0304])


In [44]:
# 改变tensor形状的神器：view
print(o.view((3,2)))
print(o.view(-1,2))

tensor([[1.4514, 1.8580],
        [1.0304, 1.0845],
        [1.3068, 1.7103]])
tensor([[1.4514, 1.8580],
        [1.0304, 1.0845],
        [1.3068, 1.7103]])


In [45]:
# tensor的广播机制（使用时要注意这个特性）
p = torch.arange(1, 3).view(1, 2)
print(p)
q = torch.arange(1, 4).view(3, 1)
print(q)
print(p + q)

tensor([[1, 2]])
tensor([[1],
        [2],
        [3]])
tensor([[2, 3],
        [3, 4],
        [4, 5]])


In [46]:
# 扩展&压缩tensor的维度：squeeze
print(o)
r = o.unsqueeze(1)
print(r)
print(r.shape)

tensor([[1.4514, 1.8580, 1.0304],
        [1.0845, 1.3068, 1.7103]])
tensor([[[1.4514, 1.8580, 1.0304]],

        [[1.0845, 1.3068, 1.7103]]])
torch.Size([2, 1, 3])


In [47]:
s = r.squeeze(0)
print(s)
print(s.shape)

tensor([[[1.4514, 1.8580, 1.0304]],

        [[1.0845, 1.3068, 1.7103]]])
torch.Size([2, 1, 3])


In [48]:
t = r.squeeze(1)
print(t)
print(t.shape)

tensor([[1.4514, 1.8580, 1.0304],
        [1.0845, 1.3068, 1.7103]])
torch.Size([2, 3])


#### 第二部分：自动求导示例
这里将通过一个简单的函数  $y=x_1+2*x_2$  来说明PyTorch自动求导的过程

In [49]:
import torch

x1 = torch.tensor(1.0, requires_grad=True)
x2 = torch.tensor(2.0, requires_grad=True)
y = x1 + 2*x2
print(y)

tensor(5., grad_fn=<AddBackward0>)


In [50]:
# 首先查看每个变量是否需要求导
print(x1.requires_grad)
print(x2.requires_grad)
print(y.requires_grad)

True
True
True


In [54]:
# 查看每个变量导数大小。此时因为还没有反向传播，因此导数都不存在
print(x1.grad.data)
print(x2.grad.data)
print(y.grad.data)

AttributeError: 'NoneType' object has no attribute 'data'

In [55]:
x1

tensor(1., requires_grad=True)

In [56]:
## 反向传播后看导数大小
y = x1 + 2*x2
y.backward()
print(x1.grad.data)
print(x2.grad.data)

tensor(1.)
tensor(2.)


In [57]:
# 导数是会累积的，重复运行相同命令，grad会增加
y = x1 + 2*x2
y.backward()
print(x1.grad.data)
print(x2.grad.data)

tensor(2.)
tensor(4.)


所以每次计算前需要清除当前导数值避免累积，这一功能可以通过pytorch的optimizer实现。后续会讲到

In [58]:
# 尝试，如果不允许求导，会出现什么情况？
x1 = torch.tensor(1.0, requires_grad=False)
x2 = torch.tensor(2.0, requires_grad=False)
y = x1 + 2*x2
y.backward()

RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn