# 入门

## 张量

`Tensor` (张量）类似于 `NumPy` 的 `ndarray` ，但还可以在GPU上使用来加速计算。

In [1]:
from __future__ import print_function
import torch

In [2]:
# 常见一个没有初始化的矩阵:
x = torch.empty(5, 3)
print(x)

tensor([[1.0194e-38, 1.0469e-38, 1.0010e-38],
        [8.9081e-39, 8.9082e-39, 5.9694e-39],
        [8.9082e-39, 1.0194e-38, 9.1837e-39],
        [4.6837e-39, 9.9184e-39, 9.0000e-39],
        [1.0561e-38, 1.0653e-38, 4.1327e-39]])


In [3]:
# 创建一个随机初始化矩阵：
x = torch.rand(5, 3)
print(x)

tensor([[0.6333, 0.1238, 0.3310],
        [0.6725, 0.4348, 0.9720],
        [0.9977, 0.1665, 0.5009],
        [0.1138, 0.9547, 0.3196],
        [0.9054, 0.9591, 0.4052]])


In [4]:
# 构造一个填满 0 且数据类型为 long 的矩阵:
x = torch.zeros(5, 3, dtype=torch.long)
print(x)

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


In [5]:
# 直接从数据构造张量：
x = torch.tensor([5.5, 3])
print(x)

tensor([5.5000, 3.0000])


In [6]:
# 或者根据已有的tensor建立新的tensor。除非用户提供新的值，否则这些方法将重用输入张量的属性，例如dtype等：
x = x.new_ones(5, 3, dtype=torch.double)  # new_* methods take in sizes
print(x)

x = torch.randn_like(x, dtype=torch.float)  # 重载 dtype! but size is same
print(x)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[ 0.0709,  0.0649,  1.1349],
        [-1.5819,  0.7733,  1.0178],
        [ 0.4519, -0.5855, -0.5695],
        [-0.1797,  0.0508,  1.0114],
        [ 0.6204,  0.8975,  0.7071]])


In [7]:
# 获取张量的形状:
print(x.size())

torch.Size([5, 3])


In [8]:
# torch.Size 本质上还是 tuple ，所以支持tuple的一切操作。
print(x.size()[0])
print(x.size()[1])

5
3


## 运算

一种运算有多种语法。在下面的示例中，我们将研究加法运算。

In [9]:
x = torch.ones(5, 3)
y = torch.rand(5, 3)  # `torch.rand()` 0-1随机浮点数； randn() 是正态分布随机数

# 加法：形式一
print(x + y)

# 加法：形式二
print(torch.add(x, y))

tensor([[1.2950, 1.0442, 1.7022],
        [1.5774, 1.5522, 1.5736],
        [1.3308, 1.2064, 1.8987],
        [1.3453, 1.4068, 1.8807],
        [1.6129, 1.5709, 1.2858]])
tensor([[1.2950, 1.0442, 1.7022],
        [1.5774, 1.5522, 1.5736],
        [1.3308, 1.2064, 1.8987],
        [1.3453, 1.4068, 1.8807],
        [1.6129, 1.5709, 1.2858]])


In [10]:
# 加法：给定一个输出张量作为参数
result = torch.empty(5, 3)
torch.add(x, y, out=result)
print(result)

tensor([[1.2950, 1.0442, 1.7022],
        [1.5774, 1.5522, 1.5736],
        [1.3308, 1.2064, 1.8987],
        [1.3453, 1.4068, 1.8807],
        [1.6129, 1.5709, 1.2858]])


In [11]:
# 加法：原位/原地操作(in-place）
# adds x to y
y.add_(x)
print(y)
# 注意：任何一个in-place改变张量的操作后面都固定一个 _ 。例如 x.copy_(y) 、 x.t_() 将更改x

tensor([[1.2950, 1.0442, 1.7022],
        [1.5774, 1.5522, 1.5736],
        [1.3308, 1.2064, 1.8987],
        [1.3453, 1.4068, 1.8807],
        [1.6129, 1.5709, 1.2858]])


In [12]:
# 也可以使用像标准的NumPy一样的各种索引操作：
print(y[:, 1])

tensor([1.0442, 1.5522, 1.2064, 1.4068, 1.5709])


In [13]:
# 改变形状：如果想改变形状，可以使用 torch.view
x = torch.randn(4, 4)
y = x.view(16)
z = x.view(-1, 8) # the size -1 is inferred from other dimensions
print(x.size(), y.size(), z.size())

torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])


In [14]:
# 如果是仅包含一个元素的tensor，可以使用 .item() 来得到对应的python数值
x = torch.randn(1)
print(x)
print(x.item())

tensor([0.4001])
0.4001099169254303


## 桥接 NumPy

将一个Torch张量转换为一个NumPy数组是轻而易举的事情，反之亦然。

Torch张量和NumPy数组将共享它们的底层内存位置，因此当一个改变时,另外也会改变。

In [15]:
# 将torch的Tensor转化为NumPy数组
a = torch.ones(5)
print(a)

tensor([1., 1., 1., 1., 1.])


In [16]:
b = a.numpy()
print(b)

[1. 1. 1. 1. 1.]


In [17]:
# 看NumPy数组是如何改变里面的值的：
a.add_(1)
print(a)
print(b)

tensor([2., 2., 2., 2., 2.])
[2. 2. 2. 2. 2.]


In [18]:
# 将NumPy数组转化为Torch张量
import numpy as np
a = np.ones(5)
b = torch.from_numpy(a)
np.add(a, 1, out=a)
print(a)
print(b)

[2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2.], dtype=torch.float64)


CPU上的所有张量(CharTensor除外)都支持与Numpy的相互转换。

## CUDA上的张量

张量可以使用 `.to` 方法移动到任何设备(device）上：

```python
# 当GPU可用时,我们可以运行以下代码
# 我们将使用`torch.device`来将tensor移入和移出GPU
if torch.cuda.is_available():
    device = torch.device("cuda") # a CUDA device object
    y = torch.ones_like(x, device=device) # 直接在GPU上创建tensor
    x = x.to(device) # 或者使用`.to("cuda")`方法
    z = x + y
    print(z)
    print(z.to("cpu", torch.double)) # `.to`也能在移动时改变dtype
```

输出

```python
tensor([1.0445], device='cuda:0')
tensor([1.0445], dtype=torch.float64)
```

## Autograd：自动求导

PyTorch中，所有神经网络的核心是 `autograd` 包。

先简单介绍一下这个包，然后训练我们的第一个的神经网络。

`autograd` 包为张量上的所有操作提供了自动求导机制。它是一个在运行时定义(define-byrun）的框架，这意味着反向传播是根据代码如何运行来决定的，并且每次迭代可以是不同的.

`torch.Tensor` 是这个包的核心类。如果设置它的属性 `.requires_grad` 为 True ，那么它将会追踪对于该张量的所有操作。

当完成计算后可以通过调用 `.backward()` ，来自动计算所有的梯度。这个张量的所有梯度将会自动累加到 `.grad` 属性.



要阻止一个张量被跟踪历史，可以调用 `.detach()` 方法将其与计算历史分离，并阻止它未来的计算记录被跟踪。
 

为了防止跟踪历史记录(和使用内存），可以将代码块包装在 `with torch.no_grad():` 中。在评估模型时特别有用，因为模型可能具有 `requires_grad = True` 的可训练的参数，但是我们不需要在此过程中对他们进行梯度计算。


还有一个类对于autograd的实现非常重要： `Function` 。

Tensor 和 Function 互相连接生成了一个无圈图(acyclic graph)，它编码了完整的计算历史。

每个张量都有一个 `.grad_fn` 属性，该属性引用了创建 Tensor 自身的 `Function` (除非这个张量是用户手动创建的，即这个张量的 `grad_fn` 是 None )。

如果需要计算导数，可以在 Tensor 上调用 `.backward()` 。如果 Tensor 是一个标量(即它包含一个元素的数据），则不需要为 `backward()` 指定任何参数，但是如果它有更多的元素，则需要指定一个 `gradient` 参数，该参数是形状匹配的张量。

In [19]:
# 创建一个张量并设置 requires_grad=True 用来追踪其计算历史
x = torch.ones(2, 2, requires_grad=True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


In [20]:
# 对这个张量做一次运算：
y = x + 2
print(y)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)


In [21]:
# y 是计算的结果，所以它有 grad_fn 属性。
print(y.grad_fn)

<AddBackward0 object at 0x0000025114B7EC10>


In [22]:
# 对y进行更多操作
z = y * y * 3
out = z.mean()

print(z, out)

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward0>)


In [23]:
# .requires_grad_(...) 原地改变了现有张量的 requires_grad 标志。如果没有指定的话，默认输入的这个标志是 False 。
a = torch.randn(2, 2)
a = ((a * 3) / (a - 1))
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b = (a * a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x0000025114B7E9D0>


In [24]:
# 现在开始进行反向传播，因为 out 是一个标量，因此 out.backward() 和out.backward(torch.tensor(1.)) 等价。
x = torch.ones(2, 2, requires_grad=True)
y = x + 2
z = y * y * 3
out = z.mean()
out.backward()  
print(x.grad)  # out.backward()

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


让我们来调用 out 张量 “o” 。

就可以得到：

$ o = \frac{1}{4}\sum_i z_i $

$ z_i = 3(x_i+2)^2 $

$ z_i\bigr\rvert{x_{i=1}} = 27 $ 

因此, 

$ \frac{\partial o}{\partial x_i} = \frac{3}{2}(x_i+2) $

因而,

$ \frac{\partial o}{\partial x_i}\bigr\rvert {x_{i=1}} = \frac{9}{2} = 4.5 $。

数学上，若有向量值函数 $\vec{y}=f(\vec{x})$ ，那么 $\vec{y}$ 相对于 $\vec{x}$ 的梯度是一个雅可比矩阵：

$ J=\left(\begin{array}{ccc} \frac{\partial y{1}}{\partial x{1}} & \cdots & \frac{\partial y{m}}{\partial x{1}}\\ 
\vdots & \ddots & \vdots\\
\frac{\partial y{1}}{\partial x{n}} & \cdots & \frac{\partial y{m}}
{\partial x{n}} \end{array}\right) $

通常来说， `torch.autograd` 是计算雅可比向量积的一个“引擎”。

也就是说，给定任意向量：$ v=\left(\begin{array}{cccc} v{1} & v{2} & \cdots & v{m}\end{array}\right)^{T} $

计算乘积   $v^{T}\cdot J$

如果 v 恰好是一个标量函数 $l=g\left(\vec{y}\right)$ 的导数，即 $v=\left(\begin{array}{ccc}\frac{\partial l}{\partial y {1}} & \cdots & \frac{\partial l}{\partial y_{m}}\end{array}\right)^{T}$，

那么根据链式法则，雅可比向量积应该是 $l$ 对 $\vec{x} $ 的导数：

$J^{T}\cdot v=\left(\begin{array}{ccc} \frac{\partial y{1}}{\partial x{1}} &
\cdots & \frac{\partial y{m}}{\partial x{1}}\\ \vdots & \ddots & \vdots\\
\frac{\partial y{1}}{\partial x{n}} & \cdots & \frac{\partial y{m}}
{\partial x{n}} \end{array}\right)\left(\begin{array}{c} \frac{\partial l}
{\partial y{1}}\\ \vdots\\ \frac{\partial l}{\partial y{m}}
\end{array}\right)=\left(\begin{array}{c} \frac{\partial l}{\partial x{1}}\\
\vdots\\ \frac{\partial l}{\partial x{n}} \end{array}\right)$

(注意：行向量的 $v^{T}\cdot J$ 也可以被视作列向量的 $J^{T}\cdot v$ )

雅可比向量积的这一特性使得将外部梯度输入到具有非标量输出的模型中变得非常方便。

In [25]:
x = torch.randn(3, requires_grad=True)

y = x * 2
while y.data.norm() < 1000:
    y = y * 2

print(y)

tensor([1664.5364,  352.0489, -878.6403], grad_fn=<MulBackward0>)


在这种情况下， `y` 不再是标量。 `torch.autograd` 不能直接计算完整的雅可比矩阵，但是如果我们只想要雅可比向量积，只需将这个向量作为参数传给 `backward` ：

In [26]:
v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(v)

print(y)

tensor([1664.5364,  352.0489, -878.6403], grad_fn=<MulBackward0>)


In [27]:
# 也可以通过将代码块包装在 with torch.no_grad(): 中，来阻止autograd跟踪设置了.requires_grad=True 的张量的历史记录。

print(x.requires_grad)
print((x ** 2).requires_grad)

with torch.no_grad():
    print((x ** 2).requires_grad)

True
True
False


autograd 和 Function 的文档见： https://pytorch.org/docs/autograd

## 神经网络

一个神经网络的典型训练过程如下：

- 定义包含一些可学习参数(或者叫权重）的神经网络

- 在输入数据集上迭代

- 通过网络处理输入

- 计算损失(输出和正确答案的距离）

- 将梯度反向传播给网络的参数

- 更新网络的权重，一般使用一个简单的规则： `weight = weight - learning_rate *gradient`

### 定义网络

In [28]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [30]:
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        # 输入图像channel: 1; 输出channel: 6; 5x5卷积核
        self.conv1 = nn.Conv2d(1, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        
    