# 简介

PyTorch 是基于 Python 的科学计算包，主要有两大特色：

* 用于多维数组的计算，可以作为 NumPy 的替代品。PyTorch 具有 GPU 加速的优势
* 提供了许多深度学习方面的开发工具，如神经网络库、优化算法、自动微分等

# Tensor

PyTorch 中主要的计算对象是 Tensor，就如果 NumPy 中的 ndarray 一样。不过所有基于 Tensor 的计算，都在背后使用了 GPU 加速带来的性能优势。

**Tensor 创建**

In [7]:
import torch as th

x = th.tensor([[1, 2], [3, 4]])
print(x)
print(x.size())

x = th.empty(3, 5)
print(x)

x = th.zeros(3, 5)
print(x)

x = th.ones(3, 5, dtype=th.long)
print(x)

y = th.ones_like(x)
print(y)

x = th.randn(3, 5)
print(x)

y = th.randn_like(x, dtype=th.double)
print(y)

tensor([[1, 2],
        [3, 4]])
torch.Size([2, 2])
tensor([[ 2.8594, -2.8354, -1.3083, -0.4523,  0.2130],
        [ 1.0412,  1.3450,  1.8498,  1.5332,  1.5354],
        [ 0.6882,  1.1864, -2.0713, -0.0863, -0.0491]])
tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])
tensor([[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]])
tensor([[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]])
tensor([[ 0.4382,  3.0420, -1.5897,  0.0575,  0.3343],
        [-1.1480,  0.6118, -0.9391, -0.8428,  0.9792],
        [-0.9095, -2.0430,  1.5645,  0.9263, -0.1956]])
tensor([[ 0.4230, -0.0119, -0.6443,  0.1949, -1.0253],
        [ 1.0984, -1.4942,  0.7026,  1.2779, -0.1952],
        [-0.8727, -0.3499, -0.8838, -1.6389, -0.4629]], dtype=torch.float64)


**Tensor 运算**

In [10]:
import torch as th

x = th.rand(2, 2)
y = th.rand(2, 2)
z = th.empty(2, 2)

print(x)
print(y)

z = x + y
print(z)

z = th.add(x, y)
print(z)

th.add(x, y, out=z)
print(z)

y.add_(x)  # add x to y in-place
print(y)



tensor([[0.7873, 0.4587],
        [0.1525, 0.6062]])
tensor([[0.5259, 0.3414],
        [0.8885, 0.9400]])
tensor([[1.3132, 0.8001],
        [1.0409, 1.5462]])
tensor([[1.3132, 0.8001],
        [1.0409, 1.5462]])
tensor([[1.3132, 0.8001],
        [1.0409, 1.5462]])
tensor([[1.3132, 0.8001],
        [1.0409, 1.5462]])


**Tensor 索引**

In [15]:
import torch as th

x = th.tensor([[1, 2, 3], [4, 5, 6]])

print(x[0, 0])
print(x[0, :])
print(x[0:1, :])
print(x[0:1, 0:1])
print(x[0:1, 0:1].item())  # if the tensor just have one number, item() can return it

tensor(1)
tensor([1, 2, 3])
tensor([[1, 2, 3]])
tensor([[1]])
1


**Tensor 重塑**

In [31]:
import torch

print("change shape")
x = torch.randn(4, 4)
y = x.view(-1, 8)  # the size -1 is inferred from other dimensions
print(x.size(), y.size())

print("add new axis")
y = x.view(-1, 4, 4)
z = x.view(1, 4, 4)
print(x.size(), y.size(), z.size())
a = x.unsqueeze(0)
b = x.unsqueeze(1)
print(x.size(), a.size(), b.size())
a = x[None]
b = x[:, None]
print(x.size(), a.size(), b.size())

print("remove axis")
y = x.view(16)
z = x[:,None]
a = z.squeeze()  # remove all the dimensions with size 1, removed
b = z.squeeze(1)  # remove 1-dim if its size is 1, removed
c = z.squeeze(0)  # remove 0-dim if its size is 1, cannot remove
print(x.size(), y.size(), z.size(), a.size(), b.size(), c.size())

change shape
torch.Size([4, 4]) torch.Size([2, 8])
add new axis
torch.Size([4, 4]) torch.Size([1, 4, 4]) torch.Size([1, 4, 4])
torch.Size([4, 4]) torch.Size([1, 4, 4]) torch.Size([4, 1, 4])
torch.Size([4, 4]) torch.Size([1, 4, 4]) torch.Size([4, 1, 4])
remove axis
torch.Size([4, 4]) torch.Size([16]) torch.Size([4, 1, 4]) torch.Size([4, 4]) torch.Size([4, 4]) torch.Size([4, 1, 4])


**处理 NumPy 数组**

The Torch Tensor and NumPy array will share their underlying memory locations, and changing one will change the other.

In [26]:
import numpy
import torch

print("Torch Tensor to NumPy Array")

a = torch.ones(3)
b = a.numpy()
print(a, b)

a.add_(1)  # change a, will change b
print(b)

print("NumPy Array to Torch Tensor")
c = numpy.ones(3)
d = torch.from_numpy(c)
print(c, d)

numpy.add(c, 1, out=c)  # change c, will change d
print(d)

Torch Tensor to NumPy Array
tensor([1., 1., 1.]) [1. 1. 1.]
[2. 2. 2.]
NumPy Array to Torch Tensor
[1. 1. 1.] tensor([1., 1., 1.], dtype=torch.float64)
tensor([2., 2., 2.], dtype=torch.float64)


**Tensor 和 CUDA**

Torch 中的 Tensor 支持利用 CUDA 进行计算，可以自由的在 CUDA 和 CPU 计算设备之间进行切换。

In [29]:
# let us run this cell only if CUDA is available
# We will use ``torch.device`` objects to move tensors in and out of GPU
if torch.cuda.is_available():
    device = torch.device("cuda")          # a CUDA device object
    y = torch.ones_like(x, device=device)  # directly create a tensor on GPU
    x = x.to(device)                       # or just use strings ``.to("cuda")``
    z = x + y
    print(z)
    print(z.to("cpu", torch.double))       # ``.to`` can also change dtype together!
else:
    print("CUDA isn't available!")

tensor([[-0.2647,  2.5366,  1.7845,  0.8997],
        [ 2.3217,  1.9958,  1.0311,  0.3865],
        [ 0.5902, -0.3435,  1.2320,  0.3471],
        [ 1.7282,  0.7726,  1.7006,  1.2985]], device='cuda:0')
tensor([[-0.2647,  2.5366,  1.7845,  0.8997],
        [ 2.3217,  1.9958,  1.0311,  0.3865],
        [ 0.5902, -0.3435,  1.2320,  0.3471],
        [ 1.7282,  0.7726,  1.7006,  1.2985]], dtype=torch.float64)


# AutoDiff

自动微分技术是现代深度学习框架的一大特色，MXNet,TensorFlow 等框架都提供了自动微分工具，使得梯度的求解对于机器学习开发者变得透明。同样 Torch 也支持自动微分，通过子库 `autograd` 提供的自动微分技术，使得一切基于 Tensor 的运算操作都可以进行自动微分。也即在开发神经网络模型时，只要定义了模型结构，就也意味着定义了梯度求解方法，后向传播计算会自动进行。

Torch 中自动微分的实现是通过记录追踪计算对象 Tensor 和计算操作 Function 对象来实现的，Tensor 对象通过属性 `grad_fn` 来引用生成它计算操作 Function 对象，Tensor 和 Function 对象相互连接构成一个计算图，代表了模型中完整的计算历史过程，利用该计算历史即可实现自动微分。

* 声明某个 Tensor 上的计算操作要被记录：

In [41]:
x = torch.ones(2, 2, requires_grad=True)
print(x)

y = torch.ones(2, 2)
print(y)
y.requires_grad_(True)
print(y)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
tensor([[1., 1.],
        [1., 1.]])
tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


* Tensor 引用生成它的 Function 对象：

In [40]:
x = torch.ones(5, requires_grad=True)
y = x + 1
z = y.mean()

print(z.grad_fn, y.grad_fn, x.grad_fn)

<MeanBackward1 object at 0x0000000008D01F28> <AddBackward object at 0x0000000008D01B38> None


* 作用于某个 Tensor 上当前计算操作所对应的梯度：

In [45]:
x = torch.randn(3, requires_grad=True)
y = x * 2
while y.data.norm() < 1000:
    y = y * 2

print(y)

gradients = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(gradients)  # 参数 gradients 的 shape 应该跟 y 保持一致

print(x.grad)

tensor([-972.2409, -720.7725, -379.6190], grad_fn=<MulBackward>)
tensor([ 102.4000, 1024.0000,    0.1024])


* 停止记录将来作用于某个 Tensor 上的计算操作：

In [47]:
x = torch.ones(5, requires_grad=True)
x.detach()
print(x.requires_grad)

True


* 停止记录代码块中的所有 Tensor 的计算操作：

In [46]:
x = torch.ones(5, requires_grad=True)

with torch.no_grad():
    print(x.requires_grad)

True


# Neural Network

Torch 提供了子库 `nn` 可以用来快速构建神经网络模型，并且所有运算操作都是基于自动微分技术的。



## 神经网络实例

![](mnist.png)

以上是一个用来进行手写数字识别的卷积神经网络（CNN）结构：输入图片是尺寸为 32x32 的单通道图片；卷积层 C1 有 6 个 28x28 的特征图（也即感知域大小为 5x5，移动步长为 1）；子采样层 S2 有 6 个 14x14 的子图（即子采样区域大小为 2x2）。卷积层 C3 的输入是大小为 14x14 的子采样图且通道为 6，该层有 16 个 10x10 的特征图（也即感知域大小为 5x5，移动步长为 1）；子采样层 S4 有 16 个 5x5 的子图（即子采样区域大小为 2x2）；接下来的全连接层 C5 含有 120 个隐单元；全连接层 F6 含有 84 个隐单元；输出层含有 10 个神经元（跟 10 个阿拉伯数字相对应）。

Torch 对该 CNN 建模如下：



In [14]:
import torch

x = torch.randn(2,3)
print(x)

print(x.unsqueeze(0))
print(x.data)
print(torch.max(x.data, 0))
print(torch.max(x.data, 1))

print(x==x)

tensor([[ 0.0677, -1.0059, -0.1112],
        [ 0.9542,  1.0518,  0.4728]])
tensor([[[ 0.0677, -1.0059, -0.1112],
         [ 0.9542,  1.0518,  0.4728]]])
tensor([[ 0.0677, -1.0059, -0.1112],
        [ 0.9542,  1.0518,  0.4728]])
(tensor([0.9542, 1.0518, 0.4728]), tensor([1, 1, 1]))
(tensor([0.0677, 1.0518]), tensor([0, 1]))
tensor([[1, 1, 1],
        [1, 1, 1]], dtype=torch.uint8)
