## Basics

载入基本模块

In [1]:
import torch
import numpy as np

#### torch 基本处理单元

返回一个 5x4 的矩阵

In [2]:
torch.Tensor(5, 4)

tensor(1.00000e-29 *
       [[ 0.0000,  2.5244,  0.0000,  2.5244],
        [ 0.0000,  0.0000,  0.0000,  0.0000],
        [ 0.0000,  0.0000,  0.0000,  0.0000],
        [ 0.0000,  0.0000,  0.0000,  0.0000],
        [ 0.0000,  0.0000,  0.0000,  0.0000]])

返回一个 5x4 的随机矩阵，随机初始化为 0-1 的均匀分布

In [3]:
a = torch.rand(5, 4)
print(a)

tensor([[ 0.7773,  0.6592,  0.5887,  0.0207],
        [ 0.5215,  0.2389,  0.2157,  0.0721],
        [ 0.9549,  0.1544,  0.7500,  0.0738],
        [ 0.4069,  0.5866,  0.2458,  0.8653],
        [ 0.6489,  0.2139,  0.6559,  0.6520]])


获取一个矩阵的 size

In [4]:
a.size()

torch.Size([5, 4])

返回一个值全为 1 的 5x4 矩阵

In [5]:
np.ones((5, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

与 numpy 中数据类型的互相转换

In [6]:
# convert data type between numpy and torch.Tensor
a = torch.rand(5, 4)
b = a.numpy()
print(b)

[[0.46026158 0.9610598  0.07854164 0.89590627]
 [0.06760716 0.2976725  0.6900923  0.16483873]
 [0.3443427  0.62159437 0.3240525  0.10489565]
 [0.1713633  0.3291278  0.63939697 0.15848893]
 [0.13316464 0.11153817 0.82105887 0.14616597]]


In [7]:
a = np.array([[3, 4], [3, 6]])
b = torch.from_numpy(a)
print(b)

tensor([[ 3,  4],
        [ 3,  6]])


#### 基本运算与 numpy 类似

In [8]:
x = torch.rand(5, 4)
y = torch.rand(5, 4)
c = 3

In [9]:
print(c * x)

tensor([[ 0.7746,  0.4411,  2.8212,  2.3758],
        [ 0.0402,  1.8296,  2.3169,  2.4842],
        [ 1.6931,  1.9245,  0.2735,  1.9258],
        [ 1.5331,  2.3334,  2.8197,  1.6553],
        [ 0.3891,  0.5981,  1.7611,  2.1099]])


In [10]:
print(x * y)

tensor([[ 0.1450,  0.1347,  0.8438,  0.0408],
        [ 0.0083,  0.0170,  0.1953,  0.0555],
        [ 0.0947,  0.0455,  0.0568,  0.4868],
        [ 0.4242,  0.0387,  0.0273,  0.4446],
        [ 0.1111,  0.1273,  0.3749,  0.4593]])


In [11]:
print(x + y)

tensor([[ 0.8198,  1.0635,  1.8377,  0.8435],
        [ 0.6359,  0.6378,  1.0251,  0.8951],
        [ 0.7321,  0.7125,  0.7147,  1.4002],
        [ 1.3411,  0.8276,  0.9690,  1.3575],
        [ 0.9867,  0.8379,  1.2257,  1.3563]])


In [12]:
print(x.add(y))

tensor([[ 0.8198,  1.0635,  1.8377,  0.8435],
        [ 0.6359,  0.6378,  1.0251,  0.8951],
        [ 0.7321,  0.7125,  0.7147,  1.4002],
        [ 1.3411,  0.8276,  0.9690,  1.3575],
        [ 0.9867,  0.8379,  1.2257,  1.3563]])


x.add_() 函数可以直接改变 x 的值

In [13]:
x.add_(y)

tensor([[ 0.8198,  1.0635,  1.8377,  0.8435],
        [ 0.6359,  0.6378,  1.0251,  0.8951],
        [ 0.7321,  0.7125,  0.7147,  1.4002],
        [ 1.3411,  0.8276,  0.9690,  1.3575],
        [ 0.9867,  0.8379,  1.2257,  1.3563]])

In [14]:
print(x)

tensor([[ 0.8198,  1.0635,  1.8377,  0.8435],
        [ 0.6359,  0.6378,  1.0251,  0.8951],
        [ 0.7321,  0.7125,  0.7147,  1.4002],
        [ 1.3411,  0.8276,  0.9690,  1.3575],
        [ 0.9867,  0.8379,  1.2257,  1.3563]])


**注意**：以下复制过程与 numpy 的转换过程也仅为浅层拷贝

In [15]:
a = torch.ones(3)
print(f'At first, a is {a},')
b = a.numpy()
print(f'At first, b is {b}.')
a = a.add_(1)
print(f'Now, a is {a},')
print(f'And b is {b}.')

At first, a is tensor([ 1.,  1.,  1.]),
At first, b is [1. 1. 1.].
Now, a is tensor([ 2.,  2.,  2.]),
And b is [2. 2. 2.].


#### 将 torch.Tensor 放到 GPU 上

In [16]:
# checkout whether your machine supports GPU calculation
torch.cuda.is_available()

False

In [17]:
a = torch.rand(5, 4)
if torch.cuda.is_available():
    a = a.cuda()
print(a)

tensor([[ 0.4322,  0.3700,  0.1187,  0.9786],
        [ 0.8491,  0.7611,  0.9484,  0.1458],
        [ 0.4877,  0.3428,  0.4837,  0.2157],
        [ 0.9415,  0.2460,  0.9097,  0.0110],
        [ 0.4901,  0.0101,  0.8365,  0.1452]])


其余可用 cuda 功能的 API

In [18]:
torch.cuda.device_count()

0

In [19]:
b = torch.rand(2, 4)
if torch.cuda.is_available():
    with torch.cuda.device(1):
        print(f'Current GPU device: {torch.cuda.current_device()}')
        b = b.cuda()
print(b)

tensor([[ 0.9830,  0.7404,  0.6124,  0.9216],
        [ 0.6229,  0.4938,  0.2693,  0.7555]])


### 使用 nn.DataParallel 替代 multiprocessing

大多数涉及批量输入和多个GPU的情况应默认使用`DataParallel`来使用多个GPU。尽管有GIL的存在，单个python进程也可能使多个GPU饱和。

从0.1.9版本开始，大量的GPU(8+)可能未被充分利用。然而，这是一个已知的问题，也正在积极开发。和往常一样，测试你的用例吧。

调用`multiprocessing`来利用CUDA模型存在重要的注意事项；使用具有多处理功能的CUDA模型有重要的注意事项; 除非就是需要谨慎地满足数据处理需求，否则您的程序很可能会出现错误或未定义的行为。

### torch 的自动求导功能

torch 和大部分框架一样有着自动求导功能，

> 在0.4.0版本之前，只可以用 torch.autograd.Variable 创建可求导变量，
> 旧版本的 Variable 和 Tensor 本质上也没有什么区别，不过 Variable 会放在一个计算图里面，可以进行前向传播和反向传播以及求导
> 而在 0.4.0 版本之后，Tensor 和 Variable 合并为一个类

![1.png](http://pytorch.org/tutorials/_images/Variable.png)

我们可以通过调用 Variable 对象的 **.data** 属性计算得到原始的 Tensor 变量（现在合并后已不推荐使用），而变量的累积梯度可以通过 **.grad** 属性获得。

In [20]:
from torch.autograd import Variable

自动求导中还有一个重要的功能 function，即每个变量的 **.grad_fn** 属性，该属性记录了创造该变量的函数过程，因此用户起始创造的变量该属性为空。以下即为从 Tensor 中创造变量的示例，其中 requires_grad 表示是否计算梯度，默认值为 False

> 旧版本中除 requires_grad，还有 volatite 决定是否求导，现已经抛弃

In [21]:
x = Variable(torch.Tensor([3]), requires_grad=True)
y = Variable(torch.Tensor([5]), requires_grad=True)
print(f'Variable x\'s .grad_fn is None: {x.grad_fn}')
z = 2 * x + y + 4
print(f'Variable z\'s has .grad_fn: {z.grad_fn}')

Variable x's .grad_fn is None: None
Variable z's has .grad_fn: <AddBackward0 object at 0x10eafc5f8>


计算生成 z 的累积梯度值

In [22]:
z.backward()

最终打印关于各变量的梯度值

In [23]:
print(f'dz/dx: {x.grad}')
print(f'dz/dy: {y.grad}')

dz/dx: tensor([ 2.])
dz/dy: tensor([ 1.])


#### 新版本实现方式：

注意 tensor 的初始化中需要加上小数点。

In [24]:
x_new = torch.tensor([3.], requires_grad=True)
y_new = torch.tensor([5.], requires_grad=True)
print(f'Tensor x\'s .grad_fn is None: {x_new.grad_fn}')
z_new = 2 * x_new + y_new + 4
print(f'Tensor z\'s has .grad_fn: {z_new.grad_fn}')
z_new.backward()
print(f'dz/dx: {x_new.grad}')
print(f'dz/dy: {y_new.grad}')

Tensor x's .grad_fn is None: None
Tensor z's has .grad_fn: <AddBackward0 object at 0x10eaf9160>
dz/dx: tensor([ 2.])
dz/dy: tensor([ 1.])


### 神经网络部分

所依赖的主要是 torch.nn 和 torch.nn.functional

torch.nn 里面有着所有的神经网络的层的操作，其用来构建网络，只有执行一次网络的运算才执行一次；

torch.nn.functional 里面包含的接口函数更加复杂，可以实现更灵活的操作。

In [25]:
from torch import nn
import torch.nn.functional as F

构建网络的类框架，以下为包含一个卷积层的神经网络。

In [26]:
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        # add a convolutional layer
        self.conv1 = nn.Conv2d(1, 2, 3)
        self.conv2 = nn.Conv2d(2, 1, 4)
        # more information of various layers could be found in pytorch's manual
        
    def forward(self, x):
        # define forward propagation
        x = self.conv1(x)
        out = self.conv2(x)
        return out

实例化的网络对象可以直接打印其结构：

In [27]:
net = Net()
print(net)

Net(
  (conv1): Conv2d(1, 2, kernel_size=(3, 3), stride=(1, 1))
  (conv2): Conv2d(2, 1, kernel_size=(4, 4), stride=(1, 1))
)


In [28]:
len(list(net.parameters()))

4

In [29]:
input = torch.randn(1, 1, 10, 10)
out = net(input)
print(out)

tensor([[[[-0.0694, -0.3437, -0.1400, -0.5490, -0.7711],
          [ 0.0902, -0.0163,  0.0290, -0.1433,  0.1901],
          [-0.1620,  0.0847, -0.1452, -0.4983,  0.6122],
          [-0.1166,  0.1228, -0.1087, -0.3342, -0.1542],
          [-0.4763, -0.1675, -0.7149, -0.0606, -0.2465]]]])
