# PyTorch深度学习：60分钟快速入门

## PyTorch简介

PyTorch是基于Python的科学计算工具包，它的主要用户是两类：
* Numpy包的替代者，以充分利用GPU的计算能力
* 灵活快速的深度学习研究平台

## 起步

### 张量（Tensor）

张量类似于Numpy中的多维数组，只不过张量可以被放置于GPU之上来加速运算。

首先来构建一个5$\times$3的矩阵：

In [1]:
import torch
x = torch.empty(5,3)
print(x)

tensor([[-5.1467e+04,  4.5619e-41, -5.1467e+04],
        [ 4.5619e-41,  1.3563e-19,  1.6114e-19],
        [ 1.6020e-19,  4.4721e+21,  2.7922e+20],
        [ 1.3233e-14,  9.3233e-09,  1.3556e-19],
        [ 1.8567e-01,  5.1188e-11,  1.7865e+25]])


或者是随机初始值的矩阵

In [2]:
x = torch.rand(5,3)
print(x)

tensor([[0.5529, 0.7310, 0.7782],
        [0.2677, 0.3768, 0.9290],
        [0.3853, 0.9013, 0.4142],
        [0.4760, 0.9204, 0.6978],
        [0.6413, 0.8974, 0.1804]])


构建一个类型为长整型的0张量

In [3]:
x = torch.zeros(5,3,dtype=torch.long)
x

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])

也可以直接从列表中构建tensor

In [4]:
x = torch.tensor([5.5,3])
x

tensor([5.5000, 3.0000])

或者是基于一个已有的tensor来创建tengsor，这一方法可以重用已有Tensor的很多属性，除了其中的值会重置。

In [5]:
x = x.new_ones(5,3,dtype=torch.double)
print(x)
x = torch.randn_like(x,dtype=torch.float)
print(x)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[-1.8550, -0.2077,  1.2506],
        [ 1.2306,  0.0125, -0.7148],
        [ 0.1334, -1.5001,  0.2694],
        [-1.0542,  1.6538, -0.4461],
        [-0.8446, -1.8406,  0.4108]])


而要获取一个Tensor的形状，就可以如下：

In [6]:
print(x.size())

torch.Size([5, 3])


### 运算

同一种运算往往有几种不同的语法，在下面的几个例子里，我们会看到几种不同的加法语法

语法1：

In [7]:
y = torch.rand(5,3)
print(x + y)

tensor([[-1.6288, -0.1033,  2.0006],
        [ 1.6871,  0.9012,  0.1392],
        [ 0.3607, -1.0997,  0.8233],
        [-0.5372,  2.6339, -0.4054],
        [-0.2512, -1.0381,  1.3244]])


语法2：

In [8]:
print(torch.add(x,y))

tensor([[-1.6288, -0.1033,  2.0006],
        [ 1.6871,  0.9012,  0.1392],
        [ 0.3607, -1.0997,  0.8233],
        [-0.5372,  2.6339, -0.4054],
        [-0.2512, -1.0381,  1.3244]])


语法3：（将输出变量作为参数提供给加法运算）

In [9]:
result = torch.empty(5,3)
torch.add(x,y,out=result)
print(result)

tensor([[-1.6288, -0.1033,  2.0006],
        [ 1.6871,  0.9012,  0.1392],
        [ 0.3607, -1.0997,  0.8233],
        [-0.5372,  2.6339, -0.4054],
        [-0.2512, -1.0381,  1.3244]])


语法4：（原地操作）

In [10]:
y.add_(x)
print(y)

tensor([[-1.6288, -0.1033,  2.0006],
        [ 1.6871,  0.9012,  0.1392],
        [ 0.3607, -1.0997,  0.8233],
        [-0.5372,  2.6339, -0.4054],
        [-0.2512, -1.0381,  1.3244]])


> 所有的原地变换操作都有一个后缀`_`，比如`x.copy_(y)`,`x.t_()`都会对`x`进行原地变换

Tensor的索引操作和Numpy的索引操作完全相同

In [11]:
print(x[:,1])

tensor([-0.2077,  0.0125, -1.5001,  1.6538, -1.8406])


Tensor的变形操作通过view方法来实现

In [12]:
x = torch.randn(4,4)
y = x.view(16)
z = x.view(-1,8)
print(x.size(),y.size(),z.size())

torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])


如果Tensor中只有一个数字，那么可以通过item()方法来获取对应的普通数值：

In [13]:
x = torch.randn(1)
print(x)
print(x.item())

tensor([-0.3093])
-0.3092759847640991


### 与Numpy的交互

将Tensor转换成一个Numpy，或者反向操作都是比较简单的。

In [14]:
a = torch.ones(5)
print(a)
b = a.numpy()
print(b)

tensor([1., 1., 1., 1., 1.])
[1. 1. 1. 1. 1.]


如果Tensor的值改变之后，那么对应的Numpy的值也发生了改变：

In [15]:
a.add_(1)
print(a)
print(b)

tensor([2., 2., 2., 2., 2.])
[2. 2. 2. 2. 2.]


从Numpy转换为Tensor的操作如下：

In [16]:
import numpy as np
a = np.ones(5)
b = torch.from_numpy(a)
np.add(a,1,out=a)
print(a)
print(b)

[2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2.], dtype=torch.float64)


CPU上的Tensor和Numpy之间是可以相互转换的，除非是CharTensor

### CUDA Tensor

Tensor可以通过to方法转移到任何的设备上。

In [17]:
if torch.cuda.is_available():
    device = torch.device('cuda')
    y = torch.ones_like(x,device=device)
    x = x.to(device)
    z = x + y
    print(z)
    print(z.to('cpu',torch.double))

tensor([0.6907], device='cuda:0')
tensor([0.6907], dtype=torch.float64)


## 自动求导

在PyTorch中的所有神经网络的中心是自动求导，集中在autograd模块中。第一步先来简单的看一下它，然后会训练第一个神经网络。

autograd模块提供了在Tensor上所有操作的自动求导。它是一个Define-by-Run框架，这一术语的含义为反向传播的具体形式由实际运行过程来定义，所以在每一次迭代中计算过程可能都不一样。

下面是几个简单的例子。

### Tensor

torch.Tensor是当前包的核心类。如果你将它的requires_grad属性设置为True，那么它就会追踪基于它的全部操作。当你结束了全部的计算之后，那么可以调用backward()方法，所有的梯度就会被自动执行。每一个tensor的梯度都被累加到它的grad属性当中。

为了将一个Tensor从回溯队列中移除，你可以调用它的detach()方法来将该节点从计算图中移除。

为了阻止回溯以及使用内存，你可以使用with torch.no_grad()环境来封装代码块，这一功能在对模型进行评估的时候比较有用，因为这一情况下有一些需要训练的参数，但是此刻是不需要计算梯度和改变参数的。

还有一个对于自动求导实现很重要的类————Function。

Tensor和Function结合在一起构成一个无环计算图，每一个tensor都有一个grad_fn属性来记录生成该Tensor的函数（除非这个Tensor是用户手动创建的，这种情况下grad_fn属性是None）。

如果你需要计算导数，你可以调用Tensor的backward()方法。如果Tensor是一个标量，你就不需要为backward方法指定任何参数，但如果它有很多值，那么你需要指定grdient参数，该参数是一个形状相同的Tensor。

In [18]:
import torch

x = torch.ones(2,2,requires_grad=True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


在这个Tensor上建立一次操作：

In [19]:
y = x + 2
print(y)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)


y是由一个运算计算出来的，所以它有属性grad_fn。

In [20]:
print(y.grad_fn)

<AddBackward0 object at 0x7f2b63de6748>


在其上叠加更多的计算：

In [21]:
z = y * y * 3
out = z.mean()
print(z,out)

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward1>)


`requires_grad_`方法可以原地改变一个Tensor的requires_grad属性，该属性如果没有指定的话，默认值就是False。

In [22]:
a = torch.randn(2,2)
a = ((a * 3)/(a-1))
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b = (a*a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x7f2b63de6400>


## 梯度

接下来讨论反向传播，out中只是一个标量，out.backward()等同于out.backward(torch.tensor(1))

In [23]:
out.backward()

下面的结果是out对x求导的结果：

In [24]:
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


你可以通过自动求导做很多神奇的事情，比如：

In [25]:
x = torch.randn(3,requires_grad=True)
y = x * 2
while y.data.norm() < 1000:
    y = y * 2
print(y)

gradients = torch.tensor([0.1,1.0,0.0001],dtype=torch.float)
y.backward(gradients)
print(x.grad)

tensor([-895.8793, -475.9088, -115.7635], grad_fn=<MulBackward0>)
tensor([1.0240e+02, 1.0240e+03, 1.0240e-01])


通过将代码块置于torch.no_grad()上下文管理器中就可以阻断对该变量进行自动求导：

In [26]:
print(x.requires_grad)
print((x**2).requires_grad)

with torch.no_grad():
    print((x ** 2).requires_grad)

True
True
False


## 神经网络

神经网络可以通过使用torch.nn模块进行构建。

在之前的章节，大致讲解了autograd模块，nn模块依赖于autograd模块来定义模型并在其上定义微分。一个nn.Module类的对象包括层的概念，其中的forward方法调用之后就可以产生output。

比如，下图所示的是对数字进行识别的神经网络：
![字母识别神经网络架构](./jpgs/jupyter_1.png)

上图是一个简单的前馈型网络，它读取输入，然后在各个层级之间进行传递计算，最终给出输出。

一个神经网络的典型训练过程如下：
1. 定义带有未知的可调整参数的神经网络
2. 在输入数据集上进行迭代
3. 输入数据点在整个网络上进行传递
4. 计算损失函数
5. 向整个网络后向传递梯度
6. 根据更新法则调整各个权重参数，最简单的形式就是：weight:=weight - learning_rate * gradient

### 定义一个神经网络

In [27]:
import torch
import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
    
    def __init__(self):
        super(Net,self).__init__()
        self.conv1 = nn.Conv2d(1,6,5)
        self.conv2 = nn.Conv2d(6,16,5)
        self.fc1 = nn.Linear(16 * 5 * 5,120)
        self.fc2 = nn.Linear(120,84)
        self.fc3 = nn.Linear(84,10)
        
    def forward(self,x):
        x = F.max_pool2d(F.relu(self.conv1(x)),(2,2))
        x = F.max_pool2d(F.relu(self.conv2(x)),2)
        x = x.view(-1,self.num_flat_features(x))
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x
    
    def num_flat_features(self,x):
        size = x.size()[1:]
        num_features = 1
        for s in size:
            num_features *= s
        return num_features
    
net = Net()
print(net)

Net(
  (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=400, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)


这里你只需要定义前向函数，而相应的后向函数由自动求导机制自动导出，你可以在forward方法中使用任何的Tensor运算。

模型中的可学习参数由net.parameters()返回

In [28]:
params = list(net.parameters())
print(len(params))
print(params[0].size())

10
torch.Size([6, 1, 5, 5])


接下来随机产生一个32$\times$32的输入矩阵。由于LeNet的期望输入是23$\times$32所以，在MNIST数据集上应用该模型的话，需要将图片的尺寸调整到该尺寸上。

In [29]:
inputMatrix = torch.randn(1,1,32,32)
out = net(inputMatrix)
print(out)

tensor([[ 0.0042, -0.1137, -0.0714, -0.0958,  0.1526,  0.1348,  0.1516, -0.0323,
          0.0298,  0.0605]], grad_fn=<AddmmBackward>)


接下来需要清空所有参数的梯度缓存，并将这个out值附加上随机的误差权重反向传播：

In [30]:
net.zero_grad()
out.backward(torch.randn(1,10))

### 损失函数

一个损失函数需要读取到每一个input数据点的（output,target）点对，然后计算出一个可以对输出值和实际值的差距进行估计的值。

nn模块中有很多不同类型的损失函数，一个比较简单的损失函数是nn.MSELoss，就是计算output和target之间的均方误差。

比如：

In [31]:
output = net(inputMatrix)
target = torch.randn(10)
target = target.view(1,-1)
criterion = nn.MSELoss()
loss = criterion(output,target)
print(loss)

tensor(1.4712, grad_fn=<MseLossBackward>)


然后调用loss.backward()，整个计算图就会自动求导，计算图中所有requiers_grad属性为True的Tensor的grad属性中就会被累加当前的梯度。

### 反向传播

为了向整个计算图传播误差梯度，就需要调用loss.backward()方法，不过需要提前将已经积累的梯度进行清空。接下来我们调用loss.backward()方法，然后检查第一个卷积层偏置向量的梯度在反向传播之前和之后的不同

In [32]:
net.zero_grad()

print('Conv1.bias.grad before backward:',end=' ')
print(net.conv1.bias.grad)

loss.backward()

print('Conv1.bias.grad after backward:',end=' ')
print(net.conv1.bias.grad)

Conv1.bias.grad before backward: tensor([0., 0., 0., 0., 0., 0.])
Conv1.bias.grad after backward: tensor([-0.0029, -0.0069,  0.0270,  0.0114, -0.0055,  0.0208])


以上我们就了解了如何使用损失函数。

### 更新网络参数

实际使用中最简单的参数更新法则就是随机梯度下降（SGD）：
$$
    w = w - lr * gradient
$$
上述法则可以通过以下代码来实现：

In [33]:
learning_rate = 0.01
for f in net.parameters():
    f.data.sub_(f.grad.data * learning_rate)

当然为了简化使用不同的梯度更新方法，比如SGD，Nesterov-SGD，Adam，RMSProp等等，构建了一个小的模块torch.optim。使用它也非常的简单：

In [34]:
import torch.optim as optim

optimizer = optim.SGD(net.parameters(),lr=0.01)
optimizer.zero_grad()
output = net(inputMatrix)
loss = criterion(output,target)
loss.backward()
optimizer.step()

## 训练一个分类器

到这里，你以及学习了如何定义一个神经网络，计算损失函数，以及在网络上更新权重，那么接下来的问题就是：

### 数据是什么样子的

一般来说，当你处理图片，文本，音频或者视频数据的时候，你可以使用一些标准的Python模块来解析这些数据，将它们存入到numpy模块的Array类中。然后就可以将array转换成Tensor。

* 对于图片，比较适合的包包括Pillow，OpenCV
* 对应音频，scipy和librosa包比较适合
* 对于文本，就使用原生的Python或者Cython，或者NLTK，SpaCy等等

对于图片类型的数据，pytorch特别的为其开发了一个模块，称为torchvision。该模块可以提供一个标准数据集，比如Imagenet,CIFAR10,MINST等等，的数据读取接口，并对数据做一些转换。

这提供了很大的便捷性，并且避免编写一些重复的模板代码。

在本教程中，我们会用到CIFAR10数据集。它包含以下几个类别:“飞机”，“手机”，“鸟”，“汽车”，“鹿”，“狗”，“青蛙”，“船”，“马”，“卡车”。这些图片的大小都是$3 \times 32 \times 32$，也就是RGB三个通道，长宽各是32个像素点。

![CIFA10](./jpgs/jupyter_2.png)

### 训练一个图片分类器

会按照如下步骤构建图片分类器：
1. 用torchvision模块读取和规范CIFAR10训练集和测试集
2. 定义一个卷积神经网络
3. 定义一个损失函数
4. 在训练数据上训练网络
5. 在测试数据上测试网络

#### 1. 读取和规范CIFAR10数据集

In [35]:
import torch
import torchvision
import torchvision.transforms as transforms

transform = transforms.Compose(
        [transforms.ToTensor(),
         transforms.Normalize((0.5,0.5,0.5),(0.5,0.5,0.5))
        ]
    )
trainset = torchvision.datasets.CIFAR10(root='./1/data', train=True,
                                        download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,
                                          shuffle=True, num_workers=2)
testset = torchvision.datasets.CIFAR10(root='./1/data', train=False,
                                       download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4,
                                         shuffle=False, num_workers=2)

classes = ('plane', 'car', 'bird', 'cat',
           'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

Downloading https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz to ./1/data/cifar-10-python.tar.gz
Files already downloaded and verified


#### 2. 定义一个卷积神经网络

In [36]:
import torch.nn as nn
import torch.nn.functional as F


class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x


net = Net()

#### 3. 定义损失函数

In [37]:
import torch.optim as optim

criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

#### 4. 训练网络

In [39]:
for epoch in range(2):  # loop over the dataset multiple times

    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        # get the inputs
        inputs, labels = data

        # zero the parameter gradients
        optimizer.zero_grad()

        # forward + backward + optimize
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        # print statistics
        running_loss += loss.item()
        if i % 2000 == 1999:    # print every 2000 mini-batches
            print('[%d, %5d] loss: %.3f' %
                  (epoch + 1, i + 1, running_loss / 2000))
            running_loss = 0.0

print('Finished Training')

[1,  2000] loss: 1.220
[1,  4000] loss: 1.201
[1,  6000] loss: 1.210
[1,  8000] loss: 1.187
[1, 10000] loss: 1.179
[1, 12000] loss: 1.177
[2,  2000] loss: 1.104
[2,  4000] loss: 1.107
[2,  6000] loss: 1.120
[2,  8000] loss: 1.112
[2, 10000] loss: 1.097
[2, 12000] loss: 1.085
Finished Training


#### 5. 在测试数据集上测试模型

In [60]:
outputs = net(images)
_, predicted = torch.max(outputs, 1)

print('Predicted: ', ' '.join('%5s' % classes[predicted[j]]
                              for j in range(4)))

Predicted:    cat   car   car  ship


In [61]:
correct = 0
total = 0
with torch.no_grad():
    for data in testloader:
        images, labels = data
        outputs = net(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %d %%' % (
    100 * correct / total))

Accuracy of the network on the 10000 test images: 57 %


In [62]:
class_correct = list(0. for i in range(10))
class_total = list(0. for i in range(10))
with torch.no_grad():
    for data in testloader:
        images, labels = data
        outputs = net(images)
        _, predicted = torch.max(outputs, 1)
        c = (predicted == labels).squeeze()
        for i in range(4):
            label = labels[i]
            class_correct[label] += c[i].item()
            class_total[label] += 1


for i in range(10):
    print('Accuracy of %5s : %2d %%' % (
        classes[i], 100 * class_correct[i] / class_total[i]))

Accuracy of plane : 54 %
Accuracy of   car : 79 %
Accuracy of  bird : 58 %
Accuracy of   cat : 51 %
Accuracy of  deer : 47 %
Accuracy of   dog : 32 %
Accuracy of  frog : 77 %
Accuracy of horse : 49 %
Accuracy of  ship : 76 %
Accuracy of truck : 51 %


### 在GPU上进行学习

正如可以将Tensor转移到GPU上，也可以将神经网络转移到GPU上。定义第一个显示CUDA设备为CUDA设备：

In [64]:
device = torch.device('cuda:0' if torch.cuda.is_available() else "cpu")
print(device)

cuda:0


后续部分都是假设设备是CUDA设备。这些方法可以递归应用于所有模型上，并将所有的参数和流转换成CUDA Tensor。

In [66]:
net = net.to(device)

需要记住吧所有的数据也都转移到GPU上：

In [67]:
inputs,labels = inputs.to(device), labels.to(device)

当然这在较小规模的网络上效率提升不明显

### 多GUP上进行训练

如果你想利用多个GPU更快的运行程序，那么就可以参考[Optional:Data Parallelism](https://pytorch.org/tutorials/beginner/blitz/data_parallel_tutorial.html)

在本教程中，将会学习如何使用DataParallel模块进行多GPU训练。

在Pytorch中使用GPU是很简单的，你可以通过下列语句将模型注册到GPU上：

In [70]:
device = torch.device('cuda:0')
model = net.to(device)

要注意的是，net.to(device)方法只是返回了一个在GPU上的数据模型，所以需要赋值给另一个变量以方便后续调用。

同时在多个GPU上执行程序也是很简单的，但是，PyTorch默认只使用一个GPU。可以使用DataParallel方法来使模型运行在多个GPU上。

In [72]:
model = nn.DataParallel(net)
model

DataParallel(
  (module): Net(
    (conv1): Conv2d(3, 6, kernel_size=(5, 5), stride=(1, 1))
    (pool): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
    (fc1): Linear(in_features=400, out_features=120, bias=True)
    (fc2): Linear(in_features=120, out_features=84, bias=True)
    (fc3): Linear(in_features=84, out_features=10, bias=True)
  )
)

这一句代码是这一部分教程的核心，后续详细的讨论其中的细节。

### 载入和参数

加载PyTorch模型，定义参数：

In [74]:
import torch
import torch.nn as nn
from torch.utils.data import Dataset,DataLoader

input_size=5
output_size = 2
batch_size = 30
data_size = 100

device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

### 潜变量

构建一个潜变量，你只需要实现getitem

In [79]:
class RandomDataset(Dataset):
    def __init__(self,size,length):
        self.len = length
        self.data = torch.randn(length,size)
        
    def __getitem__(self,index):
        return self.data[index]
    
    def __len__(self):
        return self.len
    
rand_loader = DataLoader(dataset=RandomDataset(input_size,data_size),batch_size=batch_size,shuffle=True)

### 简化模型

作为演示，该模型只是接受一个输入，进行一个线性变换，然后输出，但是你可以使用DataParallel方法运用在任何模型上（CNN,RNN,Capsule Net等）。我们在模型中放入一个打印语句来监视输入和输出Tensor的形状。

In [76]:
class Model(nn.Module):
    # Our model

    def __init__(self, input_size, output_size):
        super(Model, self).__init__()
        self.fc = nn.Linear(input_size, output_size)

    def forward(self, input):
        output = self.fc(input)
        print("\tIn Model: input size", input.size(),
              "output size", output.size())

        return output

### 创建模型并并行化
这一部分是该部分教程的核心。首先，需要实例化一个模型对象，并检查是否有多个GPU。如果有多个GPU，那么你可以使用nn.DataParallel方法来封装模型对象。之后可以通过model.to(device)将模型移动到GPU上面。

In [77]:
model = Model(input_size, output_size)
if torch.cuda.device_count() > 1:
  print("Let's use", torch.cuda.device_count(), "GPUs!")
  # dim = 0 [30, xxx] -> [10, ...], [10, ...], [10, ...] on 3 GPUs
  model = nn.DataParallel(model)

model.to(device)

Model(
  (fc): Linear(in_features=5, out_features=2, bias=True)
)

### 运行模型

观察模型运行过程中的输入和输出Tensor

In [80]:
for data in rand_loader:
    input = data.to(device)
    output = model(input)
    print("Outside: input size", input.size(),
          "output_size", output.size())

	In Model: input size torch.Size([30, 5]) output size torch.Size([30, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
	In Model: input size torch.Size([30, 5]) output size torch.Size([30, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
	In Model: input size torch.Size([30, 5]) output size torch.Size([30, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
	In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])


如果模型运行在2个GPU的机器上，那么结果如下：
![2个GPU的计算机运行结果](./jpgs/jupyter_3.png)