In [4]:
# 5.4 选择合适的激活函数
import torch
from torch import nn

m = nn.Sigmoid()
input = torch.randn(2)
output = m(input)
output

tensor([0.3993, 0.6961])

In [6]:
# 5.5 选择合适的损失函数
# 均方误差损失
import torch
import torch.nn as nn
import torch.nn.functional as F
torch.manual_seed(10)
loss = nn.MSELoss(reduction='mean')
input = torch.randn(1,2, requires_grad=True)
print(input)
target = torch.randn(1,2)
print(target)
output = loss(input,target)
print(output)
output.backward()

tensor([[-0.6014, -1.0122]], requires_grad=True)
tensor([[-0.3023, -1.2277]])
tensor(0.0680, grad_fn=<MseLossBackward>)


In [9]:
# 交叉熵损失
import torch
import torch.nn as nn
torch.manual_seed(10)
loss = nn.CrossEntropyLoss()
# 假设类别数目为5
input = torch.randn(3,5,requires_grad=True)
# 每个样本对应的类别索引，其值范围为[0,4]
target = torch.empty(3,dtype=torch.long).random_(5)
output = loss(input, target)
output.backward()
output

tensor(1.4795, grad_fn=<NllLossBackward>)

In [None]:
# 5.7 GPU加速
# 把数据从内存转移到GPU，一般针对张量（我们需要的数据）和模型。
# 对张量（类型为FloatTensor或者是LongTensor等），一律直接使用方法.to(device)或.cuda()
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
# 或者 device = torch.device("cuda:0")
# device1 = torch.device("cuda:1")
for batch_idx, (img, label) in enumerate(train_loader):
    img = img.to(device)
    label = label.to(device)

In [None]:
# 对于模型来说，也是同样的方式，使用.to(device)或.cuda来将网络放到GPU显存
# 实例化网络
model = Net()
model.to(device) # 使用序号为0的gpu
# model.to(device1) # 使用序号为1的gpu

In [None]:
# 5.7.2 多gpu加速
# 单机多GPU主要采用了DataParallel函数，而不是DistributedParallel，
# 后者一般用于多主机多GPU，当然也可用于单机多GPU。使用多卡训练的方式有很多，
# 当然前提是我们的设备中存在两个及以上的GPU。
# 使用时直接用model传入torch.nn.DataParallel函数即可

# 对模型
net = torch.nn.DataParallel(model) # 这时候，默认所有显卡都会被使用

In [None]:
# 如果你的电脑有很多显卡，但只想利用其中一部分，如只使用编号为0、1、3、4的4个GPU
# 假设有4个gpu，id设置如下
device_ids = [0,1,2,3]
# 对数据
input_data = input_data.to(device=device_ids[0])
# 对于模型
net = torch.nn.DataParallel(model)
net.to(device)

In [None]:
# 或者
os.environ["CUDA_VISIBLE_DEVICES"] = ','.join(map(str,[0,1,2,3]))
net = torch.nn.DataParallel(model)
# 其中CUDA_VISIBLE_DEVICES表示当前可以被PyTorch程序检测到的GPU

In [None]:
# 单机多gpu的实现代码
# 1.加载数据
boston = load_boston()
X, y = (boston.data, boston.target)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
# 组合训练数据及标签
# zip() 函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表
mytest = list(zip(X_train, y_train))

In [None]:
# 2.把数据转换为批处理加载方式 批次为128，打乱数据
from torch.utils import data
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
dtype = torch.FloatTensor
train_loader = data.DataLoader(myset, batch_size=128,shuffle=True)

In [None]:
# 3.定义网络
class Net1(nn.Module):
    """
    使用sequential构建网络
    """
    def __init__(self, in_dim, n_hidden_1, n_hidden_2, out_dim):
        super(Net1, self).__init__()
        self.layer1 = torch.nn.Sequential(nn.Linear(in_dim, n_hidden_1))
        self.layer2 = torch.nn.Sequential(nn.Linear(n_hidden_1, n_hidden_2))
        self.layer3 = torch.nn.Sequential(nn.Linear(n_hideen_2, out_dim))
    
    def forward(self, x):
        x1 = F.relu(self.layer1(x))
        x1 = F.relu(self.layer2(x1))
        x2 = self.layer3(x1)
        # 显示每个gpu分配的数据大小
        print("\tIn Model: input size", x.size(), "output size", x2.size())
        return x2

In [None]:
# 4.把模型转换为多gpu并发处理格式
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
# 实例化网络
model = Net1(13,16,2,1)
if torch.cuda.device_count() > 1:
    print("Let us use", torch.cuda.device_count(), "GPUS")
    # dim = 0 [64, xxx] -> [32,...],[32,...] on 2GPUs
    model = nn.DataParallel(model)
model.to(device)

In [None]:
# 5.选择优化器及损失函数
optimizer_orig = torch.optim.Adam(model.parameters(), lr=0.01)
loss_func = torch.nn.MSELoss()

In [None]:
# 6.模型训练，并可视化损失值
from tensorboardX import SummaryWriter
writer = SummaryWriter(log_dir='logs')
for epoch in range(100):
    model.train()
    for data, label in train_loader:
        input = data.type(dtype).to(device)
        label = label.type(dtype).to(device)
        output = loss_func(output, label)
        # 反向传播
        optimizer_orig.zero_grad()
        loss.backward()
        optimizer_orig.step()
        print("Outside: input size", input.size(), "output_size", output.size())
        writer.add_scalar('train_loss_paral', loss, epoch)

In [None]:
# 单机多GPU也可使用DistributedParallel，它多用于分布式训练，但也可以用在单机多GPU的训练，
# 配置比使用nn.DataParallel稍微麻烦一点，但是训练速度和效果更好一点。具体配置为

# 初始化使用nccl后端
torch.distributed.init_process_group(backend="nccl")
# 模型并行化
model = torch.nn.parallel.DistributedDataParallel(model)

In [None]:
# 单机运行时使用下列方法启动:
# python -m torch.distributed.launch main.py

In [None]:
# 使用GPU可以提升训练的速度，但如果使用不当，可能影响使用效率，具体使用时要注意以下几点：
#  1）GPU的数量尽量为偶数，奇数的GPU有可能会出现异常中断的情况；
#  2）GPU很快，但数据量较小时，效果可能没有单GPU好，甚至还不如CPU；
#  3）如果内存不够大，使用多GPU训练的时候可设置pin_memory为False，当然使用精度稍微低一点的数据类型有时也有效果