损失函数

In [None]:
"""
PyTorch中常用的损失函数
# 计算二分类任务时的交叉熵（Cross Entropy）函数
1. torch.nn.BCELoss(weight=None, size_average=None, reduce=None, reduction='mean')
# 交叉熵函数
2. torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean')
# L1损失函数,计算输出y和真实标签target之间的差值的绝对值
3. torch.nn.L1Loss(size_average=None, reduce=None, reduction='mean')
# MSE损失函数,计算输出y和真实标签target之间的差值的平方
4. torch.nn.MSELoss(size_average=None, reduce=None, reduction='mean')
# 平滑L1 (Smooth L1)损失函数， L1的平滑输出，其功能是减轻离群点带来的影响
5. torch.nn.SmoothL1Loss(size_average=None, reduce=None, reduction='mean', beta=1.0)
# 目标泊松分布的负对数似然损失，泊松分布的负对数似然损失函数
6. torch.nn.PoissonNLLLoss(log_input=True, full=False, size_average=None, eps=1e-08, reduce=None, reduction='mean')
# KL散度，也就是计算相对熵。用于连续分布的距离度量，并且对离散采用的连续输出空间分布进行回归通常很有用。
7. torch.nn.KLDivLoss(size_average=None, reduce=None, reduction='mean', log_target=False)
# MarginRankingLoss，计算两个向量之间的相似度，用于排序任务。该方法用于计算两组数据之间的差异。
8. torch.nn.MarginRankingLoss(margin=0.0, size_average=None, reduce=None, reduction='mean')
# 多标签边界损失函数，对于多标签分类问题计算损失函数
9.torch.nn.MultiLabelMarginLoss(size_average=None, reduce=None, reduction='mean')
# 二分类损失函数, 二分类的 logistic 损失。
10.torch.nn.SoftMarginLoss(size_average=None, reduce=None, reduction='mean')
# 多分类的折页损失
11. torch.nn.MultiMarginLoss(p=1, margin=1.0, weight=None, size_average=None, reduce=None, reduction='mean')
# 三元组损失,希望去anchor的距离更接近positive examples，而远离negative examples
12. torch.nn.TripletMarginLoss(margin=1.0, p=2.0, eps=1e-06, swap=False, size_average=None, reduce=None, reduction='mean')
# HingEmbeddingLoss, 对输出的embedding结果做Hing损失计算
13. torch.nn.HingeEmbeddingLoss(margin=1.0, size_average=None, reduce=None, reduction='mean')
# 余弦相似度，将余弦相似度作为一个距离的计算方式，如果两个向量的距离近，则损失函数值小，反之亦然
14. torch.nn.CosineEmbeddingLoss(margin=0.0, size_average=None, reduce=None, reduction='mean')
# CTC损失函数，用于解决时序类数据的分类
15. torch.nn.CTCLoss(blank=0, reduction='mean', zero_infinity=False)
"""

In [None]:
import torch
import torch.nn as nn
# 使用BCELoss计算二分类任务的交叉熵损失
# 注意：输入需要经过Sigmoid激活函数处理
m = nn.Sigmoid()
loss = nn.BCELoss()
input = torch.randn(3, requires_grad=True)
print("input:", input)
target = torch.empty(3).random_(2)
print("target:", target)
output = loss(m(input), target)
print("BCELoss损失函数的计算结果为:", output)
output.backward()

input: tensor([-0.2444, -0.0517,  0.6541], requires_grad=True)
target: tensor([1., 1., 1.])
output: tensor(0.6536, grad_fn=<BinaryCrossEntropyBackward0>)


In [None]:
loss = nn.CrossEntropyLoss()
input = torch.randn(3, 5, requires_grad=True)
print("input:", input)
# 注意：输入不需要经过Softmax激活函数处理
target = torch.empty(3, dtype=torch.long).random_(5)
print("target:", target)
output = loss(input, target)
print("交叉熵损失函数的计算结果为:", output)
output.backward()

input: tensor([[-0.4884,  0.1553, -0.1917,  0.8103,  0.4447],
        [ 0.7099, -1.3003,  0.6739,  0.0164,  1.5402],
        [ 1.0833, -1.1766, -2.2679,  1.7250,  0.5305]], requires_grad=True)
target: tensor([4, 0, 1])
output: tensor(2.1822, grad_fn=<NllLossBackward0>)


In [None]:
loss = nn.L1Loss()
input = torch.randn(3, 5, requires_grad=True)
print("input:", input)
target = torch.randn(3, 5)
print("target:", target)
output = loss(input, target)
print("'L1损失函数的计算结果为:", output)
output.backward()

input: tensor([[-0.5901, -0.2502,  0.1925, -2.0331, -0.9004],
        [-0.9269, -1.3695,  0.1490, -1.0374,  1.3361],
        [ 1.8951,  2.4225, -0.2311, -0.4141,  0.0485]], requires_grad=True)
target: tensor([[ 1.7490, -0.3514, -1.1049, -1.2197,  0.7158],
        [-0.4237,  0.0408, -0.9130, -1.2334, -0.2821],
        [-0.5107, -0.2122,  1.2934,  0.8623, -0.4861]])
output: tensor(1.2889, grad_fn=<MeanBackward0>)


In [7]:
loss = nn.MSELoss()
input = torch.randn(3, 5, requires_grad=True)
print("input:", input)
target = torch.randn(3, 5)
print("target:", target)
output = loss(input, target)
output.backward()
print('MSE损失函数的计算结果为',output)

input: tensor([[ 1.3246, -1.3853, -0.0266,  1.2004, -1.0868],
        [ 1.3070, -0.3433,  0.1438, -0.8947, -0.3764],
        [ 0.0554, -0.1030, -0.6538,  0.7210, -0.1273]], requires_grad=True)
target: tensor([[ 1.3370,  2.7128, -0.3621,  1.7593,  0.4754],
        [-0.7533, -0.5846,  0.1655, -0.1042, -0.5822],
        [-1.1543, -0.1282, -1.7099, -0.1448,  0.4791]])
MSE损失函数的计算结果为 tensor(1.8885, grad_fn=<MseLossBackward0>)


训练和评估

In [None]:
"""
DataLoader构建完成后，训练过程
for data, label in train_loader: # for循环读取DataLoader中的全部数据
    data, label = data.cuda(), label.cuda() # 数据放到GPU上
    optimizer.zero_grad() # 当前批次数据做训练时，应当先将优化器的梯度置零
    output = model(data) # 将数据输入到模型中，得到输出
    loss = criterion(output, label) # 计算损失函数
    loss.backward() # 反向传播计算梯度
    optimizer.step() # 更新模型参数

验证/测试的流程基本与训练过程一致，不同点在于：
需要预先设置torch.no_grad，以及将model调至eval模式
不需要将优化器的梯度置零
不需要将loss反向回传到网络
不需要更新optimizer
"""

pytorch优化器

In [None]:
"""
深度学习的目标是通过不断改变网络参数，使得参数能够对输入做各种非线性变换拟合输出
本质上是一个函数去寻找最优解，只不过这个最优解是一个矩阵，而如何快速求得这个最优解是深度学习研究的一个重点
为了使求解参数过程更快，暴力求解可实施性为0，采用BP+优化器逼近求解
优化器是根据网络反向传播的梯度信息来更新网络的参数，以起到降低loss函数计算值，使得模型输出更加接近真实标签
"""

In [None]:
"""
优化器的库torch.optim
常用的优化器有：
torch.optim.SGD
torch.optim.ASGD
torch.optim.Adadelta
torch.optim.Adagrad
torch.optim.Adam
torch.optim.AdamW
torch.optim.Adamax
torch.optim.RAdam
torch.optim.NAdam
torch.optim.SparseAdam
torch.optim.LBFGS
torch.optim.RMSprop
torch.optim.Rprop

均继承于Optimizer
class Optimizer(object):
    def __init__(self, params, defaults):        
        self.defaults = defaults
        self.state = defaultdict(dict)
        self.param_groups = []

属性：
defaults：存储的是优化器的超参数
state：参数的缓存
param_groups：管理的参数组，是一个list，其中每个元素是一个字典，顺序是params，lr，momentum，dampening，weight_decay，nesterov
方法：
zero_grad()：清空所管理参数的梯度，PyTorch的特性是张量的梯度不自动清零，因此每次反向传播后都需要清空梯度。
step()：执行一步梯度更新，参数更新
add_param_group()：添加参数组
load_state_dict() ：加载状态参数字典，可以用来进行模型的断点续训练，继续上次的参数进行训练
state_dict()：获取优化器当前状态信息字典
"""

In [None]:
import os
import torch

# 设置权重，服从正态分布  --> 2 x 2
weight = torch.randn((2, 2), requires_grad=True)
# 设置梯度为全1矩阵  --> 2 x 2
weight.grad = torch.ones((2, 2))
# 输出现有的weight和data
print("The data of weight before step:\n{}".format(weight.data))
print("The grad of weight before step:\n{}".format(weight.grad))
# 实例化优化器
optimizer = torch.optim.SGD([weight], lr=0.1, momentum=0.9)
# 进行一步操作
optimizer.step()
# 查看进行一步后的值，梯度
print("The data of weight after step:\n{}".format(weight.data))
print("The grad of weight after step:\n{}".format(weight.grad))
# 权重清零
optimizer.zero_grad()
# 检验权重是否为0
print("The grad of weight after optimizer.zero_grad():\n{}".format(weight.grad))
# 输出参数
print("optimizer.params_group is \n{}".format(optimizer.param_groups))
# 查看参数位置，optimizer和weight的位置一样
print("weight in optimizer:{}\nweight in weight:{}\n".format(id(optimizer.param_groups[0]['params'][0]), id(weight)))

# 添加参数：weight2
weight2 = torch.randn((3, 3), requires_grad=True)
optimizer.add_param_group({"params": weight2, 'lr': 0.0001, 'nesterov': True})
# 查看现有的参数
print("optimizer.param_groups is\n{}".format(optimizer.param_groups))
# 查看当前状态信息
opt_state_dict = optimizer.state_dict()
print("state_dict before step:\n", opt_state_dict)
# 进行5次step操作
for _ in range(50):
    optimizer.step()
# 输出现有状态信息
print("state_dict after step:\n", optimizer.state_dict())
# 保存参数信息
torch.save(optimizer.state_dict(),"optimizer_state_dict.pkl")
print("----------done-----------")
# 加载参数信息
state_dict = torch.load("optimizer_state_dict.pkl")
optimizer.load_state_dict(state_dict)
print("load state_dict successfully\n{}".format(state_dict))
# 输出最后属性信息
print("\n{}".format(optimizer.defaults))
print("\n{}".format(optimizer.state))
print("\n{}".format(optimizer.param_groups))

The data of weight before step:
tensor([[1.5941, 0.9487],
        [0.1566, 1.5587]])
The grad of weight before step:
tensor([[1., 1.],
        [1., 1.]])
The data of weight after step:
tensor([[1.4941, 0.8487],
        [0.0566, 1.4587]])
The grad of weight after step:
tensor([[1., 1.],
        [1., 1.]])
The grad of weight after optimizer.zero_grad():
None
optimizer.params_group is 
[{'params': [tensor([[1.4941, 0.8487],
        [0.0566, 1.4587]], requires_grad=True)], 'lr': 0.1, 'momentum': 0.9, 'dampening': 0, 'weight_decay': 0, 'nesterov': False, 'maximize': False, 'foreach': None, 'differentiable': False, 'fused': None}]
weight in optimizer:139920104718720
weight in weight:139920104718720

optimizer.param_groups is
[{'params': [tensor([[1.4941, 0.8487],
        [0.0566, 1.4587]], requires_grad=True)], 'lr': 0.1, 'momentum': 0.9, 'dampening': 0, 'weight_decay': 0, 'nesterov': False, 'maximize': False, 'foreach': None, 'differentiable': False, 'fused': None}, {'params': [tensor([[-0.

  state_dict = torch.load("optimizer_state_dict.pkl") # 需要修改为你自己的路径
