In [1]:
import torch

In [2]:
# 创建两个相同的张量用于对比实验
# x1, x2: 都是需要梯度计算的张量，用于演示detach()和data的区别
x1=torch.tensor([1.0,2,3],requires_grad=True)
x2=torch.tensor([1.0,2,3],requires_grad=True)

In [3]:
# 对两个张量应用sigmoid激活函数
# sigmoid(x) = 1/(1+exp(-x)): S型激活函数，输出范围(0,1)
# y1, y2: 都会记录计算图信息(grad_fn存在)
y1=x1.sigmoid()
y2=x2.sigmoid()
print('y1 (来自x1):', y1)
print('y2 (来自x2):', y2)

tensor([0.7311, 0.8808, 0.9526], grad_fn=<SigmoidBackward0>)
tensor([0.7311, 0.8808, 0.9526], grad_fn=<SigmoidBackward0>)


In [4]:
# y1.sum().backward()
# print(x1.grad)

In [5]:
# y2.sum().backward()
# print(x2.grad)


In [6]:
# detach() vs data 属性对比
# z1: 使用.data属性获取数据，不推荐使用(旧API)
# z2: 使用.detach()方法分离张量，推荐方式
# 两者都会返回不参与梯度计算的新张量
z1=y1.data
z2=y2.detach()
print('z1 (.data方式):', z1)
print('z2 (.detach()方式):', z2)

tensor([0.7311, 0.8808, 0.9526])
tensor([0.7311, 0.8808, 0.9526])


In [7]:
# 验证两种方式都不参与梯度计算
# .data和.detach()得到的张量requires_grad都为False
print('z1.requires_grad (.data):', z1.requires_grad)
print('z2.requires_grad (.detach()):', z2.requires_grad)

False
False


In [8]:
# 关键区别：.data可能修改原计算图，.detach()不会
# zero_(): 将张量所有元素置零
# 由于z1通过.data获取，修改z1会影响y1的值
# z2通过.detach()获取，修改z2也会影响y2的值(共享数据)
z1.zero_()
z2.zero_()
print('修改后y1:', y1)
print('修改后y2:', y2)

tensor([0., 0., 0.], grad_fn=<SigmoidBackward0>)
tensor([0., 0., 0.], grad_fn=<SigmoidBackward0>)


In [9]:
# 反向传播验证梯度计算
# 由于y1的值被.zero_()修改为0，其梯度也会受到影响
# x1.grad应该为0，因为y1全为0
y1.sum().backward()
print('x1的梯度:', x1.grad)


tensor([0., 0., 0.])
