In [3]:
import torch
x = torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

In [2]:
# Can also create x = torch.arange(4.0, requires_grad=True)
x.requires_grad_(True)
x.grad  # The gradient is None by default

In [3]:
y = 2 * torch.dot(x, x)
y

tensor(28., grad_fn=<MulBackward0>)

In [5]:
y.backward()
x.grad

tensor([ 0.,  4.,  8., 12.])

In [6]:
x.grad == 4 * x

tensor([True, True, True, True])

In [7]:
x.grad.zero_()  # Reset the gradient
y = x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])

In [9]:
x.grad.zero_()
y = x * x
# y.backward(gradient=torch.ones(len(y)))
y.sum().backward()
x.grad

tensor([0., 2., 4., 6.])

In [10]:
x.grad.zero_()
x

tensor([0., 1., 2., 3.], requires_grad=True)

In [5]:
import torch
from torch.optim.optimizer import Optimizer

class CustomSGD(Optimizer):
    def __init__(self, params, lr=0.01):
        # 初始化，设置学习率
        defaults = dict(lr=lr)
        super().__init__(params, defaults)

    @torch.no_grad()
    def step(self):
        """执行单次优化步骤：参数 = 参数 - 学习率 * 梯度"""
        for group in self.param_groups:
            lr = group['lr']
            for param in group['params']:
                if param.grad is not None:
                    # 核心更新逻辑：利用 PyTorch 的原地操作 add_()
                    param.data.add_(param.grad, alpha=-lr)

In [8]:
# --- 1. 初始化参数和优化器 ---

# 定义参数 x，并设置 requires_grad=True 启用梯度追踪
x = torch.tensor([-5.0], requires_grad=True) # 初始值 x=5.0
lr = 0.1 # 学习率

# 使用我们自己写的优化器
optimizer = CustomSGD([x], lr=lr) 

# --- 2. 梯度下降循环 ---

print("--- 梯度下降过程 ---")
print(f"初始 x: {x.item():.4f}, 损失 f(x): {(x**2 - 4*x + 5).item():.4f}\n")

num_epochs = 100 # 迭代次数

for epoch in range(num_epochs):
    
    # 步骤 A: 前向传播，计算损失 L = f(x)
    L = x**2 - 4*x + 5
    
    # 步骤 B: 梯度清零
    optimizer.zero_grad() 
    
    # 步骤 C: 反向传播，计算梯度 dL/dx
    L.backward()
    
    # 步骤 D: 更新参数 (使用我们自定义的 CustomSGD.step())
    optimizer.step() 
    
    # 打印结果
    print(f"迭代 {epoch+1:2d} | x: {x.item():.4f} | 损失 L: {L.item():.4f} | 梯度 dL/dx: {x.grad.item():.4f}")

# --- 3. 最终结果 ---
print("\n--- 最终结果 ---")
print(f"理论最优解 x*: 2.0")
print(f"模型找到的 x: {x.item():.4f}")
print(f"最终损失 L: {(x**2 - 4*x + 5).item():.4f}")

--- 梯度下降过程 ---
初始 x: -5.0000, 损失 f(x): 50.0000

迭代  1 | x: -3.6000 | 损失 L: 50.0000 | 梯度 dL/dx: -14.0000
迭代  2 | x: -2.4800 | 损失 L: 32.3600 | 梯度 dL/dx: -11.2000
迭代  3 | x: -1.5840 | 损失 L: 21.0704 | 梯度 dL/dx: -8.9600
迭代  4 | x: -0.8672 | 损失 L: 13.8451 | 梯度 dL/dx: -7.1680
迭代  5 | x: -0.2938 | 损失 L: 9.2208 | 梯度 dL/dx: -5.7344
迭代  6 | x: 0.1650 | 损失 L: 6.2613 | 梯度 dL/dx: -4.5875
迭代  7 | x: 0.5320 | 损失 L: 4.3673 | 梯度 dL/dx: -3.6700
迭代  8 | x: 0.8256 | 损失 L: 3.1550 | 梯度 dL/dx: -2.9360
迭代  9 | x: 1.0605 | 损失 L: 2.3792 | 梯度 dL/dx: -2.3488
迭代 10 | x: 1.2484 | 损失 L: 1.8827 | 梯度 dL/dx: -1.8790
迭代 11 | x: 1.3987 | 损失 L: 1.5649 | 梯度 dL/dx: -1.5032
迭代 12 | x: 1.5190 | 损失 L: 1.3616 | 梯度 dL/dx: -1.2026
迭代 13 | x: 1.6152 | 损失 L: 1.2314 | 梯度 dL/dx: -0.9621
迭代 14 | x: 1.6921 | 损失 L: 1.1481 | 梯度 dL/dx: -0.7697
迭代 15 | x: 1.7537 | 损失 L: 1.0948 | 梯度 dL/dx: -0.6157
迭代 16 | x: 1.8030 | 损失 L: 1.0607 | 梯度 dL/dx: -0.4926
迭代 17 | x: 1.8424 | 损失 L: 1.0388 | 梯度 dL/dx: -0.3941
迭代 18 | x: 1.8739 | 损失 L: 1.0248 | 梯度 dL

In [4]:
x = torch.arange(10.0)
x

tensor([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [6]:
print(x[:-1])
print(x[-1])

tensor([0., 1., 2., 3., 4., 5., 6., 7., 8.])
tensor(9.)
