## 自动微分的基本原理
自动微分的关键在于将复杂的函数分解为一系列简单函数的组合，然后应用链式法则（Chain Rule）进行求导。这个过程不同于数值微分（使用有限差分近似）和符号微分（进行符号上的推导），它可以精确地计算导数，同时避免了符号微分的表达式膨胀问题和数值微分的精度损失。

In [16]:
import torch

# 示例：简单的自动微分
x = torch.tensor([2.0], requires_grad=True)
y = x ** 2 + 3 * x + 1
y.backward()

# 打印梯度
print(x.grad)  # 输出应为 2*x + 3 在 x=2 时的值，即 7


tensor([7.])


## 自动微分在深度学习中的应用
在深度学习中，训练神经网络的核心是优化损失函数，即调整网络参数以最小化损失。这一过程需要计算损失函数相对于网络参数的梯度，自动微分在这里发挥着关键作用。

以一个简单的线性回归模型为例，模型的目标是找到一组参数，使得模型的预测尽可能接近实际数据。在这个过程中，自动微分帮助我们有效地计算损失函数关于参数的梯度，进而通过梯度下降法更新参数。

In [18]:
# 示例：线性回归中的梯度计算
x_1_f = torch.tensor([[1.0],[2.0]], requires_grad=True).float()
x_2_f = torch.tensor([[2.0],[1.0]], requires_grad=True).float()
print(x_1_f.shape,x_1_f)
# 模型参数
weight = torch.tensor([1.0], requires_grad=True)

# 前向传播
y = weight*torch.cat([x_1_f, x_2_f], dim=1)**2

print(y.shape,y)
# 损失函数
ur_pred_train = (y[:,0:1])
ui_pred_train = (y[:,1:2])
print(ur_pred_train.shape,ur_pred_train)
# 计算梯度
ur_x = torch.autograd.grad(
            ur_pred_train, x_1_f, 
            grad_outputs=torch.ones_like(ur_pred_train),
            retain_graph=True,
            create_graph=True
        )[0]
print(ur_x)
ur_xx = torch.autograd.grad(
            ur_x, x_1_f, 
            grad_outputs=torch.ones_like(ur_x),
            retain_graph=True,
            create_graph=True
        )[0] 
print(ur_xx)




torch.Size([2, 1]) tensor([[1.],
        [2.]], requires_grad=True)
torch.Size([2, 2]) tensor([[1., 4.],
        [4., 1.]], grad_fn=<MulBackward0>)
torch.Size([2, 1]) tensor([[1.],
        [4.]], grad_fn=<SliceBackward0>)
tensor([[2.],
        [4.]], grad_fn=<SliceBackward0>)
tensor([[2.],
        [2.]], grad_fn=<SliceBackward0>)
