# 计算导数和极限
## 数学原理
给定函数：
$$ f(x) = 3x^2 + 2x + 1 $$
根据导数的定义，函数在某点的导数为：
$$ f'(x) = \lim_{h \to 0} \frac{f(x + h) - f(x)}{h} $$
将 $ f(x) = 3x^2 + 2x + 1 $ 代入上式：  
\begin{align*}
f'(x) &= \lim_{h \to 0} \frac{3(x + h)^2 + 2(x + h) + 1 - (3x^2 + 2x + 1)}{h}\\
&= \lim_{h \to 0} \frac{3(x^2 + 2xh + h^2) + 2x + 2h + 1 - 3x^2 - 2x - 1}{h}\\
&= \lim_{h \to 0} \frac{3x^2 + 6xh + 3h^2 + 2x + 2h + 1 - 3x^2 - 2x - 1}{h}\\
&= \lim_{h \to 0} \frac{6xh + 3h^2 + 2h}{h}\\
&= \lim_{h \to 0} (6x + 3h + 2)\\
&= 6x + 2
\end{align*}  
所以，函数 $ f(x) $ 的导数为 $ f'(x) = 6x + 2 $。  
## 代码原理  
1. **定义函数**：
    ```python
    def function(x: tensor):
        return 3 * x.pow(2) + 2 * x + 1
    ```
    此函数定义了 $ f(x) = 3x^2 + 2x + 1 $。输入参数 `x` 为一个 PyTorch 张量，函数会返回对应输入的函数值。

2. **初始化计算图**：
    ```python
    x = torch.tensor(1.0, dtype=torch.float64, requires_grad=True)
    y = function(x)
    ```
    - `torch.tensor(1.0, dtype=torch.float64, requires_grad=True)`：创建一个初始值为 1.0 的 PyTorch 张量 `x`，数据类型设定为 `float64`。`float64` 具有更高的精度，能减少在计算过程中因精度不足导致的误差。同时将 `requires_grad` 设为 `True`，表明后续需要对 `x` 求导。
    - `y = function(x)`：调用 `function` 函数计算 `x` 对应的函数值 `y`。在这个过程中，PyTorch 会自动构建计算图，记录从 `x` 到 `y` 的所有操作。

3. **自动反向传播**：
    ```python
    y.backward()
    ```
    `backward()` 方法会对计算图执行反向传播，计算 `y` 关于 `x` 的导数。反向传播完成后，`x` 的梯度值会存储在 `x.grad` 属性里。

4. **输出理论导数和实际导数**：
    ```python
    print(f"理论导数: {6*x + 2}")
    print(f"实际导数: {x.grad}")
    ```
    - 理论导数：依据数学公式 $ f'(x) = 6x + 2 $ 计算得出。
    - 实际导数：通过 PyTorch 的自动求导功能计算得到，存储于 `x.grad` 中。

5. **验证导数和极限**：
    ```python
    h = torch.tensor(1e-6, dtype=torch.float64)
    approx_derivative = (function(x + h) - function(x)) / h
    print(f"近似导数 (使用极限定义): {approx_derivative}")
    ```
    设定一个极小的 $ h $ 值（例如 $ 10^{-6} $），按照导数的极限定义 $ f'(x) = \lim_{h \to 0} \frac{f(x + h) - f(x)}{h} $ 来近似计算导数，并将其与理论导数和实际导数进行对比。 

In [9]:
import torch
from torch import tensor

# 定义目标函数 f(x) = 3x^2 + 2x + 1
def function(x: tensor):
    # 以 3x^2 + 2x + 1 为例计算函数值
    return 3 * x.pow(2) + 2 * x + 1 

# 初始化计算图
# 创建一个初始值为 1.0 的 PyTorch 张量 x，数据类型设定为 float64
# float64 具有更高的精度，能减少在计算过程中因精度不足导致的误差
# 将 requires_grad 设为 True，意味着后续计算中需要对 x 求导
x = torch.tensor(1.0, dtype=torch.float64, requires_grad=True) 
# 调用 function 函数计算 x 对应的函数值 y
# 此过程中，PyTorch 会自动构建计算图，记录从 x 到 y 的所有操作
y = function(x)

# 自动反向传播
# backward() 方法会对计算图执行反向传播，计算 y 关于 x 的导数
# 反向传播完成后，x 的梯度值会存储在 x.grad 属性里
y.backward()  

# 输出理论导数和实际导数
# 理论导数依据数学公式 f'(x) = 6x + 2 计算得出
print(f"理论导数: {6*x + 2}")
# 实际导数通过 PyTorch 的自动求导功能计算得到，存储于 x.grad 中
print(f"实际导数: {x.grad}")

# 验证导数和极限
# 设定一个极小的 h 值，用于近似导数的计算
h = torch.tensor(1e-6, dtype=torch.float64)
# 按照导数的极限定义 f'(x) = lim(h->0) [f(x+h)-f(x)] / h 来近似计算导数
approx_derivative = (function(x + h) - function(x)) / h
# 输出近似导数
print(f"近似导数 (使用极限定义): {approx_derivative}")

理论导数: 8.0
实际导数: 8.0
近似导数 (使用极限定义): 8.000002999608569



# 计算梯度  

## 数学原理  
### 1. 函数定义  
设向量 $\mathbf{x} = [x_0, x_1, x_2, x_3]^T$，定义函数 $y = 2 \cdot \mathbf{x}^T \mathbf{x}$。  
向量点积展开为：  
$$
\mathbf{x}^T \mathbf{x} = x_0^2 + x_1^2 + x_2^2 + x_3^2
$$  
因此函数可表示为：  
$$
y = 2 \cdot (x_0^2 + x_1^2 + x_2^2 + x_3^2)
$$  

### 2. 偏导数计算  
对于函数 $y = 2x_i^2$（$i = 0, 1, 2, 3$），根据求导法则：  
$$
\frac{\partial y}{\partial x_i} = \frac{\partial (2x_i^2)}{\partial x_i} = 4x_i
$$  
即每个分量的偏导数为 $4x_i$。  

### 3. 梯度计算  
函数 $y$ 关于向量 $\mathbf{x}$ 的梯度是各偏导数组成的向量：  
$$
\nabla_{\mathbf{x}} y = \left[ \frac{\partial y}{\partial x_0}, \frac{\partial y}{\partial x_1}, \frac{\partial y}{\partial x_2}, \frac{\partial y}{\partial x_3} \right]^T = [4x_0, 4x_1, 4x_2, 4x_3]^T = 4\mathbf{x}
$$  


## 代码原理  
### 1. 创建张量 `x`  
```python  
# 步骤 1: 创建一个张量 x  
# 使用 torch.arange(4.0) 创建一个包含从 0 到 3 的浮点数的一维张量  
x = torch.arange(4.0)  
print(f"创建的张量 x: {x}")  
```  
- `torch.arange(4.0)` 生成一维张量 `x`，元素为 `[0.0, 1.0, 2.0, 3.0]`。  
- `print` 语句输出张量内容，便于检查初始化结果。  


### 2. 启用梯度计算  
```python  
# 步骤 2: 启用梯度计算  
# 调用 requires_grad_(True) 方法，表明后续需要计算 x 的梯度  
x.requires_grad_(True)  
# 此时 x 的梯度尚未计算，所以其梯度值为 None  
print(f"x 的梯度初始值: {x.grad}")  
```  
- `x.requires_grad_(True)` 激活张量 `x` 的梯度追踪功能，后续操作会记录计算图。  
- 初始时 `x.grad` 为 `None`，因为未进行反向传播。  


### 3. 定义函数 `y`  
```python  
# 步骤 3: 定义函数 y  
# 计算 y = 2 * torch.dot(x, x)，这里 torch.dot 用于计算向量的点积  
# 设 x = [x0, x1, x2, x3]，则 torch.dot(x, x) = x0² + x1² + x2² + x3²  
# 所以 y = 2 * (x0² + x1² + x2² + x3²)  
y = 2 * torch.dot(x, x)  
print(f"计算得到的函数值 y: {y}")  
```  
- `torch.dot(x, x)` 计算向量自点积，结果为标量 $x_0^2 + x_1^2 + x_2^2 + x_3^2$。  
- 乘以 2 得到函数值 $y$，并通过 `print` 输出验证。  


### 4. 执行反向传播  
```python  
# 步骤 4: 执行反向传播  
# 调用 backward() 方法，PyTorch 会自动计算 y 关于 x 的梯度  
y.backward()  
# 输出计算得到的 x 的梯度  
print(f"计算得到的 x 的梯度: {x.grad}")  
```  
- `y.backward()` 触发反向传播算法，沿计算图逆序计算梯度。  
- 梯度结果存储在 `x.grad` 中，输出结果应与理论推导一致（$4\mathbf{x}$）。  


### 5. 验证梯度计算结果  
```python  
# 步骤 5: 验证梯度计算结果  
# 根据数学推导，y 关于 x 的梯度应该是 4 * x  
# 这里验证计算得到的梯度是否等于 4 * x  
print(f"梯度计算结果是否正确: {x.grad == 4 * x}")  
```  
- 理论梯度为 $4\mathbf{x}$，即 `[0., 4., 8., 12.]`。  
- 通过张量逐元素比较 `x.grad == 4 * x`，输出 `tensor([True, True, True, True])`，验证正确性。  

In [10]:
import torch

# 步骤 1: 创建一个张量 x
# 使用 torch.arange(4.0) 创建一个包含从 0 到 3 的浮点数的一维张量
x = torch.arange(4.0)
print(f"创建的张量 x: {x}")

# 步骤 2: 启用梯度计算
# 调用 requires_grad_(True) 方法，表明后续需要计算 x 的梯度
x.requires_grad_(True)
# 此时 x 的梯度尚未计算，所以其梯度值为 None
print(f"x 的梯度初始值: {x.grad}")

# 步骤 3: 定义函数 y
# 计算 y = 2 * torch.dot(x, x)，这里 torch.dot 用于计算向量的点积
# 设 x = [x0, x1, x2, x3]，则 torch.dot(x, x) = x0^2 + x1^2 + x2^2 + x3^2
# 所以 y = 2 * (x0^2 + x1^2 + x2^2 + x3^2)
y = 2 * torch.dot(x, x)
print(f"计算得到的函数值 y: {y}")

# 步骤 4: 执行反向传播
# 调用 backward() 方法，PyTorch 会自动计算 y 关于 x 的梯度
y.backward()
# 输出计算得到的 x 的梯度
print(f"计算得到的 x 的梯度: {x.grad}")

# 步骤 5: 验证梯度计算结果
# 根据数学推导，y 关于 x 的梯度应该是 4 * x
# 这里验证计算得到的梯度是否等于 4 * x
print(f"梯度计算结果是否正确: {x.grad == 4 * x}")

创建的张量 x: tensor([0., 1., 2., 3.])
x 的梯度初始值: None
计算得到的函数值 y: 28.0
计算得到的 x 的梯度: tensor([ 0.,  4.,  8., 12.])
梯度计算结果是否正确: tensor([True, True, True, True])


# 求新的函数的梯度
## 数学原理
1. **第一个函数**
    - 定义函数 $ y = \sum_{i = 0}^{3} x_i=x_0 + x_1 + x_2 + x_3 $。
    - 根据求导法则，对于函数 $ y $ 关于 $ x_i $ 的偏导数为：
        - 当 $ i = 0,1,2,3 $ 时，$\frac{\partial y}{\partial x_i}=1$。所以函数 $ y $ 关于向量 $ \mathbf{x}=[x_0, x_1, x_2, x_3]^T $ 的梯度为 $ \nabla_{\mathbf{x}} y = [1, 1, 1, 1]^T $。
2. **第二个函数**
    - 定义函数 $ y = x_0 + 2x_1 $。
    - 分别求关于 $ x_i $ 的偏导数：
        - $\frac{\partial y}{\partial x_0}=1$，$\frac{\partial y}{\partial x_1}=2$，$\frac{\partial y}{\partial x_2}=0$，$\frac{\partial y}{\partial x_3}=0$。所以函数 $ y $ 关于向量 $ \mathbf{x}=[x_0, x_1, x_2, x_3]^T $ 的梯度为 $ \nabla_{\mathbf{x}} y = [1, 2, 0, 0]^T $。
## 代码原理
1. **创建张量 `x`**
    ```python
    x = torch.tensor([0., 1., 2., 3.], requires_grad=True)
    ```
    创建一个包含从 0 到 3 的浮点数的一维张量 `x`，并将 `requires_grad` 设置为 `True`，表示后续需要计算 `x` 的梯度。

2. **计算第一个函数的梯度**
    ```python
    y = x.sum()
    y.backward()
    print(f"第一个函数计算得到的 x 的梯度: {x.grad}")
    ```
        - `y = x.sum()`：定义第一个函数 `y` 为 `x` 中所有元素的和。
        - `y.backward()`：执行反向传播，PyTorch 会自动计算 `y` 关于 `x` 的梯度。在第一次计算梯度时，由于 `x.grad` 初始值为 `None`，不需要清空梯度，所以去掉了原代码中的 `x.grad.zero_()`。
        - `print(f"第一个函数计算得到的 x 的梯度: {x.grad}")`：输出计算得到的 `x` 的梯度。

3. **计算第二个函数的梯度**
    ```python
    x.grad.zero_()
    y = x[0] + 2 * x[1]
    y.backward()
    print(f"第二个函数计算得到的 x 的梯度: {x.grad}")
    ```
        - `x.grad.zero_()`：经过第一次梯度计算后，`x.grad` 已经有了值。为了避免第一次计算的梯度对本次计算产生影响，这里清空 `x` 的梯度，为计算新的函数梯度做准备。
        - `y = x[0] + 2 * x[1]`：定义第二个函数 `y` 为 `x[0] + 2 * x[1]`。
        - `y.backward()`：执行反向传播，计算 `y` 关于 `x` 的梯度。
        - `print(f"第二个函数计算得到的 x 的梯度: {x.grad}")`：输出计算得到的 `x` 的梯度。

In [14]:
import torch

# 创建一个包含从 0 到 3 的浮点数的一维张量 x，并启用梯度计算
x = torch.tensor([0., 1., 2., 3.], requires_grad=True)

# 第一步：计算第一个函数的梯度
# 定义第一个函数 y 为 x 中所有元素的和
# 即 y = x[0] + x[1] + x[2] + x[3]
y = x.sum()
# 执行反向传播，计算 y 关于 x 的梯度
y.backward()
# 输出计算得到的 x 的梯度
print(f"第一个函数计算得到的 x 的梯度: {x.grad}")

# 第二步：计算第二个函数的梯度
# 清空 x 的梯度，为计算新的函数梯度做准备
x.grad.zero_()
# 定义第二个函数 y 为 y = x[0] + 2 * x[1]
y = x[0] + 2 * x[1]
# 执行反向传播，计算 y 关于 x 的梯度
y.backward()
# 输出计算得到的 x 的梯度
print(f"第二个函数计算得到的 x 的梯度: {x.grad}")

第一个函数计算得到的 x 的梯度: tensor([1., 1., 1., 1.])
第二个函数计算得到的 x 的梯度: tensor([1., 2., 0., 0.])
