# 用数学表达式讲解梯度

当然可以！我们可以通过数学表达式来讲解梯度的概念以及如何计算梯度。

### 梯度的定义

在数学中，梯度是一个向量，表示函数在某一点的变化率或方向。具体来说，对于一个多变量函数，梯度向量指向函数值上升最快的方向。

#### 单变量函数的梯度

对于一个单变量函数 \( f(x) \)，梯度就是该函数的导数：

$$
\frac{d f(x)}{d x}
$$
这是函数 \( f \) 在点 \( x \) 处的变化率。如果 \( f(x) = x^2 \)，则：

$$
\frac{d f(x)}{d x} = \frac{d}{d x} (x^2) = 2x
$$


#### 多变量函数的梯度

对于一个多变量函数 \( f(x_1, x_2, \ldots, x_n) \)，梯度是一个向量，其中每个分量是函数对相应变量的偏导数。梯度向量表示函数在点 \( (x_1, x_2, \ldots, x_n) \) 处的最陡上升方向。

- **梯度向量**：
  $$
  \nabla f = \left[ \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \ldots, \frac{\partial f}{\partial x_n} \right]
  $$
  其中：
  $$
  \frac{\partial f}{\partial x_i}
  $$
  是函数 \( f \) 对变量 \( x_i \) 的偏导数。

### 梯度计算的例子

#### 示例 1：简单的多变量函数

考虑函数：
\[ f(x, y) = x^2 + y^2 \]

- **计算梯度**：
  $$
  \frac{\partial f}{\partial x} = \frac{\partial}{\partial x} (x^2 + y^2) = 2x
  $$
  
  $$
  \frac{\partial f}{\partial y} = \frac{\partial}{\partial y} (x^2 + y^2) = 2y
  $$
  
  因此梯度向量为：
  $$
  \nabla f = \left[ 2x, 2y \right]
  $$
  如果 \( x = 1 \) 和 \( y = 2 \)，则：
  $$
  \nabla f = \left[ 2 \times 1, 2 \times 2 \right] = \left[ 2, 4 \right]
  $$
  

#### 示例 2：张量操作中的梯度

考虑张量操作中的梯度计算：

- **张量 \( x \)**：
  $$
  x = [x_0, x_1, x_2, x_3]
  $$
  
  
- **计算 \( y \)**：
  $$
  y = x^2 \text{（逐元素平方）}
  $$
  
  
- **计算 \( z \)**：
  $$
  z = u \cdot x \text{（其中} u = x^2 \text{）}
  $$
  
  $$
  z = (x^2) \cdot x = x^3
  $$
  
  
  
- **计算 \( z \) 对 \( x \) 的梯度**：
  $$
  \frac{\partial z}{\partial x_i} = \frac{\partial (x_i^3)}{\partial x_i} = 3x_i^2
  $$
  

### PyTorch 中的梯度计算

在 PyTorch 中，梯度是通过计算图和自动微分来完成的。当调用 `backward()` 方法时，PyTorch 会自动计算所有张量的梯度。

#### 代码示例

```python
import torch

# 创建张量 x
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)

# 计算 y = x^2
y = x * x

# 计算 z = sum(y)
z = y.sum()

# 执行反向传播
z.backward()

# 打印梯度
print(x.grad)  # 输出: tensor([2., 4., 6.])
```

- **解释**：
  - `y = x * x` 计算了每个元素的平方。
  - `z = y.sum()` 计算了所有元素的总和。
  - `z.backward()` 计算 `z` 对 `x` 的梯度。
  - 对于每个元素 \( x_i \)，梯度是 \( 2x_i \)，这与我们手动计算的结果一致。

### 总结

- **梯度**：表示函数在某一点上升最快的方向的变化率。
- **单变量函数**：梯度是导数。
- **多变量函数**：梯度是偏导数的向量。
- **PyTorch 中的梯度计算**：通过计算图和自动微分机制计算，`backward()` 方法用于执行反向传播并计算梯度。

# 原版

作为一个演示例子，假设我们想对函数 y = 2·xT·x
关于列向量 x
求导。 首先，我们创建变量x并为其分配一个初始值。

In [None]:
import torch

x = torch.arange(4.0)
x

In [None]:
x.requires_grad_(True)  # 设置张量 x 的 requires_grad 属性为 True。这意味着该张量在后续的操作中将会被 PyTorch 用于计算梯度，并且将会被追踪以构建计算图。
x.grad  # x.grad 是 PyTorch 中张量 x 的一个属性，用于存储计算得到的梯度。默认值是None

In [None]:
# 设y:
y = 2 * torch.dot(x, x)
y

In [None]:
y.backward()  # 会计算当前张量 y 相对于其所有输入张量(即x)的梯度，并将这些梯度存储在这些输入张量(即x)的 .grad 属性中。
x.grad

即函数
$$
y = 2 \times \text{dot}(x, x) = 2 \times \sum_{i} x_i^2
$$
的偏导函数为
$$
\frac{\partial y}{\partial x_j} = \frac{\partial}{\partial x_j} \left( 2 \times \sum_{i} x_i^2 \right) = 4 x_j
$$

所以，x = [0., 1., 2., 3.] 的梯度是 x.grad = 4x = [0.,  4.,  8., 12.] 。

In [None]:
# 现在计算x的另一个函数。

x.grad.zero_()  # 在默认情况下，PyTorch会累积梯度，我们需要清除之前的值
y = x.sum()  # 计算张量 x 的所有元素的总和，并将结果存储在 y 中。
y.backward()  # 会计算当前张量 y 相对于其所有输入张量(即x)的梯度，并将这些梯度存储在这些输入张量(即x)的 .grad 属性中。
x, y, x.grad

因为函数为
$$
y = x_0 + x_1 + x_2 + x_3
$$
所以偏导函数为
$$
\frac{\partial y}{\partial x_0} = \frac{\partial y}{\partial x_1} = \frac{\partial y}{\partial x_2} = \frac{\partial y}{\partial x_3} = 1
$$


# 非标量变量的反向传播

# 分离计算

有时，我们希望将某些计算移动到记录的计算图之外。 例如，假设y是作为x的函数计算的，而z则是作为y和x的函数计算的。 想象一下，我们想计算z关于x的梯度，但由于某种原因，希望将y视为一个常数， 并且只考虑到x在y被计算后发挥的作用。

这里可以分离y来返回一个新变量u，该变量与y具有相同的值， 但丢弃计算图中如何计算y的任何信息。 换句话说，梯度不会向后流经u到x。 因此，下面的反向传播函数计算z=u*x关于x的偏导数，同时将u作为常数处理， 而不是 z = x * x * x 关于x的偏导数。

In [None]:
# 将 x 的梯度置为零
x.grad.zero_()

# 计算 y = x * x
y = x * x  # 元素级别的平方

# 通过 .detach() 创建一个新的张量 u，不会计算梯度
u = y.detach()

# 计算 z = u * x
z = u * x

# 对 z 的总和进行反向传播
z.sum().backward()

x.grad == u


In [None]:
# 由于记录了y的计算结果，我们可以随后在y上调用反向传播， 得到y=x*x关于的x的导数，即2*x。

x.grad.zero_()
y.sum().backward()
x.grad == 2 * x

# Python控制流的梯度计算

In [None]:
def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c

In [None]:
a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()

In [None]:
a.grad

In [None]:
d / a