# 梯度

我们要求的是具体函数的梯度和抽象函数的梯度

## 求具体函数的梯度

In [None]:
import sympy as sp
from sympy.vector import CoordSys3D, gradient
from IPython.display import display

# 创建一个三维坐标系
N = CoordSys3D('N')
N.x, N.y, N.z = N.x, N.y, N.z

# 定义标量场 f(x, y, z)
f = N.x**2 + N.y**2 + N.z**2

# 使用 gradient 函数计算梯度
grad_f = gradient(f)
# 输出梯度
print("梯度 (∇f):")
display(grad_f)

梯度 (∇f):


2*N.x*N.i + 2*N.y*N.j + 2*N.z*N.k

#### 例题1.3

求出 $r$ (位置矢量的大小)的梯度。

解：
$$
\begin{split}
  \nabla r
  = & \frac{x\hat{\boldsymbol x} + y\hat{\boldsymbol y} + z\hat{\boldsymbol z}}{r} \\
  = & \frac{\boldsymbol r}{r} = \hat{\boldsymbol r}
\end{split}
$$

鉴于 $r$ 是一个经典的函数，我们总是用 field_point 来命名它，它的模长记为 field_distance。
对应的源点 $r'$，记为 source_point，源点的模长记为 source_distance。
间隔矢量 separation_vector，模长记为 separation_distance。

In [1]:
# 接下来我们用 python 计算 r 的梯度
import sympy as sp
from sympy.vector import CoordSys3D, gradient
from IPython.display import display

# 创建一个三维坐标系
N = CoordSys3D('N')

# 定义标量场位置矢量的模长
field_distance = sp.sqrt( N.x**2 + N.y**2 + N.z**2 )

# 使用 gradient 函数计算梯度
grad_field_distance = gradient(field_distance)

# 输出梯度
print("位置矢量模长的梯度 (∇r):")
display(grad_field_distance)

位置矢量模长的梯度 (∇r):


(N.x/sqrt(N.x**2 + N.y**2 + N.z**2))*N.i + (N.y/sqrt(N.x**2 + N.y**2 + N.z**2))*N.j + (N.z/sqrt(N.x**2 + N.y**2 + N.z**2))*N.k

## 习题 1.13

设 $\overrightarrow{\mathfrak r}$ 是从固定点 $(x', y', z')$ 到点 $(x, y, z)$ 的间隔矢量，$\mathfrak r$ 是它的长度。
证明：
$$
  \nabla(\mathfrak r^2) = 2 \overrightarrow{\mathfrak r}
$$
$$
  \nabla \left( \frac{1}{\mathfrak r} \right) = - \frac{\hat{\mathfrak r}}{\mathfrak r^2}
$$

$\nabla(\mathfrak r^n)$ 的一般表示是什么?


#### 第一问

In [5]:
import sympy as sp
from sympy.vector import CoordSys3D, gradient
from IPython.display import display

# 创建一个三维坐标系
N = CoordSys3D('N')

# 定义 x', y', z'
source_x, source_y, source_z = sp.symbols('source_x source_y source_z')

# 定义标量场间隔矢量的模长
r_separation = (N.x - source_x) * N.i + (N.y - source_y) * N.j + (N.z - source_z) * N.k
separation_distance = sp.sqrt((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)
print("间隔矢量的模长是：")
display(separation_distance)

f = separation_distance ** 2
print("第一问所考察函数：")
display(f)

# 使用 gradient 函数计算梯度
grad_f = gradient(f)
# 输出梯度
print("间隔矢量模长的梯度:")
display(grad_f)
print("间隔矢量模长的梯度是间隔矢量的两倍：")
display(sp.simplify(2 * r_separation))

间隔矢量的模长是：


sqrt((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)

第一问所考察函数：


(N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2

间隔矢量模长的梯度:


(2*N.x - 2*source_x)*N.i + (2*N.y - 2*source_y)*N.j + (2*N.z - 2*source_z)*N.k

间隔矢量模长的梯度是间隔矢量的两倍：


(2*N.x - 2*source_x)*N.i + (2*N.y - 2*source_y)*N.j + (2*N.z - 2*source_z)*N.k

#### 第二问

In [3]:
# 使用 gradient 函数计算梯度
f = 1 / separation_distance
grad_f = gradient(f)

print("第二问所考察函数是：")
display(f)

# 输出梯度
print("间隔矢量模长的倒数的梯度 (∇1/r):")
display(grad_f)

print("就等于右式")
display( sp.simplify( - r_separation  / separation_distance**3) )

第二问所考察函数是：


1/sqrt((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)

间隔矢量模长的倒数的梯度 (∇1/r):


((-N.x + source_x)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(3/2))*N.i + ((-N.y + source_y)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(3/2))*N.j + ((-N.z + source_z)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(3/2))*N.k

就等于右式


((-N.x + source_x)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(3/2))*N.i + ((-N.y + source_y)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(3/2))*N.j + ((-N.z + source_z)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(3/2))*N.k

#### 第三问

In [6]:
for i in range(1,10):
    f = 1/ (separation_distance ** i)
    grad_f = gradient(f)
    print(f"间隔矢量模长的 {i} 次方的梯度:")
    display(grad_f)

间隔矢量模长的 1 次方的梯度:


((-N.x + source_x)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(3/2))*N.i + ((-N.y + source_y)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(3/2))*N.j + ((-N.z + source_z)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(3/2))*N.k

间隔矢量模长的 2 次方的梯度:


((-2*N.x + 2*source_x)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**2)*N.i + ((-2*N.y + 2*source_y)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**2)*N.j + ((-2*N.z + 2*source_z)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**2)*N.k

间隔矢量模长的 3 次方的梯度:


((-3*N.x + 3*source_x)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(5/2))*N.i + ((-3*N.y + 3*source_y)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(5/2))*N.j + ((-3*N.z + 3*source_z)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(5/2))*N.k

间隔矢量模长的 4 次方的梯度:


((-4*N.x + 4*source_x)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**3)*N.i + ((-4*N.y + 4*source_y)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**3)*N.j + ((-4*N.z + 4*source_z)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**3)*N.k

间隔矢量模长的 5 次方的梯度:


((-5*N.x + 5*source_x)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(7/2))*N.i + ((-5*N.y + 5*source_y)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(7/2))*N.j + ((-5*N.z + 5*source_z)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(7/2))*N.k

间隔矢量模长的 6 次方的梯度:


((-6*N.x + 6*source_x)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**4)*N.i + ((-6*N.y + 6*source_y)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**4)*N.j + ((-6*N.z + 6*source_z)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**4)*N.k

间隔矢量模长的 7 次方的梯度:


((-7*N.x + 7*source_x)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(9/2))*N.i + ((-7*N.y + 7*source_y)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(9/2))*N.j + ((-7*N.z + 7*source_z)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(9/2))*N.k

间隔矢量模长的 8 次方的梯度:


((-8*N.x + 8*source_x)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**5)*N.i + ((-8*N.y + 8*source_y)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**5)*N.j + ((-8*N.z + 8*source_z)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**5)*N.k

间隔矢量模长的 9 次方的梯度:


((-9*N.x + 9*source_x)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(11/2))*N.i + ((-9*N.y + 9*source_y)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(11/2))*N.j + ((-9*N.z + 9*source_z)/((N.x - source_x)**2 + (N.y - source_y)**2 + (N.z - source_z)**2)**(11/2))*N.k

## 求抽象标量场的梯度

In [None]:
import sympy as sp
from sympy.vector import CoordSys3D, gradient
from sympy import Function
from IPython.display import display

# 创建一个三维坐标系
N = CoordSys3D('N')

# 定义标量场 f 和向量场 A
N.x, N.y, N.z = N.x, N.y, N.z
f = Function('f')(N.x, N.y, N.z)  # 抽象标量场 f

# 使用 nabla 进行符号运算
# 1. 梯度运算
grad_f = gradient(f)
grad_f = sp.simplify(grad_f)
print("梯度 (∇f):")
display(grad_f)

梯度 (∇f):


(Derivative(f(N.x, N.y, N.z), N.x))*N.i + (Derivative(f(N.x, N.y, N.z), N.y))*N.j + (Derivative(f(N.x, N.y, N.z), N.z))*N.k

#### 习题1.14

设 $f$ 仅是两个变量 $(y, z)$ 的函数。
证明在转动变换式(1.29)下梯度 $\nabla f = (\partial f/\partial y)\hat{\boldsymbol y} + (\partial f/\partial z)\hat{\boldsymbol z}$ 的变换满足矢量变换规律。

我们知道，按复合函数导数的链式法则
$$
  \begin{pmatrix}
    \frac{\partial f}{\partial \bar{y}} \\
    \frac{\partial f}{\partial \bar{z}}
  \end{pmatrix}
  = 
  \begin{pmatrix}
    \frac{\partial y}{\partial \bar{y}} & \frac{\partial z}{\partial \bar{y}} \\
    \frac{\partial y}{\partial \bar{z}} & \frac{\partial z}{\partial \bar{z}} 
  \end{pmatrix}
  \begin{pmatrix}
    \frac{\partial f}{\partial y} \\ \frac{\partial f}{\partial z} 
  \end{pmatrix}
$$
我们又知道
$$
  \begin{pmatrix}
    \bar{y} \\ \bar{z}
  \end{pmatrix}
  =
  \begin{pmatrix}
    \cos\phi & \sin\phi \\
    -\sin\phi & \cos\phi
  \end{pmatrix}
  \begin{pmatrix}
    y \\ z
  \end{pmatrix}
$$
所以
$$
  \begin{pmatrix}
    y \\ z
  \end{pmatrix}
  =
  \begin{pmatrix}
    \cos\phi & -\sin\phi \\
    \sin\phi & \cos\phi
  \end{pmatrix}
  \begin{pmatrix}
    \bar{y} \\ \bar{z}
  \end{pmatrix}
$$
所以
$$
  \begin{pmatrix}
    \frac{\partial f}{\partial \bar{y}} \\
    \frac{\partial f}{\partial \bar{z}}
  \end{pmatrix}
  = 
  \begin{pmatrix}
    \cos\phi & \sin\phi \\
    -\sin\phi & \cos\phi
  \end{pmatrix}
  \begin{pmatrix}
    \frac{\partial f}{\partial y} \\ \frac{\partial f}{\partial z} 
  \end{pmatrix}
$$

In [3]:
import sympy as sp
from sympy.vector import CoordSys3D, gradient
from IPython.display import display

# 创建一个三维坐标系
O = CoordSys3D('O')

# 定义一个抽象标量场
f = sp.Function('f')(O.x, O.y, O.z)
print("抽象标量场 f = ")
display(f)

grad_f = gradient(f, O)
print("标量场在原坐标系下的梯度 (∇f):")
display(grad_f)

# 创建一个新三维坐标系
N = CoordSys3D('N')
# 旋转了phi 的角度
phi = sp.symbols('phi')

print('如果固定x轴，让y,z绕着x轴旋转phi角度，接下来要求 f 在新坐标系中的表示，就需要用新的变量表示旧变量，变换矩阵是 N_in_O：')
# 得到 A 在新坐标系中的表示：也就是说我要用新的坐标系来表示原来的标量场
f_new = f.subs({O.x: N.x, O.y: (sp.cos(phi)*N.y - sp.sin(phi)*N.z), O.z: (sp.sin(phi)*N.y  + sp.cos(phi)*N.z)})
display(f_new)

grad_f_new = gradient(f_new, N)
print('f 在新坐标系中的梯度 (∇f) 表示为：')
display(grad_f_new)
print('可见梯度是满足矢量变换规律的，也可以采用更加明显的形式：')
display(grad_f_new.subs({N.x: O.x, (sp.cos(phi)*N.y - sp.sin(phi)*N.z): O.y, (sp.sin(phi)*N.y  + sp.cos(phi)*N.z): O.z}))

抽象标量场 f = 


f(O.x, O.y, O.z)

标量场在原坐标系下的梯度 (∇f):


(Derivative(f(O.x, O.y, O.z), O.x))*O.i + (Derivative(f(O.x, O.y, O.z), O.y))*O.j + (Derivative(f(O.x, O.y, O.z), O.z))*O.k

如果固定x轴，让y,z绕着x轴旋转phi角度，接下来要求 f 在新坐标系中的表示，就需要用新的变量表示旧变量，变换矩阵是 N_in_O：


f(N.x, N.y*cos(phi) - N.z*sin(phi), N.y*sin(phi) + N.z*cos(phi))

f 在新坐标系中的梯度 (∇f) 表示为：


(Derivative(f(N.x, N.y*cos(phi) - N.z*sin(phi), N.y*sin(phi) + N.z*cos(phi)), N.x))*N.i + (sin(phi)*Subs(Derivative(f(N.x, N.y*cos(phi) - N.z*sin(phi), _xi_3), _xi_3), _xi_3, N.y*sin(phi) + N.z*cos(phi)) + cos(phi)*Subs(Derivative(f(N.x, _xi_2, N.y*sin(phi) + N.z*cos(phi)), _xi_2), _xi_2, N.y*cos(phi) - N.z*sin(phi)))*N.j + (-sin(phi)*Subs(Derivative(f(N.x, _xi_2, N.y*sin(phi) + N.z*cos(phi)), _xi_2), _xi_2, N.y*cos(phi) - N.z*sin(phi)) + cos(phi)*Subs(Derivative(f(N.x, N.y*cos(phi) - N.z*sin(phi), _xi_3), _xi_3), _xi_3, N.y*sin(phi) + N.z*cos(phi)))*N.k

可见梯度是满足矢量变换规律的，也可以采用更加明显的形式：


(Derivative(f(O.x, O.y, O.z), O.x))*N.i + (sin(phi)*Subs(Derivative(f(O.x, O.y, _xi_3), _xi_3), _xi_3, O.z) + cos(phi)*Subs(Derivative(f(O.x, _xi_2, O.z), _xi_2), _xi_2, O.y))*N.j + (-sin(phi)*Subs(Derivative(f(O.x, _xi_2, O.z), _xi_2), _xi_2, O.y) + cos(phi)*Subs(Derivative(f(O.x, O.y, _xi_3), _xi_3), _xi_3, O.z))*N.k

In [4]:
# 我们也可以通过矩阵乘法来实现同样的结果
print("我们也可以通过矩阵乘法来实现同样的结果。")

print('f 在原坐标系下的梯度 (∇f) 的矩阵形式：')
# ∇f 的矩阵形式
grad_f_matrix = grad_f.to_matrix(O)
display(grad_f_matrix)

print('按照复合函数求导的链式法则，f 在新坐标系中的梯度 (∇f) 的矩阵形式等于变换矩阵乘 f 在原坐标系中的梯度 (∇f) 的矩阵形式。')
print('变换矩阵表示 D(x,y,z)/D(x\',y\',z\')。')
print('我们知道')
display(sp.Matrix([N.x, N.y, N.z]))
print('等于')
# 定义坐标变换矩阵
O_in_N = sp.Matrix([
    [1, 0, 0],
    [0, sp.cos(phi), sp.sin(phi)],
    [0, -sp.sin(phi), sp.cos(phi)]
])
display(O_in_N)
print('乘以')
display(sp.Matrix([O.x, O.y, O.z]))

print('所求雅可比矩阵恰是坐标变换矩阵：')
display(O_in_N)

# 进行矩阵乘法，得到新的向量
grad_f_new = O_in_N * grad_f_matrix
print("f 在新坐标系中的梯度 (∇f) 的矩阵形式：")
display(grad_f_new)

我们也可以通过矩阵乘法来实现同样的结果。
f 在原坐标系下的梯度 (∇f) 的矩阵形式：


Matrix([
[Derivative(f(O.x, O.y, O.z), O.x)],
[Derivative(f(O.x, O.y, O.z), O.y)],
[Derivative(f(O.x, O.y, O.z), O.z)]])

按照复合函数求导的链式法则，f 在新坐标系中的梯度 (∇f) 的矩阵形式等于变换矩阵乘 f 在原坐标系中的梯度 (∇f) 的矩阵形式。
变换矩阵表示 D(x,y,z)/D(x',y',z')。
我们知道


Matrix([
[N.x],
[N.y],
[N.z]])

等于


Matrix([
[1,         0,        0],
[0,  cos(phi), sin(phi)],
[0, -sin(phi), cos(phi)]])

乘以


Matrix([
[O.x],
[O.y],
[O.z]])

所求雅可比矩阵恰是坐标变换矩阵：


Matrix([
[1,         0,        0],
[0,  cos(phi), sin(phi)],
[0, -sin(phi), cos(phi)]])

f 在新坐标系中的梯度 (∇f) 的矩阵形式：


Matrix([
[                                                       Derivative(f(O.x, O.y, O.z), O.x)],
[ sin(phi)*Derivative(f(O.x, O.y, O.z), O.z) + cos(phi)*Derivative(f(O.x, O.y, O.z), O.y)],
[-sin(phi)*Derivative(f(O.x, O.y, O.z), O.y) + cos(phi)*Derivative(f(O.x, O.y, O.z), O.z)]])