## 如何求一个函数的最小值？

$$y = 2x^2$$
### 步骤
1. 求导数
2. 让导数为0
3. 求极值点
4. 验证该点是否为极值点以及是什么极致点
### 上述方法的使用条件
1. 该函数可导
2. 导函数为0时，该方程/方程组可解
### 换个迭代思路
1. 随机选择一个出生点$x_0$
2. 如果$x_0$出生在最小点左侧，则应该加上一个正数，此时导数为负数，则认为是减去导数
3. 如果$x_0$出生在最小点右侧，则应该减去一个正数，此时导数为负数，则认为是减去导数
4. 如果$x_0$出生在最小值处
4. 总结不管$x_0$在哪里，都可以认为是减去导数即可
### 结论补充
* 一元函数称为导数，多远函数称为偏导数
* 减去导数也就是减去梯度，这就是梯度下降法

In [12]:
import numpy as np


# 定义原函数
def fn(x):
    return 2 * x ** 2

# 定义导函数
def dfn(x):
    return 4 * x

# 随机选择一个出生点
x_0 = np.random.uniform(low=-500, high=501, size=1)

#学习率
learning_rate = 1e-2

#开始迭代
epochs = 1000

for _ in range(epochs):
    # 梯度下降法
    x_0 -= learning_rate * dfn(x_0)



In [13]:
x_0

array([8.02002327e-16])

### 多元函数梯度下降求最小值实例
$$ f(x,y,z) = x^2+y^2+z^2$$

In [33]:
# 对x求偏导
def df_x(x, y, z):
    return 2 * x

# 对y求偏导
def df_y(x, y, z):
    return 2 * y

# 对z求偏导
def df_z(x, y, z):
    return 2 * z

# 随机选择出生点
x_0 = np.random.uniform(low=-10, high=10, size=1)
y_0 = np.random.uniform(low=-10, high=10, size=1)
z_0 = np.random.uniform(low=-10, high=10, size=1)

print(x_0, y_0, z_0)

#学习率
learning_rate = 1e-2

#开始迭代
epochs = 1000

for _ in range(epochs):
    # 梯度下降法
    fx = df_x(x_0,y_0,z_0)
    fy = df_y(x_0,y_0,z_0)
    fz = df_z(x_0,y_0,z_0)

    x_0 -= learning_rate * fx
    y_0 -= learning_rate * fy
    z_0 -= learning_rate * fz



print(x_0, y_0, z_0)

[-0.90614115] [7.28816588] [4.16356095]
[-1.52500598e-09] [1.22657453e-08] [7.00713717e-09]


## 深度学习

### 使用Pytorch进行梯度下降
$$ f(x, y, z) = 2x^2+5y^2-z^2$$

In [8]:
import torch


# 定义原函数
def fn(x, y, z):
    return 2 * x ** 2 + 5* y ** 2 - z ** 2

# 随机选择初始点
x_0 = torch.randint(
    low=-10,
    high=10,
    size=(1,),
    dtype=torch.float32,
    requires_grad=True #把x_0定义为变量，这样才可以求偏导
    )

y_0 = torch.randint(
    low=-10,
    high=10,
    size=(1,),
    dtype=torch.float32,
    requires_grad=True #把x_0定义为变量，这样才可以求偏导
    )

z_0 = torch.randint(
    low=-10,
    high=10,
    size=(1,),
    dtype=torch.float32,
    requires_grad=True #把x_0定义为变量，这样才可以求偏导
    )

#学习率
learning_rate = 1e-2

#开始迭代
epochs = 1000

for _ in range(epochs):
    # 正向传播，模拟损失
    target = fn(x_0, y_0, z_0)

    # 反向传播，求偏导
    target.backward()

    x_0.data -= learning_rate * x_0.grad
    y_0.data -= learning_rate * y_0.grad
    z_0.data -= learning_rate * z_0.grad

    # 手动清空 grad值
    x_0.grad.zero_()
    y_0.grad.zero_()
    z_0.grad.zero_()

print(x_0.data, y_0.data, z_0.data)


tensor([2.]) tensor([-7.]) tensor([-2.])
tensor([3.7348e-18]) tensor([-7.0065e-45]) tensor([-7.9653e+08])
