# 梯度下降

f(x) = $x^{2}$ + 1

In [1]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
一维问题的梯度下降法示例
"""


def func_1d(x):
    """
    目标函数
    :param x: 自变量，标量
    :return: 因变量，标量
    """
    return x ** 2 + 1


def grad_1d(x):
    """
    目标函数的梯度
    :param x: 自变量，标量
    :return: 因变量，标量
    """
    return x * 2


def gradient_descent_1d(grad, cur_x=0.1, learning_rate=0.01, precision=0.0001, max_iters=10000):
    """
    一维问题的梯度下降法
    :param grad: 目标函数的梯度
    :param cur_x: 当前 x 值，通过参数可以提供初始值
    :param learning_rate: 学习率，也相当于设置的步长
    :param precision: 设置收敛精度
    :param max_iters: 最大迭代次数
    :return: 局部最小值 x*
    """
    for i in range(max_iters):
        grad_cur = grad(cur_x)
        if abs(grad_cur) < precision:
            break  # 当梯度趋近为 0 时，视为收敛
        cur_x = cur_x - grad_cur * learning_rate
        print("第", i, "次迭代：x 值为 ", cur_x)

    print("局部最小值 x =", cur_x)
    return cur_x


if __name__ == '__main__':
    gradient_descent_1d(grad_1d, cur_x=10, learning_rate=0.2, precision=0.000001, max_iters=10000)

第 0 次迭代：x 值为  6.0
第 1 次迭代：x 值为  3.5999999999999996
第 2 次迭代：x 值为  2.1599999999999997
第 3 次迭代：x 值为  1.2959999999999998
第 4 次迭代：x 值为  0.7775999999999998
第 5 次迭代：x 值为  0.46655999999999986
第 6 次迭代：x 值为  0.2799359999999999
第 7 次迭代：x 值为  0.16796159999999993
第 8 次迭代：x 值为  0.10077695999999996
第 9 次迭代：x 值为  0.06046617599999997
第 10 次迭代：x 值为  0.036279705599999976
第 11 次迭代：x 值为  0.021767823359999987
第 12 次迭代：x 值为  0.013060694015999992
第 13 次迭代：x 值为  0.007836416409599995
第 14 次迭代：x 值为  0.004701849845759997
第 15 次迭代：x 值为  0.002821109907455998
第 16 次迭代：x 值为  0.0016926659444735988
第 17 次迭代：x 值为  0.0010155995666841593
第 18 次迭代：x 值为  0.0006093597400104956
第 19 次迭代：x 值为  0.0003656158440062973
第 20 次迭代：x 值为  0.0002193695064037784
第 21 次迭代：x 值为  0.00013162170384226703
第 22 次迭代：x 值为  7.897302230536021e-05
第 23 次迭代：x 值为  4.7383813383216124e-05
第 24 次迭代：x 值为  2.8430288029929674e-05
第 25 次迭代：x 值为  1.7058172817957805e-05
第 26 次迭代：x 值为  1.0234903690774682e-05
第 27 次迭代：x 值为  6.1409422144648085e-06
第 28 次迭代：x 值为  

## f(x,y) = $-e^{-(x^2 + y^2）}$

In [3]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
二维问题的梯度下降法示例
"""
import math
import numpy as np


def func_2d(x):
    """
    目标函数
    :param x: 自变量，二维向量
    :return: 因变量，标量
    """
    return - math.exp(-(x[0] ** 2 + x[1] ** 2))


def grad_2d(x):
    """
    目标函数的梯度
    :param x: 自变量，二维向量
    :return: 因变量，二维向量
    """
    deriv0 = 2 * x[0] * math.exp(-(x[0] ** 2 + x[1] ** 2))
    deriv1 = 2 * x[1] * math.exp(-(x[0] ** 2 + x[1] ** 2))
    return np.array([deriv0, deriv1])


def gradient_descent_2d(grad, cur_x=np.array([0.1, 0.1]), learning_rate=0.01, precision=0.0001, max_iters=10000):
    """
    二维问题的梯度下降法
    :param grad: 目标函数的梯度
    :param cur_x: 当前 x 值，通过参数可以提供初始值
    :param learning_rate: 学习率，也相当于设置的步长
    :param precision: 设置收敛精度
    :param max_iters: 最大迭代次数
    :return: 局部最小值 x*
    """
    print(f"{cur_x} 作为初始值开始迭代...")
    for i in range(max_iters):
        grad_cur = grad(cur_x)
        if np.linalg.norm(grad_cur, ord=2) < precision:
            break  # 当梯度趋近为 0 时，视为收敛
        cur_x = cur_x - grad_cur * learning_rate
        print("第", i, "次迭代：x 值为 ", cur_x)

    print("局部最小值 x =", cur_x)
    return cur_x


if __name__ == '__main__':
    gradient_descent_2d(grad_2d, cur_x=np.array([1, -1]), learning_rate=0.2, precision=0.000001, max_iters=10000)

[ 1 -1] 作为初始值开始迭代...
第 0 次迭代：x 值为  [ 0.94586589 -0.94586589]
第 1 次迭代：x 值为  [ 0.88265443 -0.88265443]
第 2 次迭代：x 值为  [ 0.80832661 -0.80832661]
第 3 次迭代：x 值为  [ 0.72080448 -0.72080448]
第 4 次迭代：x 值为  [ 0.61880589 -0.61880589]
第 5 次迭代：x 值为  [ 0.50372222 -0.50372222]
第 6 次迭代：x 值为  [ 0.3824228 -0.3824228]
第 7 次迭代：x 值为  [ 0.26824673 -0.26824673]
第 8 次迭代：x 值为  [ 0.17532999 -0.17532999]
第 9 次迭代：x 值为  [ 0.10937992 -0.10937992]
第 10 次迭代：x 值为  [ 0.06666242 -0.06666242]
第 11 次迭代：x 值为  [ 0.04023339 -0.04023339]
第 12 次迭代：x 值为  [ 0.02419205 -0.02419205]
第 13 次迭代：x 值为  [ 0.01452655 -0.01452655]
第 14 次迭代：x 值为  [ 0.00871838 -0.00871838]
第 15 次迭代：x 值为  [ 0.00523156 -0.00523156]
第 16 次迭代：x 值为  [ 0.00313905 -0.00313905]
第 17 次迭代：x 值为  [ 0.00188346 -0.00188346]
第 18 次迭代：x 值为  [ 0.00113008 -0.00113008]
第 19 次迭代：x 值为  [ 0.00067805 -0.00067805]
第 20 次迭代：x 值为  [ 0.00040683 -0.00040683]
第 21 次迭代：x 值为  [ 0.0002441 -0.0002441]
第 22 次迭代：x 值为  [ 0.00014646 -0.00014646]
第 23 次迭代：x 值为  [ 8.78751305e-05 -8.78751305e-05]
第

In [4]:
gradient_descent_2d(grad_2d, cur_x=np.array([3, -3]), learning_rate=0.2, precision=0.000001, max_iters=10000)

[ 3 -3] 作为初始值开始迭代...
局部最小值 x = [ 3 -3]


array([ 3, -3])

In [5]:
print(grad_2d(np.array([3, -3])))

[ 9.13798785e-08 -9.13798785e-08]
