# 第二次作业

## 一.补充**梯度下降法**和**牛顿迭代法**的基本原理以及简单推导

### （1）梯度下降法的基本原理和简单推导

 求将$n$次方问题转化为优化问题（极值问题）。构造损失$L(x)$，寻找使$L(x)$最小的$x$，使之满足$x^n=y$。

首先定义损失函数$L(x)=\frac{1}{2}(x^n-y)^2$

很容易发现，满足$x^n=y$的$x$,一定使$L(x)$最小，因此问题就变成了求使损失函数最小的$x$。

对于多元函数，梯度是函数值上升最快的方向，故负梯度就是数值下降最快的方向，先找任一点，计算他的负梯度方向，再乘以步长$\alpha$，在直观上就能理解成，朝函数最小值的方向跨了一步。
其中$\alpha$的值不宜过大，否者容易“跨过了”最小值

$x_{n+1}=x_n-\alpha \bigtriangledown L(x_n)$

对于一元函数同理，该算法可为以下迭代式

$x_{n+1}=x_n-\alpha L^{'}(x_n)$

![jupyter](https://pic3.zhimg.com/v2-e1e6b238b5292251690526c055858fc6_r.jpg)

### （2）牛顿迭代法的基本原理

![jupyter](https://pic3.zhimg.com/87977f532b27c2d4aaf293b4b98602bc_r.jpg)

 将开方问题转化为求函数 $f(x)=x^n-y$ 的根的问题，可用牛顿迭代法，原理一图便知

$x_{n+1}=x_n-\frac{f(x_n)}{f^{'}(x_n))}$

## 二.用**二分法、梯度下降法**和**牛顿迭代法**的计算2022的9次方根。

### 法一：二分法

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import ipywidgets as ipd
def func(x):
    return x**9-2022
def Main(n,x1,x2):
    f1=func(x1)
    f2=func(x2)
    m=0
    x0=0
    while m<n:
        x0=(x1+x2)/2
        f0=func(x0)   
        if f1*f0<0:
            x2=x0
            f2=f0
            m=m+1
            plt.scatter(x0,x0**9)
        elif f2*f0<0:
            x1=x0
            f1=f0
            m=m+1
            plt.scatter(x0,x0**9)
    plt.plot((0,3),(2022,2022),label="标准值 2022")
    plt.ylim(0, 6000)
    plt.grid()
    print(x0,'是迭代',n,'次后求得的2022的9次方根')
print(' ')
print('n代表迭代次数，x1和x2代表初始值，x1小于x2下图为逼近过程')
ipd.interactive(Main,x1=[0,1,2],x2=[3,4,5], n=(1,20,1))

 
n代表迭代次数，x1和x2代表初始值，x1小于x2下图为逼近过程


interactive(children=(IntSlider(value=10, description='n', max=20, min=1), Dropdown(description='x1', options=…

### 法二：梯度下降法

In [2]:
import numpy as np
import matplotlib.pyplot as plt
import ipywidgets as ipd
def L(x):
    return (x**9-2022)**2/2
def dL(x):
    return 9*x**8*(x**9-2022)
def Main1(alpha,a,m):
    x=2
    Lx=L(x)
    n=0;
    while Lx>a and n<m:
        x=x-alpha*dL(x)
        Lx=L(x)
        n=n+1
        if alpha>1e-8:
            print('alpha数值过大，不收敛')
            break
    plt.scatter(x,0)
    print(x,'是2022的9次方根')
    print(" ")
    print('图中橙色是理论值，蓝色是逼近值')
    plt.xlim(1, 3)
    plt.scatter(2.329,0,label="标准值 2022")
print('如下图，alpha为步长，不宜过大，a为损失函数误差线，m为循环次数')
ipd.interactive(Main1,alpha=[1e-10,1e-9,1e-8,1e-7,1e-6,1e-5],a=[0.01,0.001,0.0001,1e-10],m=(1,10003,10))

如下图，alpha为步长，不宜过大，a为损失函数误差线，m为循环次数


interactive(children=(Dropdown(description='alpha', options=(1e-10, 1e-09, 1e-08, 1e-07, 1e-06, 1e-05), value=…

 ### 法三：牛顿迭代法
 

此种方法可视化和上面差不多，就不过多赘述

In [3]:
import numpy as np
def L(x):
    return x**9-2022
def dL(x):
    return 9*x**8
x=3
Lx=L(x)
alpha=1
while Lx>0.000001:
    x=x-L(x)/dL(x)
    Lx=L(x)
print(x,'是2022的9次方根')

2.329748371395071 是2022的9次方根


## 三.讨论**梯度下降法**中，步长$\alpha$ 的大小对结果的影响

<font color=blue>查阅相关知识，得知步长$\alpha$在机器学习中被称为“学习率”，函数对其值的选取十分敏感

### Part 1.步长选取过长 / 过短可能造成的影响

以简单的二次函数$y=x^2$为例,以$x=10$为起点，求最小值

In [3]:
import numpy as np
import matplotlib.pyplot as plt
import ipywidgets as ipd
def L(x):
    return x**2
def dL(x):
    return 2*x
def Main1(alpha,m):
    x=10
    Lx=L(x)
    n=0;
    while n<m:
        x=x-alpha*dL(x)
        Lx=L(x)
        n=n+1
    plt.scatter(x,x**2,color='r')
    print(x,'是此时的x')
    print(" ")
    print('图中红色是经过m次循环后x的值，蓝色是函数y=x^2')
    plt.xlim(-20, 20)
    plt.ylim(0, 400)
    p=np.linspace(-20,20,240)
    q=p*p
    plt.plot(p,q,label='y=x^2')
print('如下图，alpha为步长，m为循环次数')
ipd.interactive(Main1,alpha=[0.01,0.1,0.5,1,1.1],m=(0,30,1))

如下图，alpha为步长，m为循环次数


interactive(children=(Dropdown(description='alpha', options=(0.01, 0.1, 0.5, 1, 1.1), value=0.01), IntSlider(v…

正如上面的交互式程序，可以观察到，$\alpha $ 的值不宜过大也不宜过小

1.当$\alpha$=1.1时，通过梯度下降法计算得到的值是发散的，循环30次后，$x=2373$

2.当$\alpha$=1时，通过梯度下降法计算得到的值是发散的，无论循环多少次 $x=10/-10$

3.当$\alpha$=0.5时，通过梯度下降法计算得到的值为0，由于运气比较好，一次便收敛到 $x=0$

4.当$\alpha$=0.1时，通过梯度下降法循环30次得到的值为0.01，可知是收敛的

5.当$\alpha$=0.01时，通过梯度下降法循环30次得到的值为5.4，有收敛的趋势，但速度很慢

<font color=red>**我们有以下结论：$\alpha$过大，容易不收敛；$\alpha$过小，收敛速度过慢；且$\alpha$的洽当值与x有关**

<font color=blue >计算机算力那么强，那我们选择较小的步长，即使计算次数较多，但总能收敛，但是否是这样子呢？

### Part 2.如果函数有多个极小值点，步长无论过大小都会被困在其中

In [4]:
import numpy as np
import matplotlib.pyplot as plt
import ipywidgets as ipd
def L(x):
    return np.sin(x)*x
def dL(x):
    return np.sin(x)+np.cos(x)*x
def Main1(alpha,m):
    x=8.5
    Lx=L(x)
    n=0;
    while n<m:
        x=x-alpha*dL(x)
        Lx=L(x)
        n=n+1
    plt.scatter(x,np.sin(x)*x,color='r')
    print(x,'是此时的x')
    print(" ")
    print('图中红色是经过m次循环后x的值，蓝色是函数y=sin(x)*x')
    plt.xlim(0, 20)
    plt.ylim(-20,20)
    p=np.linspace(-20,20,240)
    q=np.sin(p)*p
    plt.plot(p,q,label='y=x^2')
print('如下图，alpha为步长，m为循环次数，我们的目标是15-20之间的那个最小值')
ipd.interactive(Main1,alpha=[0.01,0.1,1],m=(0,100,1))

如下图，alpha为步长，m为循环次数，我们的目标是15-20之间的那个最小值


interactive(children=(Dropdown(description='alpha', options=(0.01, 0.1, 1), value=0.01), IntSlider(value=50, d…

## 四.参考视频

https://www.bilibili.com/video/BV18P4y1j7uH/?spm_id_from=333.999.header_right.history_list.click&vd_source=cb554f457cfd9eb37ab18679a6f0810a

https://www.bilibili.com/video/BV1a94y1S7PP/?spm_id_from=333.788.top_right_bar_window_history.content.click