# 梯度下降学习率问题
用最简单的SGD做实验，讨论学习率问题。

学习率如果太小，则会下降很慢，需要很多次迭代，如果太大，就会出现发散，具体可以动手调试，也可以看截图。

选取的代价函数$J(x) = 0.5 (x-1)^2 + 0.5$

In [28]:
import numpy as np
import matplotlib.pyplot as plt
from ipywidgets import *

 
#先算出来当前函数的导数
def gradJ(theta):
    return theta-1
 
#梯度函数
def J(theta):
    return 0.5*(theta-1)**2+0.5
 
def train(lr,epoch,theta):
    thetas = []
    for i in range(epoch):
        gredient = gradJ(theta)
        last_theta = theta
        theta = theta - lr*gredient
        thetas.append(theta)
    plt.figure(figsize=(10,10))
    x = np.linspace(-1,3,100)
    plt.plot(x, J(x))
    plt.plot(np.array(thetas),J(np.array(thetas)),color='r',marker='o')
    
    plt.plot(1.0, 0.5, 'r*',ms=15)
    plt.text(1.0, 0.55, 'min', color='k')
    plt.text(thetas[0]+0.1,  J(thetas[0]), 'start', color='k')
    plt.text(thetas[-1]+0.1, J(thetas[-1])-0.05, 'end', color='k')
    
    plt.xlabel('theta')
    plt.ylabel('loss')
    plt.show()
    print('theta:',theta)
    print('loss:',J(theta))
    
#定义了4个变量控件，可以随时调节，查看效果 (最小值，最大值，步长)
@interact(lr=(0, 5, 0.001),epoch=(0,100,1),init_theta=(-1,3,0.1),continuous_update=False)
def visualize_gradient_descent(lr=0.05,epoch=10,init_theta=-1):
    train(lr,epoch,init_theta)

interactive(children=(FloatSlider(value=0.05, description='lr', max=5.0, step=0.001), IntSlider(value=10, desc…