In [2]:
"""
假设当前模型参数为θ, 每个样本的损失函数化简后为:
	J=θ**2 - b*θ + c
的形式，b和c的取值情况满足下列的数据特征：
  b服从均值为-1，标准差为1的高斯正态分布的随机数
  c服从均值为5，标准差为1的高斯正态分布的随机数
求解：
  -1. 当m=1的时候，所有样本损失函数最优的θ值。(假定b=-1, c=5)
  -2. 当m=2的时候，所有样本损失函数最优的θ值。
  -3. 当m=10的时候，所有样本损失函数最优的θ值。
  -4. 当m=100的时候，所有样本损失函数最优的θ值。
  -5. 当m=1000的时候，所有样本损失函数最优的θ值。
NOTE：考虑一下可视化它的变化过程(损失函数以及每次更新的θ值大小以及θ的变化情况)。
NOTE: 这里的1、2、3、4、5其实是BGD的实现，如果上面几个都实现了，考虑一下SGD以及MBGD的实现(只需要考虑m=1000)
"""

'\n假设当前模型参数为θ, 每个样本的损失函数化简后为:\n\tJ=θ**2 - b*θ + c\n的形式，b和c的取值情况满足下列的数据特征：\n  b服从均值为-1，标准差为1的高斯正态分布的随机数\n  c服从均值为5，标准差为1的高斯正态分布的随机数\n求解：\n  -1. 当m=1的时候，所有样本损失函数最优的θ值。(假定b=-1, c=5)\n  -2. 当m=2的时候，所有样本损失函数最优的θ值。\n  -3. 当m=10的时候，所有样本损失函数最优的θ值。\n  -4. 当m=100的时候，所有样本损失函数最优的θ值。\n  -5. 当m=1000的时候，所有样本损失函数最优的θ值。\nNOTE：考虑一下可视化它的变化过程(损失函数以及每次更新的θ值大小以及θ的变化情况)。\nNOTE: 这里的1、2、3、4、5其实是BGD的实现，如果上面几个都实现了，考虑一下SGD以及MBGD的实现(只需要考虑m=1000)\n'

In [16]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl 

In [39]:
# 设置在jupyter中matplotlib的显示情况（表示不是嵌入显示）
%matplotlib tk

In [17]:
# 解决中文显示问题
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

In [4]:
# 生成符合正态分布的数据
def buildNormalDistribution(mean, std):
    # loc：float
    # 此概率分布的均值（对应着整个分布的中心centre）
    # scale：float
    # 此概率分布的标准差（对应于分布的宽度，scale越大越矮胖，scale越小，越瘦高）
    # size：int or tuple of ints
    # 输出的shape，默认为None，只输出一个值
    return np.random.normal(loc = mean, scale = std, size= 1)

In [5]:
b = buildNormalDistribution(-1, 1)
c = buildNormalDistribution(5, 1)
print(b,c)
# 原函数
def J(θ):
    return θ ** 2 - b * θ + c
# 一阶导函数
def J_(θ):
    return 2 * θ - b


[-0.17790943] [ 5.25281752]


In [6]:
def getBGDGD(θ):
    return np.sum(J_(θ))

In [46]:
GD_Theta = []
GD_Y = []
alpha = 0.5
t1 =-0.17790943
f_current = J(t1)
f_change = f_current
GD_Theta.append(t1)
GD_Y.append(f_current)
item_num = 0
while f_change > 1e-10 and item_num < 100:
    item_num += 1
     # 更新模型    
    t1 = t1 - alpha * getBGDGD(t1) / len(b)
    tmp = J(t1)
    f_change = np.abs(f_current - tmp)
    f_current = tmp
    GD_Theta.append(t1)
    GD_Y.append(f_current)
print(u"最终结果为:(%.5f, %.5f)" % (t1,f_current)) 
print(u"迭代过程中X的取值，迭代次数:%d" % item_num)
print(GD_Theta)

T = np.arange(-0.18,0.18,0.005)
Y = np.array(list(map(lambda t: J(t), T)))

# 画图
plt.figure(facecolor='w')
plt.plot(T, Y, 'r-', linewidth=2)
plt.plot(GD_Theta, GD_Y, 'bo--', linewidth=2)
plt.title(u'函数$y=θ^2 - b * θ + c$; \n学习率:%.3f; 最终解:(%.3f, %.3f);迭代次数:%d' % (alpha, t1, f_current, item_num))
plt.show()

最终结果为:(-0.08895, 5.24490)
迭代过程中X的取值，迭代次数:2
[-0.17790943, -0.088954713068525149, -0.088954713068525149]
