感知机和梯度下降示例
===========

本示例主要是用代码展示感知机和梯度下降是如何工作的。

本示例参考自https://www.youtube.com/watch?v=kft1AJ9WVDk

这里，我们需要求解的问题是：

![problemset](problemset.png)

一共有4个样例，每个样例的输入是一个3维实数向量，输出一个实数。然后给出一个新的输入，求解其输出。

这个问题比较特殊，一个直接的解就是输出等于输入的第一个维度的值，可以看到这样能够完美拟合所有的样例。

考虑使用感知机来对本问题进行求解，假定我们可以使用如下的函数来进行拟合：

$$
\hat{y} = \phi( \sum_{i=1}^{3} x_i w_i )
$$

其中$\hat{y}$是感知机的输出，$\phi$是sigmoid函数，$\phi(x) = \frac{1}{1+e^{-x}}$，$x_i$是一个输入，$w_i$是我们需要寻找的参数。

上面的感知机画成图的话如下：

![perception](perception.png)


In [1]:
from __future__ import print_function
import numpy as np

np.random.seed(0xff)

In [2]:
x = np.array([
    [0, 0, 1],
    [1, 1, 1],
    [1, 0, 1],
    [0, 1, 1],
])
y = np.array([
    0, 1, 1, 0
])
new_x = np.array([
    1, 0, 0
])

设置数据

In [3]:
w = np.random.rand(3)
w

array([0.46393652, 0.22303538, 0.32222402])

随机初始化参数

In [4]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

sigmoid(np.dot(x, w))

array([0.57986617, 0.73286276, 0.68700633, 0.63303504])

定义$\phi$函数，并打印当前感知机输出，可以看到与标准答案相去甚远。

为了简化表达式，我们将感知机写成矩阵乘法的形式，即：

$$
\hat{y} = \phi( x w )
$$

可以看到，如果我们调整参数$w$，那么自然感知机的输出也会随之改变。下一步我们需要定义什么样的参数才是“好的”，只有定义了什么样的参数是“好的”的情况下，我们才能够使用计算机进行求解。

一个符合我们直觉的定义是，“能够使感知机的输出距离标准样例输出尽量近”的参数是“好的”，此处我们使用L2距离的平方来刻画“近”，因此转化成计算机能够求解的描述就是：

**寻找参数$w$，使得以下函数的值最小：**

$$
loss = (\phi(x w) - y)^2
$$

其中$x$是一个样例的标准输入，$y$是该样例对应的标准输出。

上面的公式只考虑了一个样例，因此也可以将所有样例都考虑进来，一个普遍的做法就是求和：

$$
loss(w) = \sum_{(x,y) \in samples} (\phi(x w) - y)^2
$$

这个函数在机器学习中一般被称作“损失函数”，下面考虑如何使用梯度下降算法进行求解。

使用梯度下降算法求解一个函数的最小值，关键点在于求解**目标函数关于每个参数的导数**（对微积分又爱又恨，不过这里只需要用到微分的内容）。

在机器学习中，**并不需要给出导数的解析式，只用给出一个计算导数的方法即可**，因此我们可以将$loss(w)$的梯度写成：

$$
\frac{\partial loss(w)}{\partial w} = \sum_{(x,y) \in samples} 2 \times (\phi(x w) - y)  \times \frac{\partial{\phi(x w)}}{\partial(x w)} \times x^T
$$

其中，sigmoid函数的导数等于：

$$
\frac{\partial{\phi(x w)}}{\partial(x w)} = \phi(x w)(1 - \phi(x w))
$$

注：实际上在机器学习中，由于任何复杂的表达式都能够拆分成若干基本运算的组合，根据微积分中的链式法则，如果不考虑运行效率的话，只用分析每个基本操作的求导运算，然后按照链式法则进行组合即可求出导数。


In [5]:
learning_rate = 0.01 # 学习率
steps = 10000 # 迭代数量

设定梯度下降相关参数

In [6]:
print(f'y = {y}')
for step in range(steps):
    output = sigmoid(np.dot(x, w)) # 计算输出
    loss = np.sum((output - y) * (output - y)) # 计算
    gradient = 2 * (output - y) * output * (1 - output) * np.transpose(x)
    gradient = np.sum(gradient, axis=1) # 计算梯度
    
    w = w - learning_rate * gradient # 更新
    if step % 1000 == 0:
        print(f'step = {step}, loss = {loss}, output = {output}')

y = [0 1 1 0]
step = 0, loss = 0.9063054746879384, output = [0.57986617 0.73286276 0.68700633 0.63303504]
step = 1000, loss = 0.2061349606446641, output = [0.27465455 0.78242415 0.82219817 0.22747988]
step = 2000, loss = 0.09944087387692463, output = [0.19279282 0.84612958 0.87817166 0.15412188]
step = 3000, loss = 0.0628778921502277, output = [0.15348426 0.87707253 0.90317426 0.12179527]
step = 4000, loss = 0.045231869350196484, output = [0.13010644 0.89555653 0.91774125 0.10309821]
step = 5000, loss = 0.03503469184505395, output = [0.11440305 0.9080099  0.92746486 0.09068136]
step = 6000, loss = 0.028456772357978083, output = [0.10301124 0.91706465 0.93450938 0.08172002]
step = 7000, loss = 0.02388826170423647, output = [0.09430083 0.92400075 0.93989922 0.07488408]
step = 8000, loss = 0.02054297320013291, output = [0.08738197 0.92951852 0.94418673 0.06945936]
step = 9000, loss = 0.01799420573657285, output = [0.08172556 0.93403522 0.94769817 0.06502542]


In [7]:
new_y = sigmoid(np.dot(new_x, w))

print(f'w = {w}, new_x = {new_x}, new_y = {new_y}')

w = [ 5.44187185 -0.24453529 -2.48388091], new_x = [1 0 0], new_y = 0.9956873118323762


可以看到，通过梯度下降算法，参数$w$已经收敛到了一个较好的结果，而新输入$[1, 0, 0]$的输出为$0.995$，与我们预想的输出$1$已经非常接近了。