# 深度学习与深层神经网路

1. 深度学习就是深层神经网络的代名词
2. 深度学习最重要的两个特性
   + 多层
   + 非线性

## 线性模型的局限性

最早的神经网络采用线性模型

$$
y=\sum_{i}w_ix_i+b
$$

$$
a^{(1)}=xW^{(1)},y=a^{(1)}W^{(2)}
$$

$$
y=(xW^{(1)})W^{(2)}\rightarrow y=x(W^{(1)}W^{(2)})=xW^{'}
$$

$$
  y=xW^{'}=\left[
      \begin{array}{cc}
      x_1 & x_2 
      \end{array}
      \right]\left[
          \begin{array}{c}
          W_1^{'} \\
  W_2^{'} 
          \end{array}
          \right]=\left[
              \begin{array}{cc}
              W_{1}^{'}x_1 & W_2^{'} x_2
              \end{array}
              \right]
$$

线性模型不能解决异或问题。

![异或](./xor.jpg)

## 激活函数实现去线性化

如何做的？

![加入非线性的激活函数图](./nonlinear.png)

$$
\begin{aligned} A_{1} &=\left[a_{11}, a_{12}, a_{13}\right]=f\left(x W^{(1)}+b\right)=f\left(\left[x_{1}, x_{2}\right]\left[\begin{array}{ccc}{W_{1,1}^{(1)}} & {W_{1,2}^{(1)}} & {W_{1,3}^{(1)}} \\ {W_{2,1}^{(1)}} & {W_{2,2}^{(1)}} & {W_{2,3}^{(1)}}\end{array}\right]+\left[\begin{array}{lll}{b_{1}} & {b_{2}} & {b_{3}}\end{array}\right]\right) \\ &=f\left(\left[W_{1,1}^{(1)} x_{1}+W_{2,1}^{(1)} x_{2}+b_{1}, W_{1,2}^{(1)} x_{1}+W_{2,2}^{(1)} x_{2}+b_{2}, W_{1,3}^{(1)} x_{1}+W_{2,3}^{(1)} x_{2}+b_{3}\right]\right) \\ &=\left[f\left(W_{1,1}^{(1)} x_{1}+W_{2,1}^{(1)} x_{2}+b_{1}\right), f\left(W_{1,2}^{(1)} x_{1}+W_{2,2}^{(1)} x_{2}+b_{2}\right), f\left(W_{1,3}^{(1)} x_{1}+W_{2,3}^{(1)} x_{2}+b_{3}\right)\right] \end{aligned}
$$

常用的激活函数

![常用的激活函数](./act.png)


In [None]:
a = tf.nn.relu(tf.matmul(x,w1)+base1)
b = tf.nn.relu(tf.matmul(a,w2)+base2)


## 多层神经网络解决异或语言

感知机理论上不可以的原因？（这个可以列一个专题来讲）FIXME 参考书籍《Perceptions:An Introtudction to Computational Geometry》 MIT Press,1969

![perception](./perc.png)

![deep](./deep.png)

可以看到通过隐藏层，我们可以抽象出更为高维的信息。这些信息就可以用来分类数据。从而得到更好的分类结果。

# 损失函数

## 经典损失函数


### 分类问题

神经网络如何输出多分类问题。比如3分类问题。苹果、香蕉、梨。


$$
\mbox{苹果}=\left(
    \begin{array}{c}
    1 \\
    0 \\
    0 
    \end{array}
    \right),\mbox{香蕉}=\left(
        \begin{array}{c}
        0 \\
        1 \\
        0 
        \end{array}
        \right),\mbox{梨}=\left(
            \begin{array}{c}
            0 \\
            0 \\
            1 
            \end{array}
            \right)
$$

如何比较输出值与预期值之间的差距？ *交叉熵*。

交叉熵是用来衡量两个概率分布之间的距离的函数。它是分类问题中比较常见的损失函数。其定义为

$$
H(p,q)=-\sum_{x}p(x)log[q(x)]
$$

如何将神经网络的结果变成一个概率分布？使用softmax函数。

![softchange](./softchange.png)

加入神经网络的原始输出为$\{y_1,y_2,...,y_n\}$

$$
\operatorname{softmax}(y)_{i}=y_{i}^{\prime}=\frac{e^{y i}}{\sum_{j=1}^{n} e^{y j}}
$$

这个函数满足，概率分布的所有条件。这样就把神经网络的输出改成了一个概率分布。这样就可以计算交叉熵了。

但是需要注意的一点是交叉熵并不是对称的

$$
H(p,q)\neq H(q,p)
$$

比如我们可以这样来表述交叉熵$H(p,q)$,用q来刻画p的困哪程度。



In [None]:
cross_entropy = -tf.reduce_mean(y_ * tf.log(tf.clip_by_value(y, le-10, 1.0)))

In [13]:
import tensorflow as tf

with tf.Session() as sess:
    v = tf.constant([[1.0,2.0,3.0], [4.0,5.0,6.0]])
    print("--->",tf.clip_by_value(v, 2.5, 4.5).eval())
    v = tf.constant([1.0, 2.0, 3.0])
    print("--->", tf.log(v).eval())
    vl = tf.constant([[1.0, 2.0], [3.0 , 4.0]])
    v2 = tf.constant([[5.0, 6.0], [7.0, 8.0]])
    print("--->", (vl *v2).eval())
    print("--->", tf.matmul(vl , v2).eval())

---> [[2.5 2.5 3. ]
 [4.  4.5 4.5]]
---> [0.        0.6931472 1.0986123]
---> [[ 5. 12.]
 [21. 32.]]
---> [[19. 22.]
 [43. 50.]]


$$
\left(
    \begin{array}{cc}
    1 & 2 \\
    3 & 4 
    \end{array}
    \right)*\left(
        \begin{array}{cc}
        5 & 6 \\
        7 & 8 
        \end{array}
        \right)=\left(
            \begin{array}{cc}
            5 & 12 \\
            21 & 32 
            \end{array}
            \right)
$$

In [15]:
import tensorflow as tf

with tf.Session() as sess:
    v = tf.constant([[1.0,2.0,3.0],[4.0,5.0,6.0]])
    print("--->", tf.reduce_mean(v).eval())

---> 3.5


$$
\frac{1+2+3+4+5+6}{6}=3.5
$$

tensforlow 提供了连个合并softmax和交叉熵的公式


In [None]:
cross_entropy= tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y)

$y$ 代表神经网络的输出，而$y\_$代表的标准答案。如果只有一个正确答案的分类问题中可以使用另外的一个函数

In [None]:
cross_entropy= tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y_, logits=y)

### 回归问题

回归问题一般采用的损失函数未均方误差。

$$
\operatorname{MSE}\left(y, y^{\prime}\right)=\frac{\sum_{i=1}^{n}\left(y_{i}-y_{i}^{\prime}\right)^{2}}{n}
$$

In [None]:
mse =  tf.reduce_mean(tf.square(y_ - y))

## 自定义损失函数

In [None]:
import tensorflow as tf
from numpy.random import RandomState

定义神经网络的相关参数和变量。

In [None]:
batch_size = 8
x = tf.placeholder(tf.float32, shape=(None, 2), name="x-input")
y_ = tf.placeholder(tf.float32, shape=(None, 1), name='y-input')
w1= tf.Variable(tf.random_normal([2, 1], stddev=1, seed=1))
y = tf.matmul(x, w1)

设置自定义的损失函数

$$
\operatorname{Loss}\left(y, y^{\prime}\right)=\sum_{i=1}^{n} f\left(y_{i}, y_{i}^{\prime}\right), \quad f(x, y)=\left\{\begin{array}{ll}{a(x-y)} & {x>y} \\ {b(y-x)} & {x \leqslant y}\end{array}\right.
$$

In [None]:
# 定义损失函数使得预测少了的损失大，于是模型应该偏向多的方向预测。
loss_less = 10
loss_more = 1
loss = tf.reduce_sum(tf.where(tf.greater(y, y_), (y - y_) * loss_more, (y_ - y) * loss_less))
train_step = tf.train.AdamOptimizer(0.001).minimize(loss)

In [None]:
import tensorflow as tf
vl = tf.constant([l.0, 2.0, 3.0, 4.0])
v2 = tf.constant([4 . 0, 3 . 0, 2 . 0, 1.0])
sess = tf.InteractiveSession()
print(tf.greater(vl, v2) .eval()) #输出[False False True True]
print(tf.where(tf.greater(vl, v2), vl, v2).eval()) #输出[4. 3. 3. 4.J
sess.close ()

生成模拟数据集。

In [None]:
rdm = RandomState(1)
X = rdm.rand(128,2)
Y = [[x1+x2+(rdm.rand()/10.0-0.05)] for (x1, x2) in X]

训练模型。

In [None]:
with tf.Session() as sess:
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    STEPS = 5000
    for i in range(STEPS):
        start = (i*batch_size) % 128
        end = (i*batch_size) % 128 + batch_size
        sess.run(train_step, feed_dict={x: X[start:end], y_: Y[start:end]})
        if i % 1000 == 0:
            print("After %d training step(s), w1 is: " % (i))
            print sess.run(w1), "\n"
    print "Final w1 is: \n", sess.run(w1)

重新定义损失函数，使得预测多了的损失大，于是模型应该偏向少的方向预测。

In [None]:
loss = tf.losses.mean_squared_error(y, y_)
train_step = tf.train.AdamOptimizer(0.001).minimize(loss)

with tf.Session() as sess:
    init_op = tf.global_variables_initializer()
    sess.run(init_op)
    STEPS = 5000
    for i in range(STEPS):
        start = (i*batch_size) % 128
        end = (i*batch_size) % 128 + batch_size
        sess.run(train_step, feed_dict={x: X[start:end], y_: Y[start:end]})
        if i % 1000 == 0:
            print("After %d training step(s), w1 is: " % (i))
            print sess.run(w1), "\n"
    print "Final w1 is: \n", sess.run(w1)

不同的损失函数会对训练得到的模型产生重要影响。

# 神经网络优化算法

反向传到的推导。另立专题 FIXME

## 梯度下降算法

## 共轭梯度下降算法



## 问题

1. 可能陷入局部最优解。
2. 数据很大时，计算所有数据的梯度非常耗时。
3. 如何解决（随机梯度下降）
4. 随机梯度下降，缺点可能连局部最优都找不到。
5. 可以把数据划分为不同的batch来训练。

## 学习率

1. 假设我们要最小化函数  $y=x^2$, 选择初始点   $x_0=5$
2. 学习率为1的时候，x在5和-5之间震荡。

In [None]:
import tensorflow as tf
TRAINING_STEPS = 10
LEARNING_RATE = 1
x = tf.Variable(tf.constant(5, dtype=tf.float32), name="x")
y = tf.square(x)

train_op = tf.train.GradientDescentOptimizer(LEARNING_RATE).minimize(y)

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for i in range(TRAINING_STEPS):
        sess.run(train_op)
        x_value = sess.run(x)
        print "After %s iteration(s): x%s is %f."% (i+1, i+1, x_value) 

学习率为0.001的时候，下降速度过慢，在901轮时才收敛到0.823355。

In [None]:
TRAINING_STEPS = 1000
LEARNING_RATE = 0.001
x = tf.Variable(tf.constant(5, dtype=tf.float32), name="x")
y = tf.square(x)

train_op = tf.train.GradientDescentOptimizer(LEARNING_RATE).minimize(y)

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for i in range(TRAINING_STEPS):
        sess.run(train_op)
        if i % 100 == 0: 
            x_value = sess.run(x)
            print "After %s iteration(s): x%s is %f."% (i+1, i+1, x_value)

使用指数衰减的学习率，在迭代初期得到较高的下降速度，可以在较小的训练轮数下取得不错的收敛程度

In [None]:
TRAINING_STEPS = 100
global_step = tf.Variable(0)
LEARNING_RATE = tf.train.exponential_decay(0.1, global_step, 1, 0.96, staircase=True)

x = tf.Variable(tf.constant(5, dtype=tf.float32), name="x")
y = tf.square(x)
train_op = tf.train.GradientDescentOptimizer(LEARNING_RATE).minimize(y, global_step=global_step)

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for i in range(TRAINING_STEPS):
        sess.run(train_op)
        if i % 10 == 0:
            LEARNING_RATE_value = sess.run(LEARNING_RATE)
            x_value = sess.run(x)
            print "After %s iteration(s): x%s is %f, learning rate is %f."% (i+1, i+1, x_value, LEARNING_RATE_value)