## 深度学习与深层神经网络


深度学习的概念：**一类通过多层非线性变换对高复杂性数据建模算法的合集**
- “多层非线性变换”

###  线性模型的局限性

只通过线性变换，任意层的全连接神经网络和单层神经网络模型的表达能力没有任何区别，而且它们都是线性模型。 因为可以通过矩阵变换达到多层的效果。

在深度学习的定义中特意强调它的目的为解决更加复杂的问题 。 所谓复杂问题，至少是无法通过直线（或者高维空间的平面）划分的 。

### 激活函数实现去线性化

将每一个神经元（也就是神经网络中的节点）的输出通过一个非线性函数，那么整个神经网络的模型也就不再是线性的了。这个非线性函数就是激活函数。

![activatefuncs.png](imgs\activatefuncs.png)

**TensorFlow中的激活函数**

- `tf.nn.relu`
- `tf.nn.sigmoid`
- `tf.nn.tanh`
- TensorFlow 也支持使用自己定义的激活函数


### 多层网络解决异或运算

- 单层感知机无法模拟异或运算的功能。
- 深层神经网络实际上有组合特征提取的功能。


## 损失函数定义

   分类问题和回归问题是监督学习的两大种类。这一节将分别介绍分类问题和回归问题中使用到的经典损失函数。分类问题希望解决的是将不同的样本分到事先定义好的类别中。
   
### 经典损失函数
   
   交叉熵（ cross entropy ）是常用的评判方法之一 。交叉：刻画了两个概率分布之间的距离 ， 它是分类问题中使用比较广的一种损失函数。
   
   - 交叉熵是一个信息论中的概念，它原本是用来估算平均编码长度的。
   
两个概率分布 p 和 q ， 通过 q 来表示 p 的交叉煽
   
$ H(p,q) = - \sum_x{p(x)log{q(x)}} $

- Softmax 回归就是一个非常常用的方法。
- 将神经网络的输出变成一个概率分布
- 那么经过 Softmax 回归处理之后的输出为 ：
- $softmax(y)_{i} = {y^{'}_{i}}=\frac{e^{yi}}{\sum^{n}_{j=1}e^{yj}}$
- 这个新的输出可以理解为经过神经网络的推导， 一个样例为不同类别的概率分别是多大。
- 这样就把神经网络的输出也变成了 一个概率分布，从而可以通过交叉：脑来计算预测的概率分布和真实答案的概率分布之间的距离了。

通过概率分布 q 来表达概率分布 p 的困难程度, p 代表的是正确答案， q 代表的是预测值。交叉熵；刻画的是两个概率分布的距离，也就是说交叉熵；值越小，两个概率分布越接近。

![crossentrpy.png](imgs/crossentrpy.png)

TensorFlow中的函数:
 - ` tf.nn .softmax_cross_ entropy_ with_ logits`


**回归问题解决的是对具体数值的预测**

- 最常用的损失函数是均方误差

$ MSE(y,y^{'})=\frac{\sum^{n}_{i=1}(y_i - y^{'}_{i})^{2}}{n} $

   




In [7]:
#对于公式的表示解析
# cross_entropy = -tf.reduce_mean(
# y_ * tf.log(tf.clip_by_value(y,1e-10,1.0)))

# *: 元素之间直接相乘
# tf. matmul: 矩阵乘法

# clip_by_value: 数值限制在一个范围之内，避免运算错误
import tensorflow as tf
v = tf.constant([[1.0,2.0,3.0],[4.0,5.0,6.0]])
v2 = 
with tf.Session() as sess:
    print (sess.run(tf.clip_by_value(v,2.5,4.5)))
    print(sess.run(tf.log(v)))
    



[[2.5 2.5 3. ]
 [4.  4.5 4.5]]
[[0.        0.6931472 1.0986123]
 [1.3862944 1.609438  1.7917595]]


##  神经网络优化算法


### 传统方法（SGD）
反向传播算法（ backpropagation ）和梯度下降算法(gradient decent ）调整神经网络中参数的取值。梯度下降算法主要用于优化单个参数的取值，而反向传播算法给出了 一个高效的方式在所有参数上使用梯度下降算法，从而使神经网络模型在训练数据上的损失函数尽可能小。

 神经网络的优化过程可以分为两个阶段：
 -  第一个阶段先通过前向传播算法计算得到预测值，井将预测值和真实值做对比得出两者之间的差距
 -  通过反向传播算法计算损失函数对每一个参数的梯度，再根据梯度和学习 率使用梯度下降算法更新每一个参数 
 
 优化方法：
 
 - SGD算法
     - 在每一轮法代中，随机优化某一条训练数据上的损失函数 。 
 - 采用Batch size方法
     - 每次使用 一个 batch 可以大大减小收敛所需要的法代次数
     - 

### 学习率的设置

**指数衰减法**
- `tf.train.exponential_decay`
- 可以先使用较大的学习率来快速得到一个比较优的解，然后随着迭代的继续逐步减小学习率，使得模型在训练后期更加稳定。
- 

### 过拟合问题

**正则化（ regul arization ） **
- 正则化的思想就是在损失函数中加入刻画模型复杂程度的指标。
- 基本的思想都是希望通过限制权重的大小，使得模型不能任意拟合训练数据中的随机噪音。

正则化的方法
- L1:  $R(w)= \sum_i{|W_i|}$
- L2:  $R(w)= \sum_i{|W_i^2|}$
- Ll 正则化会让参数变得更稀疏，而 L2 正则化不会
    -  L2 正则化不会让参数变得稀疏的原因是当参数很小时，比如 0.001 ，这个参数的平方基本上就可以忽略了，于是模型不会进一步将这个参数调整为 0 。
    -  L I 正则化的计算公式不可导，而 L2 正则化公式可导。
- `tf.contrib.layers.l2_regularizer`
- `tf.contrib.layers.l1_regularizer`






In [8]:
import tensorflow as tf
x = tf.constant([[0.7,0.9]])
y = tf.constant([1.0])
w = tf.Variable(tf.random_normal([2,1],stddev = 1,seed =1))
y_ = tf.matmul(x,w)

loss = tf.reduce_mean(tf.square(y_-y)) + tf.contrib.layers.l2_regularizer(0.2)(w)

with tf.Session() as sess:
    print(sess.run(loss))

FailedPreconditionError: Attempting to use uninitialized value Variable_6
	 [[node Variable_6/read (defined at <ipython-input-8-281268655329>:4) ]]
	 [[node add_2 (defined at <ipython-input-8-281268655329>:7) ]]

Caused by op 'Variable_6/read', defined at:
  File "D:\Anaconda3\envs\tfgpu\lib\runpy.py", line 193, in _run_module_as_main
    "__main__", mod_spec)
  File "D:\Anaconda3\envs\tfgpu\lib\runpy.py", line 85, in _run_code
    exec(code, run_globals)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\ipykernel_launcher.py", line 16, in <module>
    app.launch_new_instance()
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\traitlets\config\application.py", line 658, in launch_instance
    app.start()
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\ipykernel\kernelapp.py", line 505, in start
    self.io_loop.start()
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tornado\platform\asyncio.py", line 148, in start
    self.asyncio_loop.run_forever()
  File "D:\Anaconda3\envs\tfgpu\lib\asyncio\base_events.py", line 438, in run_forever
    self._run_once()
  File "D:\Anaconda3\envs\tfgpu\lib\asyncio\base_events.py", line 1451, in _run_once
    handle._run()
  File "D:\Anaconda3\envs\tfgpu\lib\asyncio\events.py", line 145, in _run
    self._callback(*self._args)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tornado\ioloop.py", line 690, in <lambda>
    lambda f: self._run_callback(functools.partial(callback, future))
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tornado\ioloop.py", line 743, in _run_callback
    ret = callback()
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tornado\gen.py", line 781, in inner
    self.run()
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tornado\gen.py", line 742, in run
    yielded = self.gen.send(value)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\ipykernel\kernelbase.py", line 357, in process_one
    yield gen.maybe_future(dispatch(*args))
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tornado\gen.py", line 209, in wrapper
    yielded = next(result)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\ipykernel\kernelbase.py", line 267, in dispatch_shell
    yield gen.maybe_future(handler(stream, idents, msg))
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tornado\gen.py", line 209, in wrapper
    yielded = next(result)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\ipykernel\kernelbase.py", line 534, in execute_request
    user_expressions, allow_stdin,
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tornado\gen.py", line 209, in wrapper
    yielded = next(result)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\ipykernel\ipkernel.py", line 294, in do_execute
    res = shell.run_cell(code, store_history=store_history, silent=silent)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\ipykernel\zmqshell.py", line 536, in run_cell
    return super(ZMQInteractiveShell, self).run_cell(*args, **kwargs)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\IPython\core\interactiveshell.py", line 2848, in run_cell
    raw_cell, store_history, silent, shell_futures)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\IPython\core\interactiveshell.py", line 2874, in _run_cell
    return runner(coro)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\IPython\core\async_helpers.py", line 67, in _pseudo_sync_runner
    coro.send(None)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\IPython\core\interactiveshell.py", line 3049, in run_cell_async
    interactivity=interactivity, compiler=compiler, result=result)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\IPython\core\interactiveshell.py", line 3214, in run_ast_nodes
    if (yield from self.run_code(code, result)):
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\IPython\core\interactiveshell.py", line 3296, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "<ipython-input-8-281268655329>", line 4, in <module>
    w = tf.Variable(tf.random_normal([2,1],stddev = 1,seed =1))
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tensorflow\python\ops\variables.py", line 213, in __call__
    return cls._variable_v1_call(*args, **kwargs)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tensorflow\python\ops\variables.py", line 176, in _variable_v1_call
    aggregation=aggregation)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tensorflow\python\ops\variables.py", line 155, in <lambda>
    previous_getter = lambda **kwargs: default_variable_creator(None, **kwargs)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tensorflow\python\ops\variable_scope.py", line 2495, in default_variable_creator
    expected_shape=expected_shape, import_scope=import_scope)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tensorflow\python\ops\variables.py", line 217, in __call__
    return super(VariableMetaclass, cls).__call__(*args, **kwargs)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tensorflow\python\ops\variables.py", line 1395, in __init__
    constraint=constraint)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tensorflow\python\ops\variables.py", line 1557, in _init_from_args
    self._snapshot = array_ops.identity(self._variable, name="read")
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tensorflow\python\util\dispatch.py", line 180, in wrapper
    return target(*args, **kwargs)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tensorflow\python\ops\array_ops.py", line 81, in identity
    ret = gen_array_ops.identity(input, name=name)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tensorflow\python\ops\gen_array_ops.py", line 3890, in identity
    "Identity", input=input, name=name)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tensorflow\python\framework\op_def_library.py", line 788, in _apply_op_helper
    op_def=op_def)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tensorflow\python\util\deprecation.py", line 507, in new_func
    return func(*args, **kwargs)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tensorflow\python\framework\ops.py", line 3300, in create_op
    op_def=op_def)
  File "D:\Anaconda3\envs\tfgpu\lib\site-packages\tensorflow\python\framework\ops.py", line 1801, in __init__
    self._traceback = tf_stack.extract_stack()

FailedPreconditionError (see above for traceback): Attempting to use uninitialized value Variable_6
	 [[node Variable_6/read (defined at <ipython-input-8-281268655329>:4) ]]
	 [[node add_2 (defined at <ipython-input-8-281268655329>:7) ]]
