#### 初始神经网络

In [1]:
from keras.datasets import mnist

(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

Using TensorFlow backend.


In [2]:
print('train_images.shape = ', train_images.shape)
print('test_images.shape = ', test_images.shape)

train_images.shape =  (60000, 28, 28)
test_images.shape =  (10000, 28, 28)


In [3]:
from keras import models
from keras import layers

network = models.Sequential()
network.add(layers.Dense(512, input_shape=(28 * 28,), activation='relu'))
network.add(layers.Dense(10, activation='softmax'))  # 该层返回由10个概率值组成的数组

relu运算和加法都是逐元素的运算，即该运算独立地应用于张量中的每个元素，也就是说，这些运算非常适合大规模并行运算。
_____
**层**：从输入数据中提取表示。大多数深度学习都是将简单的层链接起来，从而实现渐进式的数据蒸馏（data distillation）。

- **损失函数**：网络如何衡量在训练数据上的性能，即网络如何朝着正确的方向前进。
- **优化器**：基于训练数据和损失函数来更新网络的机制。
- 在训练和测试过程中需要监控的指标。

In [4]:
network.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

数据预处理：将其变换为网络要求的形状，并缩放到所有值都在$[0,1]$区间。

In [5]:
train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype('float32') / 255

test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype('float32') / 255

对标签进行分类编码。

In [7]:
from keras.utils import to_categorical

train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

In [14]:
network.fit(train_images, train_labels, epochs=20, batch_size=128)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.callbacks.History at 0x1c6ef748>

In [15]:
test_loss, test_acc = network.evaluate(test_images, test_labels)



In [17]:
print('test_loss = ', test_loss)
print('test_acc = ', test_acc)

test_loss =  0.10312116933780617
test_acc =  0.9833


#### 神经网络的数据表示

- **张量**：是矩阵向任意维度的推广。
- **标量**（0D张量）：仅包含一个数字的张量。

In [19]:
import numpy as np 
x = np.array(12)

- **向量**（1D张量）：数字组成的数组。

In [20]:
x = np.array([12, 3, 6, 12, 7])

- **矩阵**（2D张量）：向量组成的数组。

_____
张量的关键属性：
1. 轴的个数
2. 形状：表示张量沿每个轴的维度大小，如3D张量的形状为$(3, 3, 5)$
3. 数据类型：可为float32、uint8、float64等。张量存储在预先分配的连续内存中，而字符串的长度是可变的，无法用这种方式存储。
______

深度学习中所有数据张量的第一个轴都是样本轴。

需处理的数据张量类别：
1. 向量数据：2D张量，形状为$(sample, features)$
2. 时间序列数据：3D张量，形状为$(samples, timesteps, features)$
3. 图像：4D张量，形状为$(samples, height, width, channels)$
4. 视频：5D张量，形状为$(samples, frames, height, width, channels)$

股票价格序列集：每一分钟，将股票的close、open、low、high保存下来，每分钟被编码为一个4D向量，整个交易日被编码为一个形状为$(240, 4)$的2D张量，200天的数据则保存为一个形状为$(200, 240, 4)$的3D张量中。每个样本是一天的股票数据。
_____
深度神经网络学到的所有变换都可以简化为数值数据张量上的一些张量运算。

深度学习将复杂的几何变换逐步分解为一长串基本的几何变换，这与人类展开纸球所采取的策略大致相同。
____

网络训练步骤：
1. 抽取训练样本$x$和对应目标$y$组成的数据批量；
2. 在$x$上运行网络（前向传播），得到预测值y_pred；
3. 计算网络在这批数据上的损失，用于衡量y_pred和$y$之间的距离；
4. 更新网络的所有权重，使网络在这批数据上的损失略微下降。

更新权重的方法：
1. 小批量随机梯度下降（SGD）：利用网络中所有运算都是可微的这一事实，计算损失相对于网络系数的梯度，然后向梯度的反方向改变系数$W-=step * gradient$，从而使损失降低。
2. 带动量的SGD、Adagrad、RMSProp等

动量解决了SGD的两个问题：1）收敛速度；2）局部极小点。
> 其更新参数$w$时，不仅要考虑当前的梯度值，还有考虑上一次的参数更新。

_______
**反向传播**：从最终损失值开始，从最顶层反向作用至最底层，利用链式法则计算每个参数对损失值的贡献大小。

**损失**：在训练过程中需要最小化的量，因此，它能够衡量当前任务是否已成功解决。

**优化器**：使用损失梯度更新参数的具体方式。

#### 参考链接
- https://blog.csdn.net/u012759136/article/details/52302426
- https://blog.csdn.net/weixin_42398658/article/details/84525917