<a href="https://colab.research.google.com/github/fact-h/Tensorflow-ML-tutorial/blob/main/Building_an_ANN_with_Tensorflow.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 人工神经网络简介
人工智能包括机器学习，机器学习又包括深度学习，深度学习由若干连续层组成，每一层建立在前一层的输出上，所有层组合形成人工神经网络。数据越多，深度学习的性能越高。

## 实施
受人脑处理信息的生物神经网络启发，深度神经网络的例子如下；![](https://miro.medium.com/max/1392/1*Cdb40X2xA2LFBGehT7jQ1g.png)


### 输入层
输入层由多个独立变量的输入组成，这些输入可以通过外部的网络或 CSV 文件加载数据。简单来说，这些变量是特征，比如：卧室的数量、房子的面积、到城市的距离，都是在购买房子时需要考虑的特征，我们随机初始化接近0但不是0的权重。


### 权重
每一个节点（神经元）都有权重。神经网络通过权重学习，通过调整权重，神经网络决定哪些特征重要或不重要。

### 隐藏层
在输入层与输出层之间的层，在隐藏层中，神经元获得带权重的输入，通过激活函数产生输出。
![](https://developers.google.com/machine-learning/crash-course/images/activation.svg?hl=zh-cn)
**Step 1：**输入值和权值相乘，加上偏差，加到一块。

**Step 2：**引入激活函数(非线性函数)，激活函数将非线性引入到神经网络中,使神经网络能够处理输入和输出之间的非线性关系，建立非常复杂的模型。常见的激活函数有 Sigmoid, ReLU.

**Step 3：**数据通过所有隐藏层，传递到输出层。

### 输出层
神经网络的最后一个层，从隐藏层的最后一个节点获得输入。输出层可以是：

- 连续值（股票价格）
- 二值（0或1）
- 分类（猫或狗或鸭子）

## 神经网络如何工作
神经网络的学习过程可以看作 pass 和 return 的迭代过程。Pass 是信息前向传播（Forward Propagation of Information），return 是信息反向传播（Backward Propagation of Information）。![](https://miro.medium.com/max/1256/1*Kw7xfwaK2hzGR3stRth-7A.png)

![](https://miro.medium.com/max/1400/1*LvAEM6b992X9JBWVDBaqlQ.jpeg)

在前向传播中，给定一些数据，计算带有权值的输入值的点乘，加在一起，在隐藏层应用于激活函数的结果。

激活函数将非线性引入到网络中，所以网络能简单的映射数据。这个节点对下一层来说是输入层，该过程一直重复直到得到最终的输出向量 𝒚，即神经网络的预测值。

为了知道模型性能如何，我们将预测值于真实值比较，得到的差值即误差，称为代价函数（Cost Function）或损失函数（Loss Function）。损失函数是权重和偏差的函数。

损失函数越小，模型准确性越高，我们的目标是最小化损失函数，损失函数的公式可以是：

$C=\frac12(\hat{y}-y)^2$

计算完损失函数后，我们将信息反馈给神经网络，通过权重传回，并**按减小损失函数的方向调整权重**，这个过程称为**反向传播**。重复几次该过程，最终得到最小化损失函数的预测值。


## 梯度下降
一种通过最小化损失函数改进神经网络模型的优化技术。梯度下降过程发生在反向传播过程，为达到全局最小值调整特征的权重。
一些梯度下降算法：
- **全批量梯度下降(full-Batch Gradient Descent)**，每次迭代计算整个数据集的损失函数和梯度，如果数据集很大，迭代时间会很长。
- **随机梯度下降(Stochastic gradient descent a.k.a. SGD)**，batch大小为1，即每次迭代只选一个样本，只要迭代次数足够，SGD能够工作但过程很曲折。
- **最小批次梯度下降(Mini-batch stochastic gradient descent)**，对于大型数据集，一次计算所有样本的损失函数耗时太长，所以每次选取一部分样本（比如一次选100个样本）计算损失函数，并沿梯度方向调整权重。

Mini-batch是full-batch和SGD的折中方案，每次迭代通常随机选取10到1000个样本，比full-batch效率更高，过程比SGD更顺畅

## 总结
- 需要随机初始化权重，接近零但不是零。
- 给输入层提供数据
- 正向传播，向输出层传播。
- 使用损失函数比较真实值和预测值，误差值反馈到神经网络。
- 反向传播发生在误差值反馈阶段，沿损失函数的梯度方向调整权重，以获得更小的损失函数。
- 对数据集中所有的数据重复上述步骤（full-batch），或一个批次一个批次的迭代（SGD或Mini-batch）
- 当将整个数据集传过神经网络，称为一个epoch，比如5个epoch即过5遍整个数据集

# 建立一个人工神经网络识别图像的类别

## 导入所有的tensorflow库和数据集

In [1]:
import tensorflow as tf
from tensorflow.keras.datasets import fashion_mnist

## 数据预处理
### 载入数据集
使用 **`load_data()`** 载入Fashion mnist数据集

In [2]:
(X_train,y_train),(X_test,y_test) = fashion_mnist.load_data()

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz


### 归一化
像素值在0到255之间，将每个像素值除以255，使其值范围在0到1之间，这样训练速度更快。

In [3]:
X_train = X_train/255.0
X_test = X_test/255.0

### 重塑数据形状（Reshaping）
我们会得到一个二维矩阵作为输出，第一维对应图像的索引，第二维是包含图像所有像素的向量。

使用数据的**`reshape`**方法重塑数据形状，将二维矩阵转换为一维向量，此处传递两个参数：
- -1 → 重塑所有图像
- 28*28 → 结果向量的大小（784个像素 → 一维）

In [4]:
X_train = X_train.reshape(-1,28*28)
X_test = X_test.reshape(-1,28*28)

## 建立ANN
在建立一个模型前，我们首先要创建一个模型对象，这个对象是**`Sequential`**类的一个实例。

keras有两种方法建立模型
- 一种是对**`tf.keras.Model`**类进行扩展以定义自己的新模型，同时手工编写训练和评估模型的流程。此方式灵活度高，且于其他深度学习框架（Pytorch, Chainer）共通。
- 不过很多时候，我们只需要建立一个结构相对简单和典型的神经网络（比如MLP和CNN），并使用常规手段训练。keras提供了一种更简单高效的内置方法来建立、训练和评估模型。
- 最典型和常用的神经网络结构是将一堆层按特定顺序叠加起来，所以，我们只需要提供一个层的列表，就能由keras将它们自动首尾相连，形成模型。keras的Sequential API正是如此，通过**`tf.keras.models.Sequential()`**提供一个层的列表，就能快速建立一个模型

In [5]:
model = tf.keras.models.Sequential()

### 添加第一个全连接层
超参数：
- 神经元数量：128
- 激活函数：ReLU
- 输入形状(input_shape)：(784, )

意思是这个层有128个神经元，应用 ReLU 激活函数，引入非线性，输入形状为(784, )。使用**`model.add()`**方法添加这些超参数。

In [6]:
model.add(tf.keras.layers.Dense(units=128, activation='relu', input_shape=(784,)))

### 添加一个Dropout层
随机设置一个层的神经元为0的正则化技术，这样一来，在整个训练过程中，一定比例的神经元不会更新，能够减少过拟合的发生。

In [7]:
model.add(tf.keras.layers.Dropout(0.2))

### 添加输出层
- units = 要分类的类别数量（在本例中为10）
- activation = softmax(返回该类的概率)

In [8]:
model.add(tf.keras.layers.Dense(units=10, activation='softmax'))

## 配置模型
**`tf.keras.model.compile`**接受3个重要参数
- **optimizer**：优化器
- **loss**：损失函数
- **metrics**：评估指标

In [9]:
model.compile(
    optimizer=tf.keras.optimizers.Adam(learning_rate=0.001),
    loss=tf.keras.losses.sparse_categorical_crossentropy,
    metrics=[tf.keras.metrics.sparse_categorical_accuracy]
)

### 训练模型
使用**`model.fit()`**方法训练模型，该方法接受5个重要参数：
- **x**：训练数据的特征，X_train
- **y**：训练数据的标签，y_train
- **epochs**：将训练数据迭代多少遍
- **batch_size**：批次的大小
- **vallidation_split**：分出一定比例的训练数据作为验证数据

In [10]:
model.fit(x=X_train,y=y_train,epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7f9c9d673210>

### 评估模型
用测试集评估模型的性能，需提供两个参数：测试数据特征和标签。

这里返回两个参数，一个是在测试集中预测的损失，另一个是准确度

In [11]:
test_loss,test_accuracy = model.evaluate(X_test,y_test)

