# 用TensorFlow API tf.keras搭建网络八股

**六步法：**

**import**  : 导入相关依赖模块

**train, test** ： 划分训练集和测试集，指定训练集的输入特征x_train和输出特征y_train，指定测试集的输入特征x_test和输出特征y_test

**model = tf.keras.models.Sequential()** ：逐层描述每层的神经网络结构，包括输入层、隐藏层、输出层，并指定损失函数loss、优化器optimizer、评价指标metrics

**model .compile()** ：编译模型，指定损失函数loss、优化器optimizer、评价指标metrics

**model.fit()**：执行模型训练，指定训练集、验证集、epochs、batch_size

**model.summary()**: 打印模型结构

# Sequential() 使用

model = tf.keras.models.Sequential([网络结构]) # 描述各层网络结构


**神经网络结构举例：**
```python
model = tf.keras.models.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Conv2D(64, kernel_size=(3, 3), activation='relu'),
    tf.keras.layers.Dense(10, activation='softmax')
    tf.keras.layers.Conv2D(64, kernel_size=(3, 3), activation='relu'),
    tf.keras.layers.layers.LSTM(128),
])
```

- 拉直层：tf.keras.layers.Flatten()
    - 举例：tf.keras.layers.Flatten(input_shape=(28, 28))
    - 作用：将输入的28x28的图像拉直为一维向量，方便后续全连接层进行处理。
    - 输入：28x28的图像
    - 输出：1维向量，长度为784

- 全连接层：tf.keras.layers.Dense(**神经元个数**, activation='**激活函数**',kernel_regularizer=tf.keras.regularizers.**正则化方法**(**参数**)
    - 举例：tf.keras.layers.Dense(128, activation='relu',kernel_regularizer=tf.keras.regularizers.l2(0.01))
    - 作用：将输入的向量进行全连接，得到输出向量。
    - 输入：1维向量，长度为784
    - 输出：1维向量，长度为128
    - 参数：
        - 激活函数：
            - relu：ReLU激活函数，输出为正数
            - sigmoid：sigmoid激活函数，输出为0到1之间的数
            - softmax：softmax激活函数，输出为0到1之间的数，且所有值相加为1
            - tanh：tanh激活函数，输出为-1到1之间的数
        - 正则化方法：
            - l1：L1正则化，参数为正则化强度
            - l2：L2正则化，参数为正则化强度
            - l1_l2：L1+L2正则化，参数为L1正则化强度和L2正则化强度
- 卷积层：tf.keras.layers.Conv2D(filters=**卷积核个数**, kernel_size=(**卷积核宽度**, **卷积核高度**),strides=(**步长x**, **步长y**), padding='**边界填充方式**', activation='**激活函数**')
    - 举例：tf.keras.layers.Conv2D(64, kernel_size=(3, 3),padding="valid",activation='relu')
    - 作用：对输入进行卷积操作，得到输出。
    - 输入：2维矩阵，大小为28x28
    - 输出：2维矩阵，大小为26x26
    - 参数：
        - 卷积核个数：卷积核个数，即输出的通道数
        - 卷积核宽度：卷积核宽度，即卷积核的宽度
        - 卷积核高度：卷积核高度，即卷积核的高度
        - 步长x：卷积核的步长x，即每次滑动的步长x
        - 步长y：卷积核的步长y，即每次滑动的步长y
        - 边界填充方式：边界填充方式，可选值有"valid"和"same"，默认为"valid"
        - 激活函数：激活函数，可选值有"relu"、"sigmoid"、"softmax"、"tanh"，默认为None
- LSTM层：tf.keras.layers.LSTM(units=**神经元个数**, activation='**激活函数**',kernel_regularizer=tf.keras.regular
    - 举例：tf.keras.layers.LSTM(128)
    - 作用：对输入进行LSTM操作，得到输出。



# model.compile()使用

model.compile(optimizer=优化器, loss=损失函数, metrics=[准确率])

举例函数：
```python
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
```

- Otimizer: 优化器
    - 'sgd' or tf.keras.optimizers.SGD(learning_rate= 学习率，momentum=动量参数)
    - 'adagrad' or tf.keras.optimizers.Adagrad(learning_rate= 学习率)
    - 'adadelta' or tf.keras.optimizers.Adadelta(learning_rate= 学习率)
    - 'adam' or tf.keras.optimizers.Adam(learning_rate= 学习率,beta_1=0.9, beta_2=0.999)
- Loss: 损失函数
    - 'mse' or tf.keras.losses.MeanSquaredError()'
    - 'sparse_categorical_crossentropy' or tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
- Metrics: 评估指标
    - 'accuracy' : y_和y 都是数值，如y_=[1],y=[0]
    - 'categorical_accuracy' : y_和y都是one-hot编码(概率分布)，如y_=[0,1,0],y=[0.213,0.21312,0.571]'
    - 'sparse_categorical_accuracy' : y_是数值，y是one-hot编码(概率分布)，如y_=[1],y=[0.213,0.21312,0.571]


多种优化器的对比：
| 优化器名                  | 参数描述                                                   | 核心特点                                                     | 优点                                                                 | 缺点                                                                                  | 适用场景                                              |
|---------------------------|----------------------------------------------------------|-------------------------------------------------------------|---------------------------------------------------------------------|---------------------------------------------------------------------------------------|------------------------------------------------------|
| **SGD**                   | `learning_rate`=学习率，`momentum`=动量参数               | 梯度下降，带动量加速                                          | 简单易用，带动量能跳出局部极小值                                     | 需要手动调节学习率，收敛较慢，可能震荡                                                | 简单优化问题，凸优化问题                             |
| **Adagrad**               | `learning_rate`=学习率                                   | 对每个参数独立调整学习率                                     | 对稀疏数据有效，不需要手动调整学习率                                 | 随时间学习率过小，难以继续优化                                                        | 稀疏特征数据                                          |
| **Adadelta**              | `learning_rate`=学习率                                   | 自适应学习率，考虑了梯度变化的加权移动平均                   | 不需要手动设定全局学习率，对稀疏数据表现好                           | 对数据归一化要求较高，可能对特定任务效果一般                                          | 学习率敏感的任务                                      |
| **Adam**                  | `learning_rate`=学习率, `beta_1`=一阶矩权重, `beta_2`=二阶矩权重 | 结合了 Adagrad 和 RMSprop 的特点，自适应调整学习率            | 综合性能优异，收敛速度快，广泛适用                                   | 对某些特定场景可能过拟合，需要对超参数调整                                             | 各类深度学习任务，推荐的通用优化器                  |
| **RMSprop**               | `learning_rate`=学习率, `rho`=移动平均系数               | 自适应学习率，梯度平方的指数衰减平均                         | 对非平稳目标函数有较好的效果                                         | 需要调节学习率超参数，可能在一些复杂问题上表现不如 Adam                                 | 循环神经网络（RNN）                                  |
| **Nadam**                 | `learning_rate`=学习率, `beta_1`/`beta_2`=动量和二阶矩参数 | 在 Adam 基础上加入了 Nesterov 动量                          | 在 Adam 上进一步加速收敛，尤其在大规模数据上的性能更优                | 参数复杂度增加，适合的场景更狭窄                                                    | NLP 或需要快速收敛的深度学习问题                     |

---


**多种损失函数的对比：**

| 损失函数名                        | 参数描述                                      | 核心特点                                               | 优点                                                                 | 缺点                                                              | 适用场景                     |
|-----------------------------------|-----------------------------------------------|-------------------------------------------------------|---------------------------------------------------------------------|-------------------------------------------------------------------|-----------------------------|
| **MSE (Mean Squared Error)**      | 均方误差                                      | 计算预测值和真实值差的平方平均值                       | 强调大误差，适合需要惩罚大偏差的回归问题                             | 对异常值敏感，异常值会过分影响损失值                              | 回归问题                     |
| **MAE (Mean Absolute Error)**     | 平均绝对误差                                  | 计算预测值和真实值差的绝对值平均                       | 不像 MSE 对异常值敏感，结果更加稳定                                   | 导数不连续，优化困难                                             | 回归问题                     |
| **Binary Crossentropy**           | 二分类交叉熵                                  | 衡量二分类任务中预测分布和真实分布的距离               | 准确衡量分类性能，常用于逻辑回归和深度学习                           | 不适合多分类或回归问题                                           | 二分类问题                   |
| **Categorical Crossentropy**      | 多分类交叉熵                                  | 衡量独热编码标签的预测分布和真实分布的距离             | 多分类任务的标准损失函数                                             | 标签需为独热编码，不能直接用整数编码                               | 多分类问题（独热编码标签）    |
| **Sparse Categorical Crossentropy**| 多分类交叉熵（稀疏标签）                       | 不需要独热编码，直接支持整数编码标签                   | 和 Categorical Crossentropy 相比，处理稀疏标签更高效                  | 不支持独热编码标签                                               | 多分类问题（整数编码标签）    |
| **Huber Loss**                    | 平衡 MSE 和 MAE                               | 对小误差用 MSE，对大误差用 MAE 处理                    | 抑制异常值的同时保持较好的回归性能                                    | 超参数 delta 需要精心调整                                        | 回归问题                     |
| **Hinge**                         | SVM 的损失函数                                | 对于支持向量机优化，强调分类边界                       | 特别适合线性分类任务                                                | 只适用于二分类问题                                               | SVM 的二分类问题             |

---

多种评估指标的对比：

| 评估指标名                      | 参数描述                                    | 核心特点                                                     | 优点                                                             | 缺点                                              | 适用场景                                              |
|---------------------------------|---------------------------------------------|-------------------------------------------------------------|-----------------------------------------------------------------|--------------------------------------------------|------------------------------------------------------|
| **Accuracy**                    | 预测值与真实值的匹配程度                     | 统计预测正确样本比例                                         | 简单直接，适合类别平衡的场景                                     | 类别不平衡时可能误导                                 | 二分类、多分类问题                                    |
| **Categorical Accuracy**        | 用于独热编码标签的多分类任务                 | 统计每个样本预测正确的比例                                   | 常用于独热编码多分类问题                                        | 标签需为独热编码                                     | 多分类问题                                            |
| **Sparse Categorical Accuracy** | 用于整数编码标签的多分类任务                 | 不需要独热编码，直接对整数编码标签进行统计                   | 计算效率高，适合标签是稀疏整数的任务                              | 不支持独热编码标签                                   | 多分类问题                                            |
| **Precision**                   | 精确率 = TP / (TP + FP)                      | 衡量预测为正的样本中真正为正的比例                           | 适合关注正类预测准确性的场景                                     | 不考虑假负样本（FN），忽视正类覆盖率                 | 二分类问题，关注正类预测                              |
| **Recall**                      | 召回率 = TP / (TP + FN)                      | 衡量所有正样本中被正确预测为正的比例                         | 适合关注正类覆盖率的场景                                         | 不考虑假正样本（FP），可能降低整体模型效果           | 二分类问题，关注正类覆盖                              |
| **F1 Score**                    | $2 * (Precision * Recall) / (Precision + Recall)$ | 精确率和召回率的调和平均值                                   | 平衡精确率和召回率，适合类不平衡的场景                             | 难以解释数值背后的实际意义                           | 类不平衡的二分类或多分类问题                          |
| **AUC (Area Under Curve)**      | ROC 曲线下面积                               | 衡量分类器的整体性能                                         | 衡量分类器区分正负样本的能力，受类别分布影响小                   | 对决策阈值敏感，可能需要调整                         | 二分类、多分类问题                                    |
| **Mean Absolute Error (MAE)**   | 平均绝对误差                                | 计算回归预测值与真实值的绝对误差                             | 对异常值不敏感，结果稳定                                        | 不强调大偏差                                         | 回归问题                                              |
| **Mean Squared Error (MSE)**    | 平均平方误差                                | 计算回归预测值与真实值的平方误差                             | 强调大偏差，适合需要关注极值偏差的场景                           | 对异常值敏感                                         | 回归问题                                              |



# model.fit()使用

model.fit(训练集的输入特征，训练集的标签，epochs=训练轮数，batch_size=每次训练样本数,validation_data=(验证集的输入特征，验证集的标签),validation_split=验证集的比例,validatation_freq=验证频率)

举例：
```python
model.fit(x_train, y_train, epochs=10, batch_size=32, validation_data=(x_test, y_test), validation_split=0.2, validation_freq=1)
```



# model.summary()使用

model.summary()

举例：
在Keras中，我们可以使用`model.summary()`方法来查看模型的摘要信息，包括模型的层数、每层名称、每层输出形状、每层参数数量等。


# 通过keras 构建一个简单的神经网络实现

In [11]:
import tensorflow as tf
import numpy as np
from sklearn import datasets

iris = datasets.load_iris()

x_train = iris.data
y_train = iris.target

np.random.seed(116)
np.random.shuffle(x_train)
np.random.seed(116)
np.random.shuffle(y_train)
tf.random.set_seed(116)

# 构建模型
# - units: 输出维度 - activation: 激活函数 - kernel_regularizer: 正则化
model = tf.keras.Sequential([
    tf.keras.layers.Dense(3, activation='softmax', kernel_regularizer=tf.keras.regularizers.l2())
])

# 配置模型
# - optimizer: 优化器 - loss: 损失函数 - metrics: 评估标准
model.compile(optimizer=tf.keras.optimizers.SGD(lr=0.1),
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
              metrics=['sparse_categorical_accuracy'])

# 训练模型
# - epochs: 训练轮数 - batch_size: 批次大小 - validation_split: 验证集比例 - validation_freq: 验证集检测频率
model.fit(x_train, y_train, epochs=500,batch_size=32, validation_split=0.2,validation_freq=20)




Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78

<keras.callbacks.History at 0x15ff1d550>

In [12]:
model.summary()

Model: "sequential_9"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_9 (Dense)             (None, 3)                 15        
                                                                 
Total params: 15
Trainable params: 15
Non-trainable params: 0
_________________________________________________________________
