# MNIST(Modified National Institute of Standards and Technology dataset)

MNIST Dataset 是机器学习和计算机视觉领域中最著名、最常用的数据集之一，被誉为深度学习的“Hello World”。

| 特点 | 描述                                                  |
| :--- |:----------------------------------------------------|
| **内容** | **手写数字图像** (0 到 9，共 10 个类别)                         |
| **图像类型** | **灰度图像** (单通道)                                      |
| **图像大小** | **$28 \times 28$ 像素** (共 $28 \times 28 = 784$ 个像素点) |
| **数据总量** | **70,000 张图像（训练集：60000 测试集:10000）**                 |
| **应用领域** | 图像分类、模式识别，是评估新的机器学习算法的**标准基准**。                     |

## 1.数据集下载**

    wget https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz

npz 文件格式是 NumPy 库专用的压缩文件格式,类似于 .zip 文件


拓展数据集:**

随着机器学习的发展，人们也提出了更具挑战性的数据集作为 MNIST 的后续或替代品：

Fashion-MNIST: 图像内容从手写数字换成了 10 种时尚物品（如 T 恤、裤子、鞋子等），图像大小和结构保持一致 (28×28 灰度图)，难度略高于原始 MNIST。

EMNIST (Extended MNIST): 包含了手写数字、大写字母和小写字母，字符种类更广，应用场景更丰富。

**学习参考链接**

[Yeboah F. Classification and Evaluation of Machine Learning Algorithms on the MNIST Dataset[J]. 2025.](https://stars.library.ucf.edu/data-science-mining/27/)

| 特性 | TensorFlow (底层框架/引擎)                  | Keras (高级 API/接口)                                 |
| :--- |:--------------------------------------|:--------------------------------------------------|
| **主要定位** | **底层计算库**，负责张量运算、内存分配和并行计算。           | **高级 API**，负责快速、模块化地构建、训练和评估模型。                   |
| **角色** | 深度学习的**引擎**和**骨架**。                   | 深度学习的**用户界面**和**积木**。                             |
| **复杂度** | **复杂**。提供对计算细节的完全控制，适合研究和底层优化。        | **简洁直观**。旨在减少代码量和认知负担，提高开发效率。                     |
| **默认导入** | 需独立导入：`import tensorflow as tf`       | **集成**在 TensorFlow 中：`tf.keras`                   |
| **目标用户** | 资深研究人员、需要自定义操作的开发者。                   | **绝大多数用户**、初学者、需要快速原型设计的工程师。                      |
| **关系总结** | Keras 在运行时**使用 TensorFlow** 作为后端计算引擎。 | **`tf.keras`** 是 TensorFlow **官方推荐**和集成的标准高级 API。 |

In [None]:
## 加载方式1（数据会下载到 ~/.keras/datasets,也可以本地下载好，存在该目录）

import keras
(x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()

In [31]:
#加载方式2
#本地加载 wget https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
import numpy as np
import tensorflow as tf
#当 NumPy 将包含 Python 对象的数组保存到 .npy 或 .npz 文件中时，它必须使用 Pickle 协议 来序列化这些 Python 对象
with np.load("./test_data/mnist.npz", allow_pickle=True) as data:
    x_train = data['x_train']
    y_train = data['y_train']
    x_test = data['x_test']
    y_test = data['y_test']

# 代码来源:https://www.tensorflow.org/?hl=zh-cn

# 数据归一化（Normalization）。MNIST 图像的像素值范围是 0 到 255（灰度值）。将像素值除以 255.0，将其范围缩放到 0.0 到 1.0 之间。这是深度学习模型训练的标准预处理步骤，有助于加速模型收敛并提高训练稳定性。
x_train, x_test = x_train / 255.0, x_test / 255.0

model = tf.keras.models.Sequential([
  tf.keras.layers.Flatten(input_shape=(28, 28)),#将输入图像从二维数组 (28×28) 转换为一个一维向量 (784)，作为全连接层的输入。input_shape 指定了输入数据的形状。
  tf.keras.layers.Dense(128, activation='relu'),#具有 128 个神经元的隐藏层。使用 ReLU (Rectified Linear Unit) 激活函数，引入非线性。
  tf.keras.layers.Dropout(0.2),#在训练过程中随机地将 20% (0.2) 的神经元输出设置为零。这是一种正则化技术，用于防止模型在训练集上过度拟合 (overfitting)。
  tf.keras.layers.Dense(10, activation='softmax')#具有 10 个神经元（对应 0 到 9 的 10 个类别）。使用 Softmax 激活函数，将输出转换为概率分布，所有 10 个输出值的和为 1。
])

model.compile(optimizer='adam',#指定优化器。Adam 优化器是一种高效、常用的优化算法，用于调整模型的权重以最小化损失。
  loss='sparse_categorical_crossentropy',#指定损失函数。这是用于多类别分类的交叉熵损失函数。
  metrics=['accuracy'])#指定评估指标。在训练和测试期间，模型除了计算损失外，还会计算并报告准确率。

model.fit(x_train, y_train, epochs=5)#epochs=5: 指定训练轮次。模型将对整个训练集迭代学习 5 次。每完成一轮 (epoch)，都会报告当前的损失和准确率。
model.evaluate(x_test, y_test)

Epoch 1/5
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 511us/step - accuracy: 0.9132 - loss: 0.2988
Epoch 2/5
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 531us/step - accuracy: 0.9564 - loss: 0.1456
Epoch 3/5
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 508us/step - accuracy: 0.9675 - loss: 0.1080
Epoch 4/5
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 492us/step - accuracy: 0.9724 - loss: 0.0887
Epoch 5/5
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 506us/step - accuracy: 0.9764 - loss: 0.0754
[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 278us/step - accuracy: 0.9730 - loss: 0.0867


[0.08667666465044022, 0.9729999899864197]

| 主要类别 | 典型网络类型 | 结构特点 | 典型应用领域 |
| :--- | :--- | :--- | :--- |
| **基础前馈/结构网络** | **多层感知机 (MLP)** | 最基础，信息**单向**流动，适合简单分类和回归。 | 简单分类、回归、预测。 |
| | **卷积神经网络 (CNN)** | 引入**卷积层**提取局部特征，对**网格数据**高效。 | 图像识别、目标检测、视频分析。 |
| | **残差网络 (ResNet)** | CNN 进阶版，通过**残差块**允许信息跳跃，解决深层网络的训练退化问题。 | 深度图像识别、高性能计算机视觉任务。 |
| **序列处理网络** | **长短期记忆网络 (LSTM)** | 引入**门控机制**，有效捕捉**序列数据**中的**长期依赖**。 | 语音识别、机器翻译、文本生成、复杂的时序分析。 |
| | **Transformer** | 完全基于**自注意力机制**，支持高度并行化，是现代序列模型的基石。 | **大型语言模型 (LLM)**、高性能机器翻译。 |
| **进阶/专用架构** | **自编码器 (AE)** | 包含编码器和解码器，目标是重构输入。用于**无监督学习**。 | 数据**降维**、特征学习、去噪、异常检测。 |
| | **生成对抗网络 (GAN)** | 由**生成器**和**判别器**相互对抗训练，目标是生成逼真的新数据。 | **图像生成**、图像风格迁移、数据增强。 |