# 深度学习
是一类机器学习算法，使用多个堆叠层的处理单元来学习非结构化数据的高层表征。

## 数据

### 结构化数据与非结构化数据

**结构化数据**：
- 自然地排列成特征列
- 如年龄、收入、网站访问次数
- 每个特征本身包含信息片段
- 适合传统机器学习模型（逻辑回归、随机森林等）

**非结构化数据**：
- 不按特征列排列
- 如图像、音频、文本、视频
- 单个元素（像素、字符）几乎无信息量
- 需要深度学习提取高级特征

### 为什么像素/字符**本身**无意义？

**空间依赖性问题**：
- 像素234是泥褐色 → 无法判断是房子还是狗
- 字符24是"e" → 无法判断文本主题

**特征位置可变性**：
- 烟囱在图像左侧或右侧 → 都是"房子"特征
- "striker"在文本不同位置 → 都表示"足球"
- 相同信息由完全不同的像素/字符位置承载

## 深度神经网络

### 为什么传统模型表现不佳？

**逻辑回归/随机森林/XGBoost**：
- 依赖输入特征本身具有信息量
- 假设特征间**相对独立**
- *无法处理高度空间依赖的原始像素*
- 仅适用于最简单的分类任务

### 深度学习的核心优势

**自动特征学习**：
- **直接从原始非结构化数据学习**
- **自动构建高层次信息特征**
- 理解空间和时间依赖关系
- 捕捉特征的相对位置关系

**在生成式建模中的重要性**：
- 大多数生成任务针对非结构化数据
  - 生成新图像
  - 创作文本
  - 合成音频
- 深度学习在此领域产生深远影响

### 神经网络组成要素

**层级结构**：
- 输入层 → 隐藏层 → 输出层
- 每层包含多个**单元**

**连接方式**：
- **权重**：层间连接的强度参数
- **全连接层**：每个单元连接到前一层的所有单元
- **多层感知机**：所有相邻层都是全连接的神经网络

### 数据流动：前向传播

**处理流程**：
输入 → 层1变换 → 层2变换 → ... → 输出

**单元计算**：
1. 计算输入的加权和
2. 应用非线性变换（激活函数）
3. 输出传递到下一层

**最终输出**：
- 输出层产生预测概率
- 如判断人脸是否微笑的概率

### 如何训练神经网络？

**核心目标**：
找到使预测最准确的权重集合

**训练步骤**：
1. **前向传播**：计算预测值
2. **误差计算**：比较预测与真实标签
3. **反向传播**：误差从输出层向输入层传播
4. **权重更新**：调整权重以减少误差

### 反向传播的作用

**误差反向传递**：
- 计算每个权重对总误差的贡献
- 沿梯度下降方向更新权重
- 逐步优化网络预测能力

### 深度神经网络的核心价值

1. **自动特征工程**：
   - 无需人工设计特征
   - 网络自动学习有用表示

2. **层次化抽象**：
   - 从简单到复杂的特征构建
   - 逐步形成高级语义理解

3. **端到端学习**：
   - 直接从原始数据到最终预测
   - 减少中间处理环节

4. **生成式建模基础**：
   - 理解判别模型是学习生成模型的基础
   - 相同的神经网络原理适用于两种任务

## 第一个深度神经网络

### TensorFlow + Keras 组合

**TensorFlow**：
- 底层计算框架
- 张量操作和梯度计算
- 高性能数值计算

**Keras**：
- 高级API接口
- 用户友好的模型构建
- 快速原型开发

### 三种基础层结构

**Input Layer（输入层）**：
- 网络入口点
- 定义数据元素形状（如：`(32, 32, 3)`）
- 不指定批次大小，支持任意数量图像

**Flatten Layer（展平层）**：
- 将多维输入展平为向量
- 示例：`32×32×3 → 3072` 维向量
- 为后续全连接层准备数据

**Dense Layer（全连接层）**：
- 神经网络基本构建块
- 每个单元与前一层的所有单元连接
- 包含权重（可正可负）和激活函数

### 激活函数的两种定义方式

**方式一：在层内定义**
```python
x = layers.Dense(units=200, activation='relu')(x)

**方式二：作为独立层**
x = layers.Dense(units=200)(x)
x = layers.Activation('relu')(x)


## 模型结构与参数分析

### model.summary() 输出分析

| 层类型 | 输出形状 | 参数数量 |
|--------|----------|----------|
| InputLayer | (None, 32, 32, 3) | 0 |
| Flatten | (None, 3072) | 0 |
| Dense | (None, 200) | 614,600 |
| Dense | (None, 150) | 30,150 |
| Dense | (None, 10) | 1,510 |

**关键洞察**：
- `None` 表示可变批次大小
- 参数计算：`200 × (3072 + 1) = 614,600`
- 总参数：646,260（全部可训练）

### 参数数量计算详解

**计算公式**：
`本层单元数 × (前一层单元数 + 1偏置项)`

**示例**：
- 第一全连接层：`200 × (3072 + 1) = 614,600`
- 偏置单元：确保零输入时仍有非零输出

### 三种常用损失函数

**均方误差**：
- 适用于回归问题
- 公式：$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - p_i)^2$

**分类交叉熵**：
- 单标签多分类问题
- 公式：$- \sum_{i=1}^{n} y_i \log (p_i)$

**二元交叉熵**：
- 二元分类或多标签问题
- 公式：$- \frac{1}{n} \sum_{i=1}^{n} [y_i \log(p_i) + (1-y_i)\log(1-p_i)]$

### 优化器选择与调优

**Adam 优化器**：
- 最常用且稳定的选择
- 主要调节参数：学习率
- 示例：`learning_rate=0.0005`

**学习率影响**：
- 高学习率：训练快，但不稳定
- 低学习率：训练慢，更稳定

**编译配置**：
```python
model.compile(loss='categorical_crossentropy', 
              optimizer=opt, 
              metrics=['accuracy'])


## 模型训练过程

### 1. 训练参数设置

```python
model.fit(x_train,           # ❶ 原始图像数据
          y_train,           # ❷ one-hot编码标签
          batch_size=32,     # ❸ 批次大小
          epochs=10,         # ❹ 训练轮数
          shuffle=True)      # ❺ 随机打乱数据

### 训练过程原理

**权重初始化**：
- 初始化为小的随机值

**批次训练**：
- 每次处理一个批次（32-256个样本）
- 计算梯度并更新权重
- 比全数据集训练更高效

**批次大小影响**：
- 大批次：梯度计算稳定，但速度慢
- 小批次：训练快，但梯度噪声大
- 现代实践：训练过程中逐渐增加批次大小

### 训练过程原理

**权重初始化**：
- 初始化为小的随机值

**批次训练**：
- 每次处理一个批次（32-256个样本）
- 计算梯度并更新权重
- 比全数据集训练更高效

**批次大小影响**：
- 大批次：梯度计算稳定，但速度慢
- 小批次：训练快，但梯度噪声大
- 现代实践：训练过程中逐渐增加批次大小