### 损失函数的定义
损失函数是用来衡量模型预测值与真实值之间差异的函数。它量化了模型预测的准确性，值越小表示模型预测越准确。
loss_fn = nn.CrossEntropyLoss()
这是一个专门用于分类任务的损失函数，特别适用于多类别分类问题（如FashionMNIST有10个类别）。
损失函数的作用
评估模型性能：通过计算预测值与真实值之间的差距来评估模型的好坏
指导模型训练：损失函数的梯度用于反向传播，指导模型参数的更新方向
优化目标：训练过程的目标就是最小化损失函数值

### 2. 常见损失函数类型
#### 回归任务
- 均方误差 (MSE)：loss = mean((y_pred - y_true)²)
    - 对异常值敏感，适用于噪声较小的数据
- 平均绝对误差 (MAE)：loss = mean(|y_pred - y_true|)
    - 对异常值鲁棒性更强
- Huber Loss：结合MSE和MAE优点，在误差小时使用平方，在误差大时使用线性
#### 分类任务
- 交叉熵损失 (Cross-Entropy)：
    - 二分类：loss = -[y*log(p) + (1-y)*log(1-p)]
    - 多分类：loss = -sum(y_i * log(p_i))
- 合页损失 (Hinge Loss)：主要用于SVM等模型
- 焦点损失 (Focal Loss)：解决类别不平衡问题

In [1]:
import torch.nn as nn

# 回归任务
mse_loss = nn.MSELoss()
mae_loss = nn.L1Loss()

# 分类任务
cross_entropy = nn.CrossEntropyLoss()
binary_cross_entropy = nn.BCELoss()


##### 计算损失值

In [None]:
# 前向传播得到预测值
predictions = model(inputs)

# 计算损失
loss = loss_function(predictions, targets)

# 反向传播
loss.backward()
optimizer.step()


##### 4. 实际应用要点
损失函数选择原则
根据任务类型选择（回归/分类）
考虑数据分布特点（是否包含异常值）
结合业务需求（不同错误类型的代价）
训练监控
观察训练损失和验证损失的变化趋势
检查是否出现过拟合（训练损失持续下降但验证损失上升）
利用学习率调度器动态调整优化过程

In [None]:
#自定义损失函数
#当标准损失函数不满足需求时，可以自定义：
def custom_loss(y_pred, y_true):
    # 实现特定的损失计算逻辑
    return loss_value


### 工作流程
在训练过程中：
模型对输入数据进行预测
使用损失函数计算预测值与真实标签之间的误差
通过反向传播计算损失函数相对于模型参数的梯度
优化器根据梯度更新模型参数，以减小损失值
常见的损失函数类型
CrossEntropyLoss：用于分类任务（如代码中使用的）
MSELoss：用于回归任务，计算均方误差
BCELoss：用于二分类任务

In [None]:
# 定义损失函数和优化器
loss_fn = nn.CrossEntropyLoss()
# 使用随机梯度下降（SGD）作为优化算法
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)# 设置学习率为0.001

#### SGD（Stochastic Gradient Descent，随机梯度下降）是深度学习中最基础且广泛使用的优化算法之一
1. 基本概念
SGD是梯度下降算法的随机变种，其核心思想是：
梯度下降：沿着目标函数梯度的反方向更新参数以最小化损失
随机性：每次使用一个样本或一小批样本来估计梯度，而非全部数据

2. 数学原理
参数更新公式
θ = θ - η × ∇J(θ; x_i; y_i)
其中：
θ 是模型参数
η 是学习率（learning rate）
∇J(θ; x_i; y_i) 是损失函数对参数的梯度
3. 与标准梯度下降的区别
批量梯度下降：使用全部训练数据计算梯度｜稳定，收敛到全局最优｜计算开销大，速度慢。
SGD：每次使用一个样本更新参数｜计算快，可在线学习｜更新不稳定，可能不收敛
小批量SGD：使用小批量数据更新参数｜平衡了前两者优缺点｜需要调整批量大小

#### 梯度下降的三种变体
1. 样本计算梯度
优点：稳定，能收敛到全局最优
缺点：计算开销大，速度慢，不适合大数据集
2. 随机梯度下降（SGD）
每次使用单个样本更新参数
优点：计算速度快，可以在线学习
缺点：更新不稳定，可能不收敛
3. 小批量梯度下降（Mini-batch SGD）
使用小批量样本更新参数
平衡了前两者的优缺点
是目前深度学习中最常用的优化方法

In [2]:
# 定义优化器
import torch.optim as optim

# 使用SGD优化器
optimizer = optim.SGD(model.parameters(), lr=1e-3)

# 其他常用优化器
optimizer = optim.Adam(model.parameters(), lr=1e-3)
optimizer = optim.RMSprop(model.parameters(), lr=1e-3)


NameError: name 'model' is not defined

In [None]:
# 训练循环中的使用
# 前向传播
predictions = model(inputs)
loss = loss_fn(predictions, targets)

# 反向传播
optimizer.zero_grad()  # 清零梯度
loss.backward()        # 计算梯度
optimizer.step()       # 更新参数

#### 关键参数调优
** 学习率（Learning Rate）**
- 过大：可能导致震荡，无法收敛
- 过小：收敛速度慢，可能陷入局部最优
- 常用策略：学习率衰减、自适应学习率
** 批量大小（Batch Size）**
影响内存使用和训练稳定性
较小：更新频率高，但噪声较大
较大：梯度估计更准确，但需要更多内存
#### 实际应用要点
训练流程
初始化模型参数
前向传播计算预测值
计算损失函数
反向传播计算梯度
使用优化器更新参数
重复上述过程直到收敛
监控与调试
观察损失函数变化趋势
检查是否出现梯度消失或爆炸
调整学习率和其他超参数
使用学习率调度器动态调整