# 损失函数sparse_categorical_crossentropy 和 categorical_crossentropy选哪个？


`sparse_categorical_crossentropy` 和 `categorical_crossentropy`
两者的主要区别在于 **标签的表示形式** 和 **适用场景**。



## **1. 标签表示方式**
- **`categorical_crossentropy`**  
  需要 **one-hot 编码的标签**。  
  - 例如，对于3个类别的分类问题，类别 `2` 的标签表示为 `[0, 0, 1]`。

- **`sparse_categorical_crossentropy`**  
  需要 **整数形式的标签**（未经过 one-hot 编码）。  
  - 例如，对于相同的分类问题，类别 `2` 的标签表示为 `2`。



## **2. 使用场景**
- **`categorical_crossentropy`**  
  - 用于模型输出为 **概率分布**（即每个类别都有一个概率值，输出是形状为 `(batch_size, num_classes)` 的张量）。
  - 标签需要是 **one-hot 编码**。

- **`sparse_categorical_crossentropy`**  
  - 用于模型输出同样为 **概率分布**。
  - 标签是整数，直接指示类别索引，无需 one-hot 编码。
  - 适合在数据预处理时不想增加 one-hot 编码步骤的情况。



## **3. 计算过程**
尽管输入形式不同，**两者的底层计算逻辑是相同的**。  
公式：
$$
\text{CrossEntropyLoss} = - \sum_{i=1}^{N} y_i \log(\hat{y}_i)
$$
其中：
- $ y_i $ 是目标标签；
- $ \hat{y}_i $ 是模型预测的概率分布。

对于 `categorical_crossentropy`：
- $ y_i $ 是一个 one-hot 向量，因此只会对正确类别的概率取对数。

对于 `sparse_categorical_crossentropy`：
- $ y_i $ 是一个整数，直接用于索引预测分布中的概率值。



## **4. 实际选择**
- 如果您的标签是 **one-hot 编码的**，选择 `categorical_crossentropy`。
- 如果您的标签是 **整数编码的**，选择 `sparse_categorical_crossentropy`。




## **代码示例**

### 使用 `categorical_crossentropy`



In [None]:
from tensorflow.keras.losses import CategoricalCrossentropy

loss_fn = CategoricalCrossentropy()
y_true = [[0, 0, 1], [0, 1, 0]]  # one-hot 编码标签
y_pred = [[0.1, 0.2, 0.7], [0.3, 0.5, 0.2]]  # 模型预测
loss = loss_fn(y_true, y_pred)
print('Loss:', loss.numpy())



### 使用 `sparse_categorical_crossentropy`



In [None]:
from tensorflow.keras.losses import SparseCategoricalCrossentropy

loss_fn = SparseCategoricalCrossentropy()
y_true = [2, 1]  # 整数形式标签
y_pred = [[0.1, 0.2, 0.7], [0.3, 0.5, 0.2]]  # 模型预测
loss = loss_fn(y_true, y_pred)
print('Loss:', loss.numpy())


### **总结**
1. 如果标签是 **one-hot 编码**，选择 `categorical_crossentropy`。
2. 如果标签是 **整数编码**，选择 `sparse_categorical_crossentropy`。
3. 计算结果一致，只是输入格式不同。

通过选择合适的损失函数，可以减少数据预处理步骤并提高代码的简洁性。