# 02. Cross Entropy Loss

クロスエントロピー損失 (Cross Entropy Loss) は、多クラス分類問題で使われる損失関数です。
LogSoftmax + NLLLoss の組み合わせと等価です。

## Forward

$$
\text{Loss} = -\frac{1}{N} \sum_{i=1}^{N} \log\left(\frac{e^{x_{i,y_i}}}{\sum_{j} e^{x_{i,j}}}\right)
$$

## Backward

$$
\frac{\partial L}{\partial x_{i,j}} = \frac{1}{N} (\text{softmax}(x_i)_j - \mathbb{1}_{j=y_i})
$$

ただし、$\mathbb{1}_{j=y_i}$ は、$j=y_i$ のとき 1、それ以外は 0 です。

In [None]:
import numpy as np
from notebook_setup import test

@test("02_loss_function.test_02_cross_entropy", filter_name="forward")
def cross_entropy_forward(logits: np.ndarray, targets: np.ndarray) -> float:
    """
    Parameters
    ----------
    logits  : np.ndarray : shape (N, C) - ロジット (未正規化スコア)
    targets : np.ndarray : shape (N,)   - クラスラベル (0 ~ C-1)

    Returns
    -------
    loss : float
    """
    loss = None

    # ここにコードを記述
    # ---------------------------------------- #
    N = logits.shape[0]
    # 数値安定性のため、最大値を引く
    logits_shifted = logits - np.max(logits, axis=1, keepdims=True)
    exp_logits = np.exp(logits_shifted)
    sum_exp = np.sum(exp_logits, axis=1)
    log_sum_exp = np.log(sum_exp)
    
    # 各サンプルについて正解クラスのロジットを取得
    correct_logits = logits_shifted[np.arange(N), targets.astype(int)]
    loss = -np.mean(correct_logits - log_sum_exp)
    # ---------------------------------------- #

    return loss

In [None]:
import numpy as np
from notebook_setup import test

@test("02_loss_function.test_02_cross_entropy", filter_name="backward")
def cross_entropy_backward(logits: np.ndarray, targets: np.ndarray) -> np.ndarray:
    """
    Parameters
    ----------
    logits  : np.ndarray : shape (N, C)
    targets : np.ndarray : shape (N,)

    Returns
    -------
    grad : np.ndarray : shape (N, C)
    """
    grad = None

    # ここにコードを記述
    # ---------------------------------------- #
    N = logits.shape[0]
    # Softmax の計算
    logits_shifted = logits - np.max(logits, axis=1, keepdims=True)
    exp_logits = np.exp(logits_shifted)
    softmax = exp_logits / np.sum(exp_logits, axis=1, keepdims=True)
    
    # 勾配の計算
    grad = softmax.copy()
    grad[np.arange(N), targets.astype(int)] -= 1
    grad /= N
    # ---------------------------------------- #

    return grad