
## 分类损失函数

[Loss functions for classification](https://en.m.wikipedia.org/wiki/Loss_functions_for_classification), wiki 最下面的有一个 mobile view. 可以多用一用。

损失函数表示分类器在错误分类时所付出的代价。

假设有样本集 $X$, 其标签类为 $Y = \{-1, 1\}$, 我们希望找一个最优的映射，$f: X \mapsto R$, 使得 $f$ 是 $\vec{x}$ 到 $y$ 的最佳映射。

但是由于样本集信息不完整或者样本噪声，可能会出现映射错误的概率。当然我们希望这个概率是最小的，即有以下期望，最小化期望风险（minimize risk), 所有下面的期望公式：

$$
I[f] = \int_{X \times Y} V(f(\vec{x}), y)p(\vec{x}, y)d\vec{x}dy
$$

- $ V(f(\vec{x}), y) $ 是损失函数
- $ p(\vec{x}, y) $ 是概率密度函数，也可以写为 $p(y | \vec{x})p(\vec{x})$.


但实际上, $p(\vec{x}, y)$ 是未知的。那么，我们就需要根据样本集，利用仅知的样本信息，来最小化经验风险（minimize empirical risk):

假设有下面的样本集，

$$
S = \{(\vec{x_1}, y_1), \dots, \vec{x_n}, y_n)\}
$$

样本之间都是 IID 的。则从样本空间中，我可以求得最小化的经验风险：

$$
I_{S} = \frac{1}{n} \sum_{i = 1}^{n} V(f(\vec{x_i}), y_i)
$$

用经验风险来代替期望风险。

最佳实践是，将损失函数定义为仅与一个变量相关的函数，这样计算最为方便。

在分类问题中，损失函数通常被写成仅实际标签 y 与预测标签类 $\hat{y} = f(\vec{x})$ 之间的乘积，那么 $y f(\vec{x})$ 即可看成惟一的变量了。即一般的选择形式如下：

$$
V(f(\vec{x}), y) = \phi (-y f(\vec{x}))
$$

这就意味着，如果 $f_{S}^{*}$ 是最优的，那么其经验风险最小。

根据 \phi (-y f(\vec{x})) 的形式，下面是一些常见的损失函数。

1. 平方损失函数 (square loss)

$$
V(f(\vec{x}), y) = (1 - y f(\vec{x}))^2
$$

    常用在最小二乘法中。

2. 铰链损失（hinge loss)

$$
V(f({\vec  {x}}),y)=\max(0,1-yf({\vec  {x}}))=|1-yf({\vec  {x}})|_{{+}}.
$$

    主要用于支持向量机（SVM） 中。

3. 平滑的 hinge loss, 给定一个 $\alpha$：

    其中：${\displaystyle z=yf({\vec {x}})}$

\begin{align}
{\displaystyle f_{\alpha }^{*}(z)\;=\;{\begin{cases}{\frac {\alpha }{\alpha +1}}&{\text{if }}z<0\\{\frac {1}{\alpha +1}}z^{\alpha +1}-z+{\frac {\alpha }{\alpha +1}}&{\text{if }}0<z<1\\0&{\text{if }}z\geq 1\end{cases}}.}
\end{align}



4. Logistic loss

$$
V(f({\vec  {x}}),y)={\frac  {1}{\ln 2}}\ln(1+e^{{-yf({\vec  {x}})}})
$$

5. Cross entropy loss(Log loss, 互熵损失）

    我们可以把标签从 $\{-1, 1\}$ 转到 $\{0, 1\}$, 使用 $t = (1 + y) / 2$, 所二元互熵损失函数为：

$$
{\displaystyle V(f({\vec {x}}),t)=-t\ln(\sigma ({\vec {x}}))-(1-t)\ln(1-\sigma ({\vec {x}}))}
$$

    其中：

$$
{\displaystyle \sigma ({\vec {x}})={\frac {1}{1+e^{-f({\vec {x}})}}}}
$$

    可以证明 4， 5 是等价的。用于Logistic 回归与Softmax 分类中；
    
6. 指数损失 (exponential loss)

$$
{\displaystyle V(f({\vec {x}}),y)=e^{-\beta yf({\vec {x}})}}
$$

    用在 Ada boost 中。

<img width="300px" src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/f3/Loss_function_surrogates.svg/1280px-Loss_function_surrogates.svg.png" />

Plot of various functions. Blue is the 0–1 indicator function. Green is the square loss function. Purple is the hinge loss function. Yellow is the logistic loss function. Note that all surrogates give a loss penalty of 1 for y=f(x= 0)

### References

1. [损失函数 hinge losss vs. softmax loss](https://blog.csdn.net/u010976453/article/details/78488279)

- [ ] SVM 是 Hinge 损失函数加上一个 L2 正则。