# 信息论

## 信息量
**事件拥有的信息量与事件发生的概率有关系，越不可能发生的事情发生了，其携带的信息量就越大**。如有下面两个事件：
- 事件A：巴西队进入了2018世界杯决赛圈。
- 事件B：中国队进入了2018世界杯决赛圈。

因为事件B发生的可能性更小，所以事件B携带的信息量相比于事件A更大。假设$X$是一个离散型随机变量，其取值集合为$χ$，概率分布函数$p(x)=P(X=x)$，则定义事件$X=x_0$的信息量为：$I(x_0)=−log(p(x_0))$。

## 信息熵
**信息熵表示了对于所有信息量的期望，是用来度量不确定性的**，可由下式计算：

$H(X)=-\sum_{i=1}^np(x_i)log(p(x_i))$。

当针对0-1分布问题，熵的计算方式可以简化为：

$H(x)=-p(x)log(p(x))-(1-p(x))log(1-p(x))$。

熵只依赖$X$的分布。下图展示了熵随着$P(X=1)$的变化的变化过程（随机变量只有两个取值1或者0）。

![info_theory1](./resources/info_theory1.png)

## 相对熵（KL散度）
如果对于同一个随机变量$X$有两个单独的概率分布$P(X)$（如分类任务中某一类的真实概率）和$Q(X)$（如分类任务中某一类的预测概率），我们可以使用KL散度（Kullback-Leibler divergence）来衡量这两个分布的差异，即：如果用$P$来描述目标问题，而不是用$Q$来描述目标问题，得到的信息增量，可用如下公式计算：

$D_{KL}(p||q)=\sum_{i=1}^np(x_i)[log(p(x_i))-log(q(x_i))]$

$D_{KL}$的值越小，表示q分布和p分布越接近。

## 交叉熵
将KL散度的计算公式从减号分开，前面部分刚好是$p$分布的熵，后面部分就是交叉熵，计算方式如下：

$H(p, q)=-\sum_{i=1}^np(x_i)log(q(x_i))$

其中$p(x_i)$是真实分布概率，$q(x_i)$是预测分布的概率。在机器学习中，我们需要评估label和predict之间的差距，使用KL散度刚刚好，由于KL散度中的前一部分$−H(y)$不变，故在优化过程中，只需要关注交叉熵就可以了。

KL散度表示了如果要让预测值携带的数据量等于实际信息量还需要的信息增量，其值越小越好。

## 参考
- [一文搞懂交叉熵在机器学习中的使用](https://blog.csdn.net/tsyccnh/article/details/79163834)