# 熵
在信息论中，熵用来衡量一个随机变量的不确定性或信息量。
香农熵的公式为：

$$
H(X) = - \sum_{i=1}^{n} p(x_i) \log_b p(x_i)
$$

其中：
- $ H(X) $ 是随机变量 $ X $ 的熵，
- $ p(x_i) $ 是随机变量 $ X $ 取值 $ x_i $ 的概率，



In [None]:
import math
## Entropy
p = [0.2,0.4,0.4]
q = [0.2,0.3,0.5]
def entropy(p):
    return sum([-_p*math.log(_p) for _p in p])
#可见越稳定的系统,熵越小
print(f"entropy of p {entropy(p)},q {entropy(q)}")


 
# KL散度（Kullback-Leibler Divergence）
也叫**相对熵**，是衡量两个概率分布 $ P $ 和 $ Q $ 之间差异的一个非对称指标。它衡量的是如果我们用 $ Q $ 来近似 $ P $，则信息损失有多大。

### KL散度的公式：

对于离散的随机变量，KL散度的公式为：

$$
D_{\text{KL}}(P \| Q) = \sum_{i} p(x_i) \log \frac{p(x_i)}{q(x_i)}
$$

对于连续随机变量，KL散度的公式为：

$$
D_{\text{KL}}(P \| Q) = \int_{-\infty}^{\infty} p(x) \log \frac{p(x)}{q(x)} \, dx
$$

### 公式解释：
- $ P $ 和 $ Q $ 是两个概率分布。通常 $ P $ 代表真实分布，而 $ Q $ 代表近似分布。
- $ p(x_i) $ 和 $ q(x_i) $ 分别是离散随机变量 $ X $ 在 $ x_i $ 上的概率密度函数或概率质量函数。

### 重要特点：
- **非负性**：KL散度总是大于或等于零，即 $ D_{\text{KL}}(P \| Q) \geq 0 $。这是因为 $ \log \frac{p(x)}{q(x)} $ 是对数函数的特性（与Jensen不等式相关），并且当且仅当 $ P = Q $ 时，KL散度等于零。
- **非对称性**：$ D_{\text{KL}}(P \| Q) \neq D_{\text{KL}}(Q \| P) $，因此它不是一个对称的度量。

In [None]:
## KL散度
## 两个概率分布间的差异
def kl_divergence(p,q):
    kl_p_q = sum([_p*math.log(_p/_q) for _p,_q in zip(p,q) if _p != 0.0])
    return kl_p_q
#
print(f"kl divergence of p||q {kl_divergence(p,q)} and q||p {kl_divergence(q,p)}")

 
#交叉熵（Cross-Entropy）
是信息论中的一个概念，通常用于衡量两个概率分布之间的差异。它是通过将一个分布的熵与另一个分布的交叉比较来计算的。在机器学习中，交叉熵常用于分类问题，尤其是在神经网络的训练过程中作为损失函数。

### 交叉熵的公式

对于离散随机变量，假设有两个概率分布 $ P $ 和 $ Q $，其中 $ P $ 是真实的概率分布，而 $ Q $ 是模型的预测概率分布。交叉熵定义为：

$$
H(P, Q) = - \sum_{i} p(x_i) \log q(x_i)
$$

其中：
- $ p(x_i) $ 是真实分布 $ P $ 在 $ x_i $ 上的概率
- $ q(x_i) $ 是预测分布 $ Q $ 在 $ x_i $ 上的概率

In [None]:
## 交叉熵
def cross_entropy(p,q):
    ce  = sum([-_p*math.log(_q) for _p,_q in zip(p,q) if _p != 0.0])
    return ce
print(f"cross entropy of p||q {cross_entropy(p,q)}")