# KL散度理解 --- 从熵到交叉熵到KL散度


## 1 熵的定义：

  离散概率分布：$${H(p) = - \sum_{i} p_i \log_2 p_i}$$
  连续概率分布：$${H(p) = - \int_{-\infty}^{\infty} p_i \log_2 p_i}$$
  
  熵的物理意义：消息平均不确定性的度量
  

## 2 交叉熵：

 wiki：
 ```
 Cross entropy between two probability distributions p and q over the same underlying set of events measures the average number of bits needed to identify an event drawn from the set, if a coding scheme is used that is optimized for an “unnatural” probability distribution q, rather than the “true” distribution p.
 ```
 
 离散概率分布：$${H(p,q) = - \sum_{i} p_i \log_2 q_i}$$
 连续概率分布: $${H(p,q) = - \int_{-\infty}^{\infty} p_i \log_2 q_i}$$
 
 考虑有两个概率分布，p代表真实的概率分布，q代表预测的概率分布。p和q都是对同样时间空间的概率分布。
 
 熵表示的是使用自身的概率分布来计算需要传输一个消息的最优/平均的bits，如果我们用q的概率分布来设计一个来自p的信息的编码，然后最优/平均的bits为交叉熵。从交叉熵可以看出，两个概率分布越接近，他们的熵越接近。
 
## 3 KL散度

 KL散度就是需要的额外比特数，如果用一个分布的概率分布q来编码由另一个分布p表示的信息。
 
 $${ KLD = crossentropy - entropy = H(p,q) - H(p) }$$
 
 离散概率分布:$${KLD = \sum_{i} p_i \log_2(\frac{p_i}{q_i})}$$
 连续概率分布：$${KLD = \int_{-\infty}^{\infty} p_i \log_2(\frac{p_i}{q_i})}$$

In [6]:
def entropy(X):
    import math
    return -sum([x_i * math.log(x_i,2) for x_i in X])

def cross_entropy(p,q):
    import math
    return -sum([p_i * math.log(q_i,2) for p_i, q_i in zip(p,q)])

def KLD(p,q):
    return cross_entropy(p,q) - entropy(p)

In [4]:
entropy([0.2,0.3,0.5])

1.4854752972273344

In [7]:
cross_entropy([0.1,0.2,0.7],[0.2,0.7,0.1])

2.6604571104758414

In [8]:
KLD([0.1,0.2,0.7],[0.2,0.7,0.1])

1.503677461028802