## 信息熵和互信息的计算

### 1. 计算香农信息熵
- 香农信息熵计算公式
    
$$
   H(U) = \sum_{i=1}^n p_i log(\dfrac{1}{p_i})
$$

In [49]:
import numpy as np
from math import log

# math 的 log 方法默认为自然对数 e

#### 1.1 已知概率分布的情况

In [50]:
# 生成信息熵概率分布
x1 = np.array([0.3, 0.3, 0.2, 0.2])
x2 = np.array([1])
x3 = np.array([0.1, 0.1, 0.4, 0.4])

In [51]:
# 定义信息熵计算函数

def calc_ent(rates):
    """
    计算信息熵
    :param rates: 条件概率的数组, 类型为 ndarray
    :return: 信息熵的计算结果
    """
    return sum((p * np.log(1.0 / p)) for p in rates)

In [52]:
print("x1的信息熵:", calc_ent(x1))
print("x2的信息熵:", calc_ent(x2))
print("x3的信息熵:", calc_ent(x3))

x1的信息熵: 1.366158847569202
x2的信息熵: 0.0
x3的信息熵: 1.1935496040981335


#### 1.2 给定了信号发生情况

In [53]:
# 生成信号发生情况

x_3 = ['A', 'B', 'C', 'D', 'A']
x_4 = ['A', 'A', 'A', 'A', 'A']
x_5 = ['A', 'B', 'C', 'D', 'E']

In [62]:
# 定义信息熵计算函数

def calc_ent_nop(events):
    """
    计算信息熵
    :param events: 信号发生情况
    :return: 信息熵计算结果
    """

    # 定义字典统计信号出现的频率
    event_dict = {}
    length = len(events)  # 信号数量
    # 计算信号频率
    for event in events:
        if event_dict.get(event):
            event_dict[event] += 1
        else:
            event_dict[event] = 1
    # 计算每个信号出现概率
    rates = np.array( [event_dict[key] / length for key in event_dict])
    # 计算香农信息熵
    info_ent = sum([(p * np.log(1.0 / p)) for p in rates])
    return info_ent

In [63]:
print("x_3 的信息熵为 : ", calc_ent_nop(x_3))
print("x_4 的信息熵为 : ", calc_ent_nop(x_4))
print("x_5 的信息熵为 : ", calc_ent_nop(x_5))

x_3 的信息熵为 :  1.3321790402101223
x_4 的信息熵为 :  0.0
x_5 的信息熵为 :  1.6094379124341005


### 2. 计算互信息

- 输入：给定的信号发生情况,其中联合分布已经手工给出

- 相对熵的计算公式 : $P$ 是真实分布, $Q$是模型预测的分布

- 条件熵的公式 : (X,Y) 的联合熵 - Y单独发生的熵
- 互信息的计算公式 :

\begin{aligned}
    I(X;Y)
    &= H(X) - H(X|Y) \\
    &= H(X) + H(Y) - H(X,Y) \\
    &= \sum_x p(x) \log(\dfrac{1}{p(x)}) + \sum_y p(y) \log(\dfrac{1}{p(y)}) - 
    \sum_{x,y} p(x,y) \log \dfrac{1}{p(x,y)} \\
    &= \sum_{x,y} p(x,y) \log \dfrac{p(x,y)}{p(x)p(y)}
\end{aligned}

- 即互信息 $I(X;Y)$ 是联合分布 $P(x,y)$ 与乘积分布 $p(x)p(y)$ 的相对熵

In [None]:
x1 = ['3',  '4',   '5',  '5', '3',  '2',  '2', '6', '6', '1']
x2 = ['7',  '2',   '1',  '3', '2',  '8',  '9', '1', '2', '0']
x3 = ['37', '42', '51', '53', '32', '28', '29', '61', '62', '10', '37', '42']