## 学习目标：
1. 信息熵
2. 证明 0⩽H(p)⩽logn
3. 联合概率，边缘概率
4. 推导互信息，互信息公式推导
5. 计算给定数据集中的香农熵

## 1 信息熵
信息熵本质是一种说明不确定事件的数学度量方法，反映的是随机变量的不确定程度。其定义如下:

设X为有限值的离散随机变量，其概率分布为 $P(X=X_i)=p_i$

则其信息熵为 $H(X)=-\sum_{i=1}^{n}{p_i*\log p_i}$

注意：
1. 一般约定 $p_i=0$ 时，$p_i*\log p_i=0$
2. 从信息熵的公式可以看出，信息熵的大小与X的具体取值没有关系，只与X的概率分布有关系

## 2. 信息熵的取值范围

证明方法为求最大熵的方法

已知 $H(X)=-(p_1*\log p_1+p_2*\log p_2+...p_n*\log p_n)$ ,约束条件为 $p_1+p_2+...p_n=1$

证明 $0<=H(X)<=\log n$

证明过程：

求H(X)的max，引入拉格朗日算子，则 

$L(p_i,\lambda)=-(p_1*\log p_1+p_2*\log p_2+...p_n*\log p_n)+\lambda*(p_1+p_2+p_3+...p_n-1)$

$\frac{\partial L(p_i,\lambda)}{\partial p_i}=-\log p_i+1+\lambda$

令偏导为0， 则有 $\log p_i=1+\lambda $, 即 $p_1=p_2=...p_i=...p_n$

所以 $p_i=\frac{1}{n}$

带入H(X),则有 $H(X)=-\sum_{i=1}^{n}{\frac{1}{n}*\log \frac{1}{n}}=\log n$


## 3 联合概率、边缘概率和条件概率
联合概率指的是包含多个条件且所有条件同时成立的概率，记作P(X=x,Y=y)或P(x,y)

边缘概率是与联合概率对应的，P(X=x)或P(Y=y)，这类仅与单个随机变量有关的概率称为边缘概率

两者的关系：

$P(X=x)=\sum_{Y}{P(X=x,Y=y)}$

$P(Y=y)=\sum_{X}{P(X=x,Y=y)}$

求和公式上的x和y是指所有x和y取值求和

条件概率表示在条件Y=y成立的情况下，X=x的概率，记作P(X=x|Y=y)或P(y|x)

$P(X=x|Y=y)=\frac{P(X=x,Y=y)}{P(Y=y)}$

## 4. 联合熵，条件熵

### 4.1 条件熵
设有随机变量(X,Y)， 其联合概率分布为$P(X=x_i,Y=y_i)=P_{ij},i=1,2,..,n;j=1,2,..,n$

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵： 

$H(Y|X)=-\sum_{i=1}^{n}{p_i*H(Y|X=x_i)}$,其中$p_i=P(X=x_i)$

### 4.2 联合熵
设有随机变量(X,Y)， 其联合概率分布为$P(X=x_i,Y=y_i)=P_{ij},i=1,2,..,n;j=1,2,..,n$

联合熵H(X,Y)表示在随机变量（X,Y）的不确定程度 

$H(X,Y)=-\sum_{i=1}^{n}{\sum_{j=1}^{n}{p(X=x_i,Y=y_j)*\log P(X=x_i,Y=y_i)}}$

### 条件熵与联合熵的关系

$H(X,Y)-H(X)=-\sum_{X}{\sum_{Y}{P(x,y)*\log P(x,y)}}+\sum_{X}{P(x)*\log P(x)}$

由边缘分布和联合分布的关系 $P(X=x)=\sum_{Y}{P(X=x,Y=y)}$

带入则有 $H(X,Y)-H(X)=-\sum_{X}{\sum_{Y}{P(x,y)*\log P(x,y)}}+\sum_{X}{\sum_{Y}{P(x,y)}*\log P(x)}$

$H(X,Y)-H(X)=-\sum_{X}{\sum_{Y}{P(x,y)*\log P(y|x)}}$

又因为$P(x,y)=P(x)*P(y|x)$

带入上式，则有 $H(X,Y)-H(X)=-\sum_{X}{P(x)}{\sum_{Y}{P(y|x)*\log P(y|x)}}$

所以： $H(Y|X)=H(X,Y)-H(X)$

## 5. 互信息
互信息是度量变量间相互依赖性。它一般且决定着联合分布p(X,Y) 和分解的边缘分布的乘积p(X)p(Y) 的相似程度，其定义为：

$I(X,Y)=H(X)+H(Y)-H(X,Y)$

$I(X,Y)=-\sum_{X}{P(x)*\log P(x)}-\sum_{Y}{P(y)*\log P(y)}+\sum_{X}{\sum_{Y}{P(x,y)*\log P(x,y)}}$

$I(X,Y)=-\sum_{X}{\sum_{Y}{P(x,y)}*\log P(x)}-\sum_{Y}{\sum_{X}{P(x,y)}*\log P(y)}+\sum_{X}{\sum_{Y}{P(x,y)*\log P(x,y)}}$

$I(X,Y)=\sum_{X}{\sum_{Y}{P(x,y)*[\log p(x,y)-\log P(x)-\log P(y)]}}$

$I(X,Y)=\sum_{X}{\sum_{Y}{P(x,y)*\log \frac{P(x,y)}{P(x)*P(y)}}}$


## 6.计算给定数据集中的香农熵

In [2]:
import numpy as np
import pandas as pd
data=pd.read_csv('watermelon_3a.csv')

In [5]:
data

Unnamed: 0,Idx,color,root,knocks,texture,navel,touch,density,sugar_ratio,label
0,1,dark_green,curl_up,little_heavily,distinct,sinking,hard_smooth,0.697,0.46,1
1,2,black,curl_up,heavily,distinct,sinking,hard_smooth,0.774,0.376,1
2,3,black,curl_up,little_heavily,distinct,sinking,hard_smooth,0.634,0.264,1
3,4,dark_green,curl_up,heavily,distinct,sinking,hard_smooth,0.608,0.318,1
4,5,light_white,curl_up,little_heavily,distinct,sinking,hard_smooth,0.556,0.215,1
5,6,dark_green,little_curl_up,little_heavily,distinct,little_sinking,soft_stick,0.403,0.237,1
6,7,black,little_curl_up,little_heavily,little_blur,little_sinking,soft_stick,0.481,0.149,1
7,8,black,little_curl_up,little_heavily,distinct,little_sinking,hard_smooth,0.437,0.211,1
8,9,black,little_curl_up,heavily,little_blur,little_sinking,hard_smooth,0.666,0.091,0
9,10,dark_green,stiff,clear,distinct,even,soft_stick,0.243,0.267,0


In [6]:
def calc_entropy(dataSet):
    m=len(dataSet)
    labelcounts={}
    for i in range(m):
        label=dataSet[i][-1]
        labelcounts[label]=labelcounts.get(label,0)+1
    entropy=0.0
    for counts in labelcounts.values():
        prob=counts/m
        entropy-=prob*np.log2(prob)
    return entropy

In [8]:
dataset=data.values

In [13]:
entropy=calc_entropy(dataset)
entropy

0.9975025463691153