## 香农熵
熵的定义为信息的期望值，在信息论与概率统计中，熵是表示随机变量不确定性的度量。如果待分类的事务可能划分在多个分类之中，则符号xi的信息量定义为：$$l(x_{i})=-log_{2}{p(x_{i})}$$
通过上市，我们可以得到所有类别的信息，为了计算熵，我们需要计算所有类别所有可能值包含的信息期望值（数学期望），通过下面的公式得到：
$$H=-\sum_{i=1}^{n}{p(x_{i})\log_{2}{p(x_{i})}}$$

其中n是分类的数目，熵越大，随机变量的不确定性就越大。  
当熵中的概率幼数据估计（特别是最大似然估计）得到时，所对应的熵称为经验熵。  
数据估计：例如有10个数据，一共有两个类别，A类和B类，其中7个数据属于A类，则A类的概率为十分之七，其中3个属于B类，则该B类的概率即为十分之三。这个概率是我们根据数据数出来的。

## 编写代码计算经验熵
在编写代码之前，我们先对数据集进行属性标注。

* 年龄：0代表青年，1代表中年，2代表老年；
* 有工作：0代表否，1代表是；
* 有自己的房子：0代表否，1代表是；
* 信贷情况：0代表一般，1代表好，2代表非常好；
* 类别(是否给贷款)：no代表否，yes代表是。  

确定这些之后，我们就可以创建数据集，并计算经验熵了，代码编写如下：

In [14]:
from math import log

def create_data_set():
    dataSet = [[0, 0, 0, 0, 'no'],         #数据集
            [0, 0, 0, 1, 'no'],
            [0, 1, 0, 1, 'yes'],
            [0, 1, 1, 0, 'yes'],
            [0, 0, 0, 0, 'no'],
            [1, 0, 0, 0, 'no'],
            [1, 0, 0, 1, 'no'],
            [1, 1, 1, 1, 'yes'],
            [1, 0, 1, 2, 'yes'],
            [1, 0, 1, 2, 'yes'],
            [2, 0, 1, 2, 'yes'],
            [2, 0, 1, 1, 'yes'],
            [2, 1, 0, 1, 'yes'],
            [2, 1, 0, 2, 'yes'],
            [2, 0, 0, 0, 'no']]
    labels = ['不放贷', '放贷']             #分类属性
    return dataSet, labels                 #返回数据集和属性


def calc_shannon_ent(dataSet):
    '''
    计算给定数据集的经验熵（香农熵）
    '''
    numEntires = len(dataSet)      # 计算数据集的行数
    labelCounts = {}               # 保存每个标签出现次数的字典
    
    for featVec in dataSet:        # 对每组特征向量进行统计
        currentLabel = featVec[-1]   # 提取标签
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
        
    shannonEnt = 0        # 经验熵
    for key in labelCounts:
        prod = float(labelCounts[key]) / numEntires  # 选择该标签的概率
        shannonEnt -= prod *log(prod, 2)             # 使用公式计算
    
    return shannonEnt

运行测试

In [15]:
dataSet, features = create_data_set()
print(dataSet)
print(calc_shannon_ent(dataSet))

[[0, 0, 0, 0, 'no'], [0, 0, 0, 1, 'no'], [0, 1, 0, 1, 'yes'], [0, 1, 1, 0, 'yes'], [0, 0, 0, 0, 'no'], [1, 0, 0, 0, 'no'], [1, 0, 0, 1, 'no'], [1, 1, 1, 1, 'yes'], [1, 0, 1, 2, 'yes'], [1, 0, 1, 2, 'yes'], [2, 0, 1, 2, 'yes'], [2, 0, 1, 1, 'yes'], [2, 1, 0, 1, 'yes'], [2, 1, 0, 2, 'yes'], [2, 0, 0, 0, 'no']]
0.9709505944546686


## 信息增益
如何选择特征，需要看信息增益，信息增益是相对于特征而言的，信息增益越大，特征对最终的分类结果影响也就越大，我们应该选择对最终分类结果影响最大的那个特征作为我们的分类特征。
### 条件熵
$H(Y|X)$表示在已知随机变量X的条件下随机变量Y的不确定性，随机变量X给的的条件下随机变量Y的条件熵$H(Y|X)$，定义为X给定条件下Y的条件概率分布的熵对X的数学期望：
$$H(Y|X)=\sum_{i=1}^{n}{p_{i}H(Y|X=x_{i})}$$
这里，$$p_{i}=P(X=x_i),i=1,2,...,n$$
同理，当条件熵中的概率由数据估计得到时，所对应的条件熵称为条件经验熵。  

信息增益相对于特征而言，所以，特征A对训练数据集D的信息增益$g(D,A)$，定义为集合D的经验熵$H(D)$与特征A给定条件下D的经验条件熵$H(D|A)$之差，即：
$$g(D,A)=H(D)-H(D|A)$$

## 代码计算信息增益

In [16]:
def split_data_set(dataSet, axis, value):
    """
    按照给定特征划分数据集
    """
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reduceFeatVec = featVec[:axis]
            reduceFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reduceFeatVec)
            
    return retDataSet

print(split_data_set(dataSet, 0, 0))

[[0, 0, 0, 'no'], [0, 0, 1, 'no'], [1, 0, 1, 'yes'], [1, 1, 0, 'yes'], [0, 0, 0, 'no']]


In [18]:
def choose_best_feature(dataSet):
    """
    选择最优特征
    Parameters:
        bestFeature-信息增益最大的特征的索引值
    """
    numFeatures = len(dataSet[0]) - 1    # 特征数量
    baseEntropy = calc_shannon_ent(dataSet)  # 计算数据集的香农熵
    bestInfoGain = 0      # 信息增益
    bestFeature = -1      # 最优特征的索引
    
    for i in range(numFeatures):
        featList = [examle[i] for examle in dataSet]
        uniqueVals = set(featList)  # 创建set集合，元素不可重复
        newEntropy = 0              # 经验条件熵
        
        for value in uniqueVals:
            subDataSet = split_data_set(dataSet, i, value)
            # 计算子集的概率
            prob = len(subDataSet)/float(len(dataSet))  
            # 计算当前特征的经验熵
            newEntropy += prob * calc_shannon_ent(subDataSet)
        # 信息增益计算
        infoGain = baseEntropy - newEntropy
        print("第%d个特征的增益为%.3f" % (i, infoGain))
        
        if infoGain > bestInfoGain:
            bestInfoGain = infoGain  # 更新信息增益，找到最大增益
            bestFeature = i         # 找出信息增益最大的特征索引
            
    return bestFeature

print("最优特征索引值："+str(choose_best_feature(dataSet)))

第0个特征的增益为0.083
第1个特征的增益为0.324
第2个特征的增益为0.420
第3个特征的增益为0.363
最优特征索引值：2


## 决策树的构建
### ID3算法
ID3算法的核心是在决策树各个节点上对应信息增益准则选择特征，递归地构建决策树。  
具体方法：从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子节点；再对子节点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选取为止。最后得到一个决策树。ID3相当于用极大似然法进行概率模型的选择。

### 代码构建决策树
使用字典存储决策树的结构，比如以上我们分析的决策树，用字典可以表示为：

In [19]:
{'有自己的房子':{0:{'有工作':{0:'no', 1:'yes'}}, 1:'yes'}}

{'有自己的房子': {0: {'有工作': {0: 'no', 1: 'yes'}}, 1: 'yes'}}

创建函数majority_cnt统计classList中出现此处最多的元素（类标签），创建函数create_Tree用来递归构建决策树。代码如下：

In [22]:
import operator

def majority_cnt(classList):
    """
    统计classList中出现此处最多的元素（类标签）
    """
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote] = 0
        classCount[vote] += 1
    # 根据字典的值降序排序    
    sortedClassCount = sorted(classCount.items(),
                              key=operator.itemgetter(1), reverse=True)
    # 返回classList中出现最多的元素
    return sortedClassCount[0][0]


def create_tree(dataSet, labels, featLabels):
    """
    创建决策树
    
    Parameter：
        dataSet - 训练数据集
        labels - 分类属性标签
        featLabels - 存储选择的最优特征标签
    """
    classList = [example[-1] for example in dataSet]   # 取分类标签（是否放贷）
    if classList.count(classList[0]) == len(classList):  # 如果类别完全相同，则停止划分
        return classList[0]
    
    if len(dataSet[0]) == 1 or len(labels) == 0:
        return majority_cnt(classList)
    
    bestFeat = choose_best_feature(dataSet)    # 选择最优特征
    bestFeatLabel = labels[bestFeat]           # 最优特征的标签
    featLabels.append(bestFeatLabel)
    
    myTree = {bestFeatLabel:{}}      # 根据最优特征的标签生成树
    del(labels[bestFeatLabel])       # 删除已经使用的特征标签
    
    # 得到训练集中所有最优特征的属性值
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)    # 去掉重复的属性值
    # 遍历特征，创建决策树
    for value in uniqueVals:
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = create_tree(
            split_data_set(dataSet, bestFeat, value),
            subLabels, featLabels)
        
    return myTree

dataSet, labels = create_data_set()
featLabels = []
myTree = create_tree(dataSet, labels, featLabels)
print(myTree)

第0个特征的增益为0.083
第1个特征的增益为0.324
第2个特征的增益为0.420
第3个特征的增益为0.363


IndexError: list index out of range

In [1]:
print("aaa")

aaa
