## 0.简要介绍

#### K-近邻算法的最大缺点在于无法给出数据的内在含义，而决策树的主要优势在于<font color="red" size = 4>数据形式非常容易理解

![title.png](./picture/03决策树示例.png)
![title.png](./picture/03决策树流程.png)   
![title.png](./picture/03决策树特点.png)

#### 决策树关键在于<font color="red" size = 4>每次如何找到合适的划分特征。</font>  
 __而如何确定哪些特征起决定性作用就需要对特征进行评估__
    
这里涉及到信息论里面的信息增益相关概念

### 信息增益  

划分数据集的大原则是：__将无序的数据转换成更加有序__  
    
这种评估数据的有序性指标中的一种方法就是使用信息论度量方法  
    
<font color="red" size = 4>在划分数据集之前之后信息发生的变化称为信息增益</font>  
    
    
某符号含有的信息表示为：
    ![title.png](./picture/03信息.png)
    其中p(xi)表示该分类的概率
    
熵定义为信息的期望值：
    ![title.png](./picture/03熵.png)
    
<font face="微软雅黑"> <font color="red" size = 6>Talk is cheap， show me the code.</font>

In [3]:
import pandas as pd
import numpy as np

In [6]:
#计算给定数据集的香农熵
from  math import log

def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet:
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys():   #统计出现次数，并创建字典
            labelCounts[currentLabel] = 0  #出现新类别，扩展字典
        labelCounts[currentLabel] += 1
        
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries   #计算概率
        shannonEnt -= prob * log(prob, 2)  #计算香农熵，以2为底
        
    return shannonEnt  


#生成简单的数据测试一下
def creatDataSet():
    dataSet = [[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels

In [8]:
dataSet, labels = creatDataSet()
shannonEnt = calcShannonEnt(dataSet)
print("shannonEnt:",shannonEnt)

shannonEnt: 0.9709505944546686


###### 熵越高，则混合的数据越多

例如将第一个数据最后一位改成‘maybe’

In [11]:
dataSet[0][-1] = 'maybe'
shannonEnt = calcShannonEnt(dataSet)
print("shannonEnt:",shannonEnt)

shannonEnt: 1.3709505944546687


##### 基尼不纯度(Gini impurity)
另一个度量数据无序程度的方法是基尼不纯度(Gini impurity):  
简单来说是从一个数据中随机选取子项，度量其被错误分类的概率

## 1.计算信息增益  

重新回到前面，决策树关键在于选择何种特征，选择特征的标准是计算采用不同特征产生的信息增益。  
因此，我们需要计算利用不同特征划分时的信息增益

#### 1.1划分数据集

##### 函数说明

In [13]:
#A.extend()表示往已知list后面添加多项，类似拼接操作
A = [123, 'xyz', 'zara', 'abc', 123];
B = [2009, 'manni'];
A.extend(B)

print("Extended List : ", A)

Extended List :  [123, 'xyz', 'zara', 'abc', 123, 2009, 'manni']


In [14]:
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if(featVec[axis] == value):
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

In [18]:
myDat, labels = creatDataSet()
s1_myDat = splitDataSet(myDat, 0, 1)
print("划分后数据集:", s1_myDat)
s2_myDat = splitDataSet(myDat, 0, 0)
print("划分后数据集:", s2_myDat)

划分后数据集: [[1, 'yes'], [1, 'yes'], [0, 'no']]
划分后数据集: [[1, 'no'], [1, 'no']]


##### 1.2根据不同的划分计算信息增益

In [21]:
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1 #统计特征数
    baseEntropy = calcShannonEnt(dataSet)  #计算原来的香农熵
    bestInfoGain = 0.0  #初始化
    bestFeature = -1
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]  #统计每个特征下不同类别的数目
        uniqueVals = set(featList) #集合，数据无序不重复
        newEntropy = 0.0
        for value in uniqueVals:  #计算不同特征切分的信息增益
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet) / float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
            
        infoGain = baseEntropy - newEntropy
        if(infoGain > bestInfoGain): #选择最佳信息增益的特征
            bestInfoGain = infoGain
            bestFeature = i
            
    return bestFeature        

In [24]:
myDat, labels = creatDataSet() #生成简单数据
print("最优划分特征：",chooseBestFeatureToSplit(myDat)) #选择分割特征

最优划分特征： 0


#### 1.3递归构建决策树  

由于数据可能通过选择一个特征无法完全区分，因此，我们需要进一步划分，也即对划分后的数据再次划分  

因此，我们可以采用递归的方式遍历所有划分的属性  

![title.png](./picture/03海洋生物分类.png)

![title.png](./picture/03划分数据集时的数据路径.png)

#### 当然，还有一些不需要消耗特征的算法，这里暂时不涉及

##### 函数说明

In [26]:
#items()返回可遍历的(键, 值) 元组数组

dict = {'Google': 'www.google.com', 'Runoob': 'www.runoob.com', 'taobao': 'www.taobao.com'} 
print("字典值 : %s" %  dict.items())

字典值 : dict_items([('Google', 'www.google.com'), ('Runoob', 'www.runoob.com'), ('taobao', 'www.taobao.com')])


In [32]:
#统计每种类型的数目，并进行排序，返回数目最多的类别
def majorityCnt(classList): 
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys(): 
            classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

In [39]:
#创建决策树
def creatTree(dataSet, labels):
    classList = [example[-1] for example in dataSet] #统计不同类别的数目
    
    if classList.count(classList[0]) == len(classList): #类别完全相同，则停止划分
        return classList[0]
    
    if len(dataSet[0]) == 1: #遍历完所有特征时，返回出现次数最多的
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet) #选择最佳分类特征
    bestFeatLabel = labels[bestFeat]
    
    myTree = {bestFeatLabel:{}}
    
    del(labels[bestFeat]) #划分完成后去除该特征
    
    featValues = [example[bestFeat] for example in dataSet]  #得到列表包含的所有属性值
    uniqueVals = set(featValues)
    
    for value in uniqueVals:
        subLabels = labels[:] #对属于最优属性的样本进一步划分
        myTree[bestFeatLabel][value] = creatTree(splitDataSet(dataSet, bestFeat, value), subLabels) #迭代继续划分
    return myTree

In [45]:
#测试
myDat, labels = creatDataSet()
# print(len(myDat[0]))
myTree = creatTree(myDat, labels)
print("myTree:", myTree)

myTree: {'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}
