# 决策树

决策树的主要优势就在于数据形式非常容易理解，而这也是kNN最主要的缺点之一；

决策树：
	1. 根据某一特征进行数据集划分
	2. 判断划分后各个子数据集中的数据是否均为同一类型的
		是：返回节点类型
		否：使用当前子数据集创建新节点，返回步骤1处理新节点
	关键：
		1. 何时停止划分数据集，也是递归结束的条件ID3（ID3处理如何划分数据集，以及何时停止）；
		2. 如何决定使用那个特征划分数据集，根据香农熵，选择最大信息增益的特征划分；

In [1]:
import numpy as np
import math

## 决策树的构造

### 信息增益

划分数据集的大原则是:将**无序**的数据变得更加**有序**，方法有很多也各有优劣，其中一种方法是使用信息论度量信息；

划分数据集前后信息的变化称之为信息增益，知道如何计算信息增益，我们就可以获取到使得信息增益最大的那个特征作为划分数据集的特征，此处需要使用香农熵来计算信息增益；

#### 计算香农熵

    熵定义为信息的期望值，在明晰这个概念之前，我们必须知道信息的定义，如果待分类的事务可能划分在多个分类之中，则符号 x_i 的信息定义为：
	l(x_i) = -log_2 p(x_i)
	其中p(x_i)是选择该分类的概率；
	为了计算熵，我们需要计算所有类别所有可能值包含的信息期望值，通过下面的公式得到：
	-sum(p(x_i)*log_2 p(x_i)) i={1,2,3.....n} n为目标变量总类别数
	从公式可以看出含义是：各个类别自身的概率乘以自己的信息量，最后求和得到熵；
    
    可以说香农熵就是用于度量数据分类的无序程度，因此分类越多，熵会越大；

#### 实现

In [2]:
def calcShannonEntropy(dataSet):
		"""
		统计类别信息
		1. 获取到所有分类，创建字典
		2. 为每个字典设置其对应分类在数据集中数量
		3. 通过数量和总数计算熵
		"""
		classes = {}
		for d in dataSet:
			classes[d[-1]] = classes.get(d[-1],0)+1 # 如果没有则设置-1+1，即0，如果有则加1
		count = 1.*len(dataSet)
		entropy = -sum([classes[k]/count*math.log(classes[k]/count,2) for k in classes.keys()])
		return entropy

calcShannonEntropy(np.array([[1,1,'A'],[1,2,'B'],[2,1,'A'],[2,3,'A'],[3,2,'B']]))

0.9709505944546686

In [3]:
calcShannonEntropy(np.array([[1,1,'A'],[1,2,'B'],[2,1,'A'],[2,3,'A'],[3,2,'B'],[3,2,'A'],[3,2,'F'],[3,2,'E'],[3,2,'E'],[3,2,'D']]))

2.1219280948873624

熵越高,则混合的数据也越多；

### 划分数据集

In [4]:
def splitDataSet(dataSet, axis, value): # 改善一下，原代码是根据value，每次返回当前数据集中对应特征值为value的数据子集，改为返回所有value的数据子集，以字典形式返回
	"""
	将数据集根据某个特征axis分割为每个特征值对应的数据子集，以dict形式返回
	"""
	dataDict = {}
	for d in dataSet:
		v = dataDict.get(d[axis],[]) # 从列表中创建集合是Python语言得到列表中唯一元素值的最快方法
		v.append(list(np.append(d[:axis],d[axis+1:])))
		dataDict[d[axis]] = v
	return dataDict

In [5]:
splitDataSet(np.array([[1,1,'A'],[1,2,'B'],[2,1,'A'],[2,3,'A'],[3,2,'B']]), 0, None)

{'1': [['1', 'A'], ['2', 'B']],
 '2': [['1', 'A'], ['3', 'A']],
 '3': [['2', 'B']]}

### 选择最佳特征

In [6]:
def chooseBestFeature2Split(dataSet):
	"""
	选择将数据集划分后总熵最小的那个特征以及对应的熵值，数据子集的dict形式返回
	"""
	axiss = len(dataSet[0])-1 # 去掉最后一个目标变量，否则肯定是该变量最符合要求，按照目标变量划分数据再用目标变量来评估xD
	minEntropy = 99999999 # 最初的无序度量值,用于与划分完之后的数据集计算的熵值进行比较
	minAxis = -1
	minDataDict = None
	for axis in range(axiss):
		dataDict = splitDataSet(dataSet, axis, None)
		sumEntropy = sum([calcShannonEntropy(dataDict[k]) for k in dataDict.keys()])
		if sumEntropy < minEntropy:
			minEntropy = sumEntropy
			minAxis = axis
			minDataDict = dataDict
	print 'min entropy:'+str(minEntropy)
	print 'min axis:'+str(minAxis)
	return minEntropy, minAxis, minDataDict

In [7]:
chooseBestFeature2Split(np.array([[1,1,'A'],[1,2,'B'],[2,1,'A'],[2,3,'A'],[3,2,'B']]))

min entropy:0.0
min axis:1


(0.0,
 1,
 {'1': [['1', 'A'], ['2', 'A']],
  '2': [['1', 'B'], ['3', 'B']],
  '3': [['2', 'A']]})

### 递归构建决策树

递归结束的条件是:程序**遍历完**所有划分数据集的属性,或者每个分支下的所有实例都具有
**相同**的分类。如果所有实例具有相同的分类,则得到一个叶子节点或者终止块。任何到达叶子节
点的数据必然属于叶子节点的分类。

如果数据集已经处理了所有属性,但是类标签依然不是唯一
的,此时我们需要决定如何定义该叶子节点,在这种情况下,我们通常会采用**多数表决**的方法决
定该叶子节点的分类。

In [8]:
def majorityCnt(classList):
	"""
	计算最多的分类并返回，用于处理在所有特征都使用完之后数据子集中依然存在多个分类的case
	"""
	classDict = {}
	for c in classList:
		classDict[c] = classDict.get(c,0)+1
	return sorted(classDict.items(),key = lambda x:x[1],reverse = True)[0][0]

majorityCnt(['a','b','b','a','a'])

'a'

In [9]:
def createTree(dataSet, labels):
    """
    递归构建决策树
    结束条件：
        1. 当前数据集均为同一分类，此时熵为0；
        2. 当前数据集已经没有特征可以用于划分；
    返回：
        1. 返回分类标签
    """
    if calcShannonEntropy(dataSet) == 0:
        print '数据集在同一分类：'+str(labels[0])
        return labels[0]
    elif len(dataSet[0])==1:
        print '投票表决：'+str(majorityCnt(labels))
        return majorityCnt(labels)
    else:
        _,_,dataDict = chooseBestFeature2Split(dataSet)
        for k in dataDict.keys():
            createTree(dataDict[k], [i[-1] for i in dataDict[k]])

createTree(np.array([[1,1,'B'],[2,1,'B'],[2,1,'A'],[2,3,'A'],[3,2,'B']]), ['A','B','A','A','B'])

min entropy:0.918295834054
min axis:0
数据集在同一分类：B
数据集在同一分类：B
min entropy:1.0
min axis:0
投票表决：A
数据集在同一分类：A


In [10]:
def createTree(dataSet, labels):
	"""
	递归构建决策树
	结束条件：
		1. 当前数据集均为同一分类，此时熵为0；
		2. 当前数据集已经没有特征可以用于划分；
	返回：
		1. 返回分类标签
	"""
	if calcShannonEntropy(dataSet) == 0:
		return 'DataSet in same class:'+str(dataSet[0][-1])
		#return dataSet[0][-1]
	elif len(dataSet[0])==1:
		return 'Majority count:'+str(majorityCnt(list(np.array(dataSet)[:,-1])))
		#return majorityCnt(list(np.array(dataSet)[:,-1]))
	
	_,bestFeat,dataDict = chooseBestFeature2Split(dataSet)
	bestFeatLabel = labels[bestFeat]
	del labels[bestFeat]
	myTree = {bestFeatLabel:{}}
	for k in dataDict.keys():
		tmpLabels = labels[:]
		myTree[bestFeatLabel][k] = createTree(dataDict[k], tmpLabels)#[i[-1] for i in dataDict[k]])
	return myTree
			
myTree = createTree(np.array([[1,1,'B'],[2,1,'B'],[2,1,'A'],[2,3,'A'],[3,2,'B']]), ['feature 1','feature 2','target'])
print myTree

min entropy:0.918295834054
min axis:0
min entropy:1.0
min axis:0
{'feature 1': {'1': 'DataSet in same class:B', '3': 'DataSet in same class:B', '2': {'feature 2': {'1': 'Majority count:A', '3': 'DataSet in same class:A'}}}}


## 使用matplotlib注解绘制树形图

## 测试、存储分类器

### 测试算法：使用决策树解决分类问题

In [11]:
def classify(tree, labels, testVec):
    '''
    使用决策树进行递归分类任务
    tree - 使用的树本身
    labels - 树的labels
    testVec - 测试的数据点
    '''
    firstLabel = tree.keys()[0]
    nextTree = tree[firstLabel]
    firstLabelIndex = labels.index(firstLabel)
    for k in nextTree.keys():
        if k == testVec[firstLabelIndex]:
            if type(nextTree[k]).__name__ == 'dict':
                return classify(nextTree[k], labels, testVec)
            else:
                return nextTree[k] # 说明到达了叶子节点

In [12]:
print classify(myTree, ['feature 1', 'feature 2', 'target'], ['1', '2'])

DataSet in same class:B


In [13]:
print classify(myTree, ['feature 1', 'feature 2', 'target'], ['2', '1'])

Majority count:A


In [14]:
print classify(myTree, ['feature 1', 'feature 2', 'target'], ['2', '3'])

DataSet in same class:A


### 存储分类器

In [15]:
def storeTree(tree, filename):
    import pickle
    with open(filename, 'w') as fw:
        pickle.dump(tree, fw)

In [16]:
def grabTree(filename):
    import pickle
    with open(filename, 'r') as fr:
        return pickle.load(fr)

In [17]:
storeTree(myTree, 'myTree.tree')

In [18]:
!ls

10.无监督学习：利用 K-均值聚类算法对未标注 数据分组.ipynb
11.无监督学习：使用 Apriori 算法进行关联 分析.ipynb
12.无监督学习：使用 FP-growth 算法来高效 发现频繁项集.ipynb
13.其他工具：利用 PCA 来简化数据.ipynb
14.其他工具：利用 SVD 简化数据.ipynb
15.其他工具：大数据与 MapReduce.ipynb
1.机器学习基础.ipynb
2.分类：KNN.ipynb
3.分类：决策树.ipynb
4.分类：基于概率论的分类方法：朴素贝叶斯.ipynb
5.分类：Logistic回归.ipynb
6.分类：SVM.ipynb
7.分类：利用Adaboost元算法提高分类性能.ipynb
8.利用回归预测数值型数据：预测数值型数据-回归.ipynb
9.利用回归预测数值型数据：树回归.ipynb
myTree.tree
readme.md
机器学习实战-中文版.pdf


In [19]:
print grabTree('myTree.tree')

{'feature 1': {'1': 'DataSet in same class:B', '3': 'DataSet in same class:B', '2': {'feature 2': {'1': 'Majority count:A', '3': 'DataSet in same class:A'}}}}


## 示例：使用决策树预测隐形眼镜类型

### 加载数据

In [20]:
data = open('../datas/lenses.txt', 'r')

### 处理数据

In [21]:
data_list = [line.replace('\n', '').split('\t') for line in data.readlines()]
labels = ['age', 'prescript', 'astigmatic', 'tearRate']
data_list[0]

['young', 'myope', 'no', 'reduced', 'no lenses']

### 生成树模型

In [22]:
tree = createTree(data_list, labels)

min entropy:1.55458516934
min axis:3
min entropy:1.5683182557
min axis:2
min entropy:0.918295834054
min axis:1
min entropy:0.0
min axis:0
min entropy:0.918295834054
min axis:1
min entropy:0.0
min axis:0


### 测试数据

In [23]:
labels = ['age', 'prescript', 'astigmatic', 'tearRate']

In [24]:
print classify(tree, labels, ['young', 'myope', 'no', 'reduced'])
print classify(tree, labels, ['young', 'hyper', 'yes', 'reduced'])
print classify(tree, labels, ['presbyopic', 'myope', 'yes', 'normal'])

DataSet in same class:no lenses
DataSet in same class:no lenses
DataSet in same class:hard


## 小结

决策树分类器就像带有终止块的流程图,终止块表示分类结果。开始处理数据集时,我们首
先需要测量集合中数据的不一致性,也就是熵,然后寻找最优方案划分数据集,直到数据集中的
所有数据属于同一分类。ID3算法可以用于划分标称型数据集。构建决策树时,我们通常采用递
归的方法将数据集转化为决策树。