###  Description:
> 这个项目学习决策树模型， 首先这个是通过自己编写函数实现决策树，包括以下步骤：
>> * 计算给定数据集的香农熵
>> * 按照给定特征划分数据
>> * 选择最好的数据集划分方式
>> * 递归的创建决策树
>
> 主要是学习决策树构建的内部原理， 这是ID3算法的实现形式，先实现书上的编码过程（基于Python）， 然后尝试用pandas改进，最后通过调包实现决策树模型， 顺便复习机器学习做数据分析的全过程

### 1. 导入包

In [91]:
import numpy as np
import pandas as pd
import math

from sklearn.tree import DecisionTreeClassifier

### 2. 创建决策树

#### 2.1 计算给定数据集的香农熵
> 思路：
> * 获取到训练样本的长度
> * 遍历数据集的标签，计算每个标签的个数存放在字典中
> * 计算出比例，然后根据公式求解

In [2]:
# 计算给定数据集的香农熵
def calcShannonEnt(dataset):
    numEntries = len(dataset)     # 样本数量
    labelCounts = {}
    for featVec in dataset:
        currentLabel = featVec[-1]         # 遍历每个样本，获取标签
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key]) / numEntries
        shannonEnt -= prob * math.log(prob, 2)
    
    return shannonEnt

# 看看pandas版本
# def calcShannonEnt2(dataset):
#     numEntries = dataset[dataset.columns[dataset.shape[1]-1]].count()
#     labels_num = dataset[dataset.columns[dataset.shape[1]-1]].value_counts()
#     prob = labels_num / numEntries
#     shannonEnt = np.sum(-(prob * np.log2(prob)))
    
#     return shannonEnt

####  2. 2 按照给定的特征划分数据集
> 思路：
> 遍历训练样本， 从给定的特征上进行切分样本，去掉该特征，剩余的特征保存形成新的样本

In [18]:
# 按照给定特征划分数据集
def splitDataSet(dataset, axis, value):
    retDataSet = []
    for featVec in dataset:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

#### 2.3 选择最好的数据集划分方式
> 思路： 遍历当前特征的唯一属性值， 对每个唯一属性值划分一次数据集， 然后计算新熵值， 并对所有唯一特征值得到的熵求和。 然后用原来计算的香农熵减去这个新的香农熵，看看信息增益增加了多少，选择使得信息增益增加最大的。

In [26]:
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1   # 获取总的特征数
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0
    bestFeature = -1
    
    # 下面开始变量所有特征， 对于每个特征，要遍历所有样本， 根据遍历的样本划分开数据集，然后计算新的香农熵
    for i in range(numFeatures):
        featList = [example[i] for example in  dataSet]   #  获取遍历特征的这一列数据，接下来进行划分
        uniqueVals = set(featList)              # 从列表中创建集合是Python语言得到唯一元素值的最快方法
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet) / float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
        infoGain = baseEntropy - newEntropy
        if (infoGain > bestInfoGain):
            bastInfoGain = infoGain
            bestFeature = i
    
    return bestFeature   

#### 2.4 递归构建决策树


In [22]:
 # 返回最多的那个标签
def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote] = 0
            classCount[vote] += 1
    sortedClassCount = sorted(classCount.values(), reverse=True)
    
    return sortedClassCount[0]

# 递归构建决策树
def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]
    if classList.count(classList[0]) == len(classList):   # 类别完全相同则停止划分 这种 (1,2,'yes') (3,4,'yes')  
        return classList[0]
    if len(dataSet[0]) == 1:          # 遍历所有特征时，(1, 'yes') (2, 'no')这种形式 返回出现次数最多的类别
        return majorityCnt(classList)
    
    bestFeat = chooseBestFeatureToSplit(dataSet)    # 选择最好的数据集划分方式,返回的是最好特征的下标
    bestFeatLabel = labels[bestFeat]         # 获取到那个最好的特征
    myTree = {bestFeatLabel:{}}        # 创建一个myTree,保存创建的树的信息
    del(labels[bestFeat])          # 从标签中药删除这个选出的最好的特征，下一轮就不用这个特征了
    featValues = [example[bestFeat] for example in dataSet]    # 获取到选择的最好的特征的所有取值
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)  # 这是个字典嵌套字典的形式
    
    return myTree


### 3. 预测分类函数

In [85]:
def classify(inputTree, featLabels, testVec):
    firstStr = list(inputTree.keys())[0]        # 获取树的根节点
    secondDict = inputTree[firstStr]  # 获取到下面的那个字典
    featIndex = featLabels.index(firstStr)       # 找到根节点的索引
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classify(secondDict[key], featLabels, testVec)
            else:
                classLabel = secondDict[key]
    
    return classLabel

In [101]:
# 测试函数文件
dataSet = [[1, 1,'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
labels = ['no surfacing', 'flippers']
tmplabels = labels.copy()
shannonEnt = calcShannonEnt(dataSet)
# print(shannonEnt)
# print(chooseBestFeatureToSplit(dataSet))
# print(splitDataSet(dataSet, 0, 0))
mytree = createTree(dataSet, tmplabels)
# print(mytree)
print(classify(mytree, labels, [1, 0]))
print(classify(mytree, labels, [0, 0]))
print(classify(mytree, labels, [1, 1]))

# 用sklearn包试试
X = np.array([[1, 1], [1, 1], [1, 0], [0, 1], [0, 1]])
Y = np.array([1, 1, 0, 0, 0])
model = DecisionTreeClassifier()
model.fit(X, Y)
print(model.predict([[1, 0]]))
print(model.predict([[0,0]]))
print(model.predict([[1,1]]))


no
no
yes
[0]
[0]
[1]


### 4. 基于隐形眼镜的例子构造决策树
> 隐形眼镜数据集： http://archive.ics.uci.edu/ml/machine-datasets/lenses/
> 
> 这是一个著名的数据集， 它包含很多患者眼部状况的观察条件以及医生推荐的隐形眼镜类型， 

### 总结
> * 讲列表中重复的元素去掉的最好的方式就是变成集合，用Set， 得到列表中的唯一值，相当于pandas的unique， np的unique还排序
> * 上面这样构造决策树的方式是ID3算法， 就是划分树的时候，最好的特征有几个值，就划分成多少个分支
> * 列表的.extend和.append的效果是不一样的

In [67]:
# 测试extend和append
a = [1, 2, 3]
b = [4, 5, 6]
#a.append(b)
#print(a)       # [1, 2, 3, [4, 5, 6]]
a.extend(b)
print(a)       #  [1, 2, 3, 4, 5, 6]


c = {'a':[1, 2], 'b':[3,4]}
print(list(c.keys())[0])

[1, 2, 3, 4, 5, 6]
a
