# 创建生成使用的数据集

In [25]:
def createDataSet():
    """
    函数说明:创建数据集
    Return:
            dataSet:创建的数据集
            labels:数据集中数据对应的标签
    
    """
    dataSet = [[0, 0, 0, 0, 'no'],#数据集
             [0, 0, 0, 1, 'no'],
             [0, 1, 0, 1, 'yes'],
             [0, 1, 1, 0, 'yes'],
             [0, 0, 0, 0, 'no'],
             [1, 0, 0, 0, 'no'],
             [1, 0, 0, 1, 'no'],
             [1, 1, 1, 1, 'yes'],
             [1, 0, 1, 2, 'yes'],
             [1, 0, 1, 2, 'yes'],
             [2, 0, 1, 2, 'yes'],
             [2, 0, 1, 1, 'yes'],
             [2, 1, 0, 1, 'yes'],
             [2, 1, 0, 2, 'yes'],
             [2, 0, 0, 0, 'no']]
    labels = ['年龄', '有工作', '有自己的房子', '信贷情况']#特征标签
    return dataSet, labels

In [56]:
dataSet, labels1 = createDataSet()

# 决策树的构建和训练模型

In [23]:
import math
import operator

In [24]:
def informationEntropy(dataset):
    """
    函数声明:计算给定数据集的信息熵
    Parameters:
            dataset:要求信息熵的数据集
    Return:
            entopy:求出的信息熵
    """
    # 要返回的信息熵
    entropy = 0
    numbersOfEntity = len(dataset)
    # 取dataset中所有拥有的种类，转化为集合去重
    allClassifiesCount = {}
    for entity in dataset:
        entityClassify = entity[-1]
        if not entityClassify in allClassifiesCount:
            allClassifiesCount[entityClassify] = 0
        
        allClassifiesCount[entityClassify]+=1
    for classify in allClassifiesCount:
        probaility = allClassifiesCount[classify]/numbersOfEntity
        entropy-=probaility*math.log(probaility,2) 
    return entropy
            
    
    

In [36]:
a= [[1],[1],[2]]

In [37]:
informationEntropy(a)

0.9182958340544896

In [27]:
informationEntropy(dataSet)

0.9709505944546686

In [28]:
def splitDataset(dataset,axis,value):
    """
    函数说明:对数据集按照特征进行划分，如果axis上的变量值等于value，就添加到要返回的数据集中
    Parameters:
            dataset:数据集
            axis:要进行划分的特征
            value:划分要求的特征值
    Return:
            returnDataset:划分后的数据集
    """
    returnDataset=[]
    for entry in dataset:
        if entry[axis] == value:
            returnDataset.append(entry[0:axis]+entry[axis+1:])
    return returnDataset
            
            

In [29]:
splitDataset(dataSet,0,0)

[[0, 0, 0, 'no'],
 [0, 0, 1, 'no'],
 [1, 0, 1, 'yes'],
 [1, 1, 0, 'yes'],
 [0, 0, 0, 'no']]

In [30]:
def selectBestSplit(dataset):
    """
    函数说明：对数据集用每种特征进行划分，选择信息增益的特征进行划分
    Parameters:
            dataset:要进行划分的数据集
    Return:
            feature:要选取的特征
    """
    # 数据集中所有实体
    numberOfEntity = len(dataset)
    # 特征的数量
    numberOfFeature = len(dataset[0])-1
    # 未进行划分时的信息熵
    baseInformationEntropy = informationEntropy(dataset)
    # 最好的信息增益
    bestInformationGain = 0.0
    # 进行划分信息增益最多的特征
    bestFesture = -1
    for feature in range(numberOfFeature):
        """
        依次对每一种特征进行性划分，并计算使用这种特征进行划分的信息熵
        """
        # 该特征的所有可能的值
        featureOfValues = set([entity[feature] for entity in dataset])
        # 这次划分得到的信息熵
        newInformationEntropy = 0.0
        for value in featureOfValues:
            """
            依次按照此特征的所有可能的值进行划分
            """
            # 调用函数，得到划分得到的数据集合
            oneOfSplitDataset = splitDataset(dataset,feature,value)
            # 得到的集合的唱的
            lenthOneOfSplitDataset = len(oneOfSplitDataset)
            # 使用这种特征的可能的值得到实体的概率
            probaility = lenthOneOfSplitDataset/numberOfEntity
            # 计算这种特征划分后的信息熵
            newInformationEntropy+=probaility*informationEntropy(oneOfSplitDataset)
        # 计算信息增益
        informationGain = baseInformationEntropy - newInformationEntropy
        # 找到信息增益最多的划分特征
        if(informationGain>bestInformationGain):
            bestFesture = feature
    return bestFesture
            
            
        
    

In [31]:
selectBestSplit(dataSet)

3

In [32]:
def majorityCut(classifyList):
    """
    函数说明：找到最多的分类
    Parameters: 
            classifyList：要查找的列表
    Return:
            sortclassifySet[0][0]：列表中占比最大的种类
    """
    classifySet = {}
    for classify in classifyList:
        if classify not in classifySet:
            classifySet[classify] = 0
        classifySet[classify]+=1
    sortclassifySet = sorted(classifySet.items(),key = operator.itemgetter(1), reverse=True)
    return sortclassifySet[0][0]
        

In [33]:
majorityCut(a)

1

In [57]:
def createDecisionTree(dataset,labels):
    """
    函数说明:创建决策树
    Parameters:
            dataset:要创建决策树的数据集
            labels:分类的类别标签
    Return:
            decisionTree:决策树
    
    """
    labels = labels[:]
    classList = [entity[-1] for entity in dataset]
    # 判断是否结束并返回
    if len(set(classList))==1:
        return classList[0]
    if len(dataset[0])==1:
        return majorityCut(classList)
    #找到最佳划分特征
    bestFeture = selectBestSplit(dataset)
    #最佳划分特征的标签
    bestFetureLabel = labels[bestFeture]
    # 删除已经使用过的特征
    del labels[bestFeture]
    # 决策数特征对应的判断
    DecisionTree = {bestFetureLabel:{}}
    # 查找此特征的所有值
    bestFetureValues = set([entity[bestFeture] for entity in dataset])
    for bestFetureValue in bestFetureValues:
        """
        按照此特征的不同，划分数据集
        """
        nextLabels = labels[:]
        DecisionTree[bestFetureLabel][bestFetureValue] = \
        createDecisionTree(splitDataset(dataset,bestFeture,bestFetureValue),nextLabels)
    return DecisionTree
    
    

    

In [58]:
dataSet, labels1 = createDataSet()

In [59]:
tree = createDecisionTree(dataSet,labels1)

# 模型存储和读取

In [96]:
import pickle

In [121]:
def saveTree(decisionTree,saveFile):
    """
    函数说明：进行序列化存储
    Parameters:
            decisionTree:训练得到的决策树
            saveFile:要进行存储的文件位置
    """
    with open(saveFile,"wb") as file:
        pickle.dump(decisionTree, file)

In [122]:
def readTree(treeFile):
    """
    函数说明：进行序列化读取
    Parameters:
            treeFile:要进行读取的文件位置
    Return:
            tree:读取到决策树数据
    """
    with open(treeFile,"rb") as file:
        tree = pickle.load(file)
        return tree

In [123]:
saveTree(tree，"decisionTree")

In [124]:
readTree("decisionTree")

{'信贷情况': {0: {'有自己的房子': {0: 'no', 1: 'yes'}},
  1: {'有自己的房子': {0: {'有工作': {0: 'no', 1: 'yes'}}, 1: 'yes'}},
  2: 'yes'}}

# 模型调用

In [60]:
def classify(decisionTree, featureLabel, testVec):
        """
    函数说明:调用决策树模型
    Parameters:
            dataset:决策树
            labels:特征名称组成的列表
            testVec:测试人每个特征对应的的值
    Return:
            decisionTree:决策树
    
    """
    # 查询的特征
    firstFeature = list(decisionTree.keys())[0]
    #　查询特征对应的索引
    indexOfFeature = featureLabel.index(firstFeature)
    # 查询特征对应的值
    firstFeatureValue = testVec[indexOfFeature]
    # 查询后匹配到的决策树
    nextTree = decisionTree[firstFeature][firstFeatureValue]
    if isinstance(nextTree,dict):
        """
        查找最后的结果
        判断返回是否是最后结果，如果是就结束递归
        """
        return classify(nextTree,featureLabel,testVec)
    else:
        return nextTree

In [61]:
classify(tree,labels1,[0, 0, 0, 1])

'no'

In [55]:
print(a)

no


In [40]:
labels1

['年龄', '有工作', '有自己的房子']

# 决策树可视化