In [235]:
import numpy as np
import pandas as pd
from math import log

In [236]:
def createDataSet1():    # 创造示例数据
    datasets = [['青年', '否', '否', '一般', '否'],
               ['青年', '否', '否', '好', '否'],
               ['青年', '是', '否', '好', '是'],
               ['青年', '是', '是', '一般', '是'],
               ['青年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '好', '否'],
               ['中年', '是', '是', '好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '好', '是'],
               ['老年', '是', '否', '好', '是'],
               ['老年', '是', '否', '非常好', '是'],
               ['老年', '否', '否', '一般', '否'],
               ]
    labels = [u'年龄', u'有工作', u'有自己的房子', u'信贷情况', u'类别']
    return datasets,labels

In [237]:
def calcEntory(dataSet):  # 计算数据的熵(entropy)
    num = len(dataSet)  # 数据条数
    labelCounts = []
    for featVec in dataSet:
        currentLabel = featVec[-1] # 每行数据的最后一个字（类别）
        labelCounts.append(currentLabel)
    
    labelCounts =pd.Categorical(labelCounts).codes#文字类别数值化
    labelClass = list(np.unique(labelCounts))#查看有几种类别
    entorpy = 0
    for i in labelClass:#遍历每一个类别
        label_sum = np.sum(np.equal(labelCounts,i))#找出当前‘i’这个类别的总数
        
        entorpy =  entorpy +(- (label_sum / float(num))*log(label_sum / float(num),2))    
            
    return entorpy

In [238]:
def calculate(par):
    if par == 0:
        return 0
    else:
        return par*np.log2(par)

In [239]:
dataSet,labels= createDataSet1()
np.array(dataSet).T

array([['青年', '青年', '青年', '青年', '青年', '中年', '中年', '中年', '中年', '中年', '老年',
        '老年', '老年', '老年', '老年'],
       ['否', '否', '是', '是', '否', '否', '否', '是', '否', '否', '否', '否', '是',
        '是', '否'],
       ['否', '否', '否', '是', '否', '否', '否', '是', '是', '是', '是', '是', '否',
        '否', '否'],
       ['一般', '好', '好', '一般', '一般', '一般', '好', '好', '非常好', '非常好', '非常好',
        '好', '好', '非常好', '一般'],
       ['否', '否', '是', '是', '否', '否', '否', '是', '是', '是', '是', '是', '是',
        '是', '否']], dtype='<U3')

In [240]:
labels

['年龄', '有工作', '有自己的房子', '信贷情况', '类别']

In [241]:
def BestFeature(data):
    data = np.array(data).T
    #特征/属性数目
    data_num = len(data[0])
    Entorpy = {}
    feature_num = len(data)-1
    labels = np.unique(data[-1])#[0,1]
    labels_index = []
    for v in labels:
        label_index = [i for i,label in enumerate(data[-1]) if label == v]#得到某一个类别的所有索引
        labels_index.append(label_index)
    #print('各类别索引',labels_index)
    for f in range(feature_num):#遍历特征，处理特征，目的：找出特征中各取值的比例
        pkey = '特征'+ str(f)
        Entorpy[pkey] = 0
        feature_class = np.unique(data[f])
        #print('第',f,'个特征',feature_class)
        for j in feature_class:
            feature_index = [i for i,value in enumerate(data[f]) if value == j]
            #print(feature_index)
            feature_index_num = len(feature_index)
            temp = -feature_index_num / float(data_num)
            
            for s in labels_index:
                label_feature_count = len(set(feature_index) & set(s))
                
                #print(label_feature_count)
                par = label_feature_count / float(feature_index_num)
                #print('par',par)
                Entorpy[pkey] = Entorpy[pkey] + temp*calculate(par)
    #print(Entorpy)    
    ent = calcEntory(dataSet)
    #print(ent)
    info_gain = {}
    for i,d_value in enumerate(Entorpy.values()):
        info_gain[i] = ent - d_value
    best_feature_index = max(info_gain, key=info_gain.get)
    #print(info_gain)
    return best_feature_index

In [242]:
BestFeature(dataSet)

2

In [243]:
a = ['否', '否', '是', '是', '否', '否', '否', '是', '是', '是', '是', '是', '是',
        '是', '否'] 
a.count(a[2])

9

In [244]:
def majorityCnt(classList):
    classCount=[]
    class_ = list(np.unique(classList))
    for v in class_:
        classCount.append(classList.count(v))
    classCount = np.sort(classCount)#从小到大排序
    return classCount[-1]

In [245]:
majorityCnt(a)

9

In [246]:
featValues = [example[2] for example in dataSet]
uniqueVals = set(featValues)
uniqueVals

{'否', '是'}

In [247]:
def splitDataSet(dataSet, axis, value): #axis是dataSet数据集下要进行特征划分的列号例如outlook是0列，value是该列下某个特征值，0列中的sunny
    retDataSet = []
    for featVec in dataSet: #遍历数据集，并抽取按axis的当前value特征进划分的数据集(不包括axis列的值)
        if featVec[axis] == value: #
            reducedFeatVec = featVec[:axis]     #chop out axis used for splitting
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
            # print axis,value,reducedFeatVec
    # print retDataSet
    return retDataSet

In [248]:
splitDataSet(dataSet,2,'否')

[['青年', '否', '一般', '否'],
 ['青年', '否', '好', '否'],
 ['青年', '是', '好', '是'],
 ['青年', '否', '一般', '否'],
 ['中年', '否', '一般', '否'],
 ['中年', '否', '好', '否'],
 ['老年', '是', '好', '是'],
 ['老年', '是', '非常好', '是'],
 ['老年', '否', '一般', '否']]

In [249]:
splitDataSet(dataSet,2,'是')

[['青年', '是', '一般', '是'],
 ['中年', '是', '好', '是'],
 ['中年', '否', '非常好', '是'],
 ['中年', '否', '非常好', '是'],
 ['老年', '否', '非常好', '是'],
 ['老年', '否', '好', '是']]

In [250]:
def createTree(dataSet,labels):
    classList = [example[-1] for example in dataSet] # 返回当前数据集下标签列所有值
    if classList.count(classList[0]) == len(classList):
        return classList[0]#当类别完全相同时则停止继续划分，直接返回该类的标签
    if len(dataSet[0]) == 1: ##遍历完所有的特征时，仍然不能将数据集划分成仅包含唯一类别的分组 dataSet
        return majorityCnt(classList) #由于无法简单的返回唯一的类标签，这里就返回出现次数最多的类别作为返回值
    bestFeat = BestFeature(dataSet) # 获取最好的分类特征索引
    print(bestFeat)
    bestFeatLabel = labels[bestFeat] #获取该特征的名字
    print(bestFeatLabel)
    # 这里直接使用字典变量来存储树信息，这对于绘制树形图很重要。
    myTree = {bestFeatLabel:{}} #当前数据集选取最好的特征存储在bestFeat中
    del(labels[bestFeat]) #删除已经在选取的特征
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]       #copy all of labels, so trees don't mess up existing labels
        print('bestFeatlabel/value',bestFeatLabel,value)
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
        print(myTree)
    return myTree

In [251]:
createTree(dataSet,labels) 

2
有自己的房子
bestFeatlabel/value 有自己的房子 否
1
有工作
bestFeatlabel/value 有工作 否
{'有工作': {'否': '否'}}
bestFeatlabel/value 有工作 是
{'有工作': {'否': '否', '是': '是'}}
{'有自己的房子': {'否': {'有工作': {'否': '否', '是': '是'}}}}
bestFeatlabel/value 有自己的房子 是
{'有自己的房子': {'否': {'有工作': {'否': '否', '是': '是'}}, '是': '是'}}


{'有自己的房子': {'否': {'有工作': {'否': '否', '是': '是'}}, '是': '是'}}