> ID3算法选择特征的依据是**信息增益**
> 
> 我们既可以将决策树的本质视作**从训练数据集中归纳出一组分类规则**，也可以将其看作是**根据训练数据集估计条件概率模型**。整个决策树的学习过程就是一个递归地选择最优特征，并根据该特征对数据集进行划分，使得各个样本都得到一个最好的分类的过程。
![微信图片_20200516183114.png](https://img03.sogoucdn.com/app/a/100520146/aff7f7362bbf77d86f2662bad5fb9930)
> 信息增益越大，则该特征对数据集确定性贡献越大，表示该特征对数据有较强的分类能力。信息增益的计算示例如下：

> 1.计算目标特征的信息熵。
![微信图片_20200516183344.jpg](https://img01.sogoucdn.com/app/a/100520146/81174a28c417a59d7ccb58957ec0440a)

> 2.计算加入某个特征之后的条件熵。
![微信图片_20200516184233.jpg](https://user-gold-cdn.xitu.io/2020/5/16/1721d146a195f2cd?w=492&h=349&f=jpeg&s=22402)

> 3.计算信息增益。
![微信图片_20200516183655.png](https://user-gold-cdn.xitu.io/2020/5/16/1721d0f0cf3060f7?w=411&h=160&f=png&s=8636)
[参考文章](https://mp.weixin.qq.com/s/6ixsCP8dvNYfqhQYUbnNHw)

## 获取数据

In [4]:
import pandas as pd 
df=pd.read_excel(r"sales_data.xls")
df=df.iloc[:,1: ]
df 

Unnamed: 0,天气,周末,促销,销量
0,坏,是,是,高
1,坏,是,是,高
2,坏,是,是,高
3,坏,否,是,高
4,坏,是,是,高
5,坏,否,是,高
6,坏,是,否,高
7,好,是,是,高
8,好,是,否,高
9,好,是,是,高


## 定义熵的计算函数：

In [5]:
def entropy(eles):
    from math import log2
    probs=[eles.count(i)/len(eles) for i in set(eles)]
    return -sum([i*log2(i) for i in probs])
entropy(df["销量"].tolist())

0.9975025463691153

## 定义根据特征和特征值进行数据划分的方法：

In [6]:
def split_df(df,label):
    result={}
    for v in df[label].unique():
        result[v]=df[df[label]==v]
    return result
split_df(df,'天气')

{'坏':    天气 周末 促销 销量
 0   坏  是  是  高
 1   坏  是  是  高
 2   坏  是  是  高
 3   坏  否  是  高
 4   坏  是  是  高
 5   坏  否  是  高
 6   坏  是  否  高
 13  坏  是  是  低
 19  坏  否  否  低
 20  坏  否  是  低
 21  坏  否  是  低
 22  坏  否  是  低
 23  坏  否  否  低
 24  坏  是  否  低
 27  坏  否  否  低
 28  坏  否  否  低
 30  坏  是  否  低,
 '好':    天气 周末 促销 销量
 7   好  是  是  高
 8   好  是  否  高
 9   好  是  是  高
 10  好  是  是  高
 11  好  是  是  高
 12  好  是  是  高
 14  好  否  是  高
 15  好  否  是  高
 16  好  否  是  高
 17  好  否  是  高
 18  好  否  否  高
 25  好  否  是  低
 26  好  否  是  低
 29  好  否  否  低
 31  好  否  是  低
 32  好  否  否  低
 33  好  否  否  低}

## 根据熵计算公式和数据集划分方法计算信息增益来选择最佳特征

In [9]:
def choose_best_col(df,label):
    cols=[c for c in df.columns if c!=label]
    entropy_D=entropy(df[label].tolist())
    max_entropy,max_split_df,best_col=-999,None,""
    for col in cols:
        splited_set=split_df(df,col)
        entropy_A=0
        for split_v,split_data in splited_set.items():
            entropy_K=entropy(split_data[label].tolist())
            entropy_A+=(len(split_data)/len(df))*entropy_K
        increase_info=entropy_D-entropy_A
        if increase_info>max_entropy:
            max_entropy,max_split_df,best_col=increase_info,splited_set,col 
    return max_entropy,max_split_df,best_col
choose_best_col(df,"周末")        

(0.1393938784531582,
 {'高':    天气 周末 促销 销量
  0   坏  是  是  高
  1   坏  是  是  高
  2   坏  是  是  高
  3   坏  否  是  高
  4   坏  是  是  高
  5   坏  否  是  高
  6   坏  是  否  高
  7   好  是  是  高
  8   好  是  否  高
  9   好  是  是  高
  10  好  是  是  高
  11  好  是  是  高
  12  好  是  是  高
  14  好  否  是  高
  15  好  否  是  高
  16  好  否  是  高
  17  好  否  是  高
  18  好  否  否  高,
  '低':    天气 周末 促销 销量
  13  坏  是  是  低
  19  坏  否  否  低
  20  坏  否  是  低
  21  坏  否  是  低
  22  坏  否  是  低
  23  坏  否  否  低
  24  坏  是  否  低
  25  好  否  是  低
  26  好  否  是  低
  27  坏  否  否  低
  28  坏  否  否  低
  29  好  否  否  低
  30  坏  是  否  低
  31  好  否  是  低
  32  好  否  否  低
  33  好  否  否  低},
 '销量')

## 决策树基本要素定义好后，我们即可根据以上函数来定义一个ID3算法类，在类里面定义构造ID3决策树的方法：

In [36]:
class ID3Tree:
    class Node:
        def __init__(self,name):
            self.name,self.connection=name,{}
        def connect(self,label,node):
            self.connection[label]=node
    def __init__(self,df,label):
        self.df,self.root,self.label,self.columns=df,self.Node("Root"),label,df.columns 
    def construct(self,parent_node,parent_con_label,df,columns):
        max_entropy,max_split_df,best_col=choose_best_col(df[columns],self.label)
        if not best_col:
            node=self.Node(df[self.label].iloc[0])
            parent_node.connect(parent_con_label,node)
        else:
            node=self.Node(best_col)
            parent_node.connect(parent_con_label,node)
            new_columns=[c for c in columns if c!=best_col]
            for split_v,split_data in max_split_df.items():
                self.construct(node,split_v,split_data,new_columns)
    def construct_tree(self):
        self.construct(self.root,"",df,self.columns)
    def print_tree(self,root,tabs):
        print(f"{tabs}({root.name})")
        for con_v,node in root.connection.items():
            print(f"{tabs}\t |({con_v})")
            self.print_tree(node,tabs+"\t\t|")
tree=ID3Tree(df,"天气")
tree.construct_tree()
tree.print_tree(tree.root," |")

 |(Root)
 |	 |()
 |		|(销量)
 |		|	 |(高)
 |		|		|(周末)
 |		|		|	 |(是)
 |		|		|		|(促销)
 |		|		|		|	 |(是)
 |		|		|		|		|(坏)
 |		|		|		|	 |(否)
 |		|		|		|		|(坏)
 |		|		|	 |(否)
 |		|		|		|(促销)
 |		|		|		|	 |(是)
 |		|		|		|		|(坏)
 |		|		|		|	 |(否)
 |		|		|		|		|(好)
 |		|	 |(低)
 |		|		|(周末)
 |		|		|	 |(是)
 |		|		|		|(促销)
 |		|		|		|	 |(是)
 |		|		|		|		|(坏)
 |		|		|		|	 |(否)
 |		|		|		|		|(坏)
 |		|		|	 |(否)
 |		|		|		|(促销)
 |		|		|		|	 |(否)
 |		|		|		|		|(坏)
 |		|		|		|	 |(是)
 |		|		|		|		|(坏)
