## 信息增益

<span class="motutor-highlight motutor-id_gb2inf4-id_8qici6j"><i></i><b>信息增益</b></span>用来衡量样本集合复杂度（不确定性）所减少的程度。

In [None]:
from IPython.display import IFrame
src = 'http://files.momodel.cn/%E5%86%B3%E7%AD%96%E6%A0%913.pptx'
IFrame('https://view.officeapps.live.com/op/view.aspx?src='+src, width=800, height=600)

得到不同天气下的信息熵后，我们可以计算天气状况的信息增益:  
$$Gain(D,A)=E(D)-\sum_{i}^{n}\frac{|D_i|}{D}E(D)$$

其中，$A=“天气状况”$。于是天气状况这一气象特点的信息增益为：
$$Gain(D,天气)=0.940-（\frac{5}{14}×0.971+\frac{4}{14}×0+\frac{5}{14}×0.971）=0.246$$

通常情况下，某个分支的信息增益越大，则该分支对样本集划分所获得的“纯度”越大，信息不确定性减少的程度越大。

我们来编写代码，使用上面的公式计算信息增益。

In [2]:
# 引入函数加载前两页中的计算得到的变量
from decision_tree2 import decision_2, calc_entropy
df, entropy, total_num_sun, total_num, ent_sun, total_num_cloud, ent_cloud, total_num_rain, ent_rain = decision_2()

In [3]:
# 信息增益
gain = entropy - (total_num_sun / total_num*ent_sun +
                  total_num_cloud / total_num*ent_cloud +
                  total_num_rain / total_num*ent_rain)
round(gain, 3)


0.246

同理可以计算温度高低、湿度大小、风力强弱三个气象特点的信息增益。

计算按温度高低进行切分的信息增益。

In [4]:
# 温度 >26 的信息熵
total_num_temp_high = df[df['温度']=='>26'].shape[0]
count_dict_temp_high = {'前往':df[(df['温度']=='>26') & (df['是否前往游乐场']==1)].shape[0],
                   '不前往':df[(df['温度']=='>26') & (df['是否前往游乐场']==0)].shape[0]}
print(count_dict_temp_high)
ent_temp_high = calc_entropy(total_num_temp_high, count_dict_temp_high)
print('温度 >26 的信息熵为：%s' % ent_temp_high)

# 温度 <=26 的信息熵
total_num_temp_low = df[df['温度']=='<=26'].shape[0]
count_dict_temp_low = {'前往':df[(df['温度']=='<=26') & (df['是否前往游乐场']==1)].shape[0],
                     '不前往':df[(df['温度']=='<=26') & (df['是否前往游乐场']==0)].shape[0]}
print(count_dict_temp_low)
ent_temp_low = calc_entropy(total_num_temp_low, count_dict_temp_low)
print('温度 <=26 的信息熵为：%s' % ent_temp_low)

# 如果按照温度高低进行划分，则对应的信息增益为
gain = entropy - (total_num_temp_high/total_num*ent_temp_high +
                  total_num_temp_low/total_num*ent_temp_low)
print('按照温度高低进行划分的信息增益为：%s' % gain)


{'前往': 2, '不前往': 1}
温度 >26 的信息熵为：0.918
{'前往': 7, '不前往': 4}
温度 <=26 的信息熵为：0.946
按照温度高低进行划分的信息增益为：0.0


计算按湿度高低进行切分的信息增益。

In [5]:
# 湿度 >75 的信息熵
total_num_hum_high = df[df['湿度']=='>75'].shape[0]
count_dict_hum_high = {'前往':df[(df['湿度']=='>75') & (df['是否前往游乐场']==1)].shape[0],
                   '不前往':df[(df['湿度']=='>75') & (df['是否前往游乐场']==0)].shape[0]}
print(count_dict_hum_high)
ent_hum_high = calc_entropy(total_num_hum_high, count_dict_hum_high)
print('湿度 >75 的信息熵为：%s' % ent_hum_high)

# 湿度 <=75 的信息熵
total_num_hum_low = df[df['湿度']=='<=75'].shape[0]
count_dict_hum_low = {'前往':df[(df['湿度']=='<=75') & (df['是否前往游乐场']==1)].shape[0],
                     '不前往':df[(df['湿度']=='<=75') & (df['是否前往游乐场']==0)].shape[0]}
print(count_dict_hum_low)
ent_hum_low = calc_entropy(total_num_hum_low, count_dict_hum_low)
print('湿度 <=75 的信息熵为：%s' % ent_hum_low)

# 如果按照湿度高低进行划分，则对应的信息增益为
gain = ent_sun - (total_num_hum_high/total_num*ent_hum_high +
                  total_num_hum_low/total_num*ent_hum_low)
print('按照湿度高低进行划分的信息增益为：%s' % gain)


{'前往': 5, '不前往': 4}
湿度 >75 的信息熵为：0.991
{'前往': 4, '不前往': 1}
湿度 <=75 的信息熵为：0.722
按照湿度高低进行划分的信息增益为：0.07607142857142846


计算按风力强弱进行切分的信息增益。

In [6]:
# 有风 的信息熵
total_num_wind = df[df['是否有风']=='是'].shape[0]
count_dict_wind = {'前往':df[(df['是否有风']=='是') & (df['是否前往游乐场']==1)].shape[0],
                   '不前往':df[(df['是否有风']=='是') & (df['是否前往游乐场']==0)].shape[0]}
print(count_dict_wind)
ent_wind = calc_entropy(total_num_wind, count_dict_wind)
print('有风 的信息熵为：%s' % ent_wind)

# 无风 的信息熵
total_num_nowind = df[df['是否有风']=='否'].shape[0]
count_dict_nowind = {'前往':df[(df['是否有风']=='否') & (df['是否前往游乐场']==1)].shape[0],
                     '不前往':df[(df['是否有风']=='否') & (df['是否前往游乐场']==0)].shape[0]}
print(count_dict_nowind)
ent_nowind = calc_entropy(total_num_nowind, count_dict_nowind)
print('无风 的信息熵为：%s' % ent_nowind)

# 如果按照是否有风进行划分，则对应的信息增益为
gain = entropy - (total_num_wind/total_num*ent_wind +
                  total_num_nowind/total_num*ent_nowind)
print('按照是否有风进行划分的信息增益为：%s' % gain)


{'前往': 3, '不前往': 3}
有风 的信息熵为：1.0
{'前往': 6, '不前往': 2}
无风 的信息熵为：0.811
按照是否有风进行划分的信息增益为：0.04800000000000004


In [7]:
from IPython.display import IFrame
src = 'http://files.momodel.cn/%E5%86%B3%E7%AD%96%E6%A0%914.pptx'
IFrame('https://view.officeapps.live.com/op/view.aspx?src='+src, width=800, height=600)