# 信息论基础

熵度量了事物的不确定性，事物的不确定性越大，熵越大。

$$ H(x) = - \sum_{i=1}^n p_i \log p_i $$

其中，$n$为变量$x$取不同离散值的个数，$p_i$是变量$x$取值$i$的概率，$\log$为以$2$或$e$为底的对数。

两个变量$x$和$y$的联合熵：
$$ H(x, y) = - \sum_{i=1}^n p(x_i, y_i) \log p(x_i, y_i) $$

条件熵，度量了在$y$已知下，变量$x$的不确定性：
$$ H(x|y) = - \sum_{i=1}^n p(x_i, y_i) \log p(x_i | y_i) = \sum_{j=1}^n p(y_j) H(x|y_j) $$

信息增益（互信息），定义了在$y$确定后，$x$不确定性减少的程度。
$$ I(x, y) = H(x) - H(x|y) $$

计算信息增益，选择信息增益最大的特征来建立决策树的当前节点。

**示例：**

假设有15个样本D，输出为0或者1。其中有9个输出为1， 6个输出为0。 样本中有个特征A，取值为A1，A2和A3。在取值为A1的样本的输出中，有3个输出为1， 2个输出为0，取值为A2的样本输出中,2个输出为1,3个输出为0， 在取值为A3的样本中，4个输出为1，1个输出为0。

样本D的熵为：$ H(D) = -(\frac{9}{15}log_2\frac{9}{15} + \frac{6}{15}log_2\frac{6}{15}) = 0.971 $

样本D在特征下的条件熵为：$ H(D \mid A)=\frac{5}{15}H(D1) + \frac{5}{15}H(D2) + \frac{5}{15}H(D3)
                                = −\frac{5}{15}(\frac{3}{5}log_2\frac{3}{5} + \frac{2}{5}log_2\frac{2}{5}) − \frac{5}{15}(\frac{2}{5}log_2\frac{2}{5} + \frac{3}{5}log_2\frac{3}{5}) − \frac{5}{15}(\frac{4}{5}log_2\frac{4}{5} + \frac{1}{5}log_2\frac{1}{5}) = 0.888 $　　

对应的信息增益为：$ I(D,A) = H(D) - H(D \mid A) = 0.083 $

# 决策树ID3算法思路

**背景**：输入的是$m$个样本，样本输出集合为$D$，每个样本有$n$个离散特征，特征集合即为$A$，输出为决策树$T$。

算法的过程为：

1. 初始化信息增益的阈值$\epsilon$
2. 判断样本是否为同一类输出$D_i$，如果是则返回单节点树$T$。标记类别为$D_i$
3. 判断特征是否为空，如果是则返回单节点树$T$，标记类别为样本中输出类别$D$实例数最多的类别。
4. 计算$A$中的各个特征（一共$n$个）对输出$D$的信息增益，选择信息增益最大的特征$A_g$
5. 如果$A_g$的信息增益小于阈值$\epsilon$，则返回单节点树$T$，标记类别为样本中输出类别$D$实例数最多的类别。
6. 否则，按特征$A_g$的不同取值$A_{gi}$将对应的样本输出$D$分成不同的类别$D_i$。每个类别产生一个子节点。对应特征值为$A_{gi}$。返回增加了节点的数$T$。
7. 对于所有的子节点，令$D=D_i,A=A - {A_g}$递归调用2-6步，得到子树$T_i$并返回。

**节点的子节点个数取决于该节点变量的离散值个数**

# 决策树ID3算法不足点

1. ID3没有考虑连续特征，限制了ID3的用途。
2. ID3采用信息增益大的特征优先建立决策树节点。但相同条件下，取值较多的特征信息增益比取值较少的特征大。
3. ID3没有考虑缺失值处理。
4. ID3没有考虑过拟合问题。