本小节将介绍决策树模型的前置知识——信息熵、条件熵、信息增益；基尼指数、基尼增益

# 信息熵、条件熵、信息增益

## 信息熵

### 信息熵数学公式

**信息熵**是用来衡量信息不确定性的指标，不确定性是一个事件出现不同结果的可能性。信息熵的计算公式如下：
$$H(X) = - \sum_{i=1}^{n} P(x=i) \log_2 P(X=i)$$
其中，$P(x=i)$是随机变量$X$取值为$i$的概率。

### 信息熵直观案例

- **公平硬币**：
$P(\text{正面}) = 0.5$, $P(\text{反面}) = 0.5$

$$H = -0.5 \log_2 0.5 -0.5 \log_2 0.5 = 1$$

- **作弊硬币**：$P(\text{正面}) = 0.9$, $P(\text{反面}) = 0.1$

$$H = -0.9 \log_2 0.9 -0.1 \log_2 0.1 \approx 0.469$$

- **信息熵越高，则系统的不确定性越大；信息熵越低，则系统的不确定性越小**。

## 条件熵

### 条件熵数学公式

**条件熵**度量了在给定随机变量$Y$的条件下，随机变量$X$的不确定性。条件熵的计算公式如下：
$$H(X|Y=v) = - \sum_{i=1}^{n} P(x=i|Y=v) \log_2 P(X=i|Y=v)$$

### 条件熵直观案例

| 天气（$Y$） | 打网球（$X$） | 出现次数 |
|--------------|----------------|--------|
| 晴           | 是             | 4      |
| 晴           | 否             | 1      |
| 雨           | 是             | 2      |
| 雨           | 否             | 3      |
| 阴           | 是             | 3      |
| 阴           | 否             | 1      |

- **计算步骤**：
1. 计算每个天气条件下 $X$ 的概率分布：
    - 晴（Sunny）： $ P(X=\text{是})=4/5, P(X=\text{否})=1/5 $
    - 雨（Rainy）： $ P(X=\text{是})=2/5, P(X=\text{否})=3/5 $
    - 阴（Cloudy）： $ P(X=\text{是})=3/4, P(X=\text{否})=1/4 $

2. 计算每个条件下的熵：
    - $ H(X|Y=\text{晴}) = -\frac{4}{5}\log\frac{4}{5} - \frac{1}{5}\log\frac{1}{5} \approx 0.722$
    - $ H(X|Y=\text{雨}) = -\frac{2}{5}\log\frac{2}{5} - \frac{3}{5}\log\frac{3}{5} \approx 0.971$
    - $ H(X|Y=\text{阴}) = -\frac{3}{4}\log\frac{3}{4} - \frac{1}{4}\log\frac{1}{4} \approx 0.811$

3. 计算加权平均熵（条件熵）：
    - $ P(Y=\text{晴})=5/14, P(Y=\text{雨})=5/14, P(Y=\text{阴})=4/14 $
    - $ H(X|Y) = \frac{5}{14} \times 0.722 + \frac{5}{14} \times 0.971 + \frac{4}{14} \times 0.811 \approx 0.824$

4. 计算信息熵：
    - 统计数据：
        - 是 (Yes)：4 + 2 +3 = 9 次
        - 否 (No)：1 +3 + 1 = 5 次
    - 计算概率：
        - $ P(X=\text{是}) = \frac{9}{14} $
        - $ P(X=\text{否}) = \frac{5}{14} $
    - 计算信息熵（无条件熵）：
        - $H(X) = - \left( \frac{9}{14} \log_2 \frac{9}{14} + \frac{5}{14} \log_2 \frac{5}{14} \right) = - \left( \frac{9}{14} \times (-0.485) + \frac{5}{14} \times (-0.807) \right) \approx 0.940$

5. 结论：
    - 条件熵：$H(X|Y)\approx 0.824$
    - 信息熵（无条件熵）：$H(X) \approx 0.940$
    - 条件熵相比于信息熵（无条件熵）更低，说明引入新的特征**天气（$Y$）**之后，天气信息降低了不确定性

## 信息增益

### 信息增益数学公式

信息增益 = 熵 - 条件熵。代表了在一个条件下，信息不确定性减少的程度。信息增益的数学公式为：
$$I(X|Y) = H(X) - H(X|Y)$$
其中，
- $H(X)$：信息熵（无条件熵），表示 $X$ 在没有任何额外信息时的不确定性。
- $H(X|Y)$：条件熵，表示在给定特征 $Y$ 后，$X$ 的不确定性。

### 信息增益理解

- 信息增益衡量的是引入某一特征划分数据后，信息熵的减少量。
- 信息增益越大，说明该特征对数据集的划分效果越好。

### 信息增益直观案例

沿用1.2.2节案例，已经计算得到：
- 条件熵：$H(X|Y)\approx 0.824$
- 信息熵（无条件熵）：$H(X) \approx 0.940$

因此信息增益

$$I(X|Y) = H(X) - H(X|Y)=0.940 - 0.824=0.116$$

表示当我们使用特征 $Y$（天气情况）后，$X$（是否打篮球）的不确定性减少了 0.116

# 基尼指数

## 基尼指数

### 基尼指数数学公式

**基尼指数（Gini不纯度）**表示在样本集合中一个随机选中的样本被分错的概率。

基尼指数用于度量数据集不纯度（impurity），基尼指数越小，数据集的纯度越高，即类别分布越单一；基尼指数越大，数据集的纯度越低，即类别混杂程度越高。

基尼指数的计算公式为：
$$Gini(D) = \sum_{i=1}^{k} p_i(1-p_i) = 1 - \sum_{i=1}^{k} p_i^2$$
其中，
- $D$：数据集
- $k$：类别的总数
- $p_i$：类别 $i$ 在数据集中出现的概率

**基尼指数的取值范围为 $[0, 0.5]$**：
- $Gini = 0$：数据集中所有样本属于同一类别（纯净）。
- $Gini = 0.5$：数据集中的类别均匀分布，完全不纯。

### 基尼指数直观案例

| 天气（$Y$） | 打网球（$X$） | 出现次数 |
|--------------|----------------|--------|
| 晴           | 是             | 4      |
| 晴           | 否             | 1      |
| 雨           | 是             | 2      |
| 雨           | 否             | 3      |
| 阴           | 是             | 3      |
| 阴           | 否             | 1      |


- **计算步骤**：
    - 统计数据：
        - "是"（打网球）样本数：4+2+3=9
        - "否"（不打网球）样本数：1+3+1=5
    - 计算概率：
        - $p_{\text{是}} = \frac{9}{14}$
        - $p_{\text{否}} = \frac{5}{14}$
    - 计算基尼指数：
        - $Gini(D) = 1 - \sum_{i=1}^{k} p_i^2 = 1 - \left( \left(\frac{9}{14}\right)^2 + \left(\frac{5}{14}\right)^2 \right) = 1 - 0.541 = 0.459$

该数据集的基尼指数为 0.459，说明数据集存在一定的不纯度，即"是"和"否"两个类别都有一定比例，数据不是完全纯净的

## 基尼增益

### 基尼增益数学公式

**基尼增益（Gini Gain）**是基尼不纯度（Gini Impurity）的一种改进方法，用于衡量某个特征对数据集的分类能力。

基尼增益的计算公式如下：

$$Gini\ Gain = Gini(D) - \sum_{i=1}^{k} \frac{|D_i|}{|D|} Gini(D_i)$$

- $Gini(D)$是划分前数据集$D$的基尼不纯度。
- $D_i$是划分后第$i$个子集。
- $|D_i|/|D|$是第$i$个子集的权重（即该子集中的样本比例）。
- $Gini(D_i)$是第$i$个子集的基尼不纯度。
- $k$是划分后的类别数。

### 基尼增益理解

- 基尼增益衡量的是划分数据后，基尼不纯度的减少量。
- 基尼增益越大，说明该特征对数据集的划分效果越好。

### 基尼增益直观案例

| 天气（$Y$） | 打网球（$X$） | 出现次数 |
|--------------|----------------|--------|
| 晴           | 是             | 4      |
| 晴           | 否             | 1      |
| 雨           | 是             | 2      |
| 雨           | 否             | 3      |
| 阴           | 是             | 3      |
| 阴           | 否             | 1      |


1. 计算划分前基尼指数
    - 2.1.2节已经计算得到$Gini(D) = 0.459$
2. 计算按“天气”划分后的基尼不纯度
    - 晴天
        - 4 次 “是”
        - 1 次 “否”
        - $Gini(晴) = 1 - \left(\frac{4}{5}\right)^2 - \left(\frac{1}{5}\right)^2 = 1 - \left(\frac{16}{25} + \frac{1}{25}\right) = 1 - \frac{17}{25} = 0.32$
    - 雨天
        - 2 次 “是”
        - 3 次 “否”
        - $Gini(雨) = 1 - \left(\frac{2}{5}\right)^2 - \left(\frac{3}{5}\right)^2 = 1 - \left(\frac{4}{25} + \frac{9}{25}\right) = 1 - \frac{13}{25} = 0.48$
    - 阴天
        - 3 次 “是”
        - 1 次 “否”
        - $Gini(阴) = 1 - \left(\frac{3}{4}\right)^2 - \left(\frac{1}{4}\right)^2 = 1 - \left(\frac{9}{16} + \frac{1}{16}\right) = 1 - \frac{10}{16} = 0.375$
3. 计算加权平均基尼不纯度
$$  
\begin{align*}  
\text{Gini}_{\text{split}}  
&= \sum_{i=1}^{k} \frac{|D_i|}{|D|} \cdot \text{Gini}(D_i) \\  
&= \frac{5}{14} \times 0.32 + \frac{5}{14} \times 0.48 + \frac{4}{14} \times 0.375 \\  
&= 0.392  
\end{align*}  
$$
4. 计算基尼增益
$$Gini\ Gain = Gini(D) - Gini_{split} = 0.459 - 0.392 = 0.067$$

基尼增益 = 0.067，说明使用“天气”作为特征进行划分后，基尼不纯度降低了 0.067