# 🌳 CART算法与基尼指数详解

CART（Classification and Regression Tree）是一种既可用于分类也可用于回归的决策树算法。其分类部分以**基尼指数（Gini Index）**为划分标准，目标是构建一棵最优的二叉树。

---

## 🧠 核心思想

- 使用 **基尼指数** 作为划分标准；
- 每次选择使得基尼指数最小的划分方式；
- 构建的是一棵 **二叉树**；
- 支持分类与回归；
- 可结合剪枝策略提升泛化性能。

---

## 📘 基尼指数定义（Gini Index）

基尼指数是衡量集合纯度的一种指标。

### 对一个数据集 $D$，其基尼指数定义为：

$$
\text{Gini}(D) = 1 - \sum_{k=1}^{K} p_k^2
$$

- $K$：类别总数
- $p_k$：样本属于第 $k$ 类的概率

当所有样本属于同一类时，Gini = 0（最纯），越接近 0 表示越纯净。

---

## 🔣 特征划分的基尼指数

对一个特征 $A$ 的划分结果 $\{D_1, D_2, ..., D_n\}$，该划分的基尼指数为：

$$
\text{Gini}_A(D) = \sum_{i=1}^{n} \frac{|D_i|}{|D|} \cdot \text{Gini}(D_i)
$$

目标是选择使 $\text{Gini}_A(D)$ **最小的特征及划分点**。

---

## 📊 CART分类树构建步骤

1. **初始化**：设定训练集 $D$；
2. **遍历所有特征及其可能划分点**；
3. **计算基尼指数 $\text{Gini}_A(D)$**；
4. **选择最小的划分作为当前节点分裂依据**；
5. 对左右子集递归构建子树；
6. 结合剪枝算法优化结构。

---

## 📌 与 ID3 / C4.5 对比

| 特征              | ID3             | C4.5                  | CART                       |
|-------------------|------------------|------------------------|----------------------------|
| 划分标准           | 信息增益         | 信息增益率             | 基尼指数                   |
| 树结构             | 多叉树           | 多叉树                 | 二叉树                     |
| 可处理特征         | 离散             | 离散 + 连续            | 离散 + 连续                |
| 回归任务           | ❌ 不支持        | ❌ 不支持               | ✅ 支持回归树              |
| 剪枝               | 不支持           | 支持（后剪枝）         | 支持（预剪枝 + 后剪枝）   |

---

## 🔍 回归树的构建（简要）

- 不再使用基尼指数，而是采用**均方误差（MSE）**来划分：

  $$
  \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y})^2
  $$

- 在每个划分点寻找使 MSE 最小的划分；
- 叶节点的预测值是子集样本的均值。

---

## ✂️ 剪枝策略（预剪枝与后剪枝）

- **预剪枝**：在划分前评估是否值得继续划分；
- **后剪枝**：先构建完整树，然后对某些子树进行简化；
- 常用评估标准：**交叉验证误差、复杂度代价函数等**。

---

## 🧠 CART应用领域

- 银行信用评分系统
- 医疗风险评估
- 客户分类与推荐系统
- 销售预测与趋势建模

---

## ✅ 总结

CART 是一种高效且功能全面的决策树算法：

- 支持分类与回归；
- 使用基尼指数可减少偏好；
- 结构清晰，逻辑透明；
- 适合需要可解释性的任务场景。