# CART (分类与回归树) 的基本思想

CART (Classification And Regression Tree) 是一种二叉决策树，适用于分类和回归问题：

### 1. 分类树
* **目标**：通过递归分裂特征空间，最大程度减少 **基尼指数 (Gini Index)**，从而构造纯度更高的叶子节点。
* **基尼指数公式**：
$$Gini(D) = 1 - \sum_{k=1}^{K} p_k^2$$
其中，$p_k$ 是样本属于类别 $k$ 的比例。

### 2. 回归树
* **目标**：通过递归分裂特征空间，最小化分裂后的 **均方误差 (MSE)**：
$$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y})^2$$
其中，$\hat{y}$ 是节点中目标值的均值。

### 3. 构建过程
* 在每次分裂时，遍历所有特征及其可能分裂点，选择最优分裂点（最小化目标指标）。
* 树的生长受限于设定的最大深度、最小样本数等超参数。
* 对叶子节点的值进行预测：
    * **分类问题**：预测值为类别标记。
    * **回归问题**：预测值为均值。

---

# 目标函数 $L(y, f(x))$ 的定义

目标函数 $L(y, f(x))$ 衡量模型预测值 $f(x)$ 与真实值 $y$ 之间的差异，例如：

* **对于回归任务**：平方误差
$$L(y, f(x)) = \frac{1}{2}(y - f(x))^2$$

* **对于分类任务**：对数损失 (Log Loss)
$$L(y, f(x)) = -y \log(p) - (1 - y) \log(1 - p)$$
其中，$p = \sigma(f(x))$ 为预测概率。

在每一轮梯度提升中，我们希望通过添加一个新模型 $\Delta f$ 来减少 $L(y, f(x))$ 的值。
