## 回归树的生成  
&emsp;&emsp;假设$X$与$Y$分别为输入和输出变量,并且$Y$是连续变量,给定训练数据集      
$$ D=\{  (\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), \dots, (\mathbf{x}_N, y_N)\} $$   
考虑如何生成回归树.      
&emsp;&emsp;一颗回归树对应着输入空间(即特征空间)的一个划分以及在划分的单元上的输出值.假设
已将输入空间划分为$M$个单元$R_1, R_2, \dots, R_M$,并且在每个单元$R_m$上有一个固定
的输出值$c_m$,于是回归树模型可表示为    
$$ f(\mathbf{x}) = \sum_{m=1}^{M} c_m I(\mathbf{x} \in R_m) $$  
&emsp;&emsp;当输入空间的划分确定时,可以用平方误差$ \sum_{\mathbf{x}_i \in R_m} (y_i - f(\mathbf{x}_i))^2$来表示
回归树对于训练数据的预测误差,用平方误差最小的准则求解每个单元上的最优输出值.易知,单元$R_m$上的$c_m$的最优值$ \hat{c}_m $是$R_m$上的
所有输入实例$x_i$对应的输出$y_i$的均值,即    
$$ \hat{c}_m =\mathrm{ave} (y_i | \mathbf{x}_i \in R_m) $$   
&emsp;&emsp;问题是怎样对输入空间进行划分.这里采用启发式的方法,选取第$j$个变量(特征)$X^{(j)}$和它取的值$s$,作为切分
变量(splitting variable)和切分点(splitting point),并定义两个区域   
$$ R_1(j, s) = \{X| X^{(j)}  \leq s \} \quad和\quad R_2(j, s) = \{X| X^{(j)}  > s \} $$   
然后寻找最优切分变量$j$和最优切片点$s$.具体地,求解   
$$ \min_{j, s} \left[  \min_{c_1} \sum_{ \mathbf{x}_i \in R_1(j, s)} (y_i - c_1)^2 + \min_{c_2} \sum_{ \mathbf{x}_i \in R_2(j, s)} (y_i - c_2)^2  \right] $$    
对固定输入变量$j$可以找到最优切分点$s$.   
$$ \hat{c}_1 = \mathrm{ave}(y_i | \mathbf{x}_i \in R_1(j, s)) 和  \hat{c}_2 = \mathrm{ave}(y_i | \mathbf{x}_i \in R_2(j, s)) $$    
遍历所有输入变量,找到最优的切分变量$j$,构成一个对$(j,s)$.依此将输入空间划分为两个区域.接着,对每个区域重复上述划分过程,直到满足
停止条件为止.这样就生成了一颗回归树.这样的回归树通常称为最小二乘回归树(least squares regresssion tree).   

<font color='red' size=4>最小二乘回归树生成算法:</font>   
输入:训练数据集$D$,停止计算的条件;    
输出:回归树$f(x)$.   
&emsp;&emsp;在训练数据集所在的输入空间中,递归地将每个区域划分为两个子区域并决定每个子区域上的输出值,构建二叉决策树;    
1. 选取最优的切分变量$j$与切分点$s$,求解       
$$ \min_{j, s} \left[  \min_{c_1} \sum_{\mathbf{x}_i \in R_1(j, s)} (y_i - c_1)^2 + \min_{c_2} \sum_{\mathbf{x}_i \in R_2(j, s)} (y_i - c_2)^2  \right] $$      
遍历变量$j$,对固定的切分变量$j$扫描切分点$s$,选择使上式达到最小值的对$(j, s)$.   
2. 用选定的对$(j, s)$划分区域并决定相应的输出值;      
$$ R_1(j, s) = \{X| X^{(j)}  \leq s \} \quad和\quad R_2(j, s) = \{X| X^{(j)}  > s \} $$   
$$ \hat{c}_{m} = \frac{1}{N_m} \sum_{\mathbf{x}_i \in R_m(j, s)} y_i, \quad \mathbf{x} \in R_m, \quad m=1,2$$    
3. 继续对两个子区域调用步骤1,2,直到满足停止条件.
4. 将输入空间划分为$M$个区域$ R_1, R_2, \dots , R_M $,生成决策树;     
$$ f(\mathbf{x}) = \sum_{m=1}^{M} \hat{c}_m I(\mathbf{x} \in R_m) $$  



## 分类树的生成  
<font color='red' size=4>CART生成算法</font>   
输入:训练数据集$D$,停止迭代条件;   
输出:CART决策树    
&emsp;&emsp;根据训练数据集,从根结点开始,递归地对每个结点进行以下操作,构建二叉树:   

1. 设结点的训练数据集为$D$,计算现有特征对该数据集的基尼指数.此时,对每一个特征$A$,对其可能取的每个值$a$,根据
样本点对$A=a$的测试为"是"或"否"将$D$分割成$D_1$和$D_2$两部分,计算$A=a$时的基尼指数.
2. 在所有可能的特征$A$以及它们所有可能的切分点$a$中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点.依最优
特征与最优切分点,从现结点生成两个子结点,将训练数据集依特征分配到两个子结点中去.   
3. 对两个子结点递归地调用1,2,直至满足停止条件.
4. 生成CART决策树

&emsp;&emsp;算法停止计算的条件时结点中的样本个数小于预定阙值,或样本集的基尼指数小于预定阙值(样本基本属于一类),或者没有更多特征.  