# 随机森林方法

## 1. 基于树的分类和回归方法 

基于树的分类和回归方法;

学习回归和分类中的损失函数.

### 1.0 什么是决策树?
**决策树(Decision Tree)**是由结点和有向边组成的树,其中结点包括内部结点和叶结点.内部结点表示一个特征或属性,
叶结点表示一个类.

**决策树算法**是一种常用的机器学习算法,在分类问题中,它通过样本中某一维属性
的值将样本划分到不同的类别中.
决策树算法是基于树结构进行决策的.

### 1.1 基于树的方法.

随机森林方法用于预测时,一般会用到数棵树.

在图论的理论中,树的集合,称为森林.所以该方法称为"森林".

也就是说,为了作预测,随机森林考虑数棵树的预测(结果). 

显然,利用多棵__相同__的树做预测,是没有什么意义的, 因为它们都会给出**同样**的预测结果. 
所以,我们需要**不同**的树,这就是该方法称为"随机森林"的原因.

基于树的方法可以用于分类,也可用于回归.


#### 特征空间(feature space/ predictor space):

该方法利用一系列**直线**将预测空间分离为多个简单区域.

具体地: 

首先, 将特征空间划分为两个区域,
然后,再轮流看这两个更小的区域, 把它们分离为更小的区域, ...
直到我们达到我们的某个可以停止的标准.

这种把特征空间划分为更小的多个区域的方法本质上是**递归**的.

为了对测试数据做预测, 我们找到该测试数据点落在特征空间的那个区域.

在**分类问题**中,我们返回那一个区域中训练数据的目标值的**模式(mode)**,即,出现频率最高的那一个类别.

在**回归问题**中,我们返回那一个区域中训练数据的目标(标签)的**平均值**.



#### 一个约束条件: 

当我们利用直线将特征空间分割为数个区域时,这些**直线必须与特征空间的坐标轴方向**对齐. 

由于这个约束条件, 我们可以将分割规则用一棵树表示. 所以该方法又称"决策树算法".

在高维情况,这些直线变成平面, 因此,我们利用此方法得到的结果是: **将特征空间分割成为数个高维矩形**.

#### 问题: 我们从哪里分割特征空间呢? 

基本思想: 
我们这样分割特征空间: **使得特征空间中这些区域上的标签值(outcomes)最大化地平均**.

注意: 我们最终使用落在一个给定区域的标签(目标)的**模式(mode)或平均值**
来作为我们对测试数据(未见过的数据)的预测结果.

因此,我们可以通过**找到特征空间中最大平均化的区域**来尽量减少误差.

每当我们做分割,我们考虑所有的特征(predictors,features)

$x_1, ..., x_p$

且,对于每一个特征,我们考虑所有可能的分割点.


我们可以定义某种标准---损失函数,

**我们选择(特征--分割点, axis--value)组合以使得最终特征空间的分割方式让损失函数的值最小**.

损失函数: loss function.

在回归中: 通常选残差平方和(rss)作为损失函数.

在分类中: 通常选Gini指数, 或交叉熵(cross-entropy)作为损失函数.

它们的基本思想: 利用predictor-cut组合来分割特征空间,使得特征空间的每一区域尽量地均匀化(homogeneous).

## 2. 随机森林预测
如何集成多棵树的预测结果来做随机森林分类和回归

学习随机森林方法引入的两种类型的随机性



#### 1. 数据中的随机性: 称为bagging.

Bootstrap是一种re-sampling方法,它主要包括重复不停地从训练集中提取样本,并对该样本拟合出一个相应的模型.

如果在我们的训练集中有$n$个观测结果,通过随机地选择这$n$个观测值,我们构建了一个bootstrap数据集. 

由于这里的采样实现方法是取代, 同样的观测可在这个bootstrap数据集中出现多次.

我们可以将这个过程(?)实施多次, 那么每次我们将得到稍微不同的数据集.

因此,在决策树算法中, bagging,的意思是: 提取多个bootsrap数据集,并拟合其中的每一个到一棵树.

#### 2.第二种随机性: 如何分割特征空间.

通常,利用决策树,当我们在特征空间做分割时,我们考虑每个特征--分割点(axis--value)组合.

与之相反, 在随机森林中,每一次我们考虑一个分割. 

我们不看所有的特征,而是**随机地对特征采样**(提取出数量更少的特征), 当我们做特征空间分割时,我们只允许利用这些提取出来的特征.

每当我们做特征空间分割,我们得到一个新的"特征样本". 这是一种非常有效的手段.


例.

考虑一个具有1000个观测值的数据集(1000个样本). 我们有9个特征:$x_1, x_2, ..., x_9$.
比如,我们想建立50棵树. 首先将数据随机化.

我们首先从最初的数据中提取出50个bootstrap样本, 并对每个数据集都单独建立一棵树.

然后, 我们一一地拟合这些树. 从第一棵树和第一次分割,我们首先决定使用哪一个特征.

比如,当我们做第一次特征空间分割时, 如果我们被允许使用三个特征,(如$X_2, X_6, X_7)$. 
对于已知数据和这三个特征,我们尽力做最好的分割.  

然后,我们对该树做第二次分割.
这次,我们可能被允许使用的三个特征为$X_1,X_5,X_7$, 我们同样地尽力做最好的分割.

我们继续,直到我们拟合了第一棵树,也就是说,直到我们达到某个停止分割的标准.

然后,我们对森林中的其他所有的树实施同样的操作.

为了利用随机森林做预测, 对每一棵树,我们分别识别测试数据所在的那些特征空间区域.

基于此, 我们接下来,对于每一棵树我们分别做一次预测.
并将每个单独的树的预测结果结合起来, 形成森林的预测结果.

这就是随机森林的工作原理.

## 3. 练习
