![](集成学习-8.png)

![](集成学习-9.png)

**三、scikit-learn 中使用特征取样方式**

- 在 scikit-learn 的集成学习算法 BaggingClassifier 中封装了变量，来使用不同的取样方式：

-  **模拟数据集**

In [3]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

X, y = datasets.make_moons(n_samples=500, noise=0.3, random_state=42)

- **使用 oob**
- bootstrap = True：使用 Bagging 取样方式按<font face="微软雅黑" color="red" size=1>样本取样</font>；


In [4]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import BaggingClassifier

bagging_clf = BaggingClassifier(DecisionTreeClassifier(),
                                n_estimators=500,
                                max_samples=100,
                                bootstrap=True,
                                oob_score=True
)

bagging_clf.fit(X, y)
bagging_clf.oob_score_





0.918

- **设置并行处理：n_jobs**

In [5]:
%%time
bagging_clf2 = BaggingClassifier(DecisionTreeClassifier(),
                               n_estimators=500, 
                               max_samples=100, 
                               bootstrap=True, 
                               oob_score=True,
                               n_jobs=-1)

bagging_clf2.fit(X, y)

Wall time: 1.73 s


BaggingClassifier(base_estimator=DecisionTreeClassifier(ccp_alpha=0.0,
                                                        class_weight=None,
                                                        criterion='gini',
                                                        max_depth=None,
                                                        max_features=None,
                                                        max_leaf_nodes=None,
                                                        min_impurity_decrease=0.0,
                                                        min_impurity_split=None,
                                                        min_samples_leaf=1,
                                                        min_samples_split=2,
                                                        min_weight_fraction_leaf=0.0,
                                                        presort='deprecated',
                                                        random_state=None,


- **Random Patches 方式：即针对样本数量，又针对特征进行取样；**

- BaggingClassifier() 的参数：   
 bootstrap = True：表示采用放回的方式对样本进行取样；  
 max_samples=100：表示每次取 100 个样本；   
 bootstrap_features=True：表示采用放回取样的方式对特征进行取样；   
 max_features=1：每次给样本取 1 个特征 



In [11]:
random_subspaces_clf = BaggingClassifier(DecisionTreeClassifier(),
                               n_estimators=500, max_samples=100, 
                               bootstrap=True, oob_score=True,
                               n_jobs=-1, max_features=1, bootstrap_features=True)
random_subspaces_clf.fit(X, y)
random_subspaces_clf.oob_score_

0.856

- 这种使用 决策树算法集成学习得到的子模型，称为随机森林

### 集成学习（随机森林、集成学习参数）

**一、基础理解**

**1）定义**  
定义：使用决策树算法进行集成学习时所得到的集成学习的模型，称为随机森林；  
只要集成学习的底层算法是 决策树算法，最终得到的模型都可以称为随机森林；

**2）scikit-learn 中：随机森林分类器及回归器**

- RandomForestClassifier()：分类器
- RandomForestRegressor()：回归器

- 特点：所有子模型在节点划分时，都是在<font face="微软雅黑" size=1 color="red">随机的特征子集</font>上寻找最优的划分特征；
也就是在迭代寻找划分维度及其阈值时，不是对全部特征进行搜索，而是对部分特征进行搜索； 
- 优点：这种方式增加了每一个子模型的随机性及差异性； 

- 使用格式

In [13]:
from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier(n_estimators=500, random_state=666, oob_score=True, n_jobs=-1)
rf_clf.fit(X, y)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=500,
                       n_jobs=-1, oob_score=True, random_state=666, verbose=0,
                       warm_start=False)

**3）scikit-learn 中：Extra-Trees（极其随机的森林）**

- **特点**：决策树子模型在节点划分时，使用随机的特征和随机的阈值；
1, 也就是说，节点划分时，选择的特征及对应的特征值不是搜索比较所得，而是随机抽取一个特征，再从该特征中随机抽取一个特征值，作为该节点划分的依据；

- **理论支撑**：只要子模型的准确率大于 50%，并且集成的子模型的数量足够多，最终整个集成系统的准确率就能达到要求；
- **优点**：提供额外的随机性，抑制过拟合；并且具有更快的训练速度；
- **缺点**：增大了 bias（偏差）；

- **使用格式**

In [14]:
from sklearn.ensemble import ExtraTreesClassifier

et_clf = ExtraTreesClassifier(n_estimators=500, bootstrap=True, oob_score=True, random_state=666)
et_clf.fit(X, y)

ExtraTreesClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                     criterion='gini', max_depth=None, max_features='auto',
                     max_leaf_nodes=None, max_samples=None,
                     min_impurity_decrease=0.0, min_impurity_split=None,
                     min_samples_leaf=1, min_samples_split=2,
                     min_weight_fraction_leaf=0.0, n_estimators=500,
                     n_jobs=None, oob_score=True, random_state=666, verbose=0,
                     warm_start=False)

**4）大多数集成学习算法都可以解决回归问题**

**解决分类问题的算法**

In [None]:
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtraTreesClassifier

**解决回归问题的算法**

In [16]:
from sklearn.ensemble import BaggingRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import ExtraTreesRegressor

- 两类算法的参数相同

***二、随机森林中的参数***

**1）属于决策树算法和集成学习算法共同的参数**  

max_depth = None：决策树的最高深度；（如果不做设置，按其它参数条件结束划分）  
max_features = 'auto'：节点划分时，进行所搜的特征的种类数；（默认搜索全部特征）  
max_leaf_nodes = None：划分结束时，模型最多的叶子数；（如果不做设置，按其它参数条件结束划分）  
min_impurity_decrease = 0.0：