## 一、重要参数、属性与接口

### （一）参数：criterion

"mse"：均方误差，父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，通过使用叶子节点的均值来最小化L2损失。本质是样本真实数据与回归结果的差异。在回归中，MSE不只是**分枝质量衡量指标**，也是衡量回归树**回归质量的指标**。

"frideman_mse"：费尔德曼均方误差，使用弗里德曼针对潜在分枝中的问题改进后的均方误差。

"mae"：绝对平均误差，使用叶节点的中值来最小化L1损失。

### （二）属性和接口

apply：输入测试集或样本点，返回每个样本被分到的叶节点的索引；<br>
fit：返回训练完毕的模型；<br>
predict：返回模型预测的测试样本的标签或回归值；<br>
score：返回在测试集上的精确度（R平方，不是MSE）。

In [1]:
from sklearn.datasets import load_boston #波士顿房价数据集，标签是连续型变量
from sklearn.model_selection import cross_val_score #交叉验证
from sklearn.ensemble import RandomForestRegressor #随机森林回归

In [2]:
boston = load_boston()

In [3]:
boston #字典

{'data': array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 1.5300e+01, 3.9690e+02,
         4.9800e+00],
        [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9690e+02,
         9.1400e+00],
        [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9283e+02,
         4.0300e+00],
        ...,
        [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
         5.6400e+00],
        [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9345e+02,
         6.4800e+00],
        [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
         7.8800e+00]]),
 'target': array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
        18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
        15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
        13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
        21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,
        35.4, 24.7, 3

In [4]:
regressor = RandomForestRegressor(n_estimators=100,random_state=0) #实例化
cross_val_score(regressor,boston.data,boston.target,cv=10,scoring="neg_mean_squared_error") #交叉验证，打分的标准scoring是负均方误差，否则默认R平方

array([-11.22504076,  -5.3945749 ,  -4.74755867, -22.54699078,
       -12.31243335, -17.18030718,  -6.94019868, -94.14567212,
       -28.541145  , -14.6250416 ])

**补充：sklearn当中的模型评估指标列表**

In [5]:
import sklearn
sorted(sklearn.metrics.SCORERS.keys())

['accuracy',
 'adjusted_mutual_info_score',
 'adjusted_rand_score',
 'average_precision',
 'balanced_accuracy',
 'completeness_score',
 'explained_variance',
 'f1',
 'f1_macro',
 'f1_micro',
 'f1_samples',
 'f1_weighted',
 'fowlkes_mallows_score',
 'homogeneity_score',
 'jaccard',
 'jaccard_macro',
 'jaccard_micro',
 'jaccard_samples',
 'jaccard_weighted',
 'max_error',
 'mutual_info_score',
 'neg_brier_score',
 'neg_log_loss',
 'neg_mean_absolute_error',
 'neg_mean_gamma_deviance',
 'neg_mean_poisson_deviance',
 'neg_mean_squared_error',
 'neg_mean_squared_log_error',
 'neg_median_absolute_error',
 'neg_root_mean_squared_error',
 'normalized_mutual_info_score',
 'precision',
 'precision_macro',
 'precision_micro',
 'precision_samples',
 'precision_weighted',
 'r2',
 'recall',
 'recall_macro',
 'recall_micro',
 'recall_samples',
 'recall_weighted',
 'roc_auc',
 'roc_auc_ovo',
 'roc_auc_ovo_weighted',
 'roc_auc_ovr',
 'roc_auc_ovr_weighted',
 'v_measure_score']