In [19]:
from sklearn.datasets import make_classification
from sklearn.ensemble import RandomForestClassifier

from sklearn.experimental import enable_halving_search_cv
from sklearn.model_selection import HalvingGridSearchCV, HalvingRandomSearchCV

## 1. 构建一个数据集

In [5]:
X, y = make_classification(n_samples=1000, random_state=2021)

## 2. HalvingGridSearchCV

In [16]:
param_grid = {'max_depth':[3,5,7,10], 'min_samples_leaf':[2,5,7,10]}
base_estimator = RandomForestClassifier(random_state=2021)
hgs = HalvingGridSearchCV(base_estimator, param_grid, factor=2, 
                          resource="n_estimators", max_resources=3000, min_resources=10, 
                          cv = 3).fit(X, y)

- 输入模型最好的参数

In [17]:
hgs.best_estimator_

RandomForestClassifier(max_depth=10, min_samples_leaf=2, n_estimators=160,
                       random_state=2021)

- 模型的交叉结果

In [20]:
hgs.cv_results_

## 3. HalvingRandomSearchCV

In [22]:
param_grid = {'max_depth':[3,5,7,10], 'min_samples_leaf':[2,5,7,10]}
base_estimator = RandomForestClassifier(random_state=2021)
hrs = HalvingRandomSearchCV(base_estimator, param_grid, factor=2, 
                          resource="n_estimators", max_resources=3000, min_resources=10, 
                          cv = 3).fit(X, y)



In [23]:
hrs.best_estimator_

RandomForestClassifier(max_depth=10, min_samples_leaf=2, n_estimators=160,
                       random_state=2021)

## 优点

该方法速度又快而且效果也可以接受

## 建议

Successive Halving适用于目前所有模型的参数的调节，关于此处我个人有一些小小的建议：

- 当数据量不大的时候，考虑直接将resource设置为n_estimators；
- 当数据量很大的时候，考虑将resource设置为n_samples,但min_resources不建议太小；
- 当数据量很大的时候，先对数据进行采样（不建议采样量太小），然后将resource设置为n_estimators；

最后我们固定住其它参数再寻找最优的n_estimators值，效果会更好些。