# 随机森林api介绍
- sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None, min_samples_split=2)
    - n_estimators：integer，optional（default = 10）森林里的树木数量120,200,300,500,800,1200
    - Criterion：string，可选（default =“gini”）分割特征的测量方法
    - max_depth：integer或None，可选（默认=无）树的最大深度 5,8,15,25,30
    - max_features="auto”,每个决策树的最大特征数量
        - If "auto", then max_features=sqrt(n_features).
        - If "sqrt", then max_features=sqrt(n_features)(same as "auto").
        - If "log2", then max_features=log2(n_features).
        - If None, then max_features=n_features.
    - bootstrap：boolean，optional（default = True）是否在构建树时使用放回抽样
    - min_samples_split:节点划分最少样本数
    - min_samples_leaf:叶子节点的最小样本数
    - 超参数：n_estimator, max_depth, min_samples_split,min_samples_leaf

In [1]:
from sklearn.ensemble import RandomForestClassifier
# 随机森林去进行预测
rf = RandomForestClassifier()

In [2]:
param = {"n_estimators": [120,200,300,500,800,1200], "max_depth": [5, 8, 15, 25, 30]}

In [4]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
# 1、获取数据集
iris = load_iris()
# 2、数据基本处理 -- 划分数据集
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
# 3、特征工程：标准化
# 实例化一个转换器类
transfer = StandardScaler()
# 调用fit_transform
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)

In [7]:
from sklearn.model_selection import GridSearchCV
# 超参数调优
# 交叉验证，网格搜索
gc = GridSearchCV(rf, param_grid=param, cv=2)

gc.fit(x_train, y_train)

y_predict = gc.predict(x_test)
print("比对预测结果和真实值：\n", y_predict == y_test)
# 方法b：直接计算准确率
score = gc.score(x_test, y_test)
print("直接计算准确率：\n", score)

比对预测结果和真实值：
 [ True  True  True  True  True  True  True False  True  True  True  True
  True  True  True  True  True  True False  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True]
直接计算准确率：
 0.9473684210526315


In [8]:
print("在交叉验证中验证的最好结果：\n", gc.best_score_)
print("最好的参数模型：\n", gc.best_estimator_)
print("每次交叉验证后的准确率结果：\n", gc.cv_results_)

在交叉验证中验证的最好结果：
 0.9464285714285714
最好的参数模型：
 RandomForestClassifier(max_depth=5, n_estimators=500)
每次交叉验证后的准确率结果：
 {'mean_fit_time': array([0.25118935, 0.43284345, 0.63139641, 0.93079507, 1.55612433,
       2.77885818, 0.3249892 , 0.42160988, 1.08015728, 1.22302186,
       1.62967706, 2.36330187, 0.22343838, 0.37121499, 0.73296988,
       1.06893492, 1.50614297, 2.35341632, 0.29064214, 0.36929965,
       0.72388577, 0.96661389, 1.78441727, 2.65403092, 0.22714984,
       0.37024903, 0.5938971 , 0.93799245, 1.510566  , 2.25665677]), 'std_fit_time': array([0.03207338, 0.03989458, 0.00407469, 0.01895344, 0.00589383,
       0.27441978, 0.07020581, 0.01570058, 0.1247139 , 0.07982051,
       0.07880449, 0.05828011, 0.00699174, 0.00315893, 0.06411779,
       0.14937997, 0.03006542, 0.05913579, 0.05413425, 0.00170755,
       0.07611012, 0.03546178, 0.08441293, 0.08699071, 0.00873601,
       0.00123191, 0.0284431 , 0.01990378, 0.0042901 , 0.01773822]), 'mean_score_time': array([0.01695466, 0.029

# bagging集成与boosting集成的区别：

- 区别一:数据方面

    - Bagging：对数据进行采样训练；

    - Boosting：根据前一轮学习结果调整数据的重要性。

- 区别二:投票方面

    - Bagging：所有学习器平权投票；

    - Boosting：对学习器进行加权投票。

- 区别三:学习顺序

    - Bagging的学习是并行的，每个学习器没有依赖关系；

    - Boosting学习是串行，学习有先后顺序。

- 区别四:主要作用

    - Bagging主要用于提高泛化性能（解决过拟合，也可以说降低方差）

    - Boosting主要用于提高训练精度 （解决欠拟合，也可以说降低偏差）

# api介绍
from sklearn.ensemble import AdaBoostClassifier