# 集成学习的概述学习目标：
> 集成学习时解决有监督及其学习任务的一类方法，它的思路是基于多个学习算法的集成来的提升预测结果，在实际的场景中应用非常广泛
- 集成学习的一些思考
- Bagging和随机森林算法
- AdaBoost算法
- GBDT算法
- XGBoost算法

---


# 集成学习的学习目标：
- 知道什么是集成学习
- 知道集成学习的分类
---

# 1、为什么学习集成学习？
概念：集成学习是机器学习中一种思想，通过多个多个模型组合成一个精度更高的模型，通过多个弱学习联合进行预测

# 2、什么是集成学习？
- 传统机器学习算法：决策树、逻辑回归都是寻找一个最优解
- 集成算法：算法基本思想就是将多个分类器组合，从而实现一个预测结果更好的集成分类器。集成学习通过建立建立几个模型来解决单一预测问题，它的工作原理就是生成多个分类器模型，各自独立学习作出预测，这些预测结合成预测结果，因此优于任意一个单分类器作出预测。

# 3、什么是“基学习器”？
参与组成集成学习的模型称为弱学习器也叫“基学习器”

# 4、集成学习有哪些分类？
概念：‌集成学习可以分为同质和异质两种类型，其中同质集成学习是指所有基学习器属于同一个种类，而异质集成学习则是指所有的个体学习器不全是一个种类的。


# 5、集成学习有哪些算法？
关键词：“三个臭皮匠胜于诸葛亮”
- Bagging（Bootstrap Aggregating）
    - 概念：并行训练模型的方法。创建多个相同类型的模型，每个模型在独立的数据子集上进行训练。降低方差
    - 常见算法：随机森林（Random Forest）
- Boosting
    - 概念：顺序【串行】训练模型的方法。创建多个相同类型的模型，基于先前模型的表现来调整后续模型的预测能力。降低偏差
    - 常见算法：AdaBoost、Gradient Boosting、XGBoost、LightGBM等
- Stacking：
    - 概念：并行训练模型的方法。创建多个不同类型的模型，每个模型在独立的数据子集上进行训练。
    - 常见方法：
- Voting：
    - 概念：Voting方法是一种将多个基本学习器的预测结果进行投票或平均来获得最终预测的简单方法。硬投票是基于多数票决定，而软投票是基于概率得分的平均
    - 常见方法：硬投票（Hard Voting）、软投票（Soft Voting）
        - 
![集成学习对比](../img/集成学习对比.png)



# 6、集成学习性能如何评估？
‌集成学习的性能可以通过多种方法进行评估，主要包括交叉验证法、概率图模型和调参搜索法。
- ‌交叉验证法：将数据集划分为K份，选择一份作为测试集，其他作为训练集，对比全部模型的训练结果，确定最佳的模型
- 概率图模型：通过构建概率图模型和模型之间依赖关系，直观的确定判断模型之间的差异和关系，‌但对于多变量情况效果不佳。
- 调参搜索法：通过手动或者自动的形式选取参数值，通过遍历不同的参数组合获取性能最好的模型。

# 小结
- “基学习器”使用的学习方法是相同的还是不同的？可以是相同的（多个基学习器都使用决策树）也可以是不同的（比如：支持向量机、神经网络、决策树整合到一起作为一个集成学习系统），一般倾向于相同学习模型
- “基学习器”应该注意哪些？基学习器之间要存在差异性；基学习器能力不需要很强，只要比随机猜测0.5高一点就行

In [21]:
# 鸢尾花Bagging方法实现

# 导入鸢尾花数据集
from sklearn.datasets import load_iris
# 导入随机森林分类器
from sklearn.ensemble import RandomForestClassifier
# 导入训练集和测试集划分包
from sklearn.model_selection import train_test_split
# 导入模型预测准确率性能
from sklearn.metrics import accuracy_score

# 1、加载数据
iris = load_iris()
print(f'鸢尾花数据集描述：{iris.DESCR}')
X = iris.data
y = iris.target
print('参数：', X.size, y.size)


# 2、数据集划分
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
print('训练集：', x_train.size, y_train.size)
print('测试集：', x_test.size, y_test.size)

# 3、构建Bagging模型
rf_classifier = RandomForestClassifier(n_estimators = 5, random_state = 42)

# 4、模型训练
rf_classifier.fit(x_train, y_train)

# 5、模型预测
y_predict = rf_classifier.predict(x_test)
print(f'模型预测原始数据：x_test:{x_test}')
print(f'模型预测结果：y_predict:{y_predict}')

# 6、模型评估
accuracy = accuracy_score(y_test, y_predict)
print(f'模型准确率 accuracy：{accuracy}')

鸢尾花数据集描述：.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.g

In [44]:
# 集成学习Boosting算法鸢尾花实现

# 导入鸢尾花数据集
from sklearn.datasets import load_iris
# 导入训练集测试集划分模块
from sklearn.model_selection import train_test_split
# 导入Boosting分类器（梯度增强分类器）
from sklearn.ensemble import GradientBoostingClassifier
# 导入模型预测准确率和分类报告模块
from sklearn.metrics import accuracy_score, classification_report

# 1、加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 2、测试集训练集划分
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
print(f'训练集 特征值：{x_train[:2,]}, 目标值：{y_train[:2, ]}')
print(f'测试集 特征值：{x_test[:2,]}, 目标值：{y_test[:2,]}')

# 3、创建梯度提升树分类器
gb_classifier = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, random_state=42)

# 4、模型训练
gb_classifier.fit(x_train, y_train)

# 5、使用模型进行预测
y_pred = gb_classifier.predict(x_test)

# 6、评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print("分类模型准确率：", accuracy)

# 7、输出分类报告
print("\n分类报告：")
print(classification_report(y_test, y_pred))


训练集 特征值：[[4.6 3.6 1.  0.2]
 [5.7 4.4 1.5 0.4]], 目标值：[0 0]
测试集 特征值：[[6.1 2.8 4.7 1.2]
 [5.7 3.8 1.7 0.3]], 目标值：[1 0]
分类模型准确率： 1.0

分类报告：
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00         9
           2       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



In [45]:
# 集成学习Stacking算法鸢尾花实现

# 导入鸢尾花数据集
from sklearn.datasets import load_iris
# 导入训练集测试集划分模块
from sklearn.model_selection import train_test_split
# 导入Boosting分类器（梯度增强分类器）
from sklearn.ensemble import StackingClassifier, RandomForestClassifier, GradientBoostingClassifier
# 导入模型预测准确率和分类报告模块
from sklearn.metrics import accuracy_score, classification_report

# 1、加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 2、测试集训练集划分
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
print(f'训练集 特征值：{x_train[:2,]}, 目标值：{y_train[:2, ]}')
print(f'测试集 特征值：{x_test[:2,]}, 目标值：{y_test[:2,]}')

# 3、创建基本学习器（可以选择不同类型的学习器）
base_learners = [
    ('rf', RandomForestClassifier(n_estimators=100, random_state=42)),
    ('gb', GradientBoostingClassifier(n_estimators=100, random_state=42))
]

# 4、创建 Stacking 分类器
stacking_classifier = StackingClassifier(estimators=base_learners,final_estimator=RandomForestClassifier(n_estimators=100, random_state=42))

# 5、训练模型
stacking_classifier.fit(x_train, y_train)

# 6、使用模型进行预测
y_predict = stacking_classifier.predict(x_test)

# 7、评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print("模型准确率：", accuracy)

训练集 特征值：[[4.6 3.6 1.  0.2]
 [5.7 4.4 1.5 0.4]], 目标值：[0 0]
测试集 特征值：[[6.1 2.8 4.7 1.2]
 [5.7 3.8 1.7 0.3]], 目标值：[1 0]
模型准确率： 1.0


# 总结：
- 集成方法类型:
    - 随机森林：随机森林是一种 Bagging 集成方法，它通过构建多个决策树，然后将它们的结果进行平均或投票来进行预测。
    - 梯度提升树：梯度提升树是一种 Boosting 集成方法，它通过迭代训练决策树，每个新树试图纠正前一个树的错误。
- 模型的构建方式:
    - 随机森林：随机森林使用随机抽样技术（Bootstrap Aggregating）来创建多个训练数据子集，每个子集用于独立地训练一个决策树。此外，对于每个决策树的节点分裂，随机森林随机选择一个特征子集。这种随机性有助于减小模型的方差。
    - 梯度提升树：梯度提升树是一个迭代的过程，每个新树的构建是在前一个树的残差上进行的。它尝试纠正前一个树的错误，因此每个新树都是基于前一个树的性能来构建的。
- 多样性:
    - 随机森林：多样性是通过随机采样和特征选择来实现的，因此随机森林的各个树之间通常具有较高的独立性。
    - 梯度提升树：梯度提升树的多样性来自于每个新树纠正前一个树的错误，因此各个树之间通常存在强依赖性。
- 并行化:
    - 随机森林：由于树之间独立，随机森林容易并行化，可以有效地处理大规模数据。
    - 梯度提升树：梯度提升树通常是串行训练的，因为每个新树的构建都依赖于前一个树的结果，所以不太容易并行化。
- 超参数:
    - 随机森林：主要的超参数包括树的数量（n_estimators）和随机选择特征的数量（max_features）等。
    - 梯度提升树：主要的超参数包括树的数量（n_estimators）、学习率（learning_rate）、树的深度（max_depth）等。
- 性能:
    - 随机森林：随机森林通常在初始训练时表现较好，不容易过拟合，对噪声不敏感。
    - 梯度提升树：梯度提升树通常需要仔细的调优，但它可以在合理的参数设置下达到非常高的性能。

`综上所述:`随机森林适合用于高维数据和大规模数据集，通常不需要太多的调优。梯度提升树通常在性能上更强大，但需要更多的调参和计算资源。选择哪种方法通常取决于具体问题和数据的特点。
