## 集成
集成的思想是用多个弱分类器投票的结果来替换强分类器，集成的方法有bagging,stacking 和boosting。 集成思想符合大数定理，如果每个弱分类器正确的概率51%，那么1000个分类器能判断正确的概率大于75%，10000个将到达97%，不过要求各个分类器互相独立，但是我们集成思想使用的是相同的数据，模型可能会在相同的地方犯错。

在上篇文章中，我们使用逻辑回归或决策树算法进行预测，现在我们可以增加更多的模型，来看看集成是否真的有效。

Logistic Regression
KNN or k-Nearest Neighbors
Support Vector Machines
Naive Bayes classifier
Decision Tree
Perceptron
SGD

In [103]:
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import Perceptron
from sklearn.linear_model import SGDClassifier

from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np 

In [36]:
train_df = pd.read_csv("train_pre.csv",index_col=0)
test_df = pd.read_csv("test_pre.csv",index_col=0)

# 留0.2作为验证集
train,verfy = train_test_split(train_df,test_size = 0.25)

X_train = train.drop("Survived",axis=1)
y_train = train["Survived"]

X_verfy = verfy.drop("Survived",axis=1)
y_verfy = verfy["Survived"]


In [37]:
log_clf = LogisticRegression()
kn_clf = KNeighborsClassifier()
svm_clf = SVC()
bayes_clf = GaussianNB()
detree_clf = DecisionTreeClassifier()
per_clf = Perceptron()
sgd_clf = SGDClassifier()


from sklearn.ensemble import VotingClassifier

voting_clf = VotingClassifier(
    estimators=[("lr",log_clf),("knn",kn_clf),("svc",svm_clf),("bayes",bayes_clf),("tree",detree_clf),("per",per_clf),("sgd",sgd_clf)],
    voting='hard')

voting_clf.fit(X_train,y_train)

models = [log_clf,kn_clf,svm_clf,bayes_clf,detree_clf,per_clf,sgd_clf,voting_clf]


#看集成后的分类器的表现

from sklearn.metrics import accuracy_score


for clf in models:
    clf.fit(X_train,y_train)
    y_predict = clf.predict(X_verfy)
    print(clf.__class__.__name__,accuracy_score(y_verfy,y_predict))


LogisticRegression 0.798206278027
KNeighborsClassifier 0.838565022422
SVC 0.811659192825
GaussianNB 0.7533632287
DecisionTreeClassifier 0.820627802691
Perceptron 0.654708520179
SGDClassifier 0.713004484305
VotingClassifier 0.825112107623




#### 如果经过多次试验你会发现根据训练集不同，单个模型中每次准确率最高的模型不一样，但是集成的模型通常是所有模型中最好或者第二好

### Bagging

如果让所有弱分类器都用同一套算法，但是每次都选不同的训练集子集，采样时如果有放回，这种方法叫做Bagging

In [53]:
from sklearn.ensemble import BaggingClassifier

bag_clf = BaggingClassifier(
    DecisionTreeClassifier(),
    n_estimators = 300,
    max_samples = 320,
    bootstrap = True,
    n_jobs = -1)


bag_clf.fit(X_train,y_train)
bag_pred = bag_clf.predict(X_verfy)
accuracy_score(y_verfy,bag_pred)

0.8340807174887892

#### max_samples对准确率有比较大的影响
当max_samples = 80时 精确率为0.81
 max_samples = 200  精确率为0.843
 当max_sample = 300 精确率只有0.838
 
 
 #### 有随机噪声
 因为每次都随机采样，因此精确率不是固定不变的
 
 #### 随机特征
 上面我们提到的例子都是随机样本，bagging也支持随机选择特征

In [56]:
from sklearn.ensemble import BaggingClassifier

bag_clf = BaggingClassifier(
    DecisionTreeClassifier(),
    n_estimators = 300,
    max_features = 0.9,
    bootstrap_features = True,
    n_jobs = -1)


bag_clf.fit(X_train,y_train)
bag_pred = bag_clf.predict(X_verfy)
accuracy_score(y_verfy,bag_pred)


0.81165919282511212

#### 随机特征似乎没有随机样本效果好

可能跟本次的样本本身比较少有关，随机特征适用于图片这类特征非常多的数据

### 随机森林

随机森林是决策树的集成，通常用bagging（有时也可能是pasting）方法训练，训练集大小通过max_samples 来设置。随机森林在树的生长上引入了更多的随机性：分裂节点时不再是搜索最好的特征（，而是在一个随机生成的特征子集里搜索最好的特征。这导致决策树具有更大的
多样性，（再一次）用更高的偏差换取更低的方差，总之，还是产生了一个整体性能更优的模型

In [79]:
from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier()
rf_clf.fit(X_train,y_train)
accuracy_score(y_verfy,rf_clf.predict(X_verfy))

0.820627802690583

### 特征重要性

最后，如果你查看单个决策树会发现，重要的特征更可能出现在靠近根节点的位置，而不重要的特征通常出现在靠近叶节点的位置（甚至根本不出现）。因此，通过计算一个特征在森林中所有树上的平均深度，可以估算出一个特征的重要程度。

如果你想分析哪个特征更重要，使用随机森林是一个不错的方法

In [81]:
for name,score in zip(X_train.columns,rf_clf.feature_importances_):
    print(name,score)

Pclass 0.113068390496
Sex 0.226031812611
Age 0.0550296063772
Fare 0.118770080097
Embarked 0.0548713239446
Title 0.288943314477
isAlone 0.0367610634734
Pclass*Age 0.106524408523


### Boosting 提升法

提升法是将几个弱学习器变成一个强分类器，提升的意思是循环训练预测器，每次都根据前序的结果做出修改，可用的提升方法比较多，目前常用的是自适应提升Adaboost和梯度提升

### Adboost

   第一个分类器产生了许多错误实例， 所以这些实例的权重得到提升。因此第二个分类器在这些实例上的表现有所提升，然后第三个、第四个……右图绘制的是相同预测器序列，唯一的差别在于学习率减半（即每次迭代仅提升一半错误分类的实例的权重）。可以看出， AdaBoost 这种依序循环的学习技术跟梯度下降有一些异曲同工之处，差别只在于一一不再是调整单个预测器的参数使成本函数最小化，而是不断在集成中加入预测器，使模型越来越好。
  一旦全部预测器训练完成，集成整体做出预测时就跟bagging 方法一样了，除非预测器有不同的权重，因为它们总的准确率是基于加权后的训练集。
  
 这种方法有一个重要缺陷，不能并行，因为必须等一个模型训练结束了才知道下一个模型应该怎么训练，因此在拓展性方面不如bagging

In [97]:
from sklearn.ensemble import AdaBoostClassifier

ada_clf = AdaBoostClassifier(
DecisionTreeClassifier(max_depth=1) , n_estimators=400,
algorithm="SAMME.R" ,learning_rate=0.5)
ada_clf.fit(X_train,y_train)
accuracy_score(y_verfy,ada_clf.predict(X_verfy))


0.80269058295964124

#### Adaboost 效果比随机森林还要差一点，跟普通的单个分类器差别不大

adaboost的结果是稳定的，没有随机噪声

#### 调参
如果过拟合，可以减少分类器，或者提高基础分类器的正则化程度 

### 梯度提升 GBDT

跟AdaBoost 一样，梯度提升也是逐步集成预测其，下一步是对上一步的改进，与adaboost不同的是不是调整实例的权重，而是让新的预测器对前一个预测结果的残差进行拟合

In [92]:
from sklearn.ensemble import GradientBoostingClassifier

gb_clf = GradientBoostingClassifier()
gb_clf.fit(X_train,y_train)
accuracy_score(y_verfy,gb_clf.predict(X_verfy))

0.81614349775784756

#### GBDT似乎是稳定的
不会每次运行的结果不一样

#### 调参
如果过拟合，可以减少预测器个数，也可以降低学习速率，或者通过提前停止来减少分类器的个数

### 堆叠法stacking

堆叠法就是在bagging中，是多个模型投票，而对于堆叠来说，改为用一个新的预测把多个模型的预测结果作为输入

In [114]:
log_clf = LogisticRegression()
kn_clf = KNeighborsClassifier()
svm_clf = SVC()
bayes_clf = GaussianNB()
detree_clf = DecisionTreeClassifier()
per_clf = Perceptron()
sgd_clf = SGDClassifier()


from sklearn.ensemble import VotingClassifier




models = [log_clf,kn_clf,svm_clf,bayes_clf,detree_clf,per_clf,sgd_clf]


#看集成后的分类器的表现

from sklearn.metrics import accuracy_score

stack_train_df = pd.DataFrame(np.zeros(668),columns=['zero'])
stack_verfy_df = pd.DataFrame(np.zeros(223),columns=['zero'])

for clf in models:
    clf.fit(X_train,y_train)
    stack_train_df[clf.__class__.__name__] = pd.Series(clf.predict(X_train))
    stack_verfy_df[clf.__class__.__name__] = pd.Series(clf.predict(X_verfy))


## 构建出新的训练集和验证集
stack_train_df.drop('zero',axis=1)
stack_verfy_df.drop('zero',axis=1)




0.820627802690583

In [117]:
for clf in models:
    clf.fit(stack_train_df,y_train)
    y_predict = clf.predict(stack_verfy_df)
    print(clf.__class__.__name__,accuracy_score(y_verfy,y_predict))

LogisticRegression 0.829596412556
KNeighborsClassifier 0.829596412556
SVC 0.820627802691
GaussianNB 0.820627802691
DecisionTreeClassifier 0.820627802691
Perceptron 0.784753363229
SGDClassifier 0.820627802691


### stack 比单层模型稳定性有提升
以多个弱分类器的结果作为输入后，第二层分类器不论是哪种，稳定性都比较好，方差比较小