# 投票分类器
## 硬分类器
- 大多数投票分类器称为硬分类器。
- 即是每个都是弱学习器，通过集成依然可以实现一个强学习器。

In [1]:
# 创建并训练一个投票分类器
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

In [2]:
log_clf=LogisticRegression()
rnd_clf=RandomForestClassifier()
svm_clf=SVC()

In [3]:
voting_clf=VotingClassifier(estimators=[('lr',log_clf),('rf',rnd_clf),('svc',svm_clf)],voting='hard')# 硬分类器

In [4]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=500, noise=0.30, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

In [5]:
voting_clf.fit(X_train,y_train)

VotingClassifier(estimators=[('lr', LogisticRegression()),
                             ('rf', RandomForestClassifier()), ('svc', SVC())])

In [6]:
# 让我们来看一下精确度
from sklearn.metrics import accuracy_score
for clf in (log_clf,rnd_clf,svm_clf,voting_clf):
    clf.fit(X_train,y_train)
    y_pred=clf.predict(X_test)
    print(clf.__class__.__name__,accuracy_score(y_test,y_pred))

LogisticRegression 0.864
RandomForestClassifier 0.888
SVC 0.896
VotingClassifier 0.904


## 软分类器
如果所有分类器都能估算类别的概率(即有predict_proba())，可以将平均概率最高的类别作为预测。这被称为**软投票法**。通常软投票法变现更优。因为它给予那些高度自信的投票更高的权重。

In [7]:
log_clf=LogisticRegression()
rnd_clf=RandomForestClassifier()
svm_clf=SVC(probability=True)

In [8]:
voting_clf=VotingClassifier(estimators=[('lr',log_clf),('rf',rnd_clf),('svc',svm_clf)],voting='soft')

In [9]:
voting_clf.fit(X_train,y_train)

VotingClassifier(estimators=[('lr', LogisticRegression()),
                             ('rf', RandomForestClassifier()),
                             ('svc', SVC(probability=True))],
                 voting='soft')

In [10]:
for clf in [log_clf,rnd_clf,svm_clf,voting_clf]:
    clf.fit(X_train,y_train)
    y_pred=clf.predict(X_test)
    print(clf.__class__.__name__,accuracy_score(y_test,y_pred))

LogisticRegression 0.864
RandomForestClassifier 0.888
SVC 0.896
VotingClassifier 0.92


# bagging和pasting
- 另一种方法是，每个预测器使用的算法相同，但是在不同的训练集随机子集上进行训练。
- 采样时如果将样本放回，这种方法叫做bagging。
- 采样时样本不放回，这种方法叫pasting。

In [11]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

In [12]:
bag_clf=BaggingClassifier(base_estimator=DecisionTreeClassifier(),n_estimators=500,max_samples=100,bootstrap=True,n_jobs=-1)
# 500个弱分类区，每次采样100个实例
# 如果想采用pasting,boostrap=False
bag_clf.fit(X_train,y_train)

BaggingClassifier(base_estimator=DecisionTreeClassifier(), max_samples=100,
                  n_estimators=500, n_jobs=-1)

In [13]:
y_pred=bag_clf.predict(X_test)
accuracy_score(y_test,y_pred)

0.912

集成的方法相比于单个预测器偏差相近，但是方差更小。

## 包外估计
由于自助抽样，平均只对63%的训练实例进行采样，而剩余37%的训练实例我们成为包外(oob)实例。由于预测器在训练过程中从未看到oob实例，因此可以在这些实例上进行评估而不需要单独的验证集。

In [14]:
bag_clf=BaggingClassifier(base_estimator=DecisionTreeClassifier(),n_estimators=500,bootstrap=True,n_jobs=-1,oob_score=True)
bag_clf.fit(X_train,y_train)

BaggingClassifier(base_estimator=DecisionTreeClassifier(), n_estimators=500,
                  n_jobs=-1, oob_score=True)

In [15]:
# 我们先看看包外估计的分数
bag_clf.oob_score_

0.8986666666666666

In [16]:
y_pred=bag_clf.predict(X_test)
accuracy_score(y_test,y_pred)

0.888

可以看出二者足够接近。

In [17]:
bag_clf.oob_decision_function_

array([[0.35      , 0.65      ],
       [0.38095238, 0.61904762],
       [1.        , 0.        ],
       [0.        , 1.        ],
       [0.        , 1.        ],
       [0.10240964, 0.89759036],
       [0.37724551, 0.62275449],
       [0.        , 1.        ],
       [0.98888889, 0.01111111],
       [0.98863636, 0.01136364],
       [0.78977273, 0.21022727],
       [0.0199005 , 0.9800995 ],
       [0.74860335, 0.25139665],
       [0.8972973 , 0.1027027 ],
       [0.96385542, 0.03614458],
       [0.07729469, 0.92270531],
       [0.        , 1.        ],
       [0.9804878 , 0.0195122 ],
       [0.94974874, 0.05025126],
       [0.98843931, 0.01156069],
       [0.00653595, 0.99346405],
       [0.36111111, 0.63888889],
       [0.93513514, 0.06486486],
       [1.        , 0.        ],
       [0.96256684, 0.03743316],
       [0.        , 1.        ],
       [1.        , 0.        ],
       [1.        , 0.        ],
       [0.        , 1.        ],
       [0.62087912, 0.37912088],
       [0.

# 随机补丁和随机子空间
- BaggingClassifier()也支持对特征进行采样。由超参数max_features和bootstrap_features控制。每个预测器将用输入特征的随机子集进行训练。
- 对训练实例和特征都进行抽样，这称为**随机补丁方法**。
- 而保留所有训练实例，但对训练特征进行抽样称为**随机子空间法**。

# 随机森林
除了先构建BaggingClassifier然后将其传输到DecisionTreeClassifier，还有一种方法是使用RandomForestClassifier类。

In [18]:
# 训练一个随机森林
from sklearn.ensemble import RandomForestClassifier

In [19]:
rnd_clf=RandomForestClassifier(n_estimators=500,max_leaf_nodes=16,n_jobs=-1)# 每棵树限制最多16个叶节点
rnd_clf.fit(X_train,y_train)

RandomForestClassifier(max_leaf_nodes=16, n_estimators=500, n_jobs=-1)

In [20]:
y_pred=rnd_clf.predict(X_test)
accuracy_score(y_test,y_pred)

0.912

随机森林分裂结点时，不再是搜索最好的特征，而是在一个随机生成的特征子集上搜索最好的特征，这导致决策树具有很高的多样性，用更高的偏差换取更低的方差。

In [21]:
# 下面的BaggingClassifier与RandomForestClassifier相同
bag_clf = BaggingClassifier(DecisionTreeClassifier(
    splitter='random', max_leaf_nodes=16), n_estimators=500, max_samples=1.0, bootstrap=True, n_jobs=-1)
# boostrap=False是采用pasting

## 极端随机树
见书。
## 特征重要性
随机森林的另一个好特性是它们使测量每个特征的相对重要性变得容易。sklearn通过查看使用该特征的树节点平均(在森林中的所有树上)减少不纯度的程度来衡量该特征的重要性。sklearn会在训练后为每个特征自动计算该分数。

In [22]:
# 用鸢尾花数据来测试
from sklearn.datasets import load_iris
iris=load_iris()

In [23]:
rnd_clf=RandomForestClassifier(n_estimators=500,n_jobs=-1)
rnd_clf.fit(iris.data,iris.target)

RandomForestClassifier(n_estimators=500, n_jobs=-1)

In [24]:
for name,score in zip(iris.feature_names,rnd_clf.feature_importances_):
    print(name,score)

sepal length (cm) 0.09317747554141863
sepal width (cm) 0.02326474213136857
petal length (cm) 0.42953256347482033
petal width (cm) 0.4540252188523924


# 提升法
## AdaBoost
理论部分见书。sklearn使用的是AdaBoost的一个多分类版本，叫做SAMME。当只有两类时,SAMME等同于AdaBoost。此外如果预测器可以预测概率,sklearn会使用一种SAMME的变体，SAMME.R。它依赖的是类概率，通常表现更好。

In [25]:
from sklearn.ensemble import AdaBoostClassifier

In [26]:
# sklearn的AdaBoostClassifier训练一个AdaBoost分类器，它基于200个单层决策树。顾名思义，max_depth=1的决策树。
ada_clf=AdaBoostClassifier(base_estimator=DecisionTreeClassifier(max_depth=1),n_estimators=200,algorithm='SAMME.R',learning_rate=0.5)

In [27]:
ada_clf.fit(X_train,y_train)

AdaBoostClassifier(base_estimator=DecisionTreeClassifier(max_depth=1),
                   learning_rate=0.5, n_estimators=200)

In [28]:
y_pred=ada_clf.predict(X_test)
accuracy_score(y_test,y_pred)

0.896

## 梯度提升
它不像AdaBoost一样在每个迭代中调整实例权重，而是让新的预测器针对前一个预测器的迭代残差进行拟合。

In [29]:
# 我们看一个简单的回归实例
from sklearn.tree import DecisionTreeRegressor
import numpy as np
np.random.seed(42)
X_reg = np.random.rand(100, 1) - 0.5
y_reg = 3*X_reg[:,0]**2 + 0.05 * np.random.randn(100)

In [30]:
tree_reg1=DecisionTreeRegressor(max_depth=2)
tree_reg1.fit(X_reg,y_reg)

DecisionTreeRegressor(max_depth=2)

In [31]:
y_reg2=y_reg-tree_reg1.predict(X_reg)# 拟合残差
tree_reg2=DecisionTreeRegressor(max_depth=2)
tree_reg2.fit(X_reg,y_reg2)

DecisionTreeRegressor(max_depth=2)

In [32]:
y_reg3=y_reg2-tree_reg2.predict(X_reg)
tree_reg3=DecisionTreeRegressor(max_depth=2)
tree_reg3.fit(X_reg,y_reg3)

DecisionTreeRegressor(max_depth=2)

In [33]:
y_pred=0.0
X_new = np.array([[0.8]])
for tree in (tree_reg1,tree_reg2,tree_reg3):
    y_pred+=tree.predict(X_new)
y_pred

array([0.75026781])

训练GBDR有GradientBoostingRegressor类。
- 超参数learning_rate对每棵树的贡献进行缩放。如果将其设置为低值，则需要更多的树来拟合训练集，但是预测泛化的效果通常更好。这是一种被称为收缩的正则化技术。

In [34]:
# GradientBoostingRegressor类
from sklearn.ensemble import GradientBoostingRegressor
gbrt=GradientBoostingRegressor(max_depth=2,n_estimators=3,learning_rate=0.1)
gbrt.fit(X_reg,y_reg)

GradientBoostingRegressor(max_depth=2, n_estimators=3)

要找到树的最佳数量，可以用提前停止法。简单的实现方法就是使用staged_predict()方法。在它训练的每个阶段(训练一棵树、两棵树...)。都对集成的预测返回一个迭代器，然后测量每个训练阶段的验证误差，从而找到最优数量。

In [35]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [36]:
X_train,X_val,y_train,y_val=train_test_split(X_reg,y_reg)

In [37]:
gbrt=GradientBoostingRegressor(max_depth=2,n_estimators=120)
gbrt.fit(X_train,y_train)

GradientBoostingRegressor(max_depth=2, n_estimators=120)

In [38]:
errors=[mean_squared_error(y_val,y_pred) for y_pred in gbrt.staged_predict(X_val)]

In [39]:
errors

[0.04853645651402395,
 0.040640268941000264,
 0.034251627375732265,
 0.030860253423403018,
 0.026963941731481037,
 0.023139718761101085,
 0.02118892032500619,
 0.018172837139291655,
 0.01658469511059632,
 0.014568427284013214,
 0.012919592933029175,
 0.012030899023042343,
 0.011188765359382204,
 0.010390290551727637,
 0.009306394142702906,
 0.00830459415632203,
 0.007626346083680286,
 0.007373861189333121,
 0.007136295600513196,
 0.006741763823569835,
 0.006102481400713888,
 0.005690836404214948,
 0.005291986768518243,
 0.005172467397888522,
 0.004935572194959045,
 0.004746297700031881,
 0.0044323394223554375,
 0.004244265295864291,
 0.0040111971146731635,
 0.003954394710620797,
 0.003879733231164774,
 0.0037918509916983934,
 0.0037034180984788813,
 0.0035410961960233396,
 0.003497527610255329,
 0.0033465574270547544,
 0.0032133362689326134,
 0.0031668820700545526,
 0.0031474880551944522,
 0.00313290434626548,
 0.003060384155496198,
 0.0030517634820494016,
 0.003041398686667091,
 0.002

In [40]:
best_n_estimators=np.argmin(errors)+1 # 找到最优的树的数量
gbrt_best=GradientBoostingRegressor(max_depth=2,n_estimators=best_n_estimators)
gbrt_best.fit(X_train,y_train)

GradientBoostingRegressor(max_depth=2, n_estimators=85)

实际上要实现提前停止法，不一定需要训练大量的树，还可以提前停止训练。设置warm_start=True，当fit()方法被调用时，sklearn会保留现有的树，从而允许增量训练。

In [41]:
gbrt=GradientBoostingRegressor(max_depth=2,warm_start=True)

In [42]:
min_val_error=np.float('inf')
error_going_up=0
for n_estimators in range(1,121):
    gbrt.n_estimators=n_estimators
    gbrt.fit(X_train,y_train)
    y_pred=gbrt.predict(X_val)
    val_error=mean_squared_error(y_val,y_pred)
    if val_error<min_val_error:
        min_val_error=val_error
        error_going_up=0
    else:
        error_going_up+=1
        if error_going_up == 5:
            break # early stopping

GradientBoostingRegressor还支持超参数subsample，指定用于训练每棵树的实例的比例。这也是用更高的偏差换取了更低的方差，同时在相当大程度上加速了训练过程。这种技术被称为随机梯度提升。

有机会学习xgboost。

# 堆叠法
又称层叠泛化法。它基于这样一个简单的想法：与其使用一些简单的函数来聚合集成中所有预测器的预测，不如训练一个模型来执行这个聚合。详细见书。