# Виды

* Беггинг (bootstrap aggregating – с заменой) – одинаковые аглоритмы (слабые ученики). Обучение прогназвторов на разных случайных поднаборах.

Pating – выборка без замены
* Бустинг – исправление предшественника (слабые ученики) обучают последовательно адаптивным способом.
* Стекинг

# Классификаторы с голосованием

Классификатор с жеским голосованием.

Агрегирование всех прогнозов классификаторов

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=500, noise=0.30, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

In [None]:
log_clf = LogisticRegression()      # Logistic Regression
rnd_clf = RandomForestClassifier()  # Random Forest Classifier
svm_clf = SVC()                     # Support Vetor Classifier

## Жесткое голосование

In [None]:
voting_clf = VotingClassifier(
    estimators=[('lr', log_clf),
                ('rf', rnd_clf),
                ('svc', svm_clf)],
                voting = 'hard')

In [None]:
voting_clf.fit(X_train, y_train)

VotingClassifier(estimators=[('lr',
                              LogisticRegression(random_state=42,
                                                 solver='liblinear')),
                             ('rf',
                              RandomForestClassifier(n_estimators=10,
                                                     random_state=42)),
                             ('svc',
                              SVC(gamma='auto', probability=True,
                                  random_state=42))])

In [None]:
from sklearn.metrics import accuracy_score

for clf in (log_clf, rnd_clf,  svm_clf, voting_clf):
  clf.fit(X_train, y_train)
  y_pred = clf.predict(X_test)
  print(clf.__class__.__name__, accuracy_score(y_test, y_pred))

LogisticRegression 0.864
RandomForestClassifier 0.872
SVC 0.888
VotingClassifier 0.896


Если все классификаторы имеют метод `predict_proba()`, тогда можно сообшить sklearn о необходимости прогнозирования класса "c наивысшей вероятностью класса", усредненной по всем индивидуальным классификаторам – **soft voting**

## Мягкое голосование

In [None]:
log_clf = LogisticRegression(solver="liblinear", random_state=42)
rnd_clf = RandomForestClassifier(n_estimators=10, random_state=42)
svm_clf = SVC(gamma="auto", probability=True, random_state=42)

voting_clf2 = VotingClassifier(
    estimators=[('lr', log_clf), ('rf', rnd_clf), ('svc', svm_clf)],
    voting='soft')
voting_clf.fit(X_train, y_train)

VotingClassifier(estimators=[('lr', LogisticRegression()),
                             ('rf', RandomForestClassifier()), ('svc', SVC())])

In [None]:
from sklearn.metrics import accuracy_score

for clf in (log_clf, rnd_clf, svm_clf, voting_clf2):
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    print(clf.__class__.__name__, accuracy_score(y_test, y_pred))

LogisticRegression 0.864
RandomForestClassifier 0.872
SVC 0.888
VotingClassifier 0.912


# Беггинг и вставка

Все прогнозаторы могут обучаться параллельно, через разные процессорные ядра или даже разные серверы. Аналогично параллельно могут вырабатываться и прогнозы.

Хороо масштабируемые методы.

In [None]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

bag_clf = BaggingClassifier(
    DecisionTreeClassifier(random_state=42), n_estimators=500,
    max_samples=100, bootstrap=True, n_jobs=-1, random_state=42)
bag_clf.fit(X_train, y_train)
y_pred = bag_clf.predict(X_test)

In [None]:
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test, y_pred))

0.904


In [None]:
# одно дерево
tree_clf = DecisionTreeClassifier(random_state=42)
tree_clf.fit(X_train, y_train)
y_pred_tree = tree_clf.predict(X_test)
print(accuracy_score(y_test, y_pred_tree))

0.856


`BaggingClassifier` по умолчанию выполняет мягкое голосование. В случае деревьев он может это сделать. т.к все прогнозаторы имеют метод `predict_proba()`

### Оценка

In [None]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

In [None]:
bag_clf = BaggingClassifier(
    DecisionTreeClassifier(),
    n_estimators = 500,        # количество деревьев
    bootstrap = True,           # 
    n_jobs=-1,                  # использовать все ядра для обучения
    oob_score = True)           # out-of-bag оценка

In [None]:
bag_clf.fit(X_train, y_train)
bag_clf.oob_score_

0.9013333333333333

In [None]:
from sklearn.metrics import accuracy_score
y_pred = bag_clf.predict(X_test)

accuracy_score(y_test, y_pred)

0.92

In [None]:
bag_clf.oob_decision_function_ # [1,0]

array([[0.38797814, 0.61202186],
       [0.3172043 , 0.6827957 ],
       [1.        , 0.        ],
       [0.        , 1.        ],
       [0.        , 1.        ],
       [0.09836066, 0.90163934],
       [0.3480663 , 0.6519337 ],
       [0.00552486, 0.99447514],
       [0.98787879, 0.01212121],
       [0.96858639, 0.03141361],
       [0.77403846, 0.22596154],
       [0.        , 1.        ],
       [0.77956989, 0.22043011],
       [0.86666667, 0.13333333],
       [0.98484848, 0.01515152],
       [0.02941176, 0.97058824],
       [0.02222222, 0.97777778],
       [0.96891192, 0.03108808],
       [0.96067416, 0.03932584],
       [0.9893617 , 0.0106383 ],
       [0.01796407, 0.98203593],
       [0.3190184 , 0.6809816 ],
       [0.87234043, 0.12765957],
       [1.        , 0.        ],
       [0.9689441 , 0.0310559 ],
       [0.        , 1.        ],
       [1.        , 0.        ],
       [1.        , 0.        ],
       [0.        , 1.        ],
       [0.68780488, 0.31219512],
       [0.

## Методы случайных участко и случайных подпространств

BaggingClassifier поддерживает выборку признаков.

* max_features (аналог max_samples)
* boostrap_features (аналог bootstrap)

Таким образом каждый классификатор будет обучаться на разном наборе входных признаков.

Это полезно, когда мы имеем большое количство признков (изображения).

Выборка признаков обеспечивает большее несходство прогназаторов.

## Случайные леса

Случайный лес - это ансамбль деревьев, построенный методом беггинга. 

Вместо `DecisionTreeClassifier` + `BaggingClassifier` можно использовать `RandomForestRegressor` или `RandomForestClassifier`

In [None]:
from sklearn.ensemble import RandomForestClassifier

rnd_clf = RandomForestClassifier(n_estimators=500,
                                 max_leaf_nodes=16,
                                 n_jobs=-1,
                                 random_state=42)

rnd_clf.fit(X_train, y_train)
y_pred_rf = rnd_clf.predict(X_test)

In [None]:
y_pred_rf

array([0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1,
       0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0,
       0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0,
       1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1,
       1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0])

### Особо случайные деревья

Применяют случайные пороги для каждого призкана, вместо нахождения наилучших возможных порогов.

Нельзя сразу сказать что лучше `RandomForestCalssifier` или `ExtraTreesClassifier`

### Значимость признаков

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()
rnd_clf = RandomForestClassifier(n_estimators=500, n_jobs=-1, random_state=42)
rnd_clf.fit(iris["data"], iris["target"])
for name, score in zip(iris["feature_names"], rnd_clf.feature_importances_):
    print(name, score)

sepal length (cm) 0.11249225099876375
sepal width (cm) 0.02311928828251033
petal length (cm) 0.4410304643639577
petal width (cm) 0.4233579963547682


# Бустинг (усиление гипотезы)

Кобенирует нескольких слабых учеников в одного сильного ученика.

Последовательное обучение прогнозаторов, причем каждый из них старается исправить своего предшественника.

## AdaBoost

Уделяет особое внимание образцам, на которых у предшественника было недообучение.

1. Базовый классификатор (SVM RBF)

Этот классификатор воспринимает многие образцы неправильно, поэтому их веса повышаются.

2. Втророй классификатор справляется с такими образцами лучше.

Такой классификатор не допускает распараллеливания, посколько каждый алгоритм обучается на основе предыдущего. Значит он масштабируется хуже, чем Беггинг и Вставка.

In [None]:
from sklearn.ensemble import AdaBoostClassifier

ada_clf = AdaBoostClassifier(
    DecisionTreeClassifier(max_depth=1),
                          n_estimators=200,
                          algorithm="SAMME.R",
                          learning_rate=0.5,
                          random_state=42)

In [None]:
ada_clf.fit(X_train, y_train)


AdaBoostClassifier(base_estimator=DecisionTreeClassifier(max_depth=1),
                   learning_rate=0.5, n_estimators=200, random_state=42)

## Градиентный бустинг

In [None]:
import numpy as np

In [None]:
np.random.seed(42)
X = np.random.rand(100, 1) - 0.5
y = 3*X[:, 0]**2 + 0.05 * np.random.randn(100)

In [None]:
from sklearn.tree import DecisionTreeRegressor

tree_reg1 = DecisionTreeRegressor(max_depth=2, random_state=42)
tree_reg1.fit(X, y)

DecisionTreeRegressor(max_depth=2, random_state=42)

In [None]:
y2 = y - tree_reg1.predict(X)
tree_reg2 = DecisionTreeRegressor(max_depth=2, random_state=42)
tree_reg2.fit(X, y2)

DecisionTreeRegressor(max_depth=2, random_state=42)

In [None]:
y3 = y2 - tree_reg2.predict(X)
tree_reg3 = DecisionTreeRegressor(max_depth=2, random_state=42)
tree_reg3.fit(X, y3)

DecisionTreeRegressor(max_depth=2, random_state=42)

In [None]:
X_new = np.array([[0.8]])

In [None]:
y_pred = sum(tree.predict(X_new) for tree in (tree_reg1, tree_reg2, tree_reg3))
y_pred

array([0.75026781])

In [None]:
from sklearn.ensemble import GradientBoostingRegressor

gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=3, learning_rate=1.0, random_state=42)
gbrt.fit(X, y)

GradientBoostingRegressor(learning_rate=1.0, max_depth=2, n_estimators=3,
                          random_state=42)

## Градиентный бустинг с ранним прекращением

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

X_train, X_val, y_train, y_val = train_test_split(X, y, random_state=49)
gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=120, random_state=42)
gbrt.fit(X_train, y_train)

errors = [mean_squared_error(y_val, y_pred)
          for y_pred in gbrt.staged_predict(X_val)] # staged.predict() для нахождения оптимального количетва деревьев

bst_n_estimators = np.argmin(errors) + 1

In [None]:
bst_n_estimators

56

In [None]:
gbrt_best = GradientBoostingRegressor(max_depth=2,n_estimators=bst_n_estimators, random_state=42)
gbrt_best.fit(X_train, y_train)

GradientBoostingRegressor(max_depth=2, n_estimators=56, random_state=42)

In [None]:
gbrt = GradientBoostingRegressor(max_depth=2, warm_start=True, random_state=42)

min_val_error = float("inf")
error_going_up = 0
for n_estimators in range(1, 120):
    gbrt.n_estimators = n_estimators
    gbrt.fit(X_train, y_train)
    y_pred = gbrt.predict(X_val)
    val_error = mean_squared_error(y_val, y_pred)
    if val_error < min_val_error:
        min_val_error = val_error
        error_going_up = 0
    else:
        error_going_up += 1
        if error_going_up == 5:
            break  # early stopping

## XGBoost

Можно выполнять с другими функциями издержек `loss`

In [None]:
import xgboost

In [None]:
xgb_reg = xgboost.XGBRegressor(random_state=42)
xgb_reg.fit(X_train, y_train)

y_pred = xgb_reg.predict(X_val)

val_error = mean_squared_error(y_val, y_pred)
print("Validation MSE:", val_error)

Validation MSE: 0.0028512559726563943


In [None]:
xgb_reg.fit(X_train, y_train,
            eval_set=[(X_val, y_val)], early_stopping_rounds=2)
y_pred = xgb_reg.predict(X_val)
val_error = mean_squared_error(y_val, y_pred)
print("Validation MSE:", val_error)

[0]	validation_0-rmse:0.286719
Will train until validation_0-rmse hasn't improved in 2 rounds.
[1]	validation_0-rmse:0.258221
[2]	validation_0-rmse:0.232634
[3]	validation_0-rmse:0.210526
[4]	validation_0-rmse:0.190232
[5]	validation_0-rmse:0.172196
[6]	validation_0-rmse:0.156394
[7]	validation_0-rmse:0.142241
[8]	validation_0-rmse:0.129789
[9]	validation_0-rmse:0.118752
[10]	validation_0-rmse:0.108388
[11]	validation_0-rmse:0.100155
[12]	validation_0-rmse:0.09208
[13]	validation_0-rmse:0.084791
[14]	validation_0-rmse:0.078699
[15]	validation_0-rmse:0.073248
[16]	validation_0-rmse:0.069391
[17]	validation_0-rmse:0.066277
[18]	validation_0-rmse:0.063458
[19]	validation_0-rmse:0.060326
[20]	validation_0-rmse:0.0578
[21]	validation_0-rmse:0.055643
[22]	validation_0-rmse:0.053943
[23]	validation_0-rmse:0.053138
[24]	validation_0-rmse:0.052415
[25]	validation_0-rmse:0.051821
[26]	validation_0-rmse:0.051226
[27]	validation_0-rmse:0.051135
[28]	validation_0-rmse:0.05091
[29]	validation_0-rmse