Разберёмся с ансамблями алгоритмов и со случайным лесом. Рассмотрим данные о сотрудниках компании, где указывается, ушёл сотрудник или нет.

Сделаем базовую предобработку данных: удалим признак, который отвечает за идентификатор пользователя как нерепрезетативный признак.

In [76]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.ensemble import BaggingClassifier, RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
df = pd.read_csv('data/HR-dataset.csv')

np.random.seed(42)
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

target = 'left'
features = df.columns.drop(target)
features = features.drop('empid')  # Удалим идентификатор пользователя как нерепрезентативный признак
print(features)

X, y = df[features].copy(), df[target]

Index(['satisfaction_level', 'last_evaluation', 'number_project',
       'average_montly_hours', 'time_spend_company', 'Work_accident',
       'promotion_last_5years', 'dept', 'salary'],
      dtype='object')


In [67]:
df.head()

Unnamed: 0,empid,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,left,promotion_last_5years,dept,salary
0,1001,0.38,0.53,2,157,3,0,1,0,sales,low
1,1002,0.8,0.86,5,262,6,0,1,0,sales,medium
2,1003,0.11,0.88,7,272,4,0,1,0,sales,medium
3,1004,0.72,0.87,5,223,5,0,1,0,sales,low
4,1005,0.37,0.52,2,159,3,0,1,0,sales,low


Заменим идентификатор отдела, к которому относился сотрудник, на количество людей в отделе, а зарплату — на ординальную категорию. Масштабируем признаки для последующего сравнения результатов.

In [78]:
salary_ordinals = {'low': 1, 'medium': 2, 'high': 3}

X['dept'] = X['dept'].apply(X['dept'].value_counts().get)
X['salary'] = X['salary'].apply(salary_ordinals.get)

scaler = StandardScaler()
#X = pd.DataFrame(data=scaler.fit_transform(X), columns=X.columns) так выходит ошибка
X = pd.DataFrame(data=X, columns=X.columns)

X

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,promotion_last_5years,dept,salary
0,0.38,0.53,2,157,3,0,0,4140,1
1,0.80,0.86,5,262,6,0,0,4140,2
2,0.11,0.88,7,272,4,0,0,4140,2
3,0.72,0.87,5,223,5,0,0,4140,1
4,0.37,0.52,2,159,3,0,0,4140,1
...,...,...,...,...,...,...,...,...,...
14994,0.40,0.57,2,151,3,0,0,2229,1
14995,0.37,0.48,2,160,3,0,0,2229,1
14996,0.37,0.53,2,143,3,0,0,2229,1
14997,0.11,0.96,6,280,4,0,0,2229,1


В дальнейшем будем оценивать качество модели на кросс-валидации на пяти фолдах при помощи точности (ACCURACY).

In [69]:
def estimate_accuracy(clf, X, y, cv=5):
    return cross_val_score(clf, X, y, cv=5, scoring='f1').mean()

Посмотрим на то, как работает бэггинг над решающими деревьями.

Бэггинг (bagging, сокр. от bootstrap aggregating)  — метод построения композиции алгоритмов, в котором каждый алгоритм строится независимо от других на подвыборках обучающей выборки. Итоговый алгоритм принимает решения посредством голосования среди всех алгоритмов (возвращается самый частый ответ).

Посмотрим на точность одного дерева.

In [70]:
tree = DecisionTreeClassifier(max_depth=30)
print("Decision tree:", estimate_accuracy(tree, X, y))

Decision tree: 0.9453964999744784


Проведём бэггинг: для этого достаточно обернуть исходный классификатор в BaggingClassifier.

In [7]:
bagging_trees = BaggingClassifier(tree)
print("Decision tree bagging:", estimate_accuracy(bagging_trees, X, y))

Decision tree bagging: 0.9748555100830417


Композиция отдельных деревьев показывает себя лучше, чем одно дерево. Структура дерева серьёзно зависит от обучающей выборки. Это значит, что если немного изменить обучающую выборку, то дерево сильно изменится. Бэггинг идеально подходит в этом случае, поскольку композиция алгоритмов при помощи голосования работает наилучшим образом, когда модели различны.

Увеличить различность построенных деревьев можно, указав параметры max_features и max_depth.

In [8]:
random_tree = DecisionTreeClassifier(max_features=int(np.sqrt(len(features))), max_depth=30)
print("Random tree:", estimate_accuracy(random_tree, X, y))

Random tree: 0.953676480017284


In [9]:
bagging_random_trees = BaggingClassifier(random_tree)
print("Random tree bagging:", estimate_accuracy(bagging_random_trees, X, y))

Random tree bagging: 0.9791073387690844


Именно так внутри и работает так называемый случайный лес (Random Forest): он обучает набор деревьев (параметр n_esimators), каждое из которых обучается на подмножестве признаков (Random Subspaces) и на подмножестве объектов (bootstrap). То есть случайный лес получается случайным по двум этим параметрам, а ответы аггрегируются при помощи голосования.

Стандартная эвристика: в задаче классификации брать квадратный корень числа признаков, а в задаче регрессии — треть числа признаков.

In [10]:
random_forest = RandomForestClassifier(
    n_estimators=100,
    n_jobs=-1,
    max_features=int(np.sqrt(len(features))),
    max_depth=30)
print("Random Forest:", estimate_accuracy(random_forest, X, y))

Random Forest: 0.9829834277014811


Ещё одно преимущество использования бэггинга для аггрегации моделей — получение оценки работы классификатора без дополнительного проведения кросс-валидации при помощи out-of-bag score. Это метод вычисления произвольной оценки качества во время обучения бэггинга. Для подсчёта требуется указать параметр oob_score = True, что имеет смысл при достаточном количестве деревьев.

In [11]:
random_forest = RandomForestClassifier(
    n_estimators=100,
    max_features=int(np.sqrt(len(features))),
    max_depth=30,
    oob_score=True,
    n_jobs=-1
)
random_forest.fit(X, y)
random_forest.oob_score_.mean()



0.9929995333022201

Метод бэггинга можно применять к произвольным алгоритмам, например, к логистической регрессии.

In [12]:
lr = LogisticRegression(solver='saga', max_iter=200)
lr.fit(X, y)
print("LR:", estimate_accuracy(lr, X, y))



LR: 0.0




In [13]:
random_logreg = BaggingClassifier(
    lr,
    n_estimators=10,
    n_jobs=-1,
    random_state=42
)
print("Bagging for LR:", estimate_accuracy(random_logreg, X, y))

Bagging for LR: 0.0


В её случае он не так сильно повышает качество, поскольку линейные модели не так сильно зависят от состава обучающей выборки. Попробуем убрать часть признаков.

In [14]:
random_logreg = BaggingClassifier(
    lr,
    n_estimators=10,
    n_jobs=-1,
    max_features=0.5,
    random_state=42
)
print("Bagging for LR:", estimate_accuracy(random_logreg, X, y))

Bagging for LR: 0.0


В случае линейной регрессии повышение разнообразности моделей не дает такого прироста, как с деревьями, поскольку модели сильно теряют в качестве. Случайный лес на примере нашей задачи справляется лучше.

# Практика

In [84]:
from sklearn.datasets import load_digits

digits = load_digits()
X = digits.data
y = digits.target

X


array([[ 0.,  0.,  5., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ..., 10.,  0.,  0.],
       [ 0.,  0.,  0., ..., 16.,  9.,  0.],
       ...,
       [ 0.,  0.,  1., ...,  6.,  0.,  0.],
       [ 0.,  0.,  2., ..., 12.,  0.,  0.],
       [ 0.,  0., 10., ..., 12.,  1.,  0.]])

In [85]:
def e_a(clf, X, y, cv=5):
    return cross_val_score(clf, X, y, cv=10, scoring='f1').mean()

In [86]:
tree = DecisionTreeClassifier(max_depth=30)
print("Decision tree:", e_a(tree, X, y))

Decision tree: nan


Traceback (most recent call last):
  File "C:\PythonProject\skillfactory мат анализ\.venv1\lib\site-packages\sklearn\model_selection\_validation.py", line 762, in _score
    scores = scorer(estimator, X_test, y_test)
  File "C:\PythonProject\skillfactory мат анализ\.venv1\lib\site-packages\sklearn\metrics\_scorer.py", line 103, in __call__
    score = scorer._score(cached_call, estimator, *args, **kwargs)
  File "C:\PythonProject\skillfactory мат анализ\.venv1\lib\site-packages\sklearn\metrics\_scorer.py", line 264, in _score
    return self._sign * self._score_func(y_true, y_pred, **self._kwargs)
  File "C:\PythonProject\skillfactory мат анализ\.venv1\lib\site-packages\sklearn\metrics\_classification.py", line 1113, in f1_score
    return fbeta_score(
  File "C:\PythonProject\skillfactory мат анализ\.venv1\lib\site-packages\sklearn\metrics\_classification.py", line 1251, in fbeta_score
    _, _, f, _ = precision_recall_fscore_support(
  File "C:\PythonProject\skillfactory мат анализ\.

Теперь давайте обучим BaggingClassifier на основе DecisionTreeClassifier. Из sklearn.ensemble импортируйте BaggingClassifier, все параметры задайте по умолчанию. Нужно изменить только количество базовых моделей, задав его равным 100.

В поле для ответа введите качество работы получившегося классификатора (ваше значение должно попасть в заданный интервал).

In [24]:
from sklearn.ensemble import BaggingClassifier

random_logreg = BaggingClassifier(
    tree,
    n_estimators = 100
)
print("Bagging for LR:", e_a(random_logreg, X, y))


Traceback (most recent call last):
  File "C:\PythonProject\skillfactory мат анализ\.venv1\lib\site-packages\sklearn\model_selection\_validation.py", line 762, in _score
    scores = scorer(estimator, X_test, y_test)
  File "C:\PythonProject\skillfactory мат анализ\.venv1\lib\site-packages\sklearn\metrics\_scorer.py", line 103, in __call__
    score = scorer._score(cached_call, estimator, *args, **kwargs)
  File "C:\PythonProject\skillfactory мат анализ\.venv1\lib\site-packages\sklearn\metrics\_scorer.py", line 264, in _score
    return self._sign * self._score_func(y_true, y_pred, **self._kwargs)
  File "C:\PythonProject\skillfactory мат анализ\.venv1\lib\site-packages\sklearn\metrics\_classification.py", line 1113, in f1_score
    return fbeta_score(
  File "C:\PythonProject\skillfactory мат анализ\.venv1\lib\site-packages\sklearn\metrics\_classification.py", line 1251, in fbeta_score
    _, _, f, _ = precision_recall_fscore_support(
  File "C:\PythonProject\skillfactory мат анализ\.

Bagging for LR: nan


Traceback (most recent call last):
  File "C:\PythonProject\skillfactory мат анализ\.venv1\lib\site-packages\sklearn\model_selection\_validation.py", line 762, in _score
    scores = scorer(estimator, X_test, y_test)
  File "C:\PythonProject\skillfactory мат анализ\.venv1\lib\site-packages\sklearn\metrics\_scorer.py", line 103, in __call__
    score = scorer._score(cached_call, estimator, *args, **kwargs)
  File "C:\PythonProject\skillfactory мат анализ\.venv1\lib\site-packages\sklearn\metrics\_scorer.py", line 264, in _score
    return self._sign * self._score_func(y_true, y_pred, **self._kwargs)
  File "C:\PythonProject\skillfactory мат анализ\.venv1\lib\site-packages\sklearn\metrics\_classification.py", line 1113, in f1_score
    return fbeta_score(
  File "C:\PythonProject\skillfactory мат анализ\.venv1\lib\site-packages\sklearn\metrics\_classification.py", line 1251, in fbeta_score
    _, _, f, _ = precision_recall_fscore_support(
  File "C:\PythonProject\skillfactory мат анализ\.