Случайный лес (Random Forest)

**Ансамблевые методы** — это техники, которые объединяют прогнозы нескольких базовых моделей (например, деревьев решений) для получения более точного и стабильного прогноза.

**Почему ансамбли работают лучше?**

Основная причина, по которой ансамбли часто превосходят одиночные модели, — это **уменьшение дисперсии (Variance)** и повышение **устойчивости** модели.

*   **Уменьшение дисперсии:**  Разные модели, обученные на разных подмножествах данных или с разными параметрами, могут делать разные ошибки.  Когда мы усредняем или голосуем за прогнозы нескольких моделей, ошибки разных моделей могут **компенсировать друг друга**, и общий прогноз становится более стабильным и точным.
*   **Повышение устойчивости:**  Ансамбли менее чувствительны к случайным колебаниям в обучающих данных.  Если немного изменить обучающие данные, одиночное дерево решений может сильно измениться.  А ансамбль из множества деревьев будет меняться меньше, что делает его более надежным.

**Случайный лес (Random Forest)** — один из самых популярных и мощных ансамблевых методов, особенно хорошо работающий с деревьями решений.

**Идея Случайного леса очень проста и элегантна:**

1.  **Создаем "лес" из множества деревьев решений.**  Обычно это сотни или даже тысячи деревьев.
2.  **Каждое дерево обучается на случайной подвыборке обучающих данных.** Это называется **bootstrap aggregating** или **bagging**.  Представь, что мы берем наш обучающий набор данных и случайно выбираем из него, например, 80% объектов **с возвращением** (то есть, один и тот же объект может попасть в подвыборку несколько раз, а какие-то объекты могут не попасть вообще).  На каждой такой случайной подвыборке мы обучаем отдельное дерево решений.
3.  **При построении каждого дерева, при выборе признака для разделения в каждом узле, мы тоже делаем случайный выбор.**  Вместо того, чтобы рассматривать все признаки и выбирать лучший, мы случайно выбираем **несколько признаков** (например, корень квадратный из общего числа признаков) и ищем лучший признак для разделения только среди этих случайно выбранных.  Это называется **случайное подпространство признаков** (random feature subspace).
4.  **Для классификации:** Чтобы сделать прогноз для нового объекта, мы пропускаем его через **все деревья** в лесу и смотрим, какой класс **большинство деревьев** предсказало.  Это называется **голосование большинством** (majority voting).
5.  **Для регрессии:**  Прогнозы всех деревьев **усредняются**.

**Ключевые идеи Случайного леса, которые делают его таким эффективным:**

*   **Bagging (Bootstrap Aggregating):**  Обучение на случайных подвыборках данных делает деревья **разнообразными**.  Каждое дерево видит немного "другую" версию обучающих данных.  Это уменьшает корреляцию между деревьями и снижает дисперсию ансамбля.
*   **Случайное подпространство признаков:**  Случайный выбор признаков при каждом разделении еще больше **декоррелирует деревья**.  Если бы мы всегда использовали лучшие признаки для разделения, деревья получались бы более похожими друг на друга, и эффект ансамбля был бы меньше.  Случайный выбор признаков как бы "заставляет" каждое дерево фокусироваться на разных аспектах данных.

**Преимущества Случайного леса:**

*   **Высокая точность и хорошее обобщение:**  Случайный лес часто показывает очень хорошее качество на практике и хорошо обобщает на новые данные.
*   **Устойчивость к переобучению:**  Благодаря bagging и случайному выбору признаков, случайный лес гораздо менее склонен к переобучению, чем одиночные деревья решений.  Обычно не требует такой тщательной настройки параметров регуляризации, как отдельные деревья.
*   **Оценка важности признаков (Feature Importance):**  Случайный лес позволяет оценивать, какие признаки были наиболее важны для предсказаний.
*   **Работает с большими наборами данных и большим числом признаков:**  Случайный лес достаточно эффективно работает даже с данными высокой размерности.
*   **Не требует масштабирования признаков:**  Как и деревья решений, случайный лес не чувствителен к масштабу признаков.

**Недостатки Случайного леса:**

*   **Менее интерпретируем, чем одиночное дерево:**  Случайный лес — это "черный ящик" в большей степени, чем одно дерево.  Сложнее понять, почему именно случайный лес принял то или иное решение.
*   **Может быть медленнее, чем одиночное дерево:**  Обучение и предсказание случайного леса требует времени, пропорционального количеству деревьев в лесу.

---

Практика

In [26]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, train_size=0.5)

rf_clf_default = RandomForestClassifier(random_state=42)
rf_clf_default.fit(X_train, y_train)

y_test_def_pred = rf_clf_default.predict(X_test)
test_accuracy_rf_pred = accuracy_score(y_test, y_test_def_pred)

print(f'Точность на тестовой выборке: {test_accuracy_rf_pred:.4f}')

Точность на тестовой выборке: 0.9867


Эксперименты с параметром n_estimators

In [None]:
n_estimators = [5, 10, 20, 50, 100]

for estimator in n_estimators:
    rf_clf_estimators = RandomForestClassifier(n_estimators=estimator)
    rf_clf_estimators.fit(X_train, y_train)
    y_test_pred = rf_clf_estimators.predict(X_test)
    test_accuracy = accuracy_score(y_test, y_test_pred)
    
    print(f'n_estimators: {n_estimators}, Test Accuracy: {test_accuracy:.4f}')

n_estimators: [5, 10, 20, 50, 100, 10000], Test Accuracy: 0.9733
n_estimators: [5, 10, 20, 50, 100, 10000], Test Accuracy: 0.9867
n_estimators: [5, 10, 20, 50, 100, 10000], Test Accuracy: 0.9867
n_estimators: [5, 10, 20, 50, 100, 10000], Test Accuracy: 0.9867
n_estimators: [5, 10, 20, 50, 100, 10000], Test Accuracy: 0.9733
n_estimators: [5, 10, 20, 50, 100, 10000], Test Accuracy: 0.9867


 Эксперименты с параметром max_depth

In [28]:
max_depths_rf = [2, 3, 4, 5, 6, 7, 8, None] # Разные значения max_depth

for depth in max_depths_rf:
    rf_clf_depth_limited = RandomForestClassifier(max_depth=depth, n_estimators=100, random_state=42) # Задаем max_depth и фиксируем n_estimators=100
    rf_clf_depth_limited.fit(X_train, y_train)
    y_test_pred_rf_depth = rf_clf_depth_limited.predict(X_test)
    test_accuracy_rf_depth = accuracy_score(y_test, y_test_pred_rf_depth)

    print(f'Max depth (RF): {depth}, Test Accuracy: {test_accuracy_rf_depth:.4f}')

Max depth (RF): 2, Test Accuracy: 0.9867
Max depth (RF): 3, Test Accuracy: 0.9867
Max depth (RF): 4, Test Accuracy: 0.9867
Max depth (RF): 5, Test Accuracy: 0.9867
Max depth (RF): 6, Test Accuracy: 0.9867
Max depth (RF): 7, Test Accuracy: 0.9867
Max depth (RF): 8, Test Accuracy: 0.9867
Max depth (RF): None, Test Accuracy: 0.9867


Оценка важности признаков (Feature Importance) в Случайном Лесу 🌟

Одно из полезных свойств случайного леса — возможность оценивать важность признаков. Случайный лес может сказать нам, какие признаки в данных были наиболее важны для классификации (или регрессии).

В scikit-learn у обученного RandomForestClassifier есть атрибут feature_importances_, который содержит оценки важности признаков. Давай посмотрим на них:

In [29]:
feature_importances = rf_clf_default.feature_importances_
import_df = pd.DataFrame({'Feature': iris.feature_names, 'Importance' : feature_importances})
import_df = import_df.sort_values(by='Importance', ascending=False)
display(import_df)

Unnamed: 0,Feature,Importance
2,petal length (cm),0.456059
3,petal width (cm),0.39596
0,sepal length (cm),0.112426
1,sepal width (cm),0.035555


Краткое резюме по Случайному Лесу:

Случайный лес — это мощный ансамблевый метод, который строит "лес" из множества деревьев решений.

Bagging (обучение на случайных подвыборках) и случайный выбор признаков делают деревья в лесу разнообразными и уменьшают корреляцию между ними.

Случайный лес обычно показывает более высокое качество и лучшую устойчивость к переобучению, чем одиночные деревья.

Параметр n_estimators (количество деревьев) обычно влияет на качество: чем больше деревьев, тем лучше (до определенного предела).

max_depth и другие параметры регуляризации также важны, но случайный лес менее чувствителен к переобучению из-за глубины деревьев, чем одиночные деревья.

Случайный лес предоставляет оценку важности признаков, что полезно для понимания данных и отбора признаков.