
# Случайный лес


В данном случае мы говорим об **ансамбле** решающих деревьев (отсюда и слово лес). 
В обычных деревьях для задачи классификации в листях деревьев лежит класс. Для задачи регресии в листях лежит среднее значение ответов для всех объектов. 
Чтобы получить результат работы леса, ответы отдельных деревьев должны быть как-то аггрегированы. Вопрос: Как это можно удобно сделать?


In [None]:
import warnings

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.linear_model import LinearRegression
from sklearn.inspection import DecisionBoundaryDisplay
from sklearn.model_selection import train_test_split
from tqdm.auto import trange

from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.ensemble import RandomForestClassifier

warnings.filterwarnings("ignore")
data_path = r"C:\Users\nikol_ri8fhbe\Documents\ml"

## Решающее дерево
Начнём с построения решающего дерева. Для демонстрации используем упрощенный датасет.

In [None]:
california = fetch_california_housing()
california_X = pd.DataFrame(data=california.data, columns=california.feature_names)
california_Y = california.target
print(f"X shape: {california_X.shape}, Y shape: {california_Y.shape}")


X_train, X_test, y_train, y_test = train_test_split(
    california_X, california_Y, test_size=0.3, random_state=123, shuffle=True
)

**Задание**: Ниже пример подготовки нашего датасета с домами. Проведите все действия этого ноутбука и для него. 

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeRegressor

# TODO: обучите решающее дерево без ограничений на тренировочной выборке
tree = DecisionTreeRegressor(max_depth=9)
tree.fit(X_train, y_train)

# TODO: рассчитайте MSE на тренировочной и тестовой выборках
print(f"MSE on train set: {mean_squared_error(y_train, tree.predict(X_train)):.2f}")
print(f"MSE on test set: {mean_squared_error(y_test, tree.predict(X_test)):.2f}")

Мы видим, что наше дерево сильно переобучилось - оно идеально предсказывает значения на трейне и довольно плохо - на тесте. Заглянем в эту проблему чуть глубже. 

Среднеквадратичный риск на фиксированной выборке X можно расписать как 
$$E = Var(h) + Bias^2(h) + Noise(y)$$
Здесь $Bias^2(h) = E_x[(\overline{h}(X) - \overline{y}(X))^2]$ показывает, насколько средняя модель отклонится от матожидания таргета (идеальной модели). 
$Var(h) = E_{x,D}[(h(X, D) - \overline{h}(X))^2]$ - показывает разброс обученных моделей относительно среднего ответа. 
$Noise(y) = E_{x,y}[(\overline{y}(X) - Y)^2]$ - дисперсия самого таргета при фиксированном x. Это неустранимая ошибка, которой соответствует самый идеальный прогноз.
Смещение показывает, насколько хорошо можно с помощью данного семейства моделей приблизиться к оптимальной модели. Как правило, оно маленькое у сложных семейств и большое у относительно простых. 

Дисперсия показывает, насколько будет изменяться предсказание в зависимости от выборки - то есть насколько ваше семейство склонно к переобучению. 



На нашем примере с домами посмотрим, какие bias и variance имеет наше дерево. 

In [None]:
from mlxtend.evaluate import bias_variance_decomp

# TODO: выведите среднее смещение и среднюю дисперсию модели на тестовой выборке
avg_loss, avg_bias, avg_var = bias_variance_decomp(
    tree,
    np.array(X_train),
    np.array(y_train),
    np.array(X_test),
    np.array(y_test),
    loss="mse",
)
print(f"Average test loss: {avg_loss:.2f}")
print(f"Average test bias: {avg_bias:.2f}")
print(f"Average test variance: {avg_var:.2f}")

Декомпозиция довольно долгая, так как для вычисленя средних мы много раз (по умолчанию, 200) строим подвыборки тестового сета. 

Мы видим, что у нашего дерева высокая дисперсия и низкое смещение. Постараемся исправить это. Один из способов борьбы с переобучением – построение композиций моделей. На этом семинаре мы рассмотрим построение композиций при помощи бэггинга.

**Задание:**  Постройте графики зависимости смещения и разброса относительно глубины дерева, обученного на этом датасете.  

### Случайный лес

При построении каждого дерева в бэггинге в ходе создания очередного узла будем выбирать случайный набор признаков, на основе которых производится разбиение. В результате такой процедуры мы уменьшим корреляцию между деревьями, за счёт чего снизим дисперсию итоговой модели. Такой алгоритм назвывается **случайным лесом** (Random Forest).

По сравнению с единичным деревом к параметрам случайного леса добавляются:
- `max_features` – число признаков, на основе которых проводятся разбиения при построении дерева.
- `n_estimators` – число деревьев.


Вопрос: Как можно задать `max_features`?

In [None]:
from sklearn.ensemble import RandomForestRegressor

# TODO: обучите случайный лес с 20 деревьями, каждое из которых строится без ограничений
rf = RandomForestRegressor(max_depth=9, n_estimators=20, n_jobs=4)
rf.fit(X_train, y_train)

# TODO: рассчитайте MSE на тренировочной и тестовой выборках
print(f"MSE on train set: {mean_squared_error(y_train, rf.predict(X_train)):.2f}")
print(f"MSE on train set: {mean_squared_error(y_test, rf.predict(X_test)):.2f}")

# TODO: выведите среднее смещение и среднюю дисперсию модели на тестовой выборке
avg_loss, avg_bias, avg_var = bias_variance_decomp(
    rf,
    np.array(X_train),
    np.array(y_train),
    np.array(X_test),
    np.array(y_test),
    loss="mse",
)
print(f"Average test loss: {avg_loss:.2f}")
print(f"Average test bias: {avg_bias:.2f}")
print(f"Average test variance: {avg_var:.2f}")


Ошибка на тренировочной выборке увеличилась, а на тестовой — уменьшилась, что означает, что мы добились нашей цели в борьбе с переобученными деревьями!

## Особенности случайного леса
Много важных свойств леса описал в своём [блоге](https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#remarks) Лео Бриман (Leo Breiman), создатель случайного леса. Рассмотрим часть из них.
Дополнительно: [статья от основ к практике](https://arxiv.org/pdf/1407.7502)

### Out-of-bag-ошибка

Как мы обсудили выше, при построении случайного леса каждое дерево строится на бутстрапированной подвыборке, полученной из исходной обучающей выборки случайным набором с повторениями. В каждую подвыборку, таким образом, часть наблюдений попадет несколько раз, а часть ни разу. 

Какая вероятность, что семпл не попадет в подвыборку? Пусть в выборке $n$ наблюдений. Тогда вероятность семпла попасть в выборку с повторениями 1 раз - $1/n$. Не попасть - $1 - 1/n$. Бутстрап строит подвыборку размера n. Вероятность не попасть в подвыборку n раз тогда - $(1 - 1/n)^n$. Оценим асимптотику. При $ \lim_{n -> \inf}{(1 - 1/n)^n}$ сводится к замечательному пределу $(1 + 1/u)^u -> e $. 
В результате получаем $1/e \approx 0.37$.

А это значит, что мы можем получить оценку качества модели **бесплатно**! В случае MSE мы можем использовать MSE, а точности - error rate. Такая оценка называется **out-of-bag-ошибкой**. 

То, как конкретно она считается, зависит от реализации, но в целом алгоритм следующий: 
- Для каждого out-of-bag примера находим все модели, которые на нем не обучались.
- Голосованием определяем значение предсказание этих моделей. Считаем соответствующую оценку
- Считаем среднюю оценку на всех таких семплах.


In [None]:
# oob_score_ = R2 на невиденных наблюдениях
rf = RandomForestRegressor(n_estimators=100, random_state=123, oob_score=True, n_jobs=4)
rf.fit(X_train, y_train)
rf.oob_score_

Вопрос: как OOB ошибка связана с оценкой на кросс-валидации?

Важно: при небольшом количестве деревьев оценка будет неточной. 

**Задание:** постройте график зависимости OOB ошибки для количества деревьев и их глубины.

### 3.3. Важность признаков
Как и решающие деревья, случайный лес позволяет оценивать важность признаков. Важность признаков можно оценивать, например, с помощью
**Gini Importance**.
Для одного дерева: при каждом разбиении по некоторому признаку, считаем Impurity decrease, взвешиваем по числу семплов в сплите и сохраняем результат. В конце суммируем.
Лес расширяет эту оценку: считается среднее важности признака по всем деревьям.
Однако тогда мы сталкиваемся с такой проблемой, что приоритет отдается признакам с большим числом уровней.

Более правильный способ (но и более затратный) -  **Permurtation importance**.
Для каждого дерева берется OOB семпл и считается количество голосов, отданных за правильный класс. Далее случайным образом перемешиваются значения переменной m в OOB и количество голосов, отданных за правильный класс, пересчитиывается.Далее одно вычитается из другого. Среднее  значение этой разницы по всем деревьям в лесу является необработанной оценкой важности для переменной m. 

In [None]:
plt.figure(figsize=(10, 7))
plt.title("Feature importances")
plt.bar(california["feature_names"], rf.feature_importances_);

Однако такие оценки опасны в случае коррелирующих признаков. Посмотрим, что произойдёт с важностью, если добавить в выборку линейно зависимый признак.

In [None]:
RM_mc = np.array((X_train.iloc[:, 5] * 2 + 3)).reshape(-1, 1)
X_train_new = np.hstack((X_train, RM_mc))

In [None]:
RM_mc = np.array((X_train.iloc[:, 5] * X_train.iloc[:, 6])).reshape(-1, 1)
X_train_new = np.hstack((X_train, RM_mc))

In [None]:
rf.fit(X_train_new, y_train)

In [None]:
plt.figure(figsize=(10, 7))
names = list(california["feature_names"])
names.append("_AveOccup")
plt.bar(names, rf.feature_importances_);

Важности перераспределились между линейной зависимыми признаками `AveOccup` и `_AveOccup`.  Поэтому такая оценка не обязательно четко отражает действительность. 

**Задание**: Посчитайте важности с помощью permutation importance.


In [None]:
# from sklearn.inspection import permutation_importance

## Границы разбиения
Рассмотрим также и границы принятия решений. То, как они будут выглядеть, становится довольно тривиальным вопросом, однако все равно построим их, чтобы полностью прочуствовать то, как работает RandomForest.

In [None]:
SEED = 12142

In [None]:
df = pd.read_csv(data_path+'/'+"winequality-red.csv")

In [None]:
df_major = df[df["quality"].isin([5,6])]
print("Length of filtered data is", len(df_major))
X = df_major.drop('quality', axis=1)
y = df_major['quality']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=SEED)

In [None]:
def plot_boundary(
        classifier, data: pd.DataFrame, features: list[str], y: pd.DataFrame | pd.Series | None = None
) -> None:
    # Plotting the tree boundaries
    disp = DecisionBoundaryDisplay.from_estimator(
        classifier,
        data.loc[:, features],
        response_method="predict_proba",
        xlabel=features[0], ylabel=features[1],
        alpha=0.5,
        cmap=plt.cm.coolwarm,
        grid_resolution=500
    )

    # Plotting the data points
    # your code. You can use disp.ax_ to access the axis
    disp.ax_.scatter(
        data.loc[:, features[0]], data.loc[:, features[1]], c=y, edgecolor="k",cmap=plt.cm.coolwarm
    )
    plt.title(f"Decision surface for {classifier.__class__.__name__} trained on {features[0]} and {features[1]}")
    plt.show()

In [None]:
# Choosing the first 2 columns for the plot
features = ['volatile acidity', 'alcohol' ]
X_train_cols = X_train.loc[:, features ]
# Creating and fitting the tree classifier
classifier = RandomForestClassifier().fit(X_train_cols, y_train) # your code


In [None]:
 plot_boundary(classifier, data=X_train, features=features, y=y_train)

Отличается ли поверхность для тестового множества?

In [None]:
X_test_cols = X_test.loc[:, features ]
plot_boundary(classifier, data=X_test_cols, features=features, y=y_test)

Задание: сделайте то же самое для одного дерева.

## Нестабильность
Рассмотрим, как деревья реагируют на случайности в данных.


In [None]:
model = DecisionTreeClassifier(random_state=123)
model.fit(X_train, y_train)

In [None]:
print("Train score is: ", model.score(X_train, y_train))
print("Test score is: ", model.score(X_test, y_test))

**Задание:** Постройте границы разбиения для пары сидов

Проверим теперь, насколько нестабильны случайные леса

In [None]:
model = RandomForestClassifier(random_state=21233)
model.fit(X_train, y_train)

In [None]:
print("Train score is: ", model.score(X_train, y_train))
print("Test score is: ", model.score(X_test, y_test))

**Задание:** Перебирая сиды, оцените разброс по точности

## Что еще

В библиотеке scikit-learn есть реализация ExtraTreesClassifier и ExtraTreesRegressor. Данный метод стоит использовать, если вы наблюдаете сильное переобучение на случайном лесе или градиентном бустинге.

Случайный лес не очень хорошо работает для сильно разреженных данных.

Как и одно дерево, RF не умеет экстраполировать.

Для данных, включающих категориальные переменные с различным количеством уровней, случайные леса предвзяты в пользу признаков с большим количеством уровней: когда у признака много уровней, дерево будет сильнее подстраиваться именно под эти признаки, так как на них можно получить более высокое значение информативности

RF хорошо параллелизуются, поэтому можно ускорить их обучение )
