# Случайные леса
__Суммарное количество баллов: 10__

В этом задании вам предстоит реализовать ансамбль деревьев решений, известный как случайный лес, применить его к публичным данным и сравнить его эффективность с ансамблями из самых популярных библиотек.

In [1]:
import warnings
warnings.filterwarnings("ignore")

from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd
import random
import matplotlib.pyplot as plt
import matplotlib
import copy
from tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from scipy import stats
from hyperopt import fmin, hp, Trials, anneal
from sklearn.model_selection import cross_val_score, StratifiedKFold

SEED = 19

### Задание 1 (3 балла)
Реализуем сам Random Forest. Идея очень простая: строим `n` деревьев, а затем берем модальное предсказание. Используйте реализацию дерева из HW3.

#### Параметры конструктора
`n_estimators` - количество используемых для предсказания деревьев.

Остальное - параметры деревьев.

#### Методы
`fit(X, y)` - строит `n_estimators` деревьев по выборке `X`.

`predict(X)` - для каждого элемента выборки `X` возвращает самый частый класс, который предсказывают для него деревья.

In [2]:
class RandomForestClassifier:
    
    def __init__(self, criterion="gini", max_depth=None, min_samples_leaf=1, 
                 max_features="auto", n_estimators=10, score_fn=accuracy_score):
        assert criterion in ["gini", "entropy"]
        assert max_depth is None or max_depth > 0 and int(max_depth) == max_depth
        assert min_samples_leaf > 0 and int(min_samples_leaf) == min_samples_leaf
        assert max_features == "auto" or max_depth > 0 and int(max_depth) == max_depth
        assert n_estimators > 0 and int(n_estimators) == n_estimators
        self.tree_params = {
            "criterion": criterion,
            "max_depth": max_depth,
            "min_samples_leaf": min_samples_leaf
        }
        self.max_features = max_features
        self.n_estimators = n_estimators
        self.trees = []
        self.oob = []
        self.score_fn = score_fn
    
    def fit(self, X, y):
        from tree import DecisionTreeClassifier
        # случайная функция, которая выдает в среднем корень из общего числа признаков
        subspace_fn = lambda n: int(np.sqrt(n)) + np.random.binomial(1, np.sqrt(n) - int(np.sqrt(n)))
        subspace = subspace_fn if self.max_features == "auto" else self.max_features
        
        for _ in range(self.n_estimators):
            # бутстреп сэмплинг
            idxs = np.random.choice(X.index, size=len(X))
            X_sampled = X.loc[idxs, :].reset_index(drop=True)
            y_sampled = y.loc[idxs].reset_index(drop=True)
            # обучаем дерево на случайных подпространствах
            tree = DecisionTreeClassifier(**self.tree_params)
            tree.fit(X_sampled, y_sampled, subspace=subspace)
            self.trees.append(tree)
            # оцениваем ошибку out-of-bag
            idxs_out = list(set(X.index) - set(idxs))
            X_oob = X.loc[idxs_out, :]
            y_oob = y.loc[idxs_out]
            self.oob.append(self.score_fn(y_oob, tree.predict(X_oob)))
            
    def predict(self, X):
        votes = []
        for tree in self.trees:
            votes.append(tree.predict(X))
        votes = pd.concat(votes, axis=1).values
        y_pred = stats.mode(votes, axis=1)[0].reshape(1, -1)[0]
        return y_pred

### Задание 3 (2 балла)
Оптимизируйте по `AUC` на кроссвалидации (размер валидационной выборки - 20%) параметры своей реализации `Random Forest`: 

максимальную глубину деревьев из [2, 3, 5, 7, 10], количество деревьев из [5, 10, 20, 30, 50, 100]. 

Постройте `ROC` кривую (и выведите `AUC` и `accuracy`) для лучшего варианта.

Подсказка: можно построить сразу 100 деревьев глубины 10, а потом убирать деревья и
глубину.

In [3]:
def synthetic_dataset(size):
    X = [(np.random.randint(0, 2), np.random.randint(0, 2), i % 6 == 3, 
          i % 6 == 0, i % 3 == 2, np.random.randint(0, 2)) for i in range(size)]
    y = [i % 3 for i in range(size)]
    return pd.DataFrame(np.array(X)), pd.Series(np.array(y))

X, y = synthetic_dataset(1000)

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=SEED)

In [5]:
def find_best_rf_params(X, y, n_splits, space, max_evals):
    
    def cross_val_loss(params, X=X, y=y, n_splits=n_splits):
        params["n_estimators"] = int(params["n_estimators"])
        params["max_depth"] = int(params["max_depth"])
        model = RandomForestClassifier(**params)
        skf = StratifiedKFold(n_splits=n_splits)
        scores = []
        for train_index, val_index in skf.split(X, y):
            X_t, X_v = X.iloc[train_index, :], X.iloc[val_index, :]
            y_t, y_v = y.iloc[train_index], y.iloc[val_index]
            model.fit(X_t, y_t)
            y_p = model.predict(X_v)
            scores.append(accuracy_score(y_v, y_p))
        return -np.mean(scores)
    
    return fmin(cross_val_loss, space, anneal.suggest, max_evals=max_evals)

In [6]:
space = {
    "criterion": hp.choice("criterion", ["gini", "entropy"]),
    "max_depth": hp.quniform("max_depth", 2, 10, 1),
    "n_estimators": hp.quniform("n_estimators", 5, 10, 5)
}

best_params = find_best_rf_params(X_train, y_train, n_splits=3, space=space, max_evals=5)

100%|██████████| 5/5 [01:50<00:00, 22.05s/trial, best loss: -1.0]


In [7]:
best_params

{'criterion': 0, 'max_depth': 7.0, 'n_estimators': 5.0}

### Задание 4 (3 балла)
Часто хочется понимать, насколько большую роль играет тот или иной признак для предсказания класса объекта. Есть различные способы посчитать его важность. Один из простых способов сделать это для Random Forest выглядит так:
1. Посчитать out-of-bag ошибку предсказания `err_oob` (https://en.wikipedia.org/wiki/Out-of-bag_error)
2. Перемешать значения признака `j` у объектов выборки (у каждого из объектов изменится значение признака `j` на какой-то другой)
3. Посчитать out-of-bag ошибку (`err_oob_j`) еще раз.
4. Оценкой важности признака `j` для одного дерева будет разность `err_oob_j - err_oob`, важность для всего леса считается как среднее значение важности по деревьям.

Реализуйте функцию `feature_importance`, которая принимает на вход Random Forest и возвращает массив, в котором содержится важность для каждого признака.

In [None]:
def feature_importance(rfc):
    raise NotImplementedError()

def most_important_features(importance, names, k=20):
    # Выводит названия k самых важных признаков
    idicies = np.argsort(importance)[::-1][:k]
    return np.array(names)[idicies]

Протестируйте решение на простом синтетическом наборе данных. В результате должна получиться точность `1.0`, наибольшее значение важности должно быть у признака с индексом `4`, признаки с индексами `2` и `3`  должны быть одинаково важны, а остальные признаки - не важны совсем.

In [None]:
def synthetic_dataset(size):
    X = [(np.random.randint(0, 2), np.random.randint(0, 2), i % 6 == 3, 
          i % 6 == 0, i % 3 == 2, np.random.randint(0, 2)) for i in range(size)]
    y = [i % 3 for i in range(size)]
    return np.array(X), np.array(y)

X, y = synthetic_dataset(1000)
rfc = RandomForestClassifier(n_estimators=100)
rfc.fit(X, y)
print("Accuracy:", np.mean(rfc.predict(X) == y))
print("Importance:", feature_importance(rfc))

Проверьте, какие признаки важны для датасетов cancer и spam?

_Ваш ответ_

### Задание 5 (2 балла)
В качестве альтернативы попробуем библиотечные реализации ансамблей моделей. 

1. [CatBoost](https://catboost.ai/docs/)
2. [XGBoost](https://xgboost.readthedocs.io/en/latest/)
3. [LightGBM](https://lightgbm.readthedocs.io/en/latest/)


Установите необходимые библиотеки. 
Возможно, потребуется установка дополнительных пакетов

In [None]:
!pip install lightgbm
!pip install catboost
!pip install xgboost

Также, как и реализованный нами RandomForest, примените модели для наших датасетов.

Для стандартного набора параметров у каждой модели нарисуйте `ROC` кривую и выведите `AUC` и `accuracy`.

Посчитайте время обучения каждой модели (можно использовать [timeit magic](https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-timeit)). 

Сравните метрики качества и скорость обучения моделей. Какие выводы можно сделать?

In [1]:
# YOUR_CODE

_Ваш ответ_