# Бэггинг и случайный лес

Загрузите датасет digits с помощью функции load_digits из sklearn.datasets и подготовьте матрицу признаков X и ответы на обучающей выборке y (вам потребуются поля data и target в объекте, который возвращает load_digits). 

In [34]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
from sklearn.datasets import load_digits

digits = load_digits()

In [28]:
digits.data.shape

(1797, 64)

In [35]:
X = digits.data
y = digits.target

Для оценки качества далее нужно будет использовать cross_val_score из sklearn.model_selection с параметром cv=10. 
Эта функция реализует k-fold cross validation c k равным значению параметра cv. 
Мы предлагаем использовать k=10, чтобы полученные оценки качества имели небольшой разброс, и было проще проверить полученные ответы. На практике же часто хватает и k=5. 
Функция cross_val_score будет возвращать numpy.ndarray, в котором будет k чисел - качество в каждом из k экспериментов k-fold cross validation. 
Для получения среднего значения (которое и будет оценкой качества работы) вызовите метод .mean() у массива, который возвращает cross_val_score.

Создайте DecisionTreeClassifier с настройками по умолчанию и измерьте качество его работы с помощью cross_val_score. Эта величина и будет ответом в пункте 1.

In [30]:
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
classificator = DecisionTreeClassifier(random_state=0)
scores = cross_val_score(classificator, X, y, cv=10)
clfscore = scores.mean()

In [31]:
def write_answer(val, i):
    with open(f"answer{i}.txt", "w") as fout:
        fout.write(str(val))

In [32]:
write_answer(clfscore, 1)

Воспользуйтесь BaggingClassifier из sklearn.ensemble, чтобы обучить бэггинг над DecisionTreeClassifier. Используйте в BaggingClassifier параметры по умолчанию, задав только количество деревьев равным 100. 

Качество классификации новой модели - ответ в пункте 2. Обратите внимание, как соотносится качество работы композиции решающих деревьев с качеством работы одного решающего дерева.

In [33]:
from sklearn.ensemble import BaggingClassifier
baggingclf = BaggingClassifier(base_estimator = classificator, n_estimators=100, \
                               random_state = 0)
scores2 = cross_val_score(baggingclf, X, y, cv=10)
baggingscore = scores2.mean()

KeyboardInterrupt: 

In [None]:
write_answer(baggingscore, 2)

Теперь изучите параметры BaggingClassifier и выберите их такими, чтобы каждый базовый алгоритм обучался не на всех d признаках, а на $\sqrt{d}$ случайных признаков. Качество работы получившегося классификатора - ответ в пункте 3. Корень из числа признаков - часто используемая эвристика в задачах классификации, в задачах регрессии же часто берут число признаков, деленное на три. Но в общем случае ничто не мешает вам выбирать любое другое число случайных признаков.

In [None]:
from math import sqrt
sqrt_len = int(sqrt(X.shape[1]))
baggingclfsqrt = BaggingClassifier(base_estimator = classificator, n_estimators=100, \
                               random_state = 0, max_features=sqrt_len)
scores3 = cross_val_score(baggingclfsqrt, X, y, cv=10)
baggingscoresqrt = scores3.mean()

In [None]:
write_answer(baggingscoresqrt, 3)

Наконец, давайте попробуем выбирать случайные признаки не один раз на все дерево, а при построении каждой вершины дерева. Сделать это несложно: нужно убрать выбор случайного подмножества признаков в BaggingClassifier и добавить его в DecisionTreeClassifier. Какой параметр за это отвечает, можно понять из документации sklearn, либо просто попробовать угадать (скорее всего, у вас сразу получится). Попробуйте выбирать опять же $\sqrt{d}$  признаков. Качество полученного классификатора на контрольной выборке и будет ответом в пункте 4.

In [None]:
clf = DecisionTreeClassifier(random_state=0, splitter = 'random', max_features = 0.125)
from sklearn.ensemble import BaggingClassifier
baggingclf2 = BaggingClassifier (base_estimator = clf, n_estimators=100, random_state = 0)                       
scores4 = cross_val_score(baggingclf2, X, y, cv=10)
randomscore = scores4.mean()

In [None]:
write_answer(randomscore, 4)

Полученный в пункте 4 классификатор - бэггинг на рандомизированных деревьях (в которых при построении каждой вершины выбирается случайное подмножество признаков и разбиение ищется только по ним). Это в точности соответствует алгоритму Random Forest, поэтому почему бы не сравнить качество работы классификатора с RandomForestClassifier из sklearn.ensemble. Сделайте это, а затем изучите, как качество классификации на данном датасете зависит от количества деревьев, количества признаков, выбираемых при построении каждой вершины дерева, а также ограничений на глубину дерева. Для наглядности лучше построить графики зависимости качества от значений параметров, но для сдачи задания это делать не обязательно. 

На основе наблюдений выпишите через пробел номера правильных утверждений из приведенных ниже в порядке возрастания номера (это будет ответ в п.5)

1) Случайный лес сильно переобучается с ростом количества деревьев

2) При очень маленьком числе деревьев (5, 10, 15), случайный лес работает хуже, чем при большем числе деревьев

3) С ростом количества деревьев в случайном лесе, в какой-то момент деревьев становится достаточно для высокого качества классификации, а затем качество существенно не меняется.

4) При большом количестве признаков (для данного датасета - 40, 50) качество классификации становится хуже, чем при малом количестве признаков (5, 10). Это связано с тем, что чем меньше признаков выбирается в каждом узле, тем более различными получаются деревья (ведь деревья сильно неустойчивы к изменениям в обучающей выборке), и тем лучше работает их композиция.

5) При большом количестве признаков (40, 50, 60) качество классификации лучше, чем при малом количестве признаков (5, 10). Это связано с тем, что чем больше признаков - тем больше информации об объектах, а значит алгоритм может делать прогнозы более точно.

6) При небольшой максимальной глубине деревьев (5-6) качество работы случайного леса намного лучше, чем без ограничения глубины, т.к. деревья получаются не переобученными. С ростом глубины деревьев качество ухудшается.

7) При небольшой максимальной глубине деревьев (5-6) качество работы случайного леса заметно хуже, чем без ограничений, т.к. деревья получаются недообученными. С ростом глубины качество сначала улучшается, а затем не меняется существенно, т.к. из-за усреднения прогнозов и различий деревьев их переобученность в бэггинге не сказывается на итоговом качестве (все деревья преобучены по-разному, и при усреднении они компенсируют переобученность друг-друга).

In [36]:
from sklearn.ensemble import RandomForestClassifier
rf_clf = RandomForestClassifier()
bg_clf = BaggingClassifier(rf_clf, n_estimators=100)

In [None]:
cvs = cross_val_score(bg_clf, X, y, cv=10)

In [None]:
print(cvs)
print('Mean model quality value: ' + str(cvs.mean()))

In [39]:
with open("answer5.txt", "w") as fout:
    answer = str(2) + ' ' + str(3) + ' ' + str(4) + ' ' + str(7)
    fout.write(answer)