## Методы машинного обучения
### Домашнее задание 3. Случайный лес и градиентный бустинг

В этом задании вам предстоит воспроизвести подход случайного леса через одно решающее дерево и поэкспериментировать со случайным лесом, а также настроить параметры бустинга.

Задание выполняется самостоятельно, плагиат будет стандартно наказываться лишением всех баллов за задание.
- Максимальная оценка за задание: 10 баллов.
- Дата выдачи: 08.03.2020
- Жесткий дедлайн: 23:59 18.03.2020
- Мягкого дедлайна на этот раз нет.

In [0]:
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

from matplotlib import pyplot as plt
import pandas as pd
import numpy as np

## Часть 1. Случайные леса

Случайный лес — алгоритм машинного обучения, представляющий собой бэггинг над решающими деревьями (усреднение ответов множества слабых алгоритмов) с двумя основными идеями:
- Использование подмножества признаков при построении каждого разбиения в дереве.
- Бутстрап обучающей выборки для построения каждого дерева (случайный выбор объектов с повторениями).

В этом задании мы попробуем оценить пользу каждой из идей. Будем использовать [ту же выборку](https://www.kaggle.com/iabhishekofficial/mobile-price-classification) с тем же разбиением на две части, что и в домашнем задании про логистическую регрессию.

### Подготовка данных

Решается задача многоклассовой классификации — определение ценовой категории телефона. Для простоты перейдём к задаче бинарной классификации — пусть исходные классы 0 и 1 соответствуют классу 0 новой целевой переменной, а остальные — классу 1.

Повторите следующие стадии подготовки данных (можно скопировать из задания про логистическую регрессию):

- замените целевую переменную, отделите её в отдельную переменную и удалите из исходной выборки
- разделите выборку на обучающую и тестовую части в соотношении 7 к 3. Для этого можно использовать `train_test_split` [из scikit-learn](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html). Не забудьте зафиксировать `random_state` для разбиения.

In [0]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

Для начала обучите решающее дерево `DecisionTreeClassifier` [из scikit-learn](http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) на обучающей выборке и посчитайте [ROC-AUC](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html) и [Accuracy](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html) (порог 0.5) на тестовой. Не забудьте зафиксировать `random_state` для построения дерева (несмотря на то, что в классической реализации никакой случайности нет, при большой глубине дерева может возникать неоднозначность в выборке признака в разбиении). Используйте этот `random_state` для всех заданий ниже.

In [0]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

### 1. Только усреднение классификаторов (2 балла)

Реализуйте бэггинг над решающими деревьями (усреднение предсказанных вероятностей всего ансамбля). 
В качестве базового алгоритма используйте всё тот же `DecisionTreeClassifier`. Количество базовых алгоритмов предлагается брать равным 100. Отдельный класс делать необязательно — можно просто сложить правильно обученные деревья (одна и та же выборка, разные random_state) в список и усреднить предсказания.

Посчитайте качество с помощью тех же метрик. Ответьте на следующие вопросы:
- Что интересного вы видите?
- С чем это связано?

In [0]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

### 2. Сэмплирование обучающей выборки (2 балла)

Добавим к нашему усреднению предсказаний бутстрап выборки (генерация случайной выборки того же размера с возвращением). Для этого может пригодиться `numpy.random.randint`. Сгенерируйте с помощью него отдельную обучающую выборку для каждого дерева, обучите их и усредните предсказания, как в предыдущем пункте.

Посчитайте качество. Как оно изменилось по сравнению с усреднением обычных деревьев из предыдущего пункта?

In [0]:
np.random.seed(123)  # для одинакового бутстрапа в каждом запуске

### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

### 3. Выбор случайного подмножества признаков (2 балла)

Временно забудем о бутстрапе выборки и добавим выбор случайного подмножества признаков при построении каждого разбиения. В `DecisionTreeClassifier` за это отвечает параметр `max_features`. По умолчанию он имеет значение `None`, что обозначает использование всех возможных признаков. Для задачи классификации рекоменуется использовать квадратный корень от количества признаков. Попробуйте выставить такое значение. На этот раз надо отключить фиксированный `random_state` в построении дерева, так как иначе каждый раз мы будем выбирать одинаковые подмножества признаков. Обучите каждое дерево на одной и той же выборке, но с разными подмножествами признаков.

Посчитайте качество. Что вы видите?

In [0]:
np.random.seed(123)  # для воспроизводимости построения случайных подмножеств признаков

### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

### 4 = 2 + 3 (1 балл)

Объединим два подхода (бутстрап + выбор подмножества признаков). Получим случайный лес. Обучите каждое дерево на индивидуальной выборке, полученной с помощью бутстрепа, и используйте случайные подмножества признаков.

Посчитайте качество. Что вы видите?

In [0]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

То, что мы сделали, уже реализовано в `RandomForestClassifier`. Попробуйте воспользоваться им. Количество используемых деревьев передаётся в параметре `n_estimators`.

Посчитайте качество. Что вы видите?

In [0]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

### 5. Влияние количества деревьев в случайном лесе (2 балла)

Один из параметров случайного леса — количество деревьев, используемых в бэггинге. Оценим, как влияет этот параметр на финальное качество. Для этого обучите случайные леса с разным количество деревьев (например, перебирайте от 10 до 1000 с шагом в 10), оцените качество с помощью ROC-AUC. Постройте график зависимости ROC-AUC от количества используемых деревьев. Что вы видите?

In [0]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

### 6. Важность признаков (1 балл)

Случайный лес позволяет оценить важность признаков. У обученного случайного леса есть аттрибут `feature_importances_`, где хранится важность для каждого признака. Постройте `barplot` с важностью признаков (удобно использовать библиотеку `seaborn`, где можно для каждого столбца передать название признака `train.columns`).

In [0]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

## Выводы

Напишите, что интересного вы узнали в этой работе, в каких экспериментах какие результаты получились.

- ...