# Случайный лес

документация:  http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

In [None]:
%pylab inline

In [None]:
from sklearn import ensemble, model_selection, metrics 

import numpy as np
import pandas as pd

### Данные

Задача на kaggle: https://www.kaggle.com/c/bioresponse

Данные: https://www.kaggle.com/c/bioresponse/data

По данным характеристикам молекулы требуется определить, будет ли дан биологический ответ (biological response).

Признаки нормализаваны.

Для демонстрации используется обучающая выборка из исходных данных train.csv, файл с данными прилагается.

In [None]:
bioresponse = pd.read_csv('data/train.csv', header=0, sep=',')

In [None]:
bioresponse.head()

In [None]:
bioresponse.shape

In [None]:
bioresponse.columns

In [None]:
bioresponse_target = bioresponse.Activity.values

In [None]:
print('bioresponse = 1: {:.2f}\nbioresponse = 0: {:.2f}'.format(sum(bioresponse_target)/float(len(bioresponse_target)), 
                1.0 - sum(bioresponse_target)/float(len(bioresponse_target))))

In [None]:
bioresponse_data = bioresponse.iloc[:, 1:]

### Модель RandomForestClassifier

#### Кривые обучения для деревьев небольшой глубиной 

In [None]:
rf_classifier_low_depth = ensemble.RandomForestClassifier(n_estimators = 50, 
                                                          max_depth = 2, 
                                                          random_state = 1)

In [None]:
(train_sizes, 
 train_scores, 
 test_scores) = model_selection.learning_curve(rf_classifier_low_depth, 
                                               bioresponse_data, 
                                               bioresponse_target,
                                               train_sizes=np.arange(0.1,1., 0.2), 
                                               cv=3, 
                                               scoring='accuracy')

In [None]:
print(train_sizes)
print(train_scores.mean(axis = 1))
print(test_scores.mean(axis = 1))

In [None]:
pylab.grid(True)
pylab.plot(train_sizes, train_scores.mean(axis = 1), 'g-', marker='o', label='train')
pylab.plot(train_sizes, test_scores.mean(axis = 1), 'r-', marker='o', label='test')
pylab.ylim((0.0, 1.05))
pylab.legend(loc='lower right');

#### Кривые обучения для деревьев большей глубины

In [None]:
rf_classifier = ensemble.RandomForestClassifier(n_estimators = 50, 
                                                max_depth = 10, 
                                                random_state = 1)

In [None]:
(train_sizes, 
 train_scores, 
 test_scores) = model_selection.learning_curve(rf_classifier, 
                                               bioresponse_data, 
                                               bioresponse_target, 
                                               train_sizes=np.arange(0.1,1, 0.2), 
                                               cv=3, 
                                               scoring='accuracy')

In [None]:
pylab.grid(True)
pylab.plot(train_sizes, train_scores.mean(axis = 1), 'g-', marker='o', label='train')
pylab.plot(train_sizes, test_scores.mean(axis = 1), 'r-', marker='o', label='test')
pylab.ylim((0.0, 1.05))
pylab.legend(loc='lower right');

# Ансамбли

Загрузите датасет digits с помощью функции load_digits из sklearn.datasets и подготовьте матрицу признаков X и ответы на обучающей выборке y (вам потребуются поля data и target в объекте, который возвращает load_digits).

In [None]:
from sklearn import datasets

digits = datasets.load_digits()

In [None]:
print(digits.DESCR)

In [None]:
X = digits.data
y = digits.target

In [None]:
y

In [None]:
print(X.shape)
print(y.shape)

Для оценки качества далее нужно будет использовать cross_val_score из sklearn.cross_validation с параметром cv=10. Эта функция реализует k-fold cross validation c k равным значению параметра cv. Мы предлагаем использовать k=10, чтобы полученные оценки качества имели небольшой разброс, и было проще проверить полученные ответы. На практике же часто хватает и k=5. Функция cross_val_score будет возвращать numpy.ndarray, в котором будет k чисел - качество в каждом из k экспериментов k-fold cross validation. Для получения среднего значения (которое и будет оценкой качества работы) вызовите метод .mean() у массива, который возвращает cross_val_score.

In [None]:
cv = 10

С небольшой вероятностью вы можете натолкнуться на случай, когда полученное вами качество в каком-то из пунктов не попадет в диапазон, заданный для правильных ответов - в этом случае попробуйте перезапустить ячейку с cross_val_score несколько раз и выбрать наиболее «типичное» значение. Если это не помогает, то где-то была допущена ошибка.

Если вам захочется ускорить вычисление cross_val_score - можете попробовать использовать параметр n_jobs, но будьте осторожны: в одной из старых версий sklearn была ошибка, которая приводила к неверному результату работы cross_val_score при задании n_jobs отличным от 1. Сейчас такой проблемы возникнуть не должно, но проверить, что все в порядке, не будет лишним.

## 1.

Создайте DecisionTreeClassifier с настройками по умолчанию и измерьте качество его работы с помощью cross_val_score. 

In [None]:
from sklearn import tree

In [None]:
treeregres = tree.DecisionTreeClassifier(random_state=1)
from sklearn import model_selection

## 2.

Воспользуйтесь BaggingClassifier из sklearn.ensemble, чтобы обучить бэггинг над DecisionTreeClassifier. Используйте в BaggingClassifier параметры по умолчанию, задав только количество деревьев равным 100.

Качество классификации новой модели - ответ в пункте 2. Обратите внимание, как соотносится качество работы композиции решающих деревьев с качеством работы одного решающего дерева.

In [None]:
from sklearn import ensemble

## 3.

Теперь изучите параметры BaggingClassifier и выберите их такими, чтобы каждый базовый алгоритм обучался не на всех $d$ признаках, а на $\sqrt{d}$ случайных признаков. Качество работы получившегося классификатора - ответ в пункте 3. Корень из числа признаков - часто используемая эвристика в задачах классификации, в задачах регрессии же часто берут число признаков, деленное на три. Но в общем случае ничто не мешает вам выбирать любое другое число случайных признаков.

In [None]:
from math import sqrt

## 4.

Наконец, давайте попробуем выбирать случайные признаки не один раз на все дерево, а при построении каждой вершины дерева. Сделать это несложно: нужно убрать выбор случайного подмножества признаков в BaggingClassifier и добавить его в DecisionTreeClassifier. Какой параметр за это отвечает, можно понять из документации sklearn, либо просто попробовать угадать (скорее всего, у вас сразу получится). Попробуйте выбирать опять же $\sqrt{d}$ признаков. Качество полученного классификатора на контрольной выборке и будет ответом в пункте 4.