# Размер случайного леса

###### Введение
Случайный лес — это модель классификации, объединяющая некоторое количество решающих деревьев в одну композицию, за счет чего улучшается их качество работы и обобщающая способность. Деревья строятся независимо друг от друга. Чтобы они отличались друг от друга, обучение проводится не на всей обучающей выборке, а на ее случайном подмножестве. Также, для дальнейшего уменьшения схожести деревьев, оптимальный признак для разбиения выбирается не из всех возможных признаков, а лишь из их случайного подмножества. Прогнозы, выданные деревьями, объединяются в один ответ путем усреднения.

Особенность случайного леса заключается в том, что он не переобучается по мере увеличения количества деревьев в композиции. Это достигается за счет того, что деревья не зависят друг от друга, и поэтому добавление нового дерева в композицию не усложняет модель, а лишь понижает уровень шума в прогнозах.

###### Реализация в Scikit-Learn
В библиотеке scikit-learn случайные леса реализованы в классах sklearn.ensemble.RandomForestClassifier (для классификации) и sklearn.ensemble.RandomForestRegressor (для регрессии). Обучение модели производится с помощью функции fit, построение прогнозов — с помощью функции predict. Число деревьев задается с помощью поля класса n_estimators. 

Пример использования:

In [1]:
import numpy as np
from sklearn.ensemble import RandomForestRegressor
X = np.array([[1, 2], [3, 4], [5, 6]])
y = np.array([-3, 1, 10])
clf = RandomForestRegressor(n_estimators=100)
clf.fit(X, y)
predictions = clf.predict(X)

Также в этом задании вам понадобится вычислять качество предсказаний на тестовой выборке. Мы будем пользоваться метрикой R2 — по сути, это среднеквадратичная ошибка (MSE), нормированная на отрезок [0, 1] и обращенная так, чтобы ее наилучшим значением была единица. Ее можно вычислить с помощью функции sklearn.metrics.r2_score. Первым аргументов является список правильных ответов на выборке, вторым — список предсказанных ответов.  
Пример использования:

In [3]:
from sklearn.metrics import r2_score
print(r2_score([10, 11, 12], [9, 11, 12.1]))

0.495


In [5]:
import pandas as pd

In [6]:
# датасет, в котором требуется предсказать возраст ракушки (число колец) по физическим измерениям
data = pd.read_csv('abalone.csv')

Преобразуйте признак Sex в числовой: значение F должно перейти в -1, I — в 0, M — в 1. Если вы используете Pandas, то подойдет следующий код: data['Sex'] = data['Sex'].map(lambda x: 1 if x == 'M' else (-1 if x == 'F' else 0))

In [8]:
data['Sex'] = data['Sex'].map(lambda x: 1 if x == 'M' else (-1 if x == 'F' else 0))

Разделите содержимое файлов на признаки и целевую переменную. В последнем столбце записана целевая переменная, в остальных — признаки.

In [14]:
X_train = data.iloc[:,:-1]
y_train = data.iloc[:, -1]

Обучите случайный лес (sklearn.ensemble.RandomForestRegressor) с различным числом деревьев: от 1 до 50 (не забудьте выставить "random_state=1" в конструкторе). Для каждого из вариантов оцените качество работы полученного леса на кросс-валидации по 5 блокам. Используйте параметры "random_state=1" и "shuffle=True" при создании генератора кросс-валидации sklearn.cross_validation.KFold.  В качестве меры качества воспользуйтесь коэффициентом детерминации (sklearn.metrics.r2_score).

Определите, при каком минимальном количестве деревьев случайный лес показывает качество на кросс-валидации выше 0.52. 

In [23]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

cv = KFold(n_splits=5, shuffle=True, random_state=1) # разбиение выборки

for i in range(1,51):
    clf = RandomForestRegressor(n_estimators=i, random_state=1)
    q = np.mean(cross_val_score(clf, X_train, y_train, cv=cv, scoring='r2'))
    print(i, ':', q)
    if q >= 0.52:
        break
print(i)

1 : 0.10967482068860261
2 : 0.3413000096365689
3 : 0.406433829066129
4 : 0.4447745857536912
5 : 0.46503241426823594
6 : 0.47139595825898917
7 : 0.4766658451893487
8 : 0.4829348394224631
9 : 0.4894370162945041
10 : 0.4954085552428177
11 : 0.4944111155773555
12 : 0.49902817866563326
13 : 0.5030578549564464
14 : 0.5073168234618861
15 : 0.5091809969556578
16 : 0.5114105314179662
17 : 0.5148917747729636
18 : 0.5172203573170132
19 : 0.5198293095329432
20 : 0.51948435033775
21 : 0.520529096463528
21
