### Введение

Случайный лес — это модель классификации, объединяющая некоторое количество решающих деревьев в одну композицию, за счет чего улучшается их качество работы и обобщающая способность. Деревья строятся независимо друг от друга. Чтобы они отличались друг от друга, обучение проводится не на всей обучающей выборке, а на ее случайном подмножестве. Также, для дальнейшего уменьшения схожести деревьев, оптимальный признак для разбиения выбирается не из всех возможных признаков, а лишь из их случайного подмножества. Прогнозы, выданные деревьями, объединяются в один ответ путем усреднения.

Особенность случайного леса заключается в том, что он не переобучается по мере увеличения количества деревьев в композиции. Это достигается за счет того, что деревья не зависят друг от друга, и поэтому добавление нового дерева в композицию не усложняет модель, а лишь понижает уровень шума в прогнозах.

### Реализация в Scikit-Learn

В библиотеке `scikit-learn` случайные леса реализованы в классах `sklearn.ensemble.RandomForestClassifier` (для классификации) и `sklearn.ensemble.RandomForestRegressor` (для регрессии). Обучение модели производится с помощью функции `fit`, построение прогнозов — с помощью функции `predict`. Число деревьев задается с помощью поля класса `n_estimators`.

Пример использования:

In [4]:
import numpy as np
from sklearn.ensemble import RandomForestRegressor
X = np.array([[1, 2], [3, 4], [5, 6]])
y = np.array([-3, 1, 10])
clf = RandomForestRegressor(n_estimators=100)
clf.fit(X, y)
predictions = clf.predict(X)
predictions

array([-1.9 ,  0.06,  6.71])

Также в этом задании вам понадобится вычислять качество предсказаний на тестовой выборке. Мы будем пользоваться метрикой $R^2$ — по сути, это среднеквадратичная ошибка (RMSE), нормированная на отрезок $[0, 1]$ и обращенная так, чтобы ее наилучшим значением была единица. Ее можно вычислить с помощью функции `sklearn.metrics.r2_score`. Первым аргументов является список правильных ответов на выборке, вторым — список предсказанных ответов. Пример использования:

In [5]:
from sklearn.metrics import r2_score
print(r2_score([10, 11, 12], [9, 11, 12.1]))

0.495


#### Загрузите данные из файла abalone.csv
Это датасет, в котором требуется предсказать возраст ракушки (число колец) по физическим измерениям.

In [6]:
# Ваш код здесь

#### Преобразуйте признак Sex в числовой
Значение F должно перейти в -1, I — в 0, M — в 1.

In [7]:
# Ваш код здесь

#### Разделите содержимое файлов на признаки и целевую переменную
В последнем столбце записана целевая переменная, в остальных — признаки.

In [8]:
# Ваш код здесь

#### Обучите случайный лес 
`sklearn.ensemble.RandomForestRegressor` - с различным числом деревьев: от 1 до 50 (не забудьте выставить `random_state=1` в конструкторе). Для каждого из вариантов оцените качество работы полученного леса на кросс-валидации по 5 блокам. Используйте параметры `random_state=1` и `shuffle=True` при создании генератора кросс-валидации `sklearn.cross_validation.KFold`. В качестве меры качества воспользуйтесь долей правильных ответов (`sklearn.metrics.r2_score`).

In [9]:
# Ваш код здесь

#### Определите, при каком минимальном количестве деревьев случайный лес показывает качество на кросс-валидации выше 0.52

In [10]:
# Ваш код здесь

#### Обратите внимание на изменение качества по мере роста числа деревьев 
Ухудшается ли оно?

In [None]:
# Ваш код здесь