Введение
Случайный лес — это модель классификации, объединяющая некоторое количество решающих деревьев в одну композицию, за счет чего улучшается их качество работы и обобщающая способность. Деревья строятся независимо друг от друга. Чтобы они отличались друг от друга, обучение проводится не на всей обучающей выборке, а на ее случайном подмножестве. Также, для дальнейшего уменьшения схожести деревьев, оптимальный признак для разбиения выбирается не из всех возможных признаков, а лишь из их случайного подмножества. Прогнозы, выданные деревьями, объединяются в один ответ путем усреднения.

Особенность случайного леса заключается в том, что он не переобучается по мере увеличения количества деревьев в композиции. Это достигается за счет того, что деревья не зависят друг от друга, и поэтому добавление нового дерева в композицию не усложняет модель, а лишь понижает уровень шума в прогнозах.

Реализация в Scikit-Learn
В библиотеке scikit-learn случайные леса реализованы в классах sklearn.ensemble.RandomForestClassifier (для классификации) и sklearn.ensemble.RandomForestRegressor (для регрессии). Обучение модели производится с помощью функции fit, построение прогнозов — с помощью функции predict. Число деревьев задается с помощью поля класса n_estimators. 

Пример использования:

In [None]:
import numpy as np
from sklearn.ensemble import RandomForestRegressor
X = np.array([[1, 2], [3, 4], [5, 6]])
y = np.array([-3, 1, 10])
clf = RandomForestRegressor(n_estimators=100)
clf.fit(X, y)
predictions = clf.predict(X)

Также в этом задании вам понадобится вычислять качество предсказаний на тестовой выборке. Мы будем пользоваться метрикой R2 — по сути, это среднеквадратичная ошибка (MSE), нормированная на отрезок [0, 1] и обращенная так, чтобы ее наилучшим значением была единица. Ее можно вычислить с помощью функции sklearn.metrics.r2_score. Первым аргументов является список правильных ответов на выборке, вторым — список предсказанных ответов. Пример использования:

In [None]:
from sklearn.metrics import r2_score
print r2_score([10, 11, 12], [9, 11, 12.1])

**1. Загрузите данные из файла abalone.csv. Это датасет, в котором требуется предсказать возраст ракушки (число колец) по физическим измерениям.**

In [28]:
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import KFold
from sklearn.metrics import r2_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split

In [2]:
data = pd.read_csv('./abalone.csv')

**2. Преобразуйте признак Sex в числовой: значение F должно перейти в -1, I — в 0, M — в 1. Если вы используете Pandas, то подойдет следующий код: data['Sex'] = data['Sex'].map(lambda x: 1 if x == 'M' else (-1 if x == 'F' else 0))**

In [3]:
data['Sex'].unique()

array(['M', 'F', 'I'], dtype=object)

In [4]:
data['Sex'] = data['Sex'].map(lambda x: 1 if x =='M' else(-1 if x=='F' else 0))

**3.Разделите содержимое файлов на признаки и целевую переменную. В последнем столбце записана целевая переменная, в остальных — признаки.**

In [5]:
y = data['Rings']

In [6]:
X = data.iloc[:,:-1]

**4. Обучите случайный лес (sklearn.ensemble.RandomForestRegressor) с различным числом деревьев: от 1 до 50 (не забудьте выставить "random_state=1" в конструкторе). Для каждого из вариантов оцените качество работы полученного леса на кросс-валидации по 5 блокам. Используйте параметры "random_state=1" и "shuffle=True" при создании генератора кросс-валидации sklearn.cross_validation.KFold.  В качестве меры качества воспользуйтесь коэффициентом детерминации (sklearn.metrics.r2_score).**

In [7]:
kf = KFold(n_splits=5, random_state=1, shuffle=True)
kf.get_n_splits(X=X)

5

In [21]:
def forest_n_trees(num_trees, X, y):
    ans = []
    for n in range (1, num_trees+1):
        forest = RandomForestRegressor(n_estimators=n, random_state=1, n_jobs=-1)
        forest.fit(X=X, y=y)
        arr = cross_val_score(estimator=forest, X=X, y=y, cv=kf)
        m=arr.mean()
        ans.append(m)
    return ans

In [22]:
ans = forest_n_trees(50,X=X,y=y)

In [26]:
ans

[0.10967482068860261,
 0.3413000096365689,
 0.406433829066129,
 0.4447745857536912,
 0.46503241426823594,
 0.47139595825898917,
 0.4766658451893487,
 0.4829348394224631,
 0.4894370162945041,
 0.4954085552428177,
 0.4944111155773555,
 0.49902817866563326,
 0.5030578549564464,
 0.5073168234618861,
 0.5091809969556578,
 0.5114105314179662,
 0.5148917747729636,
 0.5172203573170132,
 0.5198293095329432,
 0.51948435033775,
 0.520529096463528,
 0.5208044230080824,
 0.521742855685855,
 0.5231059969795335,
 0.5232486470488318,
 0.5243076139284634,
 0.5246393588459404,
 0.5256557724971402,
 0.5265556293057552,
 0.5270858715838138,
 0.5276420438225101,
 0.5289244806388986,
 0.5301073722643779,
 0.5299613734264366,
 0.5298209779129148,
 0.529910050667947,
 0.5294320415136227,
 0.5294715388671245,
 0.529515898349607,
 0.5294703580378128,
 0.5298087685207094,
 0.5300433306143383,
 0.5299135764090978,
 0.5296814957917958,
 0.528908112349864,
 0.5290083070325597,
 0.5291786571646144,
 0.53005093963156

**5. Определите, при каком минимальном количестве деревьев случайный лес показывает качество на кросс-валидации выше 0.52. Это количество и будет ответом на задание.**

In [27]:
for i, a in enumerate(ans):
    if a >= 0.52:
        print(i+2)
        break

20


In [24]:
with open('./1.txt', 'w') as f:
    f.write("20")
f.close()

In [29]:
train_test_split?

In [None]:
forest = RandomForestRegressor(n_estimators=n, random_state=1, n_jobs=-1)
forest.fit(X=X, y=y)
arr = cross_val_score(estimator=forest, X=X, y=y, cv=kf)
m=arr.mean()
ans.append(m)

In [30]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

**Также в этом задании вам понадобится вычислять качество предсказаний на тестовой выборке. Мы будем пользоваться метрикой R2 — по сути, это среднеквадратичная ошибка (MSE), нормированная на отрезок [0, 1] и обращенная так, чтобы ее наилучшим значением была единица. Ее можно вычислить с помощью функции sklearn.metrics.r2_score.**

In [32]:
forest = RandomForestRegressor(n_estimators=50, random_state=1, n_jobs=-1)
forest.fit(X=X_train, y=y_train)

RandomForestRegressor(n_estimators=50, n_jobs=-1, random_state=1)

In [33]:
y_pred = forest.predict(X=X_test)

In [34]:
r2_score(y_true=y_test, y_pred=y_pred)

0.5318960400481536

**6. Обратите внимание на изменение качества по мере роста числа деревьев. Ухудшается ли оно?**

In [None]:
# no 