### Случайные деревья
Случайный лес — это модель классификации, объединяющая некоторое количество решающих деревьев в одну композицию, за счет чего улучшается их качество работы и обобщающая способность. Деревья строятся независимо друг от друга. Чтобы они отличались друг от друга, обучение проводится не на всей обучающей выборке, а на ее случайном подмножестве. Также, для дальнейшего уменьшения схожести деревьев, оптимальный признак для разбиения выбирается не из всех возможных признаков, а лишь из их случайного подмножества. Прогнозы, выданные деревьями, объединяются в один ответ путем усреднения.

In [90]:
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.metrics import r2_score

In [94]:
data = pd.read_csv('abalone.csv')

data.loc[data['Sex'] == 'F','Sex'] = -1
data.loc[data['Sex'] == 'I','Sex'] = 0
data.loc[data['Sex'] == 'M','Sex'] = 1

X_train = data.iloc[:, :7]
y_train = data['Rings']

In [95]:
mass = []
for i in range(1,51):
    cv = KFold(n_splits=5, shuffle=True, random_state=1)
    clf = RandomForestRegressor(random_state=1, n_estimators=i)
    scores = cross_val_score(clf, X_train, y_train, cv=cv, scoring='r2')
    mass.append(scores)

In [96]:
mass

[array([ 0.12505314,  0.1867194 ,  0.11620086,  0.03958097, -0.02061594]),
 array([0.28319593, 0.40459608, 0.31696027, 0.2810943 , 0.26747499]),
 array([0.34486898, 0.4475602 , 0.39031047, 0.3502801 , 0.36216956]),
 array([0.381348  , 0.47417633, 0.43362033, 0.39105428, 0.41382052]),
 array([0.40589129, 0.49494753, 0.4666688 , 0.41338151, 0.44052091]),
 array([0.4189859 , 0.49985899, 0.48551013, 0.43350778, 0.44878834]),
 array([0.43382682, 0.50564023, 0.48578118, 0.44196961, 0.45521921]),
 array([0.44687243, 0.51182577, 0.48564939, 0.4410268 , 0.45512971]),
 array([0.44959016, 0.51266531, 0.49065384, 0.45704202, 0.45650748]),
 array([0.45460953, 0.50857467, 0.49492443, 0.45958823, 0.46063024]),
 array([0.46788997, 0.50930003, 0.49854465, 0.45676992, 0.47221102]),
 array([0.47223549, 0.50071389, 0.49826119, 0.45810766, 0.469086  ]),
 array([0.47252844, 0.50722077, 0.5035297 , 0.46045554, 0.47361716]),
 array([0.47907779, 0.51107976, 0.5085306 , 0.46722497, 0.47727981]),
 array([0.48699