# Случайные леса
С использованием более сложного алгоритма машинного обучения.

# Вступление
Деревья принятия решений ставят вас перед трудным выбором. Глубокое дерево с большим количеством листьев будет более подходящим, потому что каждое предсказание основывается на исторических данных только о нескольких домах, расположенных на его листьях. Но неглубокое дерево с небольшим количеством листьев будет работать плохо, потому что оно не сможет отразить как можно больше различий в исходных данных.

Даже самые современные методы моделирования сталкиваются с противоречием между недостаточной и избыточной адаптацией. Однако во многих моделях есть умные идеи, которые могут привести к повышению производительности. В качестве примера мы рассмотрим случайный лес.

Случайный лес использует множество деревьев и делает прогноз путем усреднения прогнозов каждого компонента дерева. Как правило, он обладает гораздо большей точностью прогнозирования, чем одно дерево решений, и хорошо работает с параметрами по умолчанию. Если вы продолжите моделировать, то сможете изучить больше моделей с еще более высокой производительностью, но многие из них чувствительны к получению правильных параметров.

# Пример
Вы уже несколько раз видели код для загрузки данных. В конце загрузки данных у нас есть следующие переменные:

train_X
val_X
train_y
val_y

In [None]:
import pandas as pd
    
# Загрузить данные
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
# Отфильтровать строки с пропущенными значениями
melbourne_data = melbourne_data.dropna(axis=0)
# Выберите цель и функции
y = melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = melbourne_data[melbourne_features]

from sklearn.model_selection import train_test_split

# разделить данные на обучающие и проверочные, как для функций, так и для целевых объектов
# Разделение основано на генераторе случайных чисел. Ввод числового значения в
# аргумент random_state гарантирует, что мы получим одинаковое разделение при каждом запуске
# этого скрипта.
train_X, val_X, train_y, val_y = train_test_split(X, y,random_state = 0)

Мы создаем модель случайного леса аналогично тому, как мы строили дерево решений в scikit-learn - на этот раз используя класс RandomForestRegressor вместо DecisionTreeRegressor.

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

forest_model = RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)
melb_preds = forest_model.predict(val_X)
print(mean_absolute_error(val_y, melb_preds))

# Вывод¶
Вероятно, есть возможности для дальнейшего улучшения, но это значительное улучшение по сравнению с ошибкой наилучшего дерева решений, равной 250 000. Существуют параметры, которые позволяют изменять производительность случайного леса так же, как мы изменяли максимальную глубину одиночного дерева решений. Но одна из лучших особенностей моделей случайных лесов заключается в том, что они, как правило, работают разумно даже без такой настройки.

# ваш ход
Попробуйте сами использовать модель случайного леса и посмотрите, насколько это улучшит вашу модель.