# Simple Random Forest

### Загружаем наши данные

Нашим датасетом будет информация о жилье в Мельбурне, которая включает в себя множество параметров, например, количество и размер этажей дома, год постройки, общая площадь, цена и многое другое (Все столбцы, можете изучить самостоятельно)

In [17]:
import pandas as pd

# Название файла, который нужно загрузить
path = 'train.csv'

#Загружаем данные
home_data = pd.read_csv(path)

### Выбор цели предсказания

В нашем случае, все более-менее очевидно. Это цена на дом. Обычно, цель предсказания помечают y.

In [18]:
y_train = home_data.SalePrice

### Выбор "Особенностей (Features)"

Столбцы, которые есть в нашей модели и которые в последствии будут использованы для предсказания, называются особенностями (features). В нашем случае, эти колонки будут определять стоимость дома. Обычно используются все колонки, кроме той на которую делается предсказание. Но иногда, лучше выбрать только часть из них.

Мы будет использовать не все столбцы:

In [5]:
feature_columns = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']

Обычно, такие данные обозначаются X:

In [12]:
X_train = home_data[feature_columns]

### Строим модель

Мы будем использовать модуль scikit-learn для создания модели. Scikit-learn одна из самых популярных библиотек для моделирования данных, хранящихся в Датафреймах. 

Для построения модели нужно выполнить следующие шаги:

Определить: Какого типа будет модель? Дерево решений? Какой-то другой тип?
Тренировать: Определить "шаблон" в указанных данных. "Сердце" моделирования.
Предсказать: Предсказать результат
Оценить: Определить насколько точным оказалось предсказывание

В нашем примере, мы будет использовать дерево решений из scikit-learn и тренировать модель с особенностями, выделенными ранее.

In [13]:
from sklearn.tree import DecisionTreeRegressor

# Specify Model
home_model = DecisionTreeRegressor()

# Fit Model
home_model.fit(X_train, y_train)

DecisionTreeRegressor(criterion='mse', max_depth=None, max_features=None,
           max_leaf_nodes=None, min_impurity_decrease=0.0,
           min_impurity_split=None, min_samples_leaf=1,
           min_samples_split=2, min_weight_fraction_leaf=0.0,
           presort=False, random_state=None, splitter='best')

Сравним предсказанные значения с полученными 

In [14]:
print("First in-sample predictions:", home_model.predict(X_train.tail(10)))
print("Actual target values for those homes:", y_train.tail(10).tolist())

First in-sample predictions: [136000. 287090. 146500.  84500. 185000. 175000. 210000. 266500. 142125.
 147500.]
Actual target values for those homes: [136000, 287090, 145000, 84500, 185000, 175000, 210000, 266500, 142125, 147500]


Результаты практически похожи, но кое-где есть отличия. И мы отображаем всего 10 элементов из всей выборки.
Посмотрим на величину ошибки предсказания для тренировочных данных.

In [21]:
from sklearn.metrics import mean_absolute_error

pred = home_model.predict(X_train)
mae = mean_absolute_error(pred, y_train)
print(mae)

62.35433789954339
