# Regrese s využitím Random forest

Pro ilustraci použití rozhodovacích stromů použijeme opět data set cen nemovitostí a knihovnu ScikitLearn. Výsledek porovnáme s lineární regresí.

## Načteme trénovací a testovací data do DataFramu Pandas.

* **Stav** je stav budovy na škále 1 až 10, kde 1 je nejhorší a 10 nejlepší.
* **plocha** je obytná plocha budovy v metrech čtverečních
* **rok_stavby** je rok výstavby domu
* **rok_prodeje** je rok, ve kterém byl dům prodaný
* **cena** je cena v milionech Kč, za kterou se dům prodal

In [1]:
import pandas as pd
data = pd.read_csv("https://raw.githubusercontent.com/mlcollege/ai-academy/main/06-Regrese/data/ceny_domu.csv", sep=',')
data.head()

Unnamed: 0,kvalita,plocha,rok_stavby,rok_prodeje,cena
0,7,158,2003,2008,5.21
1,6,117,1976,2007,4.54
2,7,165,2001,2008,5.59
3,7,159,1915,2006,3.5
4,8,204,2000,2008,6.25


## Rozdělíme si data na trénovací a testovací

In [2]:
from sklearn.model_selection import train_test_split

input_features = ['kvalita', 'plocha', 'rok_stavby',	'rok_prodeje']
target_feature = 'cena'

X_train, X_test, y_train, y_test = train_test_split(data[input_features], data[target_feature], test_size=0.1)
print('Velikost trenovaci mnoziny: {}'.format(len(X_train)))
print('Velikost testovaci mnoziny: {}'.format(len(X_test)))

Velikost trenovaci mnoziny: 1314
Velikost testovaci mnoziny: 146


## Trénování a predikce

Nyní si vytvoříme instanci modelu lineární regrese i random forest a modely natrénujeme.


In [3]:
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

Random forest se v knihovně ScikitLearn používá podobným způsobem jako lineární regrese. Nejdůležitejším parametrem je počet stromů (*n_estimators*). Seznam všech přípustných parametrů je k dispozici v [dokumentaci](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html).

In [4]:
from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor(n_estimators=50)
rf.fit(X_train, y_train)

RandomForestRegressor(bootstrap=True, ccp_alpha=0.0, criterion='mse',
                      max_depth=None, max_features='auto', max_leaf_nodes=None,
                      max_samples=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      n_estimators=50, n_jobs=None, oob_score=False,
                      random_state=None, verbose=0, warm_start=False)

## Vyhodnocení kvality modelu

Nakonec provedeme predikce pro testovací data a porovnáme výsledky. Pro porovnání použijeme MAE i RMSE. V obou případech dosahují random forest lepších výsledků. V případě menšího počtu stromů to tak ale být nemusí. Zkuste s hodnotami parametru *n_estimators* experimentovat.

In [5]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

lr_pred = lr.predict(X_test)
rf_pred = rf.predict(X_test)

print ("Linearni regrese MAE: {}, MSE: {}".format(mean_absolute_error(y_test, lr_pred), mean_squared_error(y_test, lr_pred, squared=False)))
print ("Random forest MAE: {}, MSE: {}".format(mean_absolute_error(y_test, rf_pred), mean_squared_error(y_test, rf_pred, squared=False)))

Linearni regrese MAE: 0.6578472596904307, MSE: 0.8588766801030574
Random forest MAE: 0.5328928962818005, MSE: 0.74871399470129
