# Klasifikácia pomocou zložených modelov - Random Forests

Random Forests predstavujú v súčasnosti jeden z najpoužívanejších klasifikačných modelov. Sciki-learn obsahuje implementáciu tohoto algoritmu v triede `RandomForestClassifier`. Tento klasifikátor sa používa rovnakým spôsobom, ako ostatné klasifikátory.

Opäť načítame dáta ako v predošlých príkladoch. Tentoraz ale pre algoritmus Random Forests neodstránime redundantné atribúty a ponecháme aj nominálny atribút `Deck` (aj s chýbajúcimi hodnotami) a transformujeme ho pomocou One Hot Encoderu. 

In [None]:
# Titanic import a preprocessing

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

titanic = pd.read_csv("../data/titanic-processed.csv")

titanic = titanic.drop(columns=['ticket', 'cabin'])

titanic['sex'] = titanic['sex'].map({"male": 0, "female": 1})
titanic['has_family'] = titanic['has_family'].map({False: 0, True: 1})

titanic['fare_ordinal'] = titanic['fare_ordinal'].map({"normal": 0, "more expensive": 1, "most expensive": 2})
titanic['age_ordinal'] = titanic['age_ordinal'].map({"child": 0, "young": 1, "adult": 2, "old": 3}) 

titanic = pd.get_dummies(titanic, columns=['embarked', 'title_short', 'deck', 'title'])

titanic.head()

Model môžeme upravovať viacerými parametrami. Keďže sa jedná o model, ktorý tvorí množstvo rôznych stromových klasifikátorov na rôznych podmnožinách vstupných dát, väčšina parametrov bude identická s rozhodovacími stromami: 
* `n_estimators` - počet stromov v "lese"
* `bootstrap` - 
* `oob_score` - True/False - či používať alebo nie out-of-bag príklady na odhad presnosti
* `criterion` - kritérium pre voľbu atribúrov - "gini", "entropy"
* `max_depth` - maximálna hĺbka stromu (ak je nastavená na None, expanduje sa plný strom)
* `min_samples_split` - najmenší počet príkladov potrebných pre vetvenie uzlu
* `min_samples_leaf` - najmenší možný počet príkladov v listovom uzle

In [None]:
X_titanic = titanic.drop('survived', axis=1) # vytvoríme maticu príznakov - použijeme všetky stĺpce okrem cieľového atribútu a uložíme do X_titanic
y_titanic = titanic['survived'] # vytvoríme vektor hodnôt cieľového atribútu ako stĺpec 'survived'

print(X_titanic.shape) # pre kontrolu môžeme vypísať rozmery matice hodnôt a vektora cieľového atribútu
print(y_titanic.shape)

from sklearn.model_selection import train_test_split # importujeme funkciu train_test_split()
X_train, X_test, y_train, y_test = train_test_split(X_titanic, y_titanic, test_size=0.3, random_state=1) # rozdelíme dataset do trénovacej a testovacej časti, tak že testovacia bude 30% z celkového datasetu

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

rf = RandomForestClassifier()
rf.fit(X_train, y_train)

y_rf = rf.predict(X_test)

print(f"Presnosť (accuracy) modelu: {accuracy_score(y_test, y_rf)}")
cm = confusion_matrix(y_test, y_rf)
print(cm)

Dôležitosť atribútov je podstatný výstup z modelu Random Forest. K dôležitosti atribútov sa dostaneme pomocou `feature_importances_`, ktoré sú súčasťou modelu Random Forest. Môžeme ich usporiadať a vypísať aj s jednotlivými zodpovedajúcimi názvami atribútov.

In [None]:
sorted(zip(rf.feature_importances_, X_train.columns), reverse=True)

#### Úloha 12.5.

Vyskúšajte natrénovať model Random Forests na dátach Titanic. 
Vyskúšajte rôzne hodnoty parametrov (najmä `n_estimators` nastaviť na rádovo rozdielne hodnoty, napr. 10, 100, 1000). 
Použite ale rôzne nastavenia parametrov stromov - porovnajte Random Forest s nastaveniami stromov, ktoré vyplynuli ako optimálne z predchádzajúcej úlohy. Porovnajte výsledky s Random Forest s takými stromami, ktoré obsahuju veľa plytkých stromov. Líšia sa nejako? 

In [None]:
# YOUR CODE HERE