# Klasifikácia pomocou zložených modelov - Random Forests

Random Forests predstavujú v súčasnosti jeden z najpoužívanejších klasifikačných modelov. Sciki-learn obsahuje implementáciu tohoto algoritmu v triede `RandomForestClassifier`. Tento klasifikátor sa používa rovnakým spôsobom, ako ostatné klasifikátory.

Opäť načítame dáta ako v predošlých príkladoch. Tentoraz ale pre algoritmus Random Forests neodstránime redundantné atribúty a ponecháme aj nominálny atribút `Deck` (aj s chýbajúcimi hodnotami) a transformujeme ho pomocou One Hot Encoderu. 

In [1]:
# Titanic import a preprocessing

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

titanic = pd.read_csv("../data/titanic-processed.csv")

titanic = titanic.drop(columns=['ticket', 'cabin'])

titanic['sex'] = titanic['sex'].map({"male": 0, "female": 1})
titanic['has_family'] = titanic['has_family'].map({False: 0, True: 1})

titanic['fare_ordinal'] = titanic['fare_ordinal'].map({"normal": 0, "more expensive": 1, "most expensive": 2})
titanic['age_ordinal'] = titanic['age_ordinal'].map({"child": 0, "young": 1, "adult": 2, "old": 3}) 

titanic = pd.get_dummies(titanic, columns=['embarked', 'title_short', 'deck', 'title'])

titanic.head()

Unnamed: 0,pclass,survived,sex,age,sibsp,parch,fare,family,has_family,fare_ordinal,...,title_Master,title_Miss,title_Mlle,title_Mme,title_Mr,title_Mrs,title_Ms,title_Rev,title_Sir,title_the Countess
0,1,1,1,29.0,0,0,211.3375,0,0,2,...,0,1,0,0,0,0,0,0,0,0
1,1,1,0,0.92,1,2,151.55,3,1,2,...,1,0,0,0,0,0,0,0,0,0
2,1,0,1,2.0,1,2,151.55,3,1,2,...,0,1,0,0,0,0,0,0,0,0
3,1,0,0,30.0,1,2,151.55,3,1,2,...,0,0,0,0,1,0,0,0,0,0
4,1,0,1,25.0,1,2,151.55,3,1,2,...,0,0,0,0,0,1,0,0,0,0


Model môžeme upravovať viacerými parametrami. Keďže sa jedná o model, ktorý tvorí množstvo rôznych stromových klasifikátorov na rôznych podmnožinách vstupných dát, väčšina parametrov bude identická s rozhodovacími stromami: 
* `n_estimators` - počet stromov v "lese"
* `bootstrap` - 
* `oob_score` - True/False - či používať alebo nie out-of-bag príklady na odhad presnosti
* `criterion` - kritérium pre voľbu atribúrov - "gini", "entropy"
* `max_depth` - maximálna hĺbka stromu (ak je nastavená na None, expanduje sa plný strom)
* `min_samples_split` - najmenší počet príkladov potrebných pre vetvenie uzlu
* `min_samples_leaf` - najmenší možný počet príkladov v listovom uzle

In [2]:
X_titanic = titanic.drop('survived', axis=1) # vytvoríme maticu príznakov - použijeme všetky stĺpce okrem cieľového atribútu a uložíme do X_titanic
y_titanic = titanic['survived'] # vytvoríme vektor hodnôt cieľového atribútu ako stĺpec 'survived'

print(X_titanic.shape) # pre kontrolu môžeme vypísať rozmery matice hodnôt a vektora cieľového atribútu
print(y_titanic.shape)

from sklearn.model_selection import train_test_split # importujeme funkciu train_test_split()
X_train, X_test, y_train, y_test = train_test_split(X_titanic, y_titanic, test_size=0.3, random_state=1) # rozdelíme dataset do trénovacej a testovacej časti, tak že testovacia bude 30% z celkového datasetu

(1309, 43)
(1309,)


In [4]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

rf = RandomForestClassifier(n_estimators=1000, max_depth=3)
rf.fit(X_train, y_train)

y_rf = rf.predict(X_test)

print(f"Presnosť (accuracy) modelu: {accuracy_score(y_test, y_rf)}")
cm = confusion_matrix(y_test, y_rf)
print(cm)

Presnosť (accuracy) modelu: 0.811704834605598
[[203  33]
 [ 41 116]]


Dôležitosť atribútov je podstatný výstup z modelu Random Forest. K dôležitosti atribútov sa dostaneme pomocou `feature_importances_`, ktoré sú súčasťou modelu Random Forest. Môžeme ich usporiadať a vypísať aj s jednotlivými zodpovedajúcimi názvami atribútov.

In [5]:
sorted(zip(rf.feature_importances_, X_train.columns), reverse=True)

[(0.18259046473150967, 'title_Mr'),
 (0.16807793474780075, 'title_short_Mr'),
 (0.15326054268227157, 'sex'),
 (0.06867802522589637, 'pclass'),
 (0.06748131288448211, 'fare'),
 (0.0586874628523425, 'title_Mrs'),
 (0.05690586728220093, 'title_short_Mrs'),
 (0.03831225894145938, 'title_Miss'),
 (0.03779369624935141, 'title_short_Miss'),
 (0.030348067959616244, 'fare_ordinal'),
 (0.023705692327154488, 'sibsp'),
 (0.02354086465406683, 'family'),
 (0.01691624999215083, 'age'),
 (0.008885016302087408, 'embarked_Cherbourg'),
 (0.007505555453005274, 'parch'),
 (0.007430799304087325, 'deck_B'),
 (0.006777575587357481, 'age_ordinal'),
 (0.006698682783248164, 'deck_E'),
 (0.0062440004243571896, 'has_family'),
 (0.006051454474929002, 'embarked_Southampton'),
 (0.0057058771545147515, 'deck_C'),
 (0.0042823815945264325, 'title_Master'),
 (0.0032185365292626356, 'title_short_rare title'),
 (0.0030330167992585816, 'deck_D'),
 (0.002034821415985363, 'title_Rev'),
 (0.0017467974726708508, 'deck_A'),
 (0.

#### Úloha 12.5.

Vyskúšajte natrénovať model Random Forests na dátach Titanic. 
Vyskúšajte rôzne hodnoty parametrov (najmä `n_estimators` nastaviť na rádovo rozdielne hodnoty, napr. 10, 100, 1000). 
Použite ale rôzne nastavenia parametrov stromov - porovnajte Random Forest s nastaveniami stromov, ktoré vyplynuli ako optimálne z predchádzajúcej úlohy. Porovnajte výsledky s Random Forest s takými stromami, ktoré obsahuju veľa plytkých stromov. Líšia sa nejako? 

In [None]:
# YOUR CODE HERE
