## DECISION TREES AND RANDOM FORESTS
In questo notebook, esploreremo alberi di decisione e foreste casuali, in Python, sul dataset Iris.

Un notebook è fatto da un insieme di celle, ognuna delle quali contiene o testo o codice. Le celle si eseguono o scegliendo run dal menu o premendo SHIFT+INVIO

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import tree, ensemble
import seaborn as sns
import matplotlib.pyplot as plt
from dt_aux import plot_tree, plot_decision_tree, plot_random_forest

Ora carichiamo il dataset Iris e lo visualizziamo con un pairplot, che mostra per ogni coppia di features dei grafici di dispersione, nonchè una distribuzione del valori di ogni feature per classe. 

In [None]:
iris = sns.load_dataset("iris")

In [None]:
features = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
ax = sns.pairplot(data=iris, hue="species")

Facciamo ora uno zoom su lunghezza e larghezza dei petali (`petal_length` e `petal_width`) con uno scatterplot (colorando rispetto al tipo o classe di Iris)

In [None]:
_ = sns.scatterplot(x="petal_length", y="petal_width", data=iris, hue="species") 

Dividiamo ora in modo casuale il dataset in due parti, `train` e `test` (circa 2/3 ed 1/3 dei dati), usando una funzione della libreria `scikit-learn`, che contiene molti metodi di machine learning e di ausilio alle analisi. Visualizziamo poi 10 elementi del dataset di train. 

In [None]:
train,test = train_test_split(iris,test_size=0.33,stratify=iris['species'])
train.head(10)

Vediamo ora la media per ogni feature, raggruppata per specie, usando i metodi di una libreria per la gestione dei dati, `pandas`.

In [None]:
train.groupby('species').mean()

Ora fissiamo la profondità dell''albero, inizializziamo un classificatore e lo addestriamo sul dataset di train. 

In [None]:
profondita = 2
clf = tree.DecisionTreeClassifier(max_depth=profondita)
clf = clf.fit(train[features], train['species'])
classes = iris['species'].unique()
plot_tree(clf,features,classes)

Qui vediamo accuracy di training e sul test set. Questa seconda è la cosa più rilevante. 

In [None]:
print("Train accuracy:",clf.score(train[features], train['species']))
print("Test accuracy:",clf.score(test[features], test['species']))

Qui visualizziamo la superficie di decisione, imparando un albero su due sole features, definite nella variabile `feature_set`. La variabile `profondita` regola la profondità dell'albero. 

In [None]:
feature_set = ['sepal_width','sepal_length']
profondita = 2
plot_decision_tree(train,test=test,pair=feature_set,max_depth=profondita,classes=classes)

Se  inizializziamo `profondita` a `None`, l'albero avrà profondità massima. 

In [None]:
profondita = None
plot_decision_tree(train,test=test,pair=feature_set,max_depth=profondita,classes=classes)

Ora invece inizializziamo una random forest con 100 alberi di profondità 1 e la addestriamo sul dataset di train, valutandola su quello di test.

In [None]:
profondita = 1
clf_rf = ensemble.RandomForestClassifier(n_estimators=100,max_depth=profondita)
clf_rf = clf_rf.fit(train[features], train['species'])
print("Test accuracy:",clf_rf.score(test[features], test['species']))

Infine visualizziamo la superficie di decision per la random forest e due features, sempre per 100 alberi a profondità 1.

In [None]:
profondita = 1
clf_rf = ensemble.RandomForestClassifier(n_estimators=100,max_depth=profondita)
feature_set = ['petal_width','petal_length']
plot_random_forest(clf_rf,train,test=test,pair=feature_set,classes=classes)