<a id='start'></a>
# Decision Tree

In questo notebook viene spiegato cosa sono e come possiamo realizzare dei Decision Tree con Python. <br>
<br>
Il notebook è suddiviso nelle seguenti sezioni:<br>
- [Definizione](#section1)
- [Esempio](#section2)
- [Lavoriamo con Python](#section3)

<a id='section1'></a>
## Definizione

I Decision Tree sono dei classificatori che utilizzano il ML supervisionato e che con meccanismi probabilistici offorono supporto nei problemi di decisione. 

Come ogni altro classificatore, i DT sono in grado di predirre un etichetta per un set di dati di esempio. I DT realizzano questo compito esaminando i risultati probabilistici delle caratteristiche dei dati di esempio.


I Decision Tree hanno alcune caratteristiche che li rendono unici:
- Il decision tree è strutturato come un diagramma a flowchart. Ha un solo nodo radice da cui parte la valutazione e può contenere uno o più nodi foglie e diversi nodi interni;
- Ogni nodo del decision tree rappresenta il test di una singola feature dei dati in ingresso. Per esempio, si può verificare se una feature chiamata *age* sia o meno maggiore di 18;
- Ogni bivio nel decision tree connette due nodi, un nodo originario e uno di destinazione. Un bivio rappresenta un risultato del test effettuato sul nodo padre. Nel nostro esempio, se stiamo testando *age > 18*, possiamo avere due possibili bivi: True e False. Ognuno di questi due bivi connetterà il nodo che descrive il test *age > 18 node* con altri due nodi di destinazione.
- Ogni nodo foglia dell'albero di decisione rappresenta una classificazione. L'obiettivo dell'albero è quello di dare un'etichetta ai dati di input e quindi ogni foglia rappresenta l'etichetta assegnata al dato passato nell'albero di decisione.

<a id='section2'></a>
## Esempio

Un insegnante ritiene che ci debba essere una relazione tra il livello di salute dei suoi studenti, il numero di ore di studio e i voti finali. <br>
Per decidere la correlazione, chiede a 75 dei suoi studenti quante ore a
settimana passano a studiare. Sembra ragionevole iniziare con questa domanda, in quanto dovrebbe avere il maggior impatto sui loro voti. <br>

<img src='img/histogram.jpg'> <br>

Fantastico! L'insegnante nota che il 100% degli studenti in difficoltà studia meno di 2,5 ore settimanali. Altrettanto interessante è notare che tra gli studenti che passano il corso, alcuni di loro studiano molto, altri ancora studiano solo a un livello medio. Per classificare correttamente questi studenti, sono sicuramente necessari più dati.

Essendo curioso, l'insegnante chiede agli studenti un'altra domanda: quanto sono attenti alla loro salute, in special modo relativamente al cibo che mangiano, su una scala da 1 a 5? Preferiscono del junk food (1) o mangiare una salutare mela (5)? <br>

<img src="img/decision_tree.jpg"> <br>

Gli studenti iniziano a rispondere e qualcosa attira l'attenzione dell'insegnante. Con una sola eccezione, ogni singolo studente che non prende sul serio le proprie abitudini alimentari e di salute, rispondendo con meno di 3,3 al sondaggio con scala 5, ha voti più bassi.

Come l'insegnante continua a fare domande per scoprire maggiori dettagli sui suoi studenti, noi possiamo classificarli con maggior correttezza. Questo procedimento costruisce alberi decisionali che permettono di tagliare con crescente precisione lo spazio delle caratteristiche delle osservazioni per purificare la classe dei campioni.

Questo è come potrebbe apparire un albero decisionale per l'esempio sopra riportato:

<img src="img/decision_tree_1.jpg"> <br>

Il nodo radice inizia con tutti gli esempi. I valori [25, 25, 25] rappresentano tutti gli studenti dell'insegnante che appartengono a tre classi: scansafatiche, medio e secchione, in quest'ordine.

Al primo nodo, c'è un alto livello di impurità.  La funzione considerata dal nodo radice è il numero di ore trascorse a studiare a settimana e la decisione presa è <= 2.45 o superiore.

In questo albero, ogni ramo sinistro rappresenta una risposta True alla domanda decisionale, e ogni ramo destro è una risposta False. Gli studenti che trascorrono <= 2,45 ore alla settimana appartengono tutti alla prima classe, valore = [25, 0, 0] e quindi il ramo ha un'impurezza di 0,0.

Gli studenti che trascorrono più di 2,45 ore a settimana studiando compongono il resto del corpo studentesco. Gli studenti in questo caso si dividono esattamente a metà tra le due classi.

In altre parole, questo ramo ha valori molto mischiati. Una ulteriore classificazione binaria può essere possibile. Ecco perché l'impurità è impostata al 100% qui. Ma testando la funzione di consapevolezza della salute, l'insegnante è in grado di purificare considerevolmente le selezioni risultanti, in modo tale che solo un campione di uno studente sia classificato erroneamente su entrambi i lati.

<a id='section3'></a>
## Lavoriamo con Python

In [1]:
import pandas as pd

from sklearn import tree
from sklearn.tree import DecisionTreeClassifier

Importiamo un dataset sui funghi dove le diverse specie sono classificate tra commesibili, velenose, di commestibilità sconosciuta o non raccomandate.

Informazioni sul dataset possono essere [trovate qui](https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.names).

Carichiamo il dataset di funghi in X e verifichiamo di averlo fatto correttamente e di non aver incluso alcuna funzione che chiaramente non dovrebbe far parte del set di dati.

In [2]:
X = pd.read_csv("data/agaricus-lepiota.data", na_values='?')
X.head()

Unnamed: 0,p,x,s,n,t,p.1,f,c,n.1,k,...,s.2,w,w.1,p.2,w.2,o,p.3,k.1,s.3,u
0,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
1,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
2,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
3,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g
4,e,x,y,y,t,a,f,c,b,n,...,s,w,w,p,w,o,p,k,n,g


I dati non hanno intestazione. Fixiamo questo problema leggendo i riferimenti nel link fornito precedentemente.

In [3]:
X.columns = ['classification', 'cap_shape', 'cap_surface', 'cap_color', 'bruises', 'odor', 'gill_attachment', 'gill_spacing', 'gill_size', 'gill_color', 'stalk_shape', 'stalk_root', 'stalk_surface_above_ring', 'stalk_surface_below_ring', 'stalk_color_above_ring', 'stalk_color_below_ring', 'veil_type', 'veil_color', 'ring_number', 'ring_type', 'spore_print_color', 'population', 'habitat']
X.head()

Unnamed: 0,classification,cap_shape,cap_surface,cap_color,bruises,odor,gill_attachment,gill_spacing,gill_size,gill_color,...,stalk_surface_below_ring,stalk_color_above_ring,stalk_color_below_ring,veil_type,veil_color,ring_number,ring_type,spore_print_color,population,habitat
0,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
1,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
2,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
3,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g
4,e,x,y,y,t,a,f,c,b,n,...,s,w,w,p,w,o,p,k,n,g


Eliminiamo i valori con NA.

In [4]:
print("Old dataset's shape:", X.shape)
X = X.dropna()
print("New dataset's shape:", X.shape)

Old dataset's shape: (8123, 23)
New dataset's shape: (5643, 23)


Copiamo le etichette della classificazione in un'altra variabile `y` e rimuoviamoli dal dataset `X`.

Possiamo quindi encodare le etichette usando la funzione `.map()`.

In [16]:
y = pd.DataFrame(X['classification'].copy())
y.classification = y.classification.map({'e':0, 'p':1})
X = X.drop(['classification'], axis = 1)
#get_dummies -> Convert categorical variable into dummy/indicator variables
X = pd.get_dummies(X, columns=['cap_shape', 'cap_surface', 'cap_color', 'bruises', 'odor', 'gill_attachment', 'gill_spacing', 'gill_size', 'gill_color', 'stalk_shape', 'stalk_root', 'stalk_surface_above_ring', 'stalk_surface_below_ring', 'stalk_color_above_ring', 'stalk_color_below_ring', 'veil_type', 'veil_color', 'ring_number', 'ring_type', 'spore_print_color', 'population', 'habitat'])

Dividiamo i nostri dati in due sottoinsiemi: `test` e `train`. La numerosità di `test` dovrebbe essere circa il 30%.

In [17]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

Creiamo un classificatore DT:

In [18]:
def dct_f(X_train, y_train):
    dct = tree.DecisionTreeClassifier()
    dct.fit(X_train, y_train)
    
    DecisionTreeClassifier(criterion='entropy', splitter='best', max_depth=9, 
                           min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, 
                           random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, 
                           class_weight=None, presort=False)
    
    return dct

A questo punto possiamo addestrare il classificatore sui dati training; successivamente possiamo utilizzare il classificatore sull'intero dataset di test:

In [19]:
dct = dct_f(X_train, y_train)
score = dct.score(X_test, y_test)
print("High-Dimensionality Score:", score)

High-Dimensionality Score: 1.0


Usa il codice sulla pagina SciKit-Learn del corso per produrre un file .DOT, quindi renderizza il file .DOT in .PNGs.

Avrai bisogno di graphviz installato per farlo. Su macOS, puoi `brew install graphviz`. Su Windows 10, graphviz si installa tramite un programma di installazione .msi che è possibile scaricare dal sito Web graphviz. Inoltre, un editor grafico, gvedit.exe può essere utilizzato per visualizzare l'albero direttamente dal file tree.dot esportato senza dover effettuare una chiamata. Su altri sistemi, usa comandi analoghi.

Se incontri problemi con l'installazione di graphviz o non ne detieni i diritti, puoi sempre visualizzare il tuo file .dot sul sito web: http://webgraphviz.com/.

In [20]:
# With the following sintax we will create a .dot file with the code for visualizing th tree
tree.export_graphviz(dct, out_file='out/tree.dot', feature_names=X.columns)

Possiamo utilizzare il sito Web: http://webgraphviz.com/ e allegare il codice per visualizzare il seguente albero. <br>
<img src="img/decision_tree_3.jpg">

[Clicca qui per tornare all'inizio della pagina](#start)<a id='start'></a>