<a href="https://colab.research.google.com/github/AlbertoBassanoni/MLPNS_ABassanoni/blob/main/MLPNS23_Lesson_13_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tree Methods:

Un modello tipico di supervised ML è la classification, in cui l'obbiettivo è classificare con una serie di labels dei subsets di variabili. Ad esempio il colore dei punti di un plot. Un metodo possibile che abbiamo visto è l'SVM, un metodo che utilizza un iperpiano che separa in maniera ottimale le variabili, e funziona bene quando si definisce una funzione polinomiale che crea i contorni dell'iperpiano (in 2D è una linea). Per alcuni tipi di variabili, come quelle categoriche, non è così utile. Il K Nearest Neighbors è più utile in quanto non separa lo spazio delle features, ma assegna delle classi ai neighbours più vicini (a distanza minore). E' un algoritmo che si utilizza anche per la scelta dei film preferiti su Netflix. 

Un algoritmo che vediamo oggi sono i tree methods, ovverosia algoritmi che splittano gli spazi lungo gli assi separatamente. E' tipicamente una flow chart, ossia una serie di selezioni binarie in cui il risultato della selezione precedente guida quella successiva. Ogni variabile nello spazio è considerata singolarmente. 

Ad esempio se nel mio spazio delle features il mio obiettivo della ricerca è il colore, faccio prima una ricerca sulla base di x, e poi sulla base di y:

if x <= a:

	if y <= b:

      		return blue

return orange

Gli algoritmi che si usano per individuare delle particelle in fisica delle alte energie sono dei gradient boosted trees, ed offrono una facilità notevole di implementazione, poiché permettono di classificare in base al peso, al flavour e al colore di una particella cosa abbiamo a che fare.

# Classification and Regression Trees

## Single Tree:

Non utilizzero mai un singolo albero, poiché nella realtà il pacchetto di SKlearn usa un ensemble di single trees. L'esempio che facciamo è predirre la sopravvivenza dei passeggeri del Titanic in base alle caratteristiche del passeggero. Utilizzeremo i dati della Kaggle challenge per riprodurre questo modello. i dati distribuiti sono:

- genere (uomo o donna, codificata come variabile categorica binaria)
- classe del ticket (prima, seconda, terza classe, codificata come una variabile categorica)
- età (codificata come una continous variable)

Inizialmente ho 714 passeggero, con 424=Ns survivors e Nd=290 numero di morti. Si inizia dividendo il numero di Ns e Nd in male and female. Sono morti più passeggeri di gender male che gender female. Posso calcolare la probabilità di morte tra un passeggero maschio e un passeggero femmina, definendo una purità come:

**$p=\frac{N_{largest class}}{N_{total set}}$**

In questo caso:

**$M p=79%$**
**$F p=75%$**

Scegliendo come variabile categorica la classe del passeggero, ho la purity pari a:

**$1° p=66%$**
**$2°,3° p=54%$**

Invece scegliendo l'age con una threshold di 6.5 anni, ho che per:

**$<6.5 p=66%$**
**$>6.5 p=61%$**

Il modello migliore è chiaramente quello con maggior purità. Una tecnica che posso fare è suddividere più volte le mie variabili. Ad esempio prima sull'età, poi sul ticket class, e poi sull'age. Combinando un po' di scelte, possiamo scegliere quali siano i nodi con maggior purità, combinando un po' le possibili scelte fino a che non arrivo a una purity **p** soddisfacente. Può diventare complicato nel caso in cui io abbia delle variabili continue, perché come scelgo la threshold di una variabile continua? Ne ho infinite, e quindi dovrei avere un infinito tempo per esplorarle tutte!

Il problema degli algoritmi ad albero è proprio questo: non posso fare un'esplorazione esaustiva delle threshold di tutte le variabili, specie se tutte continue! Quindi il problema è questo: differenti alberi conducono a diversi risultati! Devo dunque introdurre della randomness nel mio algoritmo per tenere conto di questo fattore. Per questo motivo non si usa mai un singolo albero. Cosa si usa in genere? Si usano due tipi di modelli:

RANDOM FORESTS

GRADIENT BOOSTED TREES

Un albero è un hierarchical clustering model, in cui c'è una radice e dei nodi con delle branche successive. Ogni decisione binaria si chiama node, quello iniziale si chiama root node, e il raggruppamento con gli splitting dei nodes si chiama branch, mentre i nodes finali sono le leafs. 

Quali sono gli hyperparameters tipici di un tree? Quali variabili utilizzare, e quali sono le threshold? Ci sono:

- criterio, nel nostro caso assunto come la purità, ma non è l'unica, la scelta più comune è il Gini criteria, oppure l'information entropy di Shannon;

- max_depth, cioè numero massimo di ramificazioni dei nostri trees. Perché mai dover dare un massimo? Per evitare overfitting, e far sì che rientri nel nostro fitting anche il noise e non la fisica interessante del sistema. Esistono tecniche per la classificazione dell'overfitting (tipicamente lo fisso su valori bassi, tipo 5, 7 etc... Lo setto a valori bassi solo per feature spaces ad altissima dimensionalità);


## Trees and Regression:

Se voglio fare regression con i trees bisogna stare attenti a settare basso il max_depth, altrimenti rischio di fare overfitting e di fittare anche gli outliers dovuti al rumore. Nell'esempio in figura con max_depth=2 ho una curva più buona rispetto a quella con max_depth=5. 

## Ensemble Methods:

I greedy models sono dei modelli in cui localmente cerco di ottimizzare i miei parametri. Di per sé, il singolo albero è un modello greedy, perché localmente ottimizza i parametri. 

La funzione che utilizzeremo è:

sklearn.tree.DecisionTreeClassifier

Questo modello viene fatto runnare N volte, e si utilizza un risultato collettivo da questi alberi. E' molto comune utilizzare degli ensemble methods, cioè faccio andare diverse versioni dello stesso modello con piccoli cambiamenti, che possono essere di natura progressiva o stocastica (ad esempio assegno casualmente al mio albero un subset di dati), ed estraggo dei risultati collettivi con cui aggregare le decisioni. 

Ci sono in generale due possibili ensemble methods:

RANDOM FOREST:

- Fa runnare degli alberi che vanno in parallelo;

- Ogni albero usa un subset random di osservazioni/features (nome della randomizzazione: bootstraps or bagging);

- Per la classificazione si decide per maggioranza, e si può utilizzare un metodo probabilistico per l'estrazione dei dati che mi interessano;

- Si usa il comando sklearn.ensemble.RandomForestClassifier

GRADIENT BOOSTED TREES:

- Fa runnare degli alberi che vanno in serie;

- Ogni albero usa dei pesi diversi per i features imparando i pesi dall'albero precedente (cioé è progressivo);

- L'ultimo albero contiene la predizione per la classificazione;

- Si usa il comando sklearn.ensemble.GradientBoostingClassifier 


Tipicamente i gradient boosted trees sono gli algoritmi migliori per i problemi di classificazione. Si possono utilizzare anche come regressors.  