# Machine Learning Vademecum
## Cos'è il machine learning
Il machine learning (ML) è la disciplina il cui obiettivo è migliorare le prestazioni di un sistema apprendendo dall'esperienza tramite metodi computazionali.  
Non è poi così diverso da quello che anche noi umani facciamo quotidianamente: di continuo ci basiamo su esperienze pregresse per fare predizioni più o meno accurate sulla realtà. 
Ad esempio, sappiamo prevedere con una certa sicurezza se una pesca sia buona o meno, semplicemente guardandola e toccandola, ancor prima di mangiarla.  
La predizione non deriva da un ragionamento logico (altrimenti sarebbe sempre esatta), ma dall'essersi scontrati già più volte con le istanze del problema. 
Questo ci ha fornito, tramite quello che è un **processo induttivo**, un meccanismo risolutivo col quale affrontare istanze nuove, mai incontrate prima.
**Un esempio:**
_"Mi piace la pesca?"_
La risposta a questa domanda deriva da un'esperienza pregressa: ho provato la pesca, magari anche più di una volta, e so dire se mi piace o meno.

Seguendo questo paradigma, l'idea alla base del ML è dare in pasto dei dati ad un cosiddetto **algoritomo di apprendimento**, che li usi per produrre un **modello** in grado di fornire risposte sufficientemente accurate di fronte a nuove istanze del problema. 
Esattamente come le nostre predizioni riguardo alla pesca possono rivelarsi errate, così possono esserlo le risposte fornite dal modello, al quale si associano quindi delle metriche per valutarne le performance.  

Ma perché accontentarsi di una risposta *probabilmente* corretta al posto di una la cui correttezza è dimostrabile logicamente?

## Due situazioni possibili
1. Il **problema** risulta essere **non risolvibile**: non saprei costruire un percorso per arrivare a stabilire se, ad esempio, guardando una foto di una persona, quest'ultima è mia nonna oppure no;
2. Il **problema** so come risolverlo, ma il suo costo risulta essere **insostenibile o proibitivo**: il <a href="https://it.wikipedia.org/wiki/Problema_dello_zaino">Problema dello zaino</a>, ho in mente un metodo intuitivo per risolverlo(fare _brute force_) ma, più oggetti ho, più tempo ci metto.

Torna utile sfruttare il Machine Learning per avvicinarci il più possibile alla soluzione. 
In questo modo non arriveremo a una soluzione esatta, ma possiamo accontentarci degli output che ci fornisce un modello in modo che questi approssimino bene le soluzioni corrette.

## Modalità di apprendimento
1. **Apprendimento supervisionato**: un'osservazione è rappresentata da una coppia $(x, y)$, dove $x$ è un'istanza del problema e $y$ è la soluzione o etichetta (label). Ad esempio, se $x$ è una foto della nonna da classificare, $y$ sarà la risposta sì/no. Esiste una relazione di base chiamata $f$ (ground truth), che collega ogni coppia $(x, y)$ in modo tale che $f(x) = y$. L'obiettivo del modello è approssimare proprio questa funzione $f$. Di conseguenza, l'algoritmo di apprendimento riceve in ingresso un insieme di coppie $\{(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)\}$.

2. **Apprendimento non supervisionato** :

## Due tipologie di modello
Presentiamo molto brevemente due tra le numerose tipologie di modello di ML, anche per illustrare più facilmente alcuni concetti più avanti.

### Albero di decisione
Si tratta di un albero in cui ogni nodo interno rappresenta una decisione basata su una caratteristica (o attributo) dell'esempio, e le foglie rappresentano le classi o le previsioni finali.  
(fissata un’altezza massima) L’algoritmo di apprendimento produce, partendo dai dati, un albero di decisione; deve quindi stabilirne la struttura, le condizioni presenti nei nodi interni e le classi nelle foglie.  
<div style="text-align: center;">
    <img src="images/decision_tree.png" alt="Descrizione" width="400" height="300">
</div>

### KNN
Gli esempi vengono disposti in uno spazio avente una dimensione per ogni possibile caratteristica/attributo delle istanze. Dunque ogni esempio corrisponde ad un punto in questo spazio.  
Per classificare una nuova istanza, rappresentata da un nuovo punto, KNN calcola la distanza tra quest'ultimo e tutti i punti del dataset (solitamente utilizzando la distanza euclidea).
Vengono poi selezionati i $k$ punti più vicini (da qui "$k$-nearest neighbors").
La classe del nuovo punto viene determinata dalla classe più frequente tra i $k$ vicini selezionati nel caso della classificazione, oppure dalla media dei valori nel caso della regressione.  
Nel caso di KNN non c’è una vera e propria fase di allenamento (vedremo poi nel paragrafo dedicato a parametri e iperparametri); semplicemente i dati vengono memorizzati.
<div style="text-align: center;">
    <img src="images/knn.png" alt="Descrizione" width="300" height="200">
</div>

## Parametri e iperparametri
I parametri sono le caratteristiche del modello che vengono definite durante la fase di apprendimento. Gli iperparametri, invece, sono le caratteristiche del modello che devono essere fissate *prima* della fase di apprendimento.

Per gli alberi di decisione, ha senso stabilire come prima cosa un’altezza massima, che costituisce quindi un iperparametro. Fissata quella, l’allenamento stabilisce la topologia, le decisioni presenti nei nodi interni e le classi delle foglie; che sono i parametri. Lo scopo dell'allenamento è trovare i valori ottimali per i parametri del modello.  
Prima dell'allenamento, i parametri hanno valori di default o addirittura casuali; al termine dell'allenamento, i parametri hanno i valori ottimali, ossia quelli che consentono al modello di compiere predizioni accurate.

Nel caso di KNN, non c’è una vera e propria fase di apprendimento; di fatto non ci sono parametri da stabilire. C’è solo un iperparametro, ossia $k$.

Ma se l’algoritmo di apprendimento trova i parametri, come si trovano gli iperparametri?

### Trovare gli iperparametri
In questa sezione prendiamo come riferimento KNN, che ha un solo iperparametro: $k$. Sappiamo che non c’è un vero e proprio allenamento, ma lo includeremo tra le fasi, generalizzando (si può pensare ad una fase di “collocazione dei dati nello spazio”).

Non c’è un modo particolarmente furbo di trovare il valore ottimale di $k$. La cosa migliore da fare è anche la più intuitiva: stabilire un insieme di $n$ possibili valori per $k$ e lanciare un algoritmo di apprendimento per ciascuno di questi valori, generando così $n$ modelli allenati sullo stesso train set $S$. Ciascun modello viene poi valutato e si sceglie quello con la performance migliore.  
Come già discusso (paragrafo “valutare un modello”), non possiamo misurare le performance limitandoci a $S$. Dunque, per scegliere il modello migliore tra gli $n$ generati, ricorriamo ad un cosiddetto **validation set** $V$, disgiunto da $S$. Denotiamo come $k^*$ l'iperparametro del modello che performa meglio.  
Viene poi generato un nuovo modello $m$ avente $k = k^*$, ma allenandolo sull'unione $S \cup V$. Chiaramente più dati si danno in pasto al modello, meglio performerà.  
Infine, si utilizza un apposito test set $T$ per valutare le performance di $m$. Se sono soddisfacenti, si fa un altro “giro” di allenamento, questa volta su $S \cup V \cup T$.

Se si hanno due o più iperparametri, si procede analogamente, testando ogni loro possibile combinazione e scegliendo quella che dà luogo alla performance migliore su $V$. Chiaramente le risorse computazionali richieste aumentano non poco.