Cerchiamo di introdurre il gergo del machine learning utilizzando Scikit Learn e, contestualmente, un semplice esempio.

## Introduzione al problema

In generale, un problema di apprendimento considera un insieme di $n$ campioni di dati, e prova a predire le proprietà associate a dati sconosciuti. Se ogni campione è rappresentato da più di un singolo numero e, per esempio, da un ingresso multi-dimensionale (ovvero, dati multivariati), ha più attributi, o *feature*.

I problemi di machine learning ricadono in alcunee categorie ben definite:

* i problemi di *apprendimento supervisionato*, nei quali i dati hanno ulteriori attributi che vogliamo predire. Questi problemi possono essere:
    * di classificazione, nei quali i campioni appartengono a due o più classi e vogliamo apprendere come predrire la classe di dati non etichettati. Un esempio di un problema di classificazione è quello del riconoscimento delle cifre scritte a mano, nel quaale l'obiettivo è assegnare un vettore di input ad una o più categorie discrete. Un altor modo di pensare la classificazione è quello di considerarla una forma di apprendimento discrreto e non continuo, dovce vi è un numero limitato di cateogrie, e per ognuno degli $n$ campioni forniti, l'obiuettivo è categorizzarli con la categoria o classe corretta.
    * di regressione: se l'uscita desiderata consiste di una o più variabili continue, il task è chiamato *regressione*. Un esempio di un problema di regressione è la predizione della lunghezza di un salmone in funzione della sua età e peso.
* i problemi di *apprendimoento non supervisionato* nei quali i dati di trainign sono un insieme di vettori di input $x$ senza i corrispodnenti valori di classe. L'obiettivo in questi problemi può essere scoprire gruppi di esempi simili nei dati (clustering), o determinare la distribuzione dei dati all'interno dello spazio di input (density estimation), o proiettare i dati da uno spazio ad alta dimensionalità in uno spazio a due o tre dimensioni per lo scopo di visualizzazione.

**Insiemi di trianig e testing**

Il machine learning riguarda l'apprendiemnto di alcune proprieàt di un dataset e quindi il test di queste proprietà rispetto ad un altro dataset. Una pratica comune nel machine learning è quella di valutare un algoritmo suddividendo un dataset in due. Chiamiamo uno di questi set il set di training, sul quale apprendiamo la relazione tra le feature, e chiamiamo l'altro set di testing, sul quale testimo le proprietà apprese.

##### Caricamento di un dataset di esempio

Anche scikit-learn ha alcuni dataset standard, ad esempio, iris e digits per la classificazione, e diabetes per la regressione.

Proviamo a caricare i primi due.

In [1]:
from sklearn import datasets
iris = datasets.load_iris()
digits = datasets.load_digits()

Abbiamo già visto che un dataset è un oggetto che contiene i dati riguardanti il nostro problema, assieme ad alcuni metadati riguardanti gli stessi. I datis ono memorizzati nel campo data, che è un array di dimensioni n_samples, n_featuers. Nel caso dei problemi supervisionati, una o più variabili risposta sono memorizzate nel cmampo target.

Per esempio, nel caso del dataset digits, digits.data dà accesso alle feature che possono essere suate per classificare gli esempi di cifre:

In [None]:
print(digits.data)

mentre digits.target ci dà il *ground truth* per il dataset, ovvero il numero corrispodnente ad ogni immagine che stiamo provando ad apprendere:

In [None]:
print(digits.target)

##### Apprendimento e predizione

Nel caso del dataset digits, il task è quello di predire, data un'immagine, quale cifra questa rappresenti. Abbiamo dei campioni di 10 possibili classi (le cifre da zero a nove) sulle quali effettuiamo il fitting di uno stimatore per essere in grado di predire le classi per sapere a quali classi apaprtengono.

In scikit-learn, uno stimatore per la classificazione è un oggetto Python che implementa i metodi fit(X, y) e predict(T).

Un esempio di uno stimatore è la classe sklearn.svm.SVC, che implementa le support vector machine. Il costruttore dello stimatore prende come argomento i parametri del modello.

Per adesso, consideriamo lo stimatore come una black box:

In [None]:
from sklearn import svm
clf = svm.SVC(gamma=0.001, C=100.)

**Scelta dei parametri del modello**

Impostiamo manualmente il valore di gamma. Per trovare dei buoni valori per questi parametri, possiamo usare degli strumenti come la grid search, o la cross validazione.

Il classificatore viene prima fittato sul modello; ovvero, deve *apprendere* dal modello. Questo è fatto passando il nostro set di training al metodo fit. Per il set di traiing, useremo tutte le immagini nel nostro dataset, eccetto per l'ultima, che riserveremo per le nsotre predizioni. SEelzionaimo il trianing set usando [:-1], che produce un nuovo array che cointiene tutti gli ultimi oggetti da digits.data:

In [None]:
clf.fit(digits.data[:-1], digits.target[:-1])

Possiamo adesso *preidre* dei nuovi valori. In questo caso, prediremo usando l'ultima immagine di digits.data. Effettuando la predizione, determineremo l'immagine dal training set che combacia al meglio con l'ultima immagine.

In [None]:
clf.predict(digits.data[-1:])

L'immagine corrispondente è data da:

In [None]:
# CODICE PER MOSTRARE IMMAGINE

Come possiamo vedere, le immagini sono a bassa risolzuione, per cui il task è complesso.
