# Il modulo `sklearn`

Framework basato su `numpy` (compatibile con `pandas`, `matplotlib` e `seaborn`) che permette di "allenare" e testare modelli per **machine learning**. Alcuni di questi modelli sono

* regressione (lineare e con *feature transformation*);
* alberi decisionali e *random forest*
* clustering ($k$-means, clustering gerarchico, ...)
* reti neurali (non *deep*, ma *shallow*)
* ...

Vi mostrerò qualcuno (due o tre) di questi modelli oltre che introdure la *pipeline* di utilizzo

    Dati -> Pre-proc -> Training -> Testing

**Attenzione** Sebbene `sklearn` contenga il codice per utilizzare *reti neurali*, non va utilizzato per *deep learning*. Per quello ci sono altre librerie (`opencv`, `tensorflow`, ...) di cui, purtroppo, non ho tempo di occuparmi in questo ciclo di seminari.



In [2]:
from sklearn.datasets import load_wine
data = load_wine(as_frame=True)

In [3]:
df = data.frame

## Un po' di "teoria" sul *machine learning*
Ci sono tre tipi principali di tecniche di machine learning:

* **supervised** learning
* **unsupervised** learning
* **reinforcment** learning

Tempo permettendo, vedremo esempi del primo e del secondo tipo. 

L'idea è che i dati contengono le informazioni, ma imparare troppo bene i dati può essere un problema (**overfitting**). Si può mostrare matematicamente che, nella maggior parte dei casi, i dati usati nel *training* devono essere diversi da quelli usati nel *testing*



### Passo 0: scelta di $X$ e $Y$
Una volta che abbiamo un dataset dobbiamo decidere quale saranno i **predittori** (o *feature*) $x_1,x_2,\ldots,x_m$ e quale (quali) sarà (saranno) le (le) varaibile (variabili) dipendenti o **target** $y_1,\ldots,y_p$.

In [None]:
Y = df
X = df

### Passo 1: split train e test
Operazione talmente frquente che in `sklearn` ci sono metodi apposta, vediamo il tipico caso in cui un 80% casuale dei dati si usa per il training ed il restante 20% per il testing.

* Più campioni si uasno per il training meglio sarà il modello ma...
* ...meno campioni si usano per il testing meno sarà affidabile la stima dell'errore.

In [None]:
from sklearn.model_selection import train_test_split

### Passo 2: Training

1. Si sceglie che modello usare: regressione, *decision tree*, *neural network*, ...
2. Si crea un modello **usando solo il training set**
3. Si misura la bontà del modello facendo predizione sul test set

Importante
$$ X_{train} \cap X_{test} = \emptyset $$
così funziona `train_test_split`.

#### Decision Tree e Random Forest

In [None]:
import sklearn.tree
from sklearn.ensemble import RandomForestClassifier

#### Clustering

In [None]:
from sklearn.cluster import KMeans

#### $k$-Nearest Neighbour ($k$-NN)

In [None]:
from sklearn.neighbors import NearestNeighbors

In [None]:
####

#### (Shallow) Neural Network

In [None]:
from sklearn.neural_network import MLPClassifier

## Classificazione vs Regressione

## Overfitting e $k$-Fold Cross-Validation