*Contenuti*
===
- [Scikit-learn: machine learning con Python](#Scikit-learn:-machine-learning-con-Python)
    - [Il dataset *iris*](#Il-dataset-iris)
        - [*Esercizio 1*](#Esercizio-1)
    - [Feature scaling](#Feature-scaling)
        - [*Esercizio 2*](#Esercizio-2)
    - [Insiemi di addestramento e test](#Insiemi-di-addestramento-e-test) 
    - [Un modello per la classificazione](#Un-modello-per-la-classificazione)
        - [Addestramento](#Addestramento)
        - [Predizione](#Predizione)
        - [Valutazione](#Valutazione)
    - [Dai dati alla predizione](#Dai-dati-alla-predizione)
        - [*Esercizio 3*](#Esercizio-3)        
    - [Validazione](#Validazione)
    - [Alberi di decisione](#Alberi-di-decisione)
        - [*Esercizio 4*](#Esercizio-4)

Scikit-learn: machine learning con Python
===

*Scikit-learn* (o *sklearn*) è uno dei principali strumenti Python per il machine learning, ed è una delle librerie open-source di data science più usate al mondo.

Sul [sito](http://scikit-learn.org/stable/) si trovano svariati modelli di machine learning, insieme a strumenti di preprocessing, analisi e visualizzazione dei dati. 

Ciascuna implementazione fa riferimento ad una [guida utente](https://scikit-learn.org/stable/user_guide.html#user-guide) molto dettagliata, che associa al codice la teoria necessaria per capirlo e usarlo.

Teoria e codice sono spesso supportati da [esempi pratici](http://scikit-learn.org/stable/auto_examples/).

Il dataset *iris*
---

Iniziamo sfruttando i *toy dataset* messi a disposizione dalla libreria. Il modulo *datasets* ne contiene diversi. Se, dopo averlo importato, scriviamo

                datasets.
                
e premiamo il tasto di autocomplemento, possiamo dare un'occhiata a cosa offre.

In [1]:
from sklearn import datasets

iris = datasets.load_iris()

Attraverso la funzione *load_iris* abbiamo caricato dentro una variabile un intero dataset. L'oggetto così creato sarà simile a un dizionario (Lezione 5), cioè a un insieme di coppie chiave/valore.

Dati ed etichette sono associati rispettivamente alle chiavi *data* e *target*.

In [2]:
X = iris['data']
y = iris['target']

print(X.shape, y.shape)

(150, 4) (150,)


Dentro al dizionario ci sono altri oggetti utili. Alla chiave DESCR è associata una descrizione del dataset.

In [3]:
print(iris['DESCR'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

Vediamo come sono fatti i dati, stampando i primi dieci esempi etichettati.

In [4]:
for i, x in enumerate(X[:10]):
    print('feature: {} label: {}'.format(x, y[i]))

feature: [5.1 3.5 1.4 0.2] label: 0
feature: [4.9 3.  1.4 0.2] label: 0
feature: [4.7 3.2 1.3 0.2] label: 0
feature: [4.6 3.1 1.5 0.2] label: 0
feature: [5.  3.6 1.4 0.2] label: 0
feature: [5.4 3.9 1.7 0.4] label: 0
feature: [4.6 3.4 1.4 0.3] label: 0
feature: [5.  3.4 1.5 0.2] label: 0
feature: [4.4 2.9 1.4 0.2] label: 0
feature: [4.9 3.1 1.5 0.1] label: 0


### *Esercizio 1*
Esplorare il contenuto di iris e di altri dataset.

Feature scaling
---
Come si vede dalla descrizione di iris, le feature hanno ordini di grandezza diversi.

### *Esercizio 2*
Estrarre, per ogni feature del dataset iris, i valori minimo e massimo osservati sul training set (e controllare che siano uguali a quelli della descrizione).

In [5]:
import numpy as np

#FILL ME

Tra gli strumenti di preprocessing di sklearn, troviamo alcune utilità per normalizzare i dati. Usiamo *MinMaxScaler* per scalare tutte le feature tra 0 e 1. 

In [7]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

scaler.feature_range

(0, 1)

In [8]:
X = scaler.fit_transform(X)

print(np.min(X, axis=0))
print(np.max(X, axis=0))

[0. 0. 0. 0.]
[1. 1. 1. 1.]


Insiemi di addestramento e test
---
Prima di passare all'addestramento, dividiamo i dati in training e test set. 

Come sono stati ordinati gli esempi del dataset?

In [9]:
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

Mescoliamo (coerentemente!) i dati con la funzione *shuffle*.

In [10]:
from sklearn.utils import shuffle#importo singola funzione dal modulo

X, y = shuffle(X, y, random_state=0)#controllo del generatore random

for i, x in enumerate(X[:10]):
    print('feature: {} label: {}'.format(x, y[i]))

feature: [0.41666667 0.33333333 0.69491525 0.95833333] label: 2
feature: [0.47222222 0.08333333 0.50847458 0.375     ] label: 1
feature: [0.33333333 0.91666667 0.06779661 0.04166667] label: 0
feature: [0.83333333 0.375      0.89830508 0.70833333] label: 2
feature: [0.19444444 0.58333333 0.08474576 0.04166667] label: 0
feature: [0.55555556 0.54166667 0.84745763 1.        ] label: 2
feature: [0.19444444 0.625      0.05084746 0.08333333] label: 0
feature: [0.66666667 0.45833333 0.62711864 0.58333333] label: 1
feature: [0.69444444 0.33333333 0.6440678  0.54166667] label: 1
feature: [0.5        0.33333333 0.50847458 0.5       ] label: 1


Prendiamo i primi due terzi dei dati mescolati (100) per l'addestramento e i restanti (50) per il test.

In [11]:
X_train = X[:100]#i primi 100 esempi (righe)
X_test = X[100:]#gli altri

print(X_train.shape, X_test.shape)

(100, 4) (50, 4)


Stesso discorso per le etichette.

In [12]:
y_train = y[:100]
y_test = y[100:]

print(y_train.shape, y_test.shape)

(100,) (50,)


Un modello per la classificazione
---
Siamo pronti per l'addestramento. Costruiamo un modello $k$*-nearest neighbors* (KNN) per la classificazione.

In [2]:
from sklearn.neighbors import KNeighborsClassifier as KNN

model = KNN()

KNeighborsClassifier()


Abbiamo invocato una funzione speciale, chiamata *costrutture*, che inizializza (in questo caso senza parametri) un classificatore KNN. Possiamo vedere

- dalla [documentazione](http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)
- oppure posizionando il puntatore del mouse dentro le parentesi del costruttore e premendo Shift e due volte Tab,

che questa funzione prende in ingresso diversi parametri, nessuno dei quali obbligatorio. Per esempio, il numero di vicini $k$ (chiamato *n_neighbors*) vale di default 5.

Ciascuna proprietà può essere indicata in fase di costruzione.

In [14]:
model.n_neighbors

5

In [15]:
model = KNN(n_neighbors=3)

model.n_neighbors

3

### Addestramento

Tramite la funzione *fit* addestriamo il modello sui dati di apprendimento.

In [17]:
model.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=3, p=2,
           weights='uniform')

### Predizione

Una volta addestrato, usiamo il modello per predire la classe degli esempi del test set.

In [18]:
predictions = model.predict(X_test)

predictions.shape

(50,)

In [19]:
predictions

array([0, 0, 1, 2, 2, 0, 0, 0, 1, 1, 0, 0, 1, 0, 2, 1, 2, 1, 0, 2, 0, 2,
       0, 0, 2, 0, 2, 1, 1, 1, 2, 2, 2, 1, 0, 1, 2, 2, 0, 1, 1, 2, 1, 0,
       0, 0, 2, 1, 2, 0])

### Valutazione

Infine, valutiamo le prestazioni del modello addestrato sull'insieme di test, confrontando le predizioni con le (vere) etichette.

In [17]:
from sklearn.metrics import accuracy_score

acc = accuracy_score(y_test, predictions)
print('Model accuracy on test set:', acc)

Model accuracy on test set: 0.96


Dai dati alla predizione
---

Ecco tutto quello che ci serve, con sklearn, per costruire un modello di classificazione a partire da un dataset.

In [22]:
#Importo librerie
from sklearn import datasets
from sklearn.preprocessing import MinMaxScaler
from sklearn.utils import shuffle
from sklearn.neighbors import KNeighborsClassifier as KNN
from sklearn.metrics import accuracy_score

#Carico il dataset
iris = datasets.load_iris()
X, y = iris['data'], iris['target']

#Scalo le feature tra 0 e 1
scaler = MinMaxScaler()
X = scaler.fit_transform(X)

#Separo train e test
X, y = shuffle(X, y, random_state=0)
X_train, X_test = X[:100], X[100:]
y_train, y_test = y[:100], y[100:]

#Addestro il modello
model = KNN(n_neighbors=3).fit(X_train, y_train)

#Ottengo predizioni e valuto l'accuratezza del modello
predictions = model.predict(X_test)
print('Model accuracy on test set:', accuracy_score(y_test, predictions))

Model accuracy on test set: 0.96


### *Esercizio 3*
Ripetere quanto visto fin qui lavorando sul dataset *diabetes*. Utilizzare KNN per la regressione (*KNeighborsRegressor*) e il *mean absolute error* come metrica di valutazione.

In [23]:
from sklearn.neighbors import KNeighborsRegressor as KNN
from sklearn.metrics import mean_absolute_error

diabetes = datasets.load_diabetes()

#FILL ME

Validazione
---
Torniamo alla classificazione di iris e calibriamo il valore di $k$. Abbiamo bisogno di un insieme di validazione.

In [26]:
from sklearn.neighbors import KNeighborsClassifier as KNN

#Carico il dataset
iris = datasets.load_iris()
X, y = iris['data'], iris['target']

#Scalo le feature tra 0 e 1
scaler = MinMaxScaler()
X = scaler.fit_transform(X)

#Separo train , validation e test
X, y = shuffle(X, y, random_state=123)
X_tr, X_val, X_test = X[:75], X[75:100], X[100:]
y_tr, y_val, y_test = y[:75], y[75:100], y[100:]

print(X_tr.shape, X_val.shape, X_test.shape)

(75, 4) (25, 4) (50, 4)


Ipotizziamo dei valori per $k$ e scegliamo quello che dà un risultato migliore sull'insieme di validazione.

In [27]:
for k in [1,2,3,5,10]:
    model = KNN(n_neighbors=k)
    model.fit(X_tr, y_tr)
    predictions = model.predict(X_val)
    validation_accuracy = accuracy_score(y_val, predictions)
    print('Validation accuracy with k {}: {:.2f}'.format(k, validation_accuracy))                  

Validation accuracy with k 1: 0.92
Validation accuracy with k 2: 0.96
Validation accuracy with k 3: 0.92
Validation accuracy with k 5: 0.92
Validation accuracy with k 10: 0.92


Costruiamo un modello con il miglior $k$ e otteniamo le predizioni sul test.

In [29]:
best_model = KNN(n_neighbors=2)
best_model.fit(X_tr, y_tr)
predictions = best_model.predict(X_test)

print('Test accuracy:', accuracy_score(y_test, predictions))

Test accuracy: 0.96


Alberi di decisione
---
Costruiamo adesso un *albero di decisione* (DT) ed utilizziamolo per la classificazione.

In [3]:
from sklearn.tree import DecisionTreeClassifier as DT

model = DT()

DecisionTreeClassifier()

In [37]:
predictions = model.fit(X_train, y_train).predict(X_test)
accuracy = accuracy_score(y_test, predictions)

print('Accuracy on test set: {:.2f}'.format(accuracy))

Accuracy on test set: 1.00


Notare come tutti i modelli di sklearn espongano le stesse funzioni.

### *Esercizio 4*

Provare a ripetere quanto visto per KNN, validando la profondità massima (*max_depth*) di un albero di decisione.

<script>
  $(document).ready(function(){
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('div.prompt').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#999; background:#fff;">
Created with Jupyter.
</footer>