*Contenuti*
===
- [Scikit-learn: machine learning con Python](#Scikit-learn:-machine-learning-con-Python)
- [Un modello per la classificazione](#Un-modello-per-la-classificazione)

Scikit-learn: machine learning con Python
===

*Scikit-learn* (o *sklearn*) è uno dei principali strumenti Python per il machine learning ed è la libreria open-source di data science più usata al mondo.

Sulla pagina di sklearn, http://scikit-learn.org/stable/, si trovano svariati modelli di machine learning, insieme a strumenti di preprocessing, analisi e visualizzazione dei dati. 

Ciascuna implementazione fa riferimento ad una guida utente molto dettagliata, che associa al codice la teoria necessaria per capirlo ed usarlo:

http://scikit-learn.org/stable/modules/classes.html.

Oltre a permettere di *usare* il machine learning scrivendo pochissime righe di codice, la libreria è altamente modulare, e dà la possibilità agli utenti di costruire la propria implementazione basandosi su metodi, oggetti ed interfacce esistenti.

Teoria e codice sono spesso supportati da esempi pratici di utilizzo, affiancati da analisi grafiche: http://scikit-learn.org/stable/auto_examples/.

Un modello per la classificazione
---
Costruiamo un modello $K$-nearest neighbors (KNN) per la classificazione, utilizzando l'implementazione sklearn *KNeighborsClassifier*.

In [1]:
from sklearn import neighbors

print(neighbors)

<module 'sklearn.neighbors' from '/home/francesco/anaconda3/lib/python3.6/site-packages/sklearn/neighbors/__init__.py'>


*neighbors* è un *modulo*, ovvero insiemi di oggetti e funzioni con caratteristiche comuni, impacchettati insieme.

Se scriviamo

                neighbors.
                
e premiamo il tasto di autocomplemento possiamo dare un'occhiata agli oggetti contenuti nel modulo. Tra gli altri, vedremo KNeighborsClassifier.

In [2]:
model = neighbors.KNeighborsClassifier()
print(model)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')


Abbiamo chiamato un metodo speciale, chiamato *costrutture*, che inizializza (senza parametri) un oggetto di tipo KNeighborsClassifier. Possiamo vedere

- dalla documentazione: http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html
- posizionando il puntatore del mouse dentro le parentesi del costruttore e premendo Shift e due volte Tab
- stampando l'oggetto creato,

che questa implementazione del classificatore KNN prende in ingresso diversi parametri, nessuno dei quali obbligatorio. Per esempio, il numero di vicini $k$ (chiamato *n_neighbors*) vale di default 5.

In [3]:
model = neighbors.KNeighborsClassifier(n_neighbors=3)
print(model)
print('k:', model.n_neighbors)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=3, p=2,
           weights='uniform')
k: 3


Attraverso il modulo *datasets*, sklearn mette a disposizione diversi dataset, sui quali fare apprendimento e testare un modello.

In [4]:
from sklearn import datasets

iris = datasets.load_iris()
print(type(iris))

<class 'sklearn.utils.Bunch'>


Il tipo *Bunch* è molto simile a un dizionario. Oltre alla matrice delle feature e al vettore delle etichette, troviamo anche qualche informazione sul dataset.

In [5]:
print(iris.keys())

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])


In [6]:
print('Labels:', iris['target_names'])
print('\nFeatures:', iris['feature_names'])
print('\nDescription:', iris['DESCR'])

Labels: ['setosa' 'versicolor' 'virginica']

Features: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

Description: Iris Plants Database

Notes
-----
Data Set Characteristics:
    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20  0.76     0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of

In [7]:
X = iris['data']
y = iris['target']
print(X.shape)
print(y.shape)

(150, 4)
(150,)


In [8]:
for i, x in enumerate(X[:10]) : print(x, y[i])

[5.1 3.5 1.4 0.2] 0
[4.9 3.  1.4 0.2] 0
[4.7 3.2 1.3 0.2] 0
[4.6 3.1 1.5 0.2] 0
[5.  3.6 1.4 0.2] 0
[5.4 3.9 1.7 0.4] 0
[4.6 3.4 1.4 0.3] 0
[5.  3.4 1.5 0.2] 0
[4.4 2.9 1.4 0.2] 0
[4.9 3.1 1.5 0.1] 0


In [9]:
import numpy as np

print(np.bincount(y))#istogramma di occorrenza di valori interi in un array

[50 50 50]


Dividiamo i dati in training e test set. Per prima cosa, mischiamo (coerentemente) i dati in modo casuale col metodo *shuffle*.

In [10]:
from sklearn.utils import shuffle#importo singola funzione

X, y = shuffle(X, y)
for i, x in enumerate(X[:10]) : print(x, y[i])

[6.7 2.5 5.8 1.8] 2
[6.4 2.8 5.6 2.1] 2
[6.  2.9 4.5 1.5] 1
[5.1 2.5 3.  1.1] 1
[5.6 2.7 4.2 1.3] 1
[4.4 3.2 1.3 0.2] 0
[5.6 3.  4.1 1.3] 1
[5.5 2.4 3.7 1. ] 1
[7.6 3.  6.6 2.1] 2
[6.3 3.4 5.6 2.4] 2


Prendiamo quindi due terzi degli esempi per l'addestramento, e i restanti per il test.

In [33]:
n_train = int(2*X.shape[0]/3)
print(X.shape[0], n_train)

150 100


In [34]:
X_train = X[:n_train]#i primi n_train esempi (righe)
X_test = X[n_train:]#gli altri
print(X_train.shape[0] + X_test.shape[0] == X.shape[0])

True


In [35]:
print(X_train.shape, X_test.shape)

(100, 4) (50, 4)


Analogamente per le etichette.

In [36]:
y_train, y_test = y[:n_train], y[n_train:]
print(y_train.shape[0] + y_test.shape[0] == y.shape[0])

True


Tramite il metodo *fit* addestriamo il modello sui dati di apprendimento. Il metodo opera in-place e retituisce il modello addestrato.

In [37]:
print(model.fit(X_train, y_train))

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=3, p=2,
           weights='uniform')


Una volta addestrato il modello, lo usiamo per predire la classe degli esempi del test set.

In [38]:
predictions = model.predict(X_test)
print(predictions.shape)
print(X_test.shape)

(50,)
(50, 4)


In [39]:
neighbors.KNeighborsClassifier().predict(X_test)

NotFittedError: Must fit neighbors before querying.

Infine, valutiamo le prestazioni (per esempio, l'accuratezza) del modello addestrato sull'insieme di test.

In [40]:
from sklearn.metrics import accuracy_score

print('Model accuracy on test set:', accuracy_score(y_test, predictions))

Model accuracy on test set: 0.96


Gli ultimi due passaggi possono essere fatti in un colpo solo col metodo *score*, esposto dal modello (addestrato).

In [41]:
print('Model accuracy on test set:', model.score(X_test, y_test))

Model accuracy on test set: 0.96


Feature scaling
---
Tra gli strumenti di preprocessing di sklearn, troviamo alcuni oggetti pensati per scalare le feature. 

### *Esercizio 1*
Estrarre, per ogni feature del dataset iris, i valori minimo e massimo.

In [None]:
#FILL ME

### *Esercizio 2*
Costruire un array *X_scaled*, contenente gli stessi esempi del dataset di partenza, con le feature scalate tra 0 e 1. Verificare che i valori minimo e massimo di ogni feature siano effettivamente 0 e 1.

In [None]:
#FILL ME

In [55]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.feature_range

(0, 1)

In [58]:
X_scaled = scaler.fit_transform(X)
print(np.min(X_scaled, axis=0))
print(np.max(X_scaled, axis=0))

[0. 0. 0. 0.]
[1. 1. 1. 1.]


Il metodo *fit_transform* opera due passi in sequenza, *fit* e *transform*.

In [59]:
scaler.fit(X)
X_scaled = scaler.transform(X)
print(np.min(X_scaled, axis=0))
print(np.max(X_scaled, axis=0))

[0. 0. 0. 0.]
[1. 1. 1. 1.]


**Attenzione**: anche lo scaling viene addestrato sui dati, come si vede dal nome del metodo fit. In particolare, lo scaler impara i valori minimo e massimo di ogni feature, che userà nella successiva trasformazione.

In un contesto operativo, questa fase (come per l'addestramento vero e proprio) deve essere svolta senza considerare il test set. Trasformiamo quindi il test set *dopo* aver fittato il train.

In [60]:
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

Equivalente a:

In [61]:
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [48]:
model.fit(X_train_scaled, y_train)
print('Model accuracy on test set:', model.score(X_test_scaled, y_test))

Model accuracy on test set: 0.98


Ecco tutto quello che ci serve con sklearn per costruire un modello di classificazione a partire da un dataset.

In [1]:
from sklearn import datasets, neighbors
from sklearn.utils import shuffle
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import accuracy_score

#carico il dataset
iris = datasets.load_iris()
X = iris['data']
y = iris['target']

#separo train e test
X, y = shuffle(X, y, random_state=0)
n_train = int(2*X.shape[0]/3)
X_train, X_test = X[:n_train], X[n_train:]
y_train, y_test = y[:n_train], y[n_train:]

#scalo le feature tra 0 e 1
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

#addestro il modello
model = neighbors.KNeighborsClassifier(n_neighbors=3).fit(X_train, y_train)

#valuto l'accuratezza del modello
print('Model accuracy on test set:', model.score(X_test, y_test))

Model accuracy on test set: 0.98


Model selection
---
Calibriamo adesso il valore dell'*iper-parametro* $k$. Abbiamo bisogno di una procedura di validazione.

### *Esercizio 3*:
Utilizzando gli oggetti e metodi sklearn visti in precedenza, 

- caricare feature ed etichette del dataset iris
- separare i dati (dopo averli mischiati, con seed=123) in questo modo:
    * 70 esempi per l'addestramento
    * 30 per la validazione
    * 50 per il test
- costruire una griglia di valori di $k$: $\left[1,2,3,5,10\right]$
- scegliere il valore della griglia che (produce il modello KNN che) registra l'accuratezza maggiore sul validation set; scalare i dati a partire dal solo training set, come fatto in precedenza
- addestrare nuovamente KNN, usando gli esempi degli insiemi di addestramento e validazione e il valore di $k$ scelto
- calcolare l'accuratezza del modello sull'insieme di test

In [None]:
#FILL ME

In [13]:
from sklearn import datasets, neighbors
from sklearn.utils import shuffle
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import accuracy_score

#carico il dataset
iris = datasets.load_iris()
X = iris['data']
y = iris['target']

#separo train e test
X, y = shuffle(X, y, random_state=123)
X_tr, X_val, X_test = X[:50], X[50:100], X[100:150]
y_tr, y_val, y_test = y[:50], y[50:100], y[100:150]

for k in [1,2,3,5,10]:
    val_acc = neighbors.KNeighborsClassifier(n_neighbors=k).fit(X_tr, y_tr).score(X_val, y_val)
    print('Validation accuracy with k {}: {:.2f}'.format(k, val_acc))                  

Validation accuracy with k 1: 0.88
Validation accuracy with k 2: 0.92
Validation accuracy with k 3: 0.86
Validation accuracy with k 5: 0.86
Validation accuracy with k 10: 0.88


In [12]:
import numpy as np

X_train = np.vstack([X_tr, X_val])
y_train = np.hstack([y_tr, y_val])
test_acc = neighbors.KNeighborsClassifier(n_neighbors=2).fit(X_train, y_train).score(X_test, y_test)
print('Test accuracy with selected k: {:.2f}'.format(test_acc)) 

Test accuracy with selected k:0.96


In [None]:
#sklearn.model_selection.train_test_split

<script>
  $(document).ready(function(){
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('div.prompt').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#999; background:#fff;">
Created with Jupyter, delivered by Fastly, rendered by Rackspace.
</footer>