*Contenuti*
===
- [Scikit-learn: machine learning con Python](#Scikit-learn:-machine-learning-con-Python)
    - [Un modello per la classificazione](#Un-modello-per-la-classificazione)
        - [Dataset](#Dataset)
        - [Insiemi di addestramento e test](#Insiemi-di-addestramento-e-test)
        - [Addestramento](#Addestramento)
        - [Predizione](#Predizione)
        - [Valutazione](#Valutazione)
    - [Feature scaling](#Feature-scaling)
        - [*Esercizio 1*](#Esercizio-1)
        - [*Esercizio 2*](#Esercizio-2)
        - [*Esercizio 3*](#Esercizio-3)
    - [Dai dati alla predizione in meno di quindici righe](#Dai-dati-alla-predizione-in-meno-di-quindici-righe)
    - [Model selection](#Model-selection)
        - [*Esercizio 4*](#Esercizio-4)
        - [Cross-validation](#Cross-validation)
    - [Alberi di decisione](#Alberi-di-decisione)
    - [Regressione](#Regressione)
        - [Metriche](#Metriche)
        - [Overfitting](#Overfitting)
    - [Metodi ensemble](#Metodi-ensemble)
    - [SVM e SVR](#SVM-e-SVR)

Scikit-learn: machine learning con Python
===

*Scikit-learn* (o *sklearn*) è uno dei principali strumenti Python per il machine learning, ed è la libreria open-source di data science più usata al mondo.

Sulla pagina di sklearn, http://scikit-learn.org/stable/, si trovano svariati modelli di machine learning, insieme a strumenti di preprocessing, analisi e visualizzazione dei dati. 

Ciascuna implementazione fa riferimento ad una guida utente molto dettagliata, che associa al codice la teoria necessaria per capirlo ed usarlo: http://scikit-learn.org/stable/modules/classes.html.

Oltre a permettere di *usare* il machine learning scrivendo pochissime righe di codice, la libreria è altamente modulare, e dà la possibilità agli utenti di costruire la propria implementazione basandosi su metodi, oggetti ed interfacce esistenti.

Teoria e codice sono spesso supportati da esempi pratici di utilizzo, affiancati da analisi grafiche: http://scikit-learn.org/stable/auto_examples/.

Un modello per la classificazione
---
Costruiamo un modello $k$*-nearest neighbors* (KNN) per la classificazione, utilizzando l'implementazione sklearn *KNeighborsClassifier*.

In [1]:
from sklearn import neighbors

print(neighbors)

<module 'sklearn.neighbors' from '/home/frensis/anaconda3/lib/python3.6/site-packages/sklearn/neighbors/__init__.py'>


*neighbors* è un *modulo*, ovvero un insieme di oggetti e funzioni con caratteristiche comuni, impacchettati insieme.

Se scriviamo

                neighbors.
                
e premiamo il tasto di autocomplemento, possiamo dare un'occhiata agli oggetti contenuti nel modulo. Tra gli altri, vedremo KNeighborsClassifier.

In [2]:
model = neighbors.KNeighborsClassifier()
print(model)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=5, p=2,
           weights='uniform')


Abbiamo invocato un metodo speciale, chiamato *costrutture*, che inizializza (in questo caso senza parametri) un oggetto di tipo KNeighborsClassifier. Possiamo vedere

- dalla documentazione: http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html
- posizionando il puntatore del mouse dentro le parentesi del costruttore e premendo Shift e due volte Tab
- stampando l'oggetto creato,

che questa implementazione del classificatore KNN prende in ingresso diversi parametri, nessuno dei quali obbligatorio. Per esempio, il numero di vicini $k$ (chiamato *n_neighbors*) vale di default 5.

In [3]:
model = neighbors.KNeighborsClassifier(n_neighbors=3)
print(model)
print('k:', model.n_neighbors)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=3, p=2,
           weights='uniform')
k: 3


### Dataset

Attraverso il modulo *datasets*, sklearn mette a disposizione diversi dataset, sui quali fare apprendimento e testare un modello.

In [4]:
from sklearn import datasets

iris = datasets.load_iris()
print(type(iris))

<class 'sklearn.utils.Bunch'>


Il tipo *Bunch* è molto simile a un dizionario. Oltre alla matrice delle feature e al vettore delle etichette, troviamo anche qualche informazione sul dataset.

In [5]:
print(iris.keys())

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])


In [6]:
print('Labels:', iris['target_names'])
print('\nFeatures:', iris['feature_names'])
print('\nDescription:', iris['DESCR'])

Labels: ['setosa' 'versicolor' 'virginica']

Features: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

Description: Iris Plants Database

Notes
-----
Data Set Characteristics:
    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20  0.76     0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of

In [7]:
X = iris['data']
y = iris['target']
print(X.shape)
print(y.shape)

(150, 4)
(150,)


In [8]:
for i, x in enumerate(X[:10]) : print(x, y[i])

[5.1 3.5 1.4 0.2] 0
[4.9 3.  1.4 0.2] 0
[4.7 3.2 1.3 0.2] 0
[4.6 3.1 1.5 0.2] 0
[5.  3.6 1.4 0.2] 0
[5.4 3.9 1.7 0.4] 0
[4.6 3.4 1.4 0.3] 0
[5.  3.4 1.5 0.2] 0
[4.4 2.9 1.4 0.2] 0
[4.9 3.1 1.5 0.1] 0


In [9]:
import numpy as np#alias per libreria importata

print(np.bincount(y))#istogramma di occorrenza di valori interi in un array

[50 50 50]


### Insiemi di addestramento e test

Dividiamo i dati in training e test set. Per prima cosa, mischiamo (coerentemente!) i dati in modo casuale col metodo *shuffle*.

In [10]:
from sklearn.utils import shuffle#importo singola funzione dal modulo

X, y = shuffle(X, y, random_state=0)#controllo del generatore random
for i, x in enumerate(X[:10]) : print(x, y[i])

[5.8 2.8 5.1 2.4] 2
[6.  2.2 4.  1. ] 1
[5.5 4.2 1.4 0.2] 0
[7.3 2.9 6.3 1.8] 2
[5.  3.4 1.5 0.2] 0
[6.3 3.3 6.  2.5] 2
[5.  3.5 1.3 0.3] 0
[6.7 3.1 4.7 1.5] 1
[6.8 2.8 4.8 1.4] 1
[6.1 2.8 4.  1.3] 1


Prendiamo quindi due terzi degli esempi per l'addestramento, e i restanti per il test.

In [11]:
n_train = int(2*X.shape[0]/3)
X_train = X[:n_train]#i primi n_train esempi (righe)
X_test = X[n_train:]#gli altri
print(X_train.shape, X_test.shape)

(100, 4) (50, 4)


Analogamente per le etichette.

In [12]:
y_train, y_test = y[:n_train], y[n_train:]#doppia assegnazione
print(y_train.shape, y_test.shape)

(100,) (50,)


### Addestramento

Tramite il metodo *fit* addestriamo il modello sui dati di apprendimento. Il metodo opera in-place e retituisce il modello addestrato.

In [13]:
print(model.fit(X_train, y_train))

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=3, p=2,
           weights='uniform')


### Predizione

Una volta addestrato, usiamo il modello per predire la classe degli esempi del test set.

In [14]:
predictions = model.predict(X_test)
print(predictions.shape)

(50,)


In [15]:
neighbors.KNeighborsClassifier().predict(X_test)

NotFittedError: Must fit neighbors before querying.

### Valutazione

Infine, valutiamo le prestazioni (per esempio, l'accuratezza) del modello addestrato sull'insieme di test.

In [16]:
from sklearn.metrics import accuracy_score

print('Model accuracy on test set:', accuracy_score(y_test, predictions))

Model accuracy on test set: 0.96


Predizione e valutazione possone essere fatte in un colpo solo, grazie al metodo *score* esposto dal modello (addestrato).

In [17]:
print('Model accuracy on test set:', model.score(X_test, y_test))

Model accuracy on test set: 0.96


Feature scaling
---
Torniamo un attimo indietro e *normalizziamo* i dati prima di addestrare il modello.

### *Esercizio 1*
Scaricare il dataset *iris* ed estrarre, per ogni feature, i valori minimo e massimo.

In [None]:
#FILL ME

### *Esercizio 2*
Costruire un array *X_scaled*, contenente gli stessi esempi del dataset di partenza, con le feature scalate tra 0 e 1. Verificare che i valori minimo e massimo di ogni feature siano effettivamente 0 e 1.

In [None]:
#FILL ME

Tra gli strumenti di preprocessing di sklearn, troviamo alcune utilità per scalare le feature. 

In [18]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.feature_range

(0, 1)

In [19]:
X_scaled = scaler.fit_transform(X)
print(np.min(X_scaled, axis=0))
print(np.max(X_scaled, axis=0))

[0. 0. 0. 0.]
[1. 1. 1. 1.]


Il metodo *fit_transform* opera due passi in sequenza, *fit* e *transform*.

In [20]:
scaler.fit(X)
X_scaled = scaler.transform(X)
print(np.min(X_scaled, axis=0))
print(np.max(X_scaled, axis=0))

[0. 0. 0. 0.]
[1. 1. 1. 1.]


**Attenzione**: anche lo scaling viene "addestrato" sui dati, come si vede dal nome del metodo fit. In particolare, lo scaler impara i valori minimo e massimo di ogni feature, che userà nella successiva trasformazione.

In un contesto operativo, questa fase (come l'addestramento vero e proprio) viene affrontata senza conoscere il test set. Trasformiamo quindi il test set *dopo* aver fittato il train.

In [24]:
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)#già fittato

Equivalente a:

In [25]:
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

Ripetiamo quindi i passi di addestramento e test (= predizione+valutazione) con i dati normalizzati.

In [27]:
model.fit(X_train_scaled, y_train)#addestramento
print('Model accuracy on test set:', model.score(X_test_scaled, y_test))#test

Model accuracy on test set: 0.98


### *Esercizio 3*

Utilizzare lo *StandardScaler* del modulo preprocessing per scalare le feature del dataset iris a media 0 e varianza 1.

In [28]:
from sklearn.preprocessing import StandardScaler

#FILL ME
print(StandardScaler())

StandardScaler(copy=True, with_mean=True, with_std=True)


Dai dati alla predizione in meno di quindici righe
---

Ecco tutto quello che ci serve, con sklearn, per costruire un modello di classificazione a partire da un dataset.

In [2]:
#Importo librerie
from sklearn import datasets, neighbors
from sklearn.utils import shuffle
from sklearn.preprocessing import MinMaxScaler

#Carico il dataset
iris = datasets.load_iris()
X, y = iris['data'], iris['target']

#Separo train e test (si può fare in una riga sola!)
X, y = shuffle(X, y, random_state=0)
n_train = int(2*X.shape[0]/3)
X_train, X_test = X[:n_train], X[n_train:]
y_train, y_test = y[:n_train], y[n_train:]

#Scalo le feature tra 0 e 1
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

#Addestro il modello
model = neighbors.KNeighborsClassifier(n_neighbors=3).fit(X_train, y_train)

#Valuto l'accuratezza del modello
print('Model accuracy on test set:', model.score(X_test, y_test))

Model accuracy on test set: 0.98


Model selection
---
Calibriamo adesso il valore dell'*iper-parametro* $k$. Abbiamo bisogno di una procedura di validazione.

### *Esercizio 4*
Utilizzando gli oggetti e i metodi sklearn visti in precedenza, 

- caricare feature ed etichette del dataset *digits*: http://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits
- separare i dati (dopo averli mischiati, con seed=123) in questo modo:
    * 500 esempi per l'addestramento
    * 500 per la validazione
    * il resto per il test
- scalare i dati a media 0 e varianza 1
- costruire una griglia di valori di $k$: $\left[1,2,3,5,10\right]$
- scegliere il valore della griglia che (produce il modello KNN che) registra la maggiore accuratezza sul validation set
- addestrare nuovamente KNN, usando gli esempi degli insiemi di addestramento e validazione e il valore di $k$ scelto
- calcolare l'accuratezza del modello ottenuto sull'insieme di test

In [None]:
from sklearn import datasets, neighbors
from sklearn.utils import shuffle
from sklearn.preprocessing import StandardScaler

#Carico il dataset
digits = datasets.load_digits()
X, y = digits['data'], digits['target']

#Separo train e test
X, y = shuffle(X, y, random_state=123)
#FILL ME

#Valuto accuratezza dei modelli sul set di validazione
#FILL ME

In [None]:
import numpy as np

#Rifitto su tutto il training set
#FILL ME

#Valuto accuratezza del miglior modello sul test set
#FILL ME

### Cross-validation

Per schemi di validazione più complessi di quello visto nell'esercizio precedente, possiamo usare il modulo *model_selection*. Facciamo ad esempio una $k$*-fold cross-validation* (KCV).

In [12]:
from sklearn.neighbors import KNeighborsClassifier as KNN
from sklearn.model_selection import GridSearchCV as KCV

#carico iris e separo train da test...

model = KNN()#modello da validare
param_grid = [{'n_neighbors' : [1,2,3,5,10,20]}]#griglia dei valori degli iperparametri
n_folds = 5#K, numero dei fold
#volendo, posso scegliere una metrica (campo 'scoring') diversa dall'accuratezza

kcv = KCV(model, param_grid, cv=n_folds)#oggetto validatore
kcv.fit(X_train, y_train)#fitto come un modello
best_model = kcv.best_estimator_#estraggo modello con comportamento medio migliore

print('Validated value for k:', best_model.n_neighbors)

Validated value for k: 10


Si può esplorare lo schema di validazione creato attraverso il tipo *GridSearchCV* scrivendo
        
        kcv.
        
e premendo Tab. In particolare, il campo *cv_results_* contiene il dettaglio dei punteggi ottenuti sui vari fold dai modelli (iper)parametrizzati da $k$.

Come al solito, è possibile condensare tutta l'operazione in un'unica riga di codice.

In [14]:
best_model = KCV(KNN(),
                 [{'n_neighbors' : [1,2,3,5,10,20]}],
                 cv=5).fit(X_train, y_train).best_estimator_

print('Validated value for k:', best_model.n_neighbors)

Validated value for k: 10


Alberi di decisione
---
Costruiamo adesso un *albero di decisione* (DT) ed utilizziamolo per la classificazione.

In [42]:
from sklearn.tree import DecisionTreeClassifier as DT
from sklearn.model_selection import train_test_split

#Carico il dataset
iris = datasets.load_iris()
X, y = iris['data'], iris['target']

#Separo train e test (in modo compatto)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, random_state=0)

#Addestro il modello
model = DT()
model.fit(X_train, y_train)
print('Accuracy on test set: {:.2f}'.format(model.score(X_test, y_test)))

Accuracy on test set: 0.98


Vediamo come è fatto internamente un DecisionTreeClassifier.

In [43]:
print(model)
print('\nSplit criterion:', model.criterion)
print('Max depth:', model.max_depth)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

Split criterion: gini
Max depth: None


Ecco un esempio di validazione KCV su DT.

In [44]:
best_model = KCV(DT(),
                 param_grid=[{'criterion' : ['gini', 'entropy'],
                              'max_depth' : [2, 3, 5, 10, 50]}],
                 cv=3).fit(X_train, y_train).best_estimator_

print('Validated criterion:', best_model.criterion)
print('Validated max depth:', best_model.max_depth)
print('Validated model accuracy on test set: {:.2f}'.format(best_model.score(X_test, y_test)))

Validated criterion: gini
Validated max depth: 3
Validated model accuracy on test set: 0.98


Una funzionalità del modulo *tree* (basata su http://www.graphviz.org/) permette di esportare un albero addestrato in formato grafico. Qui un esempio completo: http://scikit-learn.org/stable/modules/tree.html.

Regressione
---
In un task di *regressione*, le etichette da apprendere sono valori numerici continui. Scikit-learn fornisce un'implementazione per la regressione sia per KNN che per DT:

- http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html
- http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html

La struttura degli modelli è molto simile a quella vista per la classificazione. Vediamo un esempio di regressione KNN sul dataset *boston housing*: https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html.

In [45]:
from sklearn.datasets import load_boston

boston = load_boston()
X, y = boston['data'], boston['target']

print(y.dtype)

float64


In [48]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.neighbors import KNeighborsRegressor as KNN

#Separo train e test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, random_state=0)#schema base di validazione

#Scalo i dati tra 0 e 1
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

#Addestro KNN e lo testo
model = KNN(n_neighbors=2)
model.fit(X_train, y_train)
print('Goodness of fit on test set: {:.2f}'.format(model.score(X_test, y_test)))

Goodness of fit on test set: 0.67


### Metriche

Che cosa misura il valore 0.67?

Ciascun task ha uno *scorer* di default. Nel caso della classificazione, il punteggio di un modello indica la sua accuratezza. Per quanto riguarda la regressione, la metrica di default è il *coefficiente di determinazione* ($\text{R}^2$), https://en.wikipedia.org/wiki/Coefficient_of_determination.

Se vogliamo utilizzare una metrica diversa, possiamo usare il modulo *metrics*: http://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics.

Usiamo ad esempio il *mean absolute error* (MAE):

$$MAE(M, X^{test}, y^{test}) := \frac{1}{n_{test}} \sum_{i=1}^{n_{test}} \hspace{.15cm} \lvert M(X^{test}_i) - y^{test}_i\rvert$$

In [49]:
from sklearn.metrics import mean_absolute_error as MAE

mae = MAE(y_test, model.predict(X_test))
print('MAE on test set: {:.2f}'.format(mae))

MAE on test set: 3.31


### Overfitting

Sempre riguardo al task di regressione, vediamo un esempio di *overfitting* con DT.

In [50]:
from sklearn.datasets import load_diabetes

diabetes = load_diabetes()
print(diabetes['DESCR'])

Diabetes dataset

Notes
-----

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

Data Set Characteristics:

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attributes:
    :Age:
    :Sex:
    :Body mass index:
    :Average blood pressure:
    :S1:
    :S2:
    :S3:
    :S4:
    :S5:
    :S6:

Note: Each of these 10 feature variables have been mean centered and scaled by the standard deviation times `n_samples` (i.e. the sum of squares of each column totals 1).

Source URL:
http://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

For more information see:
Bradley Efron, Trevor Hastie, Iain Johnstone and Robert Tibshirani

In [51]:
print(diabetes['target'].dtype)

float64


In [54]:
from sklearn.tree import DecisionTreeRegressor as DT

X, y = diabetes['data'], diabetes['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, random_state=0)

model = DT(random_state=123)#componente di randomicità
model.fit(X_train, y_train)

print('R2 on test set: {:.2f}'.format(model.score(X_test, y_test)))

R2 on test set: -0.29


Il punteggio ($\text{R}^2$) ottenuto sull'insieme di test è molto basso. Cosa è successo? Proviamo a valutare le prestazioni del modello sull'insieme di apprendimento.

In [55]:
print('R2 on training: {:.2f}'.format(model.score(X_train, y_train)))

R2 on training: 1.00


Il punteggio sul training set è massimo: abbiamo commesso overfitting. Il modello che abbiamo scelto ha fittato con troppa precisione i dati di apprendimento, perdendo la sua capacità di generalizzazione.

Proviamo a rimediare validando la profondità di sviluppo (*max_depth* in sklearn), uno degli iperparametri di un DT.

In [57]:
from sklearn.model_selection import GridSearchCV as KCV

kcv = KCV(DT(),
          param_grid=[{'max_depth':[2,3,5,10,20,50,None]}],
          cv=5).fit(X_train, y_train)

best_model = kcv.best_estimator_

print('Validated max_depth:', best_model.max_depth)
print('\nR2 on training/test set: {:.2f}/{:.2f}'.format(best_model.score(X_train, y_train),
                                                        best_model.score(X_test, y_test)))

Validated max_depth: 2

R2 on training/test set: 0.49/0.21


Anche se non abbiamo ottenuto un risultato eccellente, è diminuito il divario tra i punteggi ottenuti su training e test set: questo è indice di un modello con una migliore capacità di generalizzazione.

Metodi ensemble
---
Vediamo adesso un *ensemble*, l'implementazione sklearn di una *random forest* (RF). 

Questo modello è un esempio di *bagging*, uno schema in cui le predizioni di singoli modelli indipendenti e di alta complessità vengono fatte votare (classificazione) o mediate (regressione), con lo scopo di aumentarne la capacità di generalizzazione.

Addestriamo e testiamo RF sul dataset *digit*, un'instanza di classificazione multi-classe.

In [58]:
from sklearn.datasets import load_digits

digits = load_digits()

Le classi del dataset digit sono i numeri da 0 a 9. Il task riguarda infatti la decodifica automatica di cifre scritte a mano.

In [60]:
print(digits['target_names'])

[0 1 2 3 4 5 6 7 8 9]


Importiamo, dal modulo *ensemble*, l'implementazione RF per la regressione: *RandomForestClassifier*.

Vediamo quali sono le caratteristiche strutturali del modello, e distinguiamo quelle proprie dello schema ensemble da quelle dei singoli alberi che compongono la foresta.

In [61]:
from sklearn.ensemble import RandomForestClassifier as RF

model = RF()
print(model)

print('\nDT hyperparameters:')
print('- impurity criterion:', model.criterion)
print('- max depth of development:', model.max_depth)
print('- max features sampled at each node:', model.max_features)

print('\nEnsemble hyperparameters:')
print('- number of trees:', model.n_estimators)
print('- replacement?', model.bootstrap)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
            oob_score=False, random_state=None, verbose=0,
            warm_start=False)

DT hyperparameters:
- impurity criterion: gini
- max depth of development: None
- max features sampled at each node: auto

Ensemble hyperparameters:
- number of trees: 10
- replacement? True


Costruiamo gli insiemi di addestramento e test e validiamo il campo *max_features*. Il valore di questo iperparametro indica la dimensione del sottoinsieme casuale di features nel quale si cerca il migliore split. 

Questa strategia differenzia RF da *bagged trees*, altro schema ensemble basato su DT. A causa della componente random introdotta da max_features, il *bias* dei singoli alberi cresce. Questo  fenomeno è però dominato dalla riduzione in *varianza* dovuta (alla randomicità e) al voto combinato.

Nel bagging, i singoli modelli che vengono combinati nell'ensemble hanno alta complessità. RF, in particolare, lavora con DT *fully developed*. Inoltre, poichè lo scopo è quello di ridurre il bias dell'ensemble grazie al voto a maggioranza, è preferibile un numero più grande possibile di alberi.

In breve, l'unico iperparametro che (secondo l'autore di queste lezioni) vale la pena di validare è il numero di feature da valutare ad ogni nodo. 

In [62]:
X, y = digits['data'], digits['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, random_state=0)

best_model = KCV(RF(n_estimators=1000,#the more the better!
                    max_depth=None),#fully developed!
                 param_grid=[{'max_features' : [2, 3, 5, 10, 30, 50, None]}],
                 cv=3).fit(X_train, y_train).best_estimator_

print('Validated max_features :', best_model.max_features)
print('Accuracy on test set   : {:.2f}'.format(best_model.score(X_test, y_test)))

Validated max_features : 10
Accuracy on test set   : 0.98


SVC e SVR
---
Per finire, vediamo le implementazioni sklearn del modello *support vector machine*. Usiamo il dataset *breast_cancer*, e risolviamo il relativo problema di classificazione binaria con l'implementazione *SVC*.

In [63]:
from sklearn.datasets import load_breast_cancer
from sklearn.svm import SVC

cancer = load_breast_cancer()
print(cancer['target_names'], np.bincount(cancer['target']))

X, y = cancer['data'], cancer['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, random_state=0)

['malignant' 'benign'] [212 357]


In [64]:
model = SVC()#support vector classification
print(model)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)


Di default, SVC usa un *kernel gaussiano* (indicato con *rbf*). Validiamo gli iperparametri $C$ e $\gamma$: questi denotano rispettivamente il peso dato agli errori commessi sui singoli esempi e l'inverso della deviazione standard $\sigma$ della gaussiana "montata" su ogni esempio dal kernel gaussiano.

Per entrambi gli iperparametri, valori troppo alti possono causare overfitting. Viceversa, valori troppo bassi possono produrre modelli eccessivamente semplici, non sufficienti a "spiegare" i dati. Ecco cosa succede, ad esempio, se assegno un valore molto grande a $C$.

In [65]:
model = SVC(C=100000).fit(X_train, y_train)
print('Accuracy on train/test: {:.2f}/{:.2f}'.format(model.score(X_train, y_train),
                                                     model.score(X_test, y_test)))

Accuracy on train/test: 1.00/0.63


Ci sono diverse ricette di validazione per $C$ e $\gamma$, sia per la classificazione che per la regressione: ad esempio, si possono assegnare potenze contigue del 2 o del 10.

In [66]:
C_values = [2**i for i in range(-3,3)]
gamma_values = [10**i for i in range(-3,4)]
print(C_values)
print(gamma_values)

[0.125, 0.25, 0.5, 1, 2, 4]
[0.001, 0.01, 0.1, 1, 10, 100, 1000]


Una volta costruita la griglia, cerchiamo la migliore coppia di valori con KCV.

In [70]:
best_model = KCV(SVC(),
                 param_grid=[{'C': C_values,
                              'gamma': gamma_values}],
                 cv=3).fit(X_train, y_train).best_estimator_

print('Validated C            :', best_model.C)
print('Validated gamma        :', best_model.gamma)
print('Validated accuracy on train/test: {:.2f}/{:.2f}'.format(best_model.score(X_train, y_train),
                                                               best_model.score(X_test, y_test)))

Validated C            : 2
Validated gamma        : 0.001
Validated accuracy on train/test: 0.99/0.92


Nell'esempio successivo, vogliamo provare due diverse griglie di iperparametri. In particolare:

- il valore di $C$ con un kernel lineare
- il valore di $C$ con un kernel gaussiano, per cui voglio validare anche $\gamma$.

Perchè è più conveniente usare due griglie?

In [72]:
best_model = KCV(SVC(),
                 param_grid=[{'kernel':['linear'],
                              'C': C_values},#prima griglia
                             {'kernel':['rbf'],
                              'C': C_values,
                              'gamma': gamma_values}],#seconda griglia
                 cv=3).fit(X_train, y_train).best_estimator_

print('Validated kernel       :', best_model.kernel)
print('Validated C            :', best_model.C)
print('Validated gamma        :', best_model.gamma)
print('Validated accuracy on test set   : {:.2f}'.format(best_model.score(X_test, y_test)))

Validated kernel       : linear
Validated C            : 4
Validated gamma        : auto
Validated accuracy on test set   : 0.96


Infine, l'implementazione sklearn di SVM per la regressione è $SVR$.

In [73]:
from sklearn.svm import SVR

print(SVR())

SVR(C=1.0, cache_size=200, coef0=0.0, degree=3, epsilon=0.1, gamma='auto',
  kernel='rbf', max_iter=-1, shrinking=True, tol=0.001, verbose=False)


<script>
  $(document).ready(function(){
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('div.prompt').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#999; background:#fff;">
Created with Jupyter, delivered by Fastly, rendered by Rackspace.
</footer>