# Ricerca degli Iper-parametri

Come visto nelle scorse esercitazioni, diversi valori/scelte di iper-parametri possono dare risultati notevolmente differenti. Diventa quindi importante determinare quali di essi costituiscano la miglior combinazione rispetto ai risultati desiderati per il modello di apprendimento.

## Richiamo: Training Set, Validation Set e Test Set

Dato un dataset di coppie features-target 
$$\mathcal{D} = \{(\boldsymbol{x}_1, \boldsymbol{y}_1),\ldots ,(\boldsymbol{x}_D, \boldsymbol{y}_D)\}\subset\mathbb{R}^n\times\mathbb{R}^m\,,$$

per esempio per un problema di classificazione in $m$ classi, per addestrare un modello di Machine Learning (ML) generalmente si divide $\mathcal{D}$ in un _training set_ $\mathcal{T}$ ed un _test set_ $\mathcal{P}$ tali che:
1. le coppie $(\boldsymbol{x}, \boldsymbol{y})$ in $\mathcal{T}$ vengono utilizzate per addestrare il modello ed "insegnargli" l'operazione desiderata (p.e., la classificazione rispetto $m$ classi);
2. le coppie $(\boldsymbol{x}, \boldsymbol{y})$ in $\mathcal{P}$ vengono utilizzate per _quantificare_ quanto bene un modello addestrato abbia imparato l'operazione desiderata, rispetto un'arbitraria funzione di valutazione.

**RICORDA:** ovviamente $\mathcal{P}$ deve essere utilizato _solo ed esclusivamente per la valutazione delle performance_! Ogni suo coinvolgimento nelle operazioni di addestramento renderebbe meno affidabili le performance misurate su di esso.

### Il Validation Set

In molti casi, è tuttavia utile disporre di una previsione delle possibili performance su $\mathcal{P}$ per un modello, per esempio quando:
1. si deve eseguire una ricerca degli iper-parametri ottimali per il problema;
2. si deve monitorare l'andamento di un addestramento caratterizzato da un processo iterativo;
3. ecc.

Nei casi sopra citati, risulta quindi utile dividere $\mathcal{D}$ non in due, ma in tre sottoinsiemi: training set $\mathcal{T}$, *validation set* $\mathcal{V}$ e test set $\mathcal{P}$. 
Mentre $\mathcal{T}$ e $\mathcal{P}$ svolgono i soliti ruoli, il validation set $\mathcal{V}$ funge da "pre-test set", cioè viene utilizzato per svolgere le operazioni sopra citate, generalmente misurando le performance di modelli addestrati su $\mathcal{T}$ per avere una (sotto)stima delle possibili performance "finali" su $\mathcal{P}$.

Concentriamoci sul punto (1) dell'elenco sovrastante e assumiamo di avere $K$ modelli $\hat{f}_1,\ldots ,\hat{f}_K$ caratterizzati da $K$ diverse combinazioni di iper-parametri. In poche parole, il procedimento di ricerca del miglior modello rispetto $\mathcal{T}$, $\mathcal{V}$ e $\mathcal{P}$ è il seguente:
1. addestro ogni modello $\hat{f}_1,\ldots ,\hat{f}_K$ su $\mathcal{T}$;
2. valuto su $\mathcal{V}$ le performance dei modelli addestrati $\hat{f}_1,\ldots ,\hat{f}_K$ ed indentifico il migliore;
3. misuro le performance del modello migliore su $\mathcal{P}$ per avere una stima delle sue performance in generale nel futuro.

**NOTA BENE:** nella pratica, il validation set è sempre quello con cardinalità minore, cioè: $|\mathcal{V}|<|\mathcal{T}|,|\mathcal{P}|$; per questo motivo le performance su $\mathcal{V}$ sono generalmente una sottostima di quelle su $\mathcal{P}$.

**ATTENZIONE:** in letteratura spesso i termini _validation set_ e _test set_ hanno un significato molto "fluido". La definizione e l'utilizzo sopra descritti sono la versione più comune ed utilizzata in ambito ML; tuttavia, si posono incontrare alcune altre convenzioni:
1. in ambito di ML, può capitare di sentir parlare solamente di training e validation set. In questo caso, il validation set svolge il ruolo di quello che noi abbiamo definito test set. Un'estensione di questa convenzione è il caso della $k$_-fold cross-validation_ (non la affronteremo in questa esercitazione);
2. in ambito Deep Learning (DL) o reti neurali in generale, il modello viene addestrato rispetto $\mathcal{T}$ e $\mathcal{V}$ e valutato su $\mathcal{P}$. In particolare, il validation set $\mathcal{V}$ viene utilizzato per "regolarizzare/gestire" l'addestramento della rete. Per la ricerca di iper-parametri ottimali, si mettono quindi a confronto le performance su $\mathcal{P}$ (e non su $\mathcal{V}$ come indicato sopra). Quindi, se si desidera avere una valutazione oggettiva della rete neurale con la miglior combinazione di iper-parametri, si valutano le performance su un secondo test set $\mathcal{P}'$ (una sorta di "test set finale"), ancora diverso da $\mathcal{T}$, $\mathcal{V}$ e $\mathcal{P}$. Generalmente questa seconda valutazione non viene fatta poiché i dataset $\mathcal{D}$ (ed i test set $\mathcal{P}$) usati nel DL sono solitamente molto grandi e quindi le performance su $\mathcal{P}$ si possono assumere essere praticamente uguali a quelle che si avrebbero su $\mathcal{P}'$.

## La Ricerca a Griglia

Per cercare la miglior combinazione di iper-parametri per un modello, si procede generalmente con una _ricerca a griglia_ (in inglese e in letteratura: "_grid search_").

Dato cioè un intervallo _discreto_ di valori $I_h$ per ogni iperparametro $p_h$, $h=1,\ldots , H$, si considera la griglia di punti generata dal prodotto cartesiano degli intervalli, cioè:
$$G = I_1 \times \cdots \times I_H\,.$$

Abbiamo quindi che ogni punto di $G$ rappresenta una possibile combinazione di iper-parametri per il modello.
Secondo quanto scritto sopra, si considerano quindi i $K=|G|$ modelli caratterizzati dalle $K$ combinazioni di iper-parametri differenti e si cerca quello con le migliori performance su $\mathcal{V}$.

**NOTA BENE:** nella pratica gli intervalli discreti $I_h$ sono raramente equispaziati, preferendo un campionamento casuale determinato da distribuzioni di probabilità.

## Strumenti di Scikit-Learn per Iperparametri e Performance

Per implementare la grid search, nell'esercitazione di oggi, utilizzare il seguente strumento:
- GridSearcgCV: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html
- Esempio/guida: https://scikit-learn.org/stable/modules/grid_search.html

**OSSERVAZIONE:** per utilizzi più "elaborati", che facciano uso di distribuzioni di probabilità, lo studente può guardare anche altri strumenti, per esempio RandomizedSearchCV (https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html).

Per implementare il calcolo della matrice di confusione, della precision, della recall e  dell' $F_1$-score, utilizzare i seguenti strumenti:
- $F_1$-score: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html
- Precision: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html
- Recall: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html
- make_scorer (generare una delle funzioni sopra, fissando dei parametri): https://scikit-learn.org/stable/modules/generated/sklearn.metrics.make_scorer.html
- scoring parameters: https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter
- Confusion Matrix: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html


## SVM Nonlineari e Classificazione Non Binaria

La classe SVC di sklearn fa uso del metodo One-VS-One (OVO) per la classificazione non binaria (cioè $m>2$ classi).
Il metodo consiste nell'addestrare $\begin{pmatrix}m\\ 2\end{pmatrix}$ SVM non lineari per ognuna possibile coppia di classi.

Per la classificazione di $\boldsymbol{x}$, viene predetta come classe $\widehat{y}$ la classe che risulta essere predetta dalla maggioranza delle $\begin{pmatrix}m\\ 2\end{pmatrix}$ SVM.

# Esercitazione: Riconoscimento Volti

Nell'esercitazione di oggi, implementeremo una grid-search per SVM nonlineari per la classificazione dei volti già visti nell'esercitazione "PCAeigenfaces" e parte del dataset "Labeled Faces in the Wild" (LFW).

**ATTENZIONE:** Per dettagli sul dataset utilizzato, guardare la vecchia esercitazione.

In [1]:
# ***** NOTA BENE! *****
# perché %matplotlib widget funzioni, installare nell'ambiente virtuale 
# il pacchetto ipympl con il comando:
# pip install ipympl
#
# ATTENZIONE: perché funzioni è necessario chiudere e rilanciare jupyter-lab
#
# STILE DI VISUALIZZAZIONE PLOT FATTI CON MATPLOTLIB
%matplotlib widget
#
#
import pandas as pd
import numpy as np
from sklearn import datasets
import matplotlib
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import f1_score, precision_score, recall_score, confusion_matrix, make_scorer
from IPython.display import display

# Il codice presente di seguito serve nel caso si verifichi un errore del tipo
#
# "URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1124)>"
#
# al momento di chiamare la funzione fetch_lfw_people di sklearn.datasets
#
# ATTENZIONE: il codice di seguito non è quindi sempre necessario; se non lo fosse, commentarlo pure.
#

import os, ssl

if (not os.environ.get('PYTHONHTTPSVERIFY', '') and getattr(ssl, '_create_unverified_context', None)):
    ssl._create_default_https_context = ssl._create_unverified_context

## Importazione del Dataset e Creazione di Training, Validation e Test set

Importiamo il dataset $\mathcal{D}$ da scikit-learn e dividiamolo in $\mathcal{T}$, $\mathcal{V}$ e $\mathcal{P}$. Utilizzare le seguenti percentuali:
1. $|\mathcal{T}| = 30\% |\mathcal{D}|$
1. $|\mathcal{V}| = 20\% |\mathcal{D}|$
1. $|\mathcal{P}| = 50\% |\mathcal{D}|$

**ATTENZIONE:** visto che andremo ad usare le SVM, _NON_ sarà necessario trasformare le classi secondo la codifica del one-hot encoding.

**ESERCIZIO:** completare il codice nella cella seguente.

In [2]:
lfw_people = datasets.fetch_lfw_people(min_faces_per_person=70, resize=0.4)

face_data = lfw_people['data']
face_images = lfw_people['images']
face_tnames = lfw_people['target_names']
face_targets = lfw_people['target']

# Creare gli indici dei dati corrispondenti a training, validation e test set secondo le percentuali sopra indicate.
# Utilizzare i seguenti nomi per le variabili:
# Dataset: indices
# Training: ind_train
# Validation: ind_val
# Test: ind_test

random_state = 20210520
test_p = 0.5
val_p = 0.4
indices = np.arange(face_data.shape[0])

ind_train, ind_test = train_test_split(indices, test_size=test_p, random_state=random_state, shuffle=True)
ind_train, ind_val = train_test_split(ind_train, test_size=val_p, random_state=random_state, shuffle=True)

## Grid Search ed SVM

**ESERCIZIO:** completare il codice nella cella seguente. Impostare una ricerca a griglia per gli iper-parametri delle SVM. In particolare, cercare tra i seguenti valori:
1. $C\in\{2^i \ | \ i=-2, \ldots , 2\}$;
2. $\gamma \in \{\frac{1}{i\cdot n} \ | \ i= 0.5, 1, 1.5 \}$, dove $n$ è il numero di feature del dataset;
3. $\mathrm{kernel} \in \{\mathrm{RBF}, \mathrm{sigmoid}, \mathrm{polynomial}, \mathrm{linear}\}$.

In [3]:
n_features = face_data.shape[1]

# Definizione delle liste di valori tra i quali "scorrere" per gli iper-parametri:
C_list = [2 ** i for i in range(-2, 3)]
gamma_list = [1 / (i * n_features) for i in np.arange(0.5, 1.75, 0.5)]
ker_list = ['rbf', 'poly', 'sigmoid', 'linear']

hparameters = {'kernel':ker_list, 'C':C_list, 'gamma':gamma_list}
svm = SVC(class_weight='balanced')

svm_gs = GridSearchCV(estimator=svm, 
                      param_grid=hparameters, 
                      scoring='f1_weighted',
                      return_train_score=True,
                      cv=zip([ind_train], [ind_val]))

# OSSERVAZIONE: in alternativa a scoring='f1_weighted', si poteva scrivere equivalentemente
# scoring=f1_scorer, dove f1_scorer è una variabile definita tramite make_scorer, cioè:
# f1_scorer = make_scorer(f1_score, average='weighted')

svm_gs.fit(face_data, face_targets)

GridSearchCV(cv=<zip object at 0x149ad9730>,
             estimator=SVC(class_weight='balanced'),
             param_grid={'C': [0.25, 0.5, 1, 2, 4],
                         'gamma': [0.001081081081081081, 0.0005405405405405405,
                                   0.00036036036036036037],
                         'kernel': ['rbf', 'poly', 'sigmoid', 'linear']},
             return_train_score=True, scoring='f1_weighted')

In [4]:
# Mostriamo i risultati della Gridsearch con una tabella:

df_results = pd.DataFrame(svm_gs.cv_results_)

display(df_results.sort_values(['rank_test_score'], ascending=True))

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_C,param_gamma,param_kernel,params,split0_test_score,mean_test_score,std_test_score,rank_test_score,split0_train_score,mean_train_score,std_train_score
59,0.06015,0.0,0.026031,0.0,4.0,0.00036,linear,"{'C': 4, 'gamma': 0.00036036036036036037, 'ker...",0.811416,0.811416,0.0,1,1.0,1.0,0.0
27,0.059747,0.0,0.026202,0.0,1.0,0.001081,linear,"{'C': 1, 'gamma': 0.001081081081081081, 'kerne...",0.811416,0.811416,0.0,1,1.0,1.0,0.0
19,0.059573,0.0,0.026057,0.0,0.5,0.000541,linear,"{'C': 0.5, 'gamma': 0.0005405405405405405, 'ke...",0.811416,0.811416,0.0,1,1.0,1.0,0.0
31,0.060084,0.0,0.026715,0.0,1.0,0.000541,linear,"{'C': 1, 'gamma': 0.0005405405405405405, 'kern...",0.811416,0.811416,0.0,1,1.0,1.0,0.0
35,0.060212,0.0,0.026153,0.0,1.0,0.00036,linear,"{'C': 1, 'gamma': 0.00036036036036036037, 'ker...",0.811416,0.811416,0.0,1,1.0,1.0,0.0
15,0.060954,0.0,0.026221,0.0,0.5,0.001081,linear,"{'C': 0.5, 'gamma': 0.001081081081081081, 'ker...",0.811416,0.811416,0.0,1,1.0,1.0,0.0
39,0.059711,0.0,0.026125,0.0,2.0,0.001081,linear,"{'C': 2, 'gamma': 0.001081081081081081, 'kerne...",0.811416,0.811416,0.0,1,1.0,1.0,0.0
43,0.060002,0.0,0.026196,0.0,2.0,0.000541,linear,"{'C': 2, 'gamma': 0.0005405405405405405, 'kern...",0.811416,0.811416,0.0,1,1.0,1.0,0.0
11,0.061381,0.0,0.02732,0.0,0.25,0.00036,linear,"{'C': 0.25, 'gamma': 0.00036036036036036037, '...",0.811416,0.811416,0.0,1,1.0,1.0,0.0
7,0.061469,0.0,0.026623,0.0,0.25,0.000541,linear,"{'C': 0.25, 'gamma': 0.0005405405405405405, 'k...",0.811416,0.811416,0.0,1,1.0,1.0,0.0


## Performance della Miglior SVM

**ESERCIZIO:** calcolare (e visualizzare) di seguito le performance della miglior SVM trovata con la gridsearch, cioè:
1. Accuratezza su $\mathcal{T}$, $\mathcal{V}$ e $\mathcal{P}$;
2. Precision (average='weighted') su $\mathcal{T}$, $\mathcal{V}$ e $\mathcal{P}$;
3. Recall (average='weighted') su $\mathcal{T}$, $\mathcal{V}$ e $\mathcal{P}$;
4. $F_1$-score (average='weighted') su $\mathcal{T}$, $\mathcal{V}$ e $\mathcal{P}$;
5. Matrice di Confusione su $\mathcal{P}$ (senza normalizzazione, normalizzata rispetto le vere classi, normalizzara rispetto le classi predette).

**ATTENZIONE:** la miglior SVM _deve essere ri-addestrata_ su $\mathcal{T}$!!! La classe GridSearchCV, a fine procedimento, addestra infatti il miglior modello sulle cooppie input-output in argomento al metodo fit; nel nostro caso, addestra cioè su tutto $\mathcal{D}$. Questa operazione è dovuta al fatto che la classe è stata pensata principalmente per l'uso di default con la cross-validation.

In [5]:
# Calcolo delle predizioni sul test set.
# Nomi delle variabili:
#
# y_pred_train: vettore delle predizioni sul training;
# y_true_train: vettore dei target "veri" del training set;
# y_pred_val: vettore delle predizioni sul validation;
# y_true_val: vettore dei target "veri" del validation set;
#
# y_pred: vettore delle predizioni sul test;
# y_true: vettore dei target "veri" del test set

# Ri-addestramento della miglior SVM
svm_gs.best_estimator_.fit(face_data[ind_train, :], face_targets[ind_train])

y_pred_train = svm_gs.best_estimator_.predict(face_data[ind_train, :])
y_true_train = face_targets[ind_train]
y_pred_val = svm_gs.best_estimator_.predict(face_data[ind_val, :])
y_true_val = face_targets[ind_val]

y_pred = svm_gs.best_estimator_.predict(face_data[ind_test, :])
y_true = face_targets[ind_test]

acc_train = svm_gs.best_estimator_.score(face_data[ind_train, :], y_true_train)
prec_train = precision_score(y_true_train, y_pred_train, average='weighted')
rec_train = recall_score(y_true_train, y_pred_train, average='weighted')
f1_train = f1_score(y_true_train, y_pred_train, average='weighted')

acc_val = svm_gs.best_estimator_.score(face_data[ind_val, :], y_pred_val)
prec_val = precision_score(y_true_val, y_pred_val, average='weighted')
rec_val = recall_score(y_true_val, y_pred_val, average='weighted')
f1_val = f1_score(y_true_val, y_pred_val, average='weighted')

acc = svm_gs.best_estimator_.score(face_data[ind_test, :], y_true)
prec = precision_score(y_true, y_pred, average='weighted')
rec = recall_score(y_true, y_pred, average='weighted')
f1 = f1_score(y_true, y_pred, average='weighted')

df_perf = pd.DataFrame({'Accuracy': [acc_train, acc_val, acc], 
                        'Precision': [prec_train, prec_val, prec], 
                        'Recall': [rec_train, rec_val, rec],
                        'F1': [f1_train, f1_val, f1]
                       },
                      index=['training', 'validation', 'test'])

cmat = confusion_matrix(y_true, y_pred, labels=svm_gs.best_estimator_.classes_)
cmat_norm_true = confusion_matrix(y_true, y_pred, labels=svm_gs.best_estimator_.classes_, normalize='true')
cmat_norm_pred = confusion_matrix(y_true, y_pred, labels=svm_gs.best_estimator_.classes_, normalize='pred')

df_cmat = pd.DataFrame(cmat, columns=face_tnames, index=face_tnames)
df_cmat_norm_true = pd.DataFrame(cmat_norm_true, columns=face_tnames, index=face_tnames)
df_cmat_norm_pred = pd.DataFrame(cmat_norm_pred, columns=face_tnames, index=face_tnames)

display(df_perf)
display(df_cmat)
display(df_cmat_norm_true)
display(df_cmat_norm_pred)

Unnamed: 0,Accuracy,Precision,Recall,F1
training,1.0,1.0,1.0,1.0
validation,1.0,0.817321,0.810078,0.811416
test,0.791925,0.7966,0.791925,0.793513


Unnamed: 0,Ariel Sharon,Colin Powell,Donald Rumsfeld,George W Bush,Gerhard Schroeder,Hugo Chavez,Tony Blair
Ariel Sharon,25,1,8,3,2,0,1
Colin Powell,6,100,1,5,1,2,4
Donald Rumsfeld,4,2,38,8,4,0,1
George W Bush,4,10,14,220,6,1,6
Gerhard Schroeder,1,4,0,7,41,2,5
Hugo Chavez,0,1,0,2,3,25,3
Tony Blair,1,1,2,4,4,0,61


Unnamed: 0,Ariel Sharon,Colin Powell,Donald Rumsfeld,George W Bush,Gerhard Schroeder,Hugo Chavez,Tony Blair
Ariel Sharon,0.625,0.025,0.2,0.075,0.05,0.0,0.025
Colin Powell,0.05042,0.840336,0.008403,0.042017,0.008403,0.016807,0.033613
Donald Rumsfeld,0.070175,0.035088,0.666667,0.140351,0.070175,0.0,0.017544
George W Bush,0.015326,0.038314,0.05364,0.842912,0.022989,0.003831,0.022989
Gerhard Schroeder,0.016667,0.066667,0.0,0.116667,0.683333,0.033333,0.083333
Hugo Chavez,0.0,0.029412,0.0,0.058824,0.088235,0.735294,0.088235
Tony Blair,0.013699,0.013699,0.027397,0.054795,0.054795,0.0,0.835616


Unnamed: 0,Ariel Sharon,Colin Powell,Donald Rumsfeld,George W Bush,Gerhard Schroeder,Hugo Chavez,Tony Blair
Ariel Sharon,0.609756,0.008403,0.126984,0.012048,0.032787,0.0,0.012346
Colin Powell,0.146341,0.840336,0.015873,0.02008,0.016393,0.066667,0.049383
Donald Rumsfeld,0.097561,0.016807,0.603175,0.032129,0.065574,0.0,0.012346
George W Bush,0.097561,0.084034,0.222222,0.883534,0.098361,0.033333,0.074074
Gerhard Schroeder,0.02439,0.033613,0.0,0.028112,0.672131,0.066667,0.061728
Hugo Chavez,0.0,0.008403,0.0,0.008032,0.04918,0.833333,0.037037
Tony Blair,0.02439,0.008403,0.031746,0.016064,0.065574,0.0,0.753086


## Alcuni Esempi Visivi

Mostriamo visivamente come viene fatta la classificazione multi-classe. 

**RICORDA:** la classe SVC non addestra un'unica SVM (se $m>2$); in realtà esegue il metodo "One-VS-One", addestrando quindi $\begin{pmatrix}m \\ 2\end{pmatrix}$ SVM per ogni coppia di classi. La predizione su $\boldsymbol{x}$ restituisce quindi la classe $\widehat{y}$ se questa è la classe predetta in maggioranza tra tutte le SVM "interne".

**In Scikit-Learn:** con le opzioni di default utilizzate nel codice sopra, il metodo "decision_function" di una SVC multiclasse restituisce, per ogni $\boldsymbol{x}$ un vettore di $m$ elementi, dove l'$i$-esimo elemento ha valore maggiore se l'$i$-esima classe è quella predetta maggiormente dalle SVM "interne". **ATTENZIONE:** questi valori non sono né percentuali né interi, sono il risultato di una trasformazione eseguita da scikit-learn per "elaborare" più facilmente il risultato delle predizioni fatte dalle SVM "interne".

In [7]:
# Abbreviazione nomi per etichette in barplot
face_tnames_short = []
for name in face_tnames:
    name_split = name.split(' ')
    nm = ''
    for word in name_split:
        nm = nm + word[0]
    face_tnames_short.append(nm)

# Selezione di "n_randsamples" volti random dal dataset

n_randsamples = 25
ind_test_rand = np.random.choice(len(ind_test), n_randsamples, replace=False)
ind_test_rand = ind_test[ind_test_rand]

# Matrice delle n_randsamples volti scelti (una riga, un volto)
rand_faces = face_data[ind_test_rand, :]

# Decision Function per i volti random:
rand_faces_decision = svm_gs.best_estimator_.decision_function(rand_faces)
y_pred_rand_faces = svm_gs.best_estimator_.predict(rand_faces)

for i in range(n_randsamples):
    fig, axs = plt.subplots(1, 2, figsize=(8, 3))
    ii = ind_test_rand[i]
    face_ii = face_images[ii]
    
    axs[0].imshow(face_ii, cmap=plt.cm.gray)
    axs[0].set_title('Volto {} ({})'.format(ii, face_tnames[face_targets[ii]]))
    
    axs[1].bar(np.arange(len(face_tnames)),
               rand_faces_decision[i, :]
              )
    axs[1].grid()
    axs[1].set_xticks(np.arange(len(face_tnames)))
    axs[1].set_xticklabels(face_tnames_short,
                           rotation=15,
                           fontsize=12
                          )
    axs[1].set_title('Predizione: {}'.format(face_tnames[y_pred_rand_faces[i]]))
    
plt.show()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …