In [39]:
from sklearn.datasets import load_iris
from sklearn import svm
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.utils import check_random_state
from scipy.stats import loguniform

#### Importo il dataset Iris e creo un modello di support vector machine per la classificazione

In [7]:
dati = load_iris()
model = svm.SVC()

#### Visualizzo gli iperparametri modificabili

In [9]:
model.get_params()

{'C': 1.0,
 'break_ties': False,
 'cache_size': 200,
 'class_weight': None,
 'coef0': 0.0,
 'decision_function_shape': 'ovr',
 'degree': 3,
 'gamma': 'scale',
 'kernel': 'rbf',
 'max_iter': -1,
 'probability': False,
 'random_state': None,
 'shrinking': True,
 'tol': 0.001,
 'verbose': False}

#### impostazione di una "griglia" di parametri da testare in maniera automatica

In [10]:
parametri = {
    'kernel':('linear', 'rbf'),
    'C':[0.1, 1, 10],
    'max_iter':[500, 1000, 2000]
}

### GridSearch

impostazione di una ricerca dei migliori iperparametri tramite ricerca a griglia

esecuzione della ricerca dei migliori parametri

In [13]:
grid_search = GridSearchCV(
    estimator = model,
    param_grid = parametri
)

grid_search.fit(dati.data, dati.target)

visualizzazione dei migliori risultati

In [14]:
print(grid_search.best_params_)

{'C': 1, 'kernel': 'linear', 'max_iter': 500}


applicazione di una ricerca dei migliori iperparametri con convalida incrociata

In [23]:
grid_search = GridSearchCV(
    estimator=model,
    param_grid=parametri,
    cv=10
)

grid_search.fit(dati.data, dati.target)

visualizzazione dei migliori risultati

In [24]:
print(grid_search.best_params_)

{'C': 10, 'kernel': 'linear', 'max_iter': 500}


applicazione di una ricerca dei migliori iperparametri con convalida incrociata e metrica F1

In [27]:
grid_search = GridSearchCV(
    estimator=model,
    param_grid=parametri,
    cv=10,
    scoring='f1_micro'
)

esecuzione della ricerca dei migliori parametri

In [28]:
grid_search.fit(dati.data, dati.target)

visualizzazione dei migliori risultati

In [29]:
print(grid_search.best_params_)

{'C': 10, 'kernel': 'linear', 'max_iter': 500}


### Randomized Search

Creo una distribuzione log-uniforme (o distribuzione uniforme logaritmica) è una distribuzione di probabilità continua in cui le differenze tra i logaritmi delle variabili casuali sono distribuite uniformemente

In [40]:
distribuzione_log_uniforme = loguniform(1e-1, 1e1)

for _ in range(10):
    print(distribuzione_log_uniforme.rvs())

print()
print(distribuzione_log_uniforme.ppf(0))
print(distribuzione_log_uniforme.ppf(0.25))
print(distribuzione_log_uniforme.ppf(0.50))
print(distribuzione_log_uniforme.ppf(0.75))
print(distribuzione_log_uniforme.ppf(1))

1.0524282783361762
2.6842545416787575
0.2668174380416523
6.366034132680096
2.0872311917033395
0.3512072729011297
5.156480472765991
0.18297075619239542
4.6364365759457975
0.5740518266971374

0.1
0.31622776601683805
1.0000000000000004
3.1622776601683813
10.0


In [42]:
parametri = {
    'kernel':('linear', 'rbf'),
    'C':distribuzione_log_uniforme,
    'max_iter':[500, 1000, 2000]
}

randomized_search = RandomizedSearchCV(
    estimator=model,
    param_distributions=parametri,
    n_iter=1000,
    cv=10,
    scoring='f1_micro'
)

randomized_search.fit(dati.data, dati.target)

In [43]:
print(randomized_search.best_params_)

{'C': 0.36470956290331363, 'kernel': 'linear', 'max_iter': 500}
