# Metodi di ricerca degli iperparametri

## **Grid Search**: 


metodo esaustivo brute force, definisco un insieme esaustivo di iperparametri, ogni combinazione verrà testata per la ricerca ottimale, testandole tutte trovo il vero ottimo tra i valori del sottoinsieme che sto testando. Molto time consuming e poco ottimizzato (non scalabile per tanti HP)

- selezione di valori in un range -> di solito scala logaritmica
- train per ogni combinazione possibile -> per tanti HP le combinazioni crescono exp
- validazione per ogni modello 
- scelto HP che danno validation test migliore (in base a metrica scelta)

<br>

- va bene per pochi HP
- trova migliore soluzione, no a compromessi
- scala come $O(n)^m$ con n possibili valori e m HP



## **Random Search**:


Algoritmo con performance uguali o superiori a GS anche per tanti HP. Valori estratti da distribuzione di probabilità definite in base alla natura degli HP che sto cercando

1. distribuzione di probabilità (bernoulli, multinomiale, discreta) in base a natura del problema
2. Tutti i valori hanno stessa prob di essere estratti -> riduzione del bias
3. più veloce -> non vengono testate tutte le combinazioni ma solo quelle randomicamente prese nella distribuzione di prob
    - non tutti gli HP hanno la stessa importanza nella variazione del validation test (importanti vs non importanti, definiti sulla base della variazione che apportano al Validation test)<br> <span style="color:red">Bergstra, James and Yoshua Bengio -  Random Search for hyperparameter optimization. - Journal of machine learning research 13.2(2012)</span> dimostrazione del perchè si trova randomicamente il valore ottimo e in modo più efficente rispetto il GS <br>
    - le possibili combinazioni, essendro randomiche e ugualmente probabili di essere selezionata, al crescere degli HP aumenta la probabilità di testare combinazioni in cui variano i parametri importanti. Copro meglio la probabilità dei parametri importanti.





## **Halving Random Search**

tecnica diversa nella gestione del dataset. Non cambia il tipo di algoritmo. 
Non uso tutto il dataset ma solo una porzione, quando trovo dei buoni HP (una buona combinazioni) le testo su tutto il dataset.

usata con la libreria sklearn


# Ottimizzazione degli iperparametri

parametri vs iperparametri del modello 
- <span style="color:red">parametri</span>:
    valori che il modello apprende durante il training del modello, trova i pesi che minimizzano la fase di loss (ovvero minimizzano l'errore del modello)
- <span style="color:green">iperparametri</span>: 
    fissati prima del training dallo sviluppatore (modello li usa nella sua fase di training)

![image.png](attachment:image.png)

- Learning Algorithm = modello a cui viene fornita la *Ground truth distribution (GTD)* ovvero l'input (le X) e l'output desiderato (le label), tramite ciclo iterativo si cerca una funzione che meglio approssimi la GTD, ovvero la funzione cui pesi minimizzano la funzione di LOSS. 
- i parametri sono indicati con $\theta$ mentre gli iperparam con $\lambda$
- si fissano gli iperparamentri e con il training trovo i pesi ottimi rispetto gli HP definiti, variando gli HP potrei trovare nuovi pesi che minimizzano ulteriormente la loss

FINE TUNING = problema di ottimizzazione -> inner loop optimization problem 
1. fisso gli HP
2. faccio il train 
3. ho una loss (pf calcolate su evaluation Dataset)
4. nuovi HP e riparte il ciclo 

internamente calcolo i pesi, esternamente calcolo nuovi HP

in breve
1. FINE TUNING = problema di ottimizzazione 
2. come faccio FT se non conosco le label
3. non usare dataset di traing ma evaluation dataset -> altrimenti OVERFITTING!


## Tecniche per trovare evaluation dataset

### Hold out

![image.png](attachment:image.png)

- 70% dati usati nel train
- 10% dei dati per validare il modello per capire validità degli HP
- quando sono soddisfatto e ho testato tutti i valori di HP, quindi quando ho un buon valore di LOSS nel train e nell'evaluation UNISCO il dataset di train e evaluation (80% dei dati), ritesto gli HP trovati e ritesto sul dataset di test
- le performance devono essere vicine

### k-fold cross validation

![image.png](attachment:image.png)

- con il **HOLD OUT** uso sempre stessi dati nel train
- con il k fold io testo su dati diversi, ogni iterazione diversa ha un training set e un validation set diverso evitando i problemi di bias dovuta a dati sempre uguali
- ISSUE: distribuzione delle label nei vari fold!!!, in un iterazione si vedono solo 4 label, mentre in un altra se ne vedono 5. risolvo con stratified cross validation

### Stratified cross validation

![image.png](attachment:image.png)

- come il k fold ma ha miglior gestione delle classi
- ogni esperimento ha lo stesso numero di label
- il validation error è fair

# Tuning iperparametri (code)

In [19]:
#utilities
import numpy as np
np.random.seed(1)
import pandas as pd
import matplotlib.pyplot as plt

#scipy and stats
import scipy
from scipy import stats

#scikit-learn
import sklearn

#preprocessing
from sklearn.preprocessing import StandardScaler, LabelEncoder

#feature selection
from sklearn.decomposition import PCA

#classification
from sklearn.linear_model import LogisticRegression

#model selection
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score 
from sklearn.model_selection import learning_curve
from sklearn.model_selection import validation_curve

#pipeline
from sklearn.pipeline import make_pipeline

In [4]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [5]:
BASE_URL = r"https://raw.githubusercontent.com/ProfAi/machine-learning-avanzato/main/datasets/"

In [7]:
df = pd.read_csv(BASE_URL + "/breast_cancer.csv")
df.head()
df.describe()

Unnamed: 0,ID number,diagnosis,radius mean,texture mean,perimeter mean,area mean,smoothness mean,compactness mean,concavity mean,concave points mean,...,radius worst,texture worst,perimeter worst,area worst,smoothness worstse,compactness worst,concavity worst,concave points worst,symmetry worst,fractal dimension worst
0,842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
1,84300903,M,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
2,84348301,M,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
3,84358402,M,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678
4,843786,M,12.45,15.7,82.57,477.1,0.1278,0.17,0.1578,0.08089,...,15.47,23.75,103.4,741.6,0.1791,0.5249,0.5355,0.1741,0.3985,0.1244


Unnamed: 0,ID number,radius mean,texture mean,perimeter mean,area mean,smoothness mean,compactness mean,concavity mean,concave points mean,symmetry mean,...,radius worst,texture worst,perimeter worst,area worst,smoothness worstse,compactness worst,concavity worst,concave points worst,symmetry worst,fractal dimension worst
count,563.0,563.0,563.0,563.0,563.0,563.0,563.0,563.0,563.0,563.0,...,563.0,563.0,563.0,563.0,563.0,563.0,563.0,563.0,563.0,563.0
mean,29082140.0,14.128091,19.32659,91.968526,655.098046,0.096277,0.104178,0.088597,0.048834,0.181142,...,16.270726,25.736714,107.246963,880.639964,0.132316,0.254337,0.272225,0.114588,0.290112,0.083982
std,120423900.0,3.530133,4.280229,24.332321,352.779985,0.014097,0.052497,0.07948,0.038747,0.027333,...,4.834175,6.13841,33.554786,569.531967,0.022911,0.15685,0.208615,0.06567,0.061458,0.018057
min,8670.0,6.981,9.71,43.79,143.5,0.05263,0.01938,0.0,0.0,0.106,...,7.93,12.02,50.41,185.2,0.07117,0.02729,0.0,0.0,0.1565,0.05504
25%,869221.0,11.695,16.21,75.1,420.05,0.086025,0.06488,0.02932,0.02029,0.16195,...,13.01,21.255,84.095,514.65,0.1164,0.14745,0.11545,0.064955,0.25055,0.071465
50%,905978.0,13.37,18.89,86.24,551.1,0.09578,0.09263,0.06154,0.0335,0.1792,...,14.97,25.45,97.66,686.5,0.1313,0.2141,0.2267,0.09993,0.2822,0.08006
75%,8836916.0,15.78,21.805,103.95,782.65,0.1053,0.13045,0.13,0.07402,0.19565,...,18.8,29.88,125.65,1086.0,0.14605,0.3395,0.3841,0.16195,0.31775,0.092085
max,911320500.0,28.11,39.28,188.5,2501.0,0.1634,0.3454,0.4268,0.2012,0.304,...,36.04,49.54,251.2,4254.0,0.2226,1.058,1.252,0.291,0.6638,0.2075


In [9]:
X,y = df.iloc[:,2:].values, df.iloc[:,1].values
len(X), len(y)
y[0]

(563, 563)

'M'

In [11]:
le = LabelEncoder()
y = le.fit_transform(y)
le.classes_

array(['B', 'M'], dtype=object)

In [12]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2,stratify=y, random_state=1)
len(X_train), len(y_train)

(450, 450)

In [13]:
pipe_lr = make_pipeline(
    StandardScaler(),
    PCA(n_components=2),
    LogisticRegression()
)

pipe_lr.fit(X_train, y_train)
y_pred = pipe_lr.predict(X_test)
test_acc = pipe_lr.score(X_test, y_test)
print(f"test accuracy: {test_acc:.3f}")

test accuracy: 0.965


## Grid Search (code)

il *param_grid* è una lista di dizionari che definisce il range di variazione dei parametri di addestramento per il Grid Search.
Nell'esempio gli si chiede di fare train con: 
- case1:
    1. svc__C che varia in param_range 
    2. svc__kernel di tipo 'linear'
- case2:
    1. svc__C che varia in param_range
    2. svc__kernel di tipo 'rbf'

verranno testate queste combinazioni nel GS


In [15]:
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

pipe_svc = make_pipeline(
    StandardScaler(),
    SVC(random_state=1)
)

param_range = [0.0001, 0.001, 0.01, 0.1, 10.0, 100.0, 1000.0]

param_grid = [
    {'svc__C': param_range,
     'svc__kernel': ['linear']},
     {'svc__C': param_range,
      'svc__gamma' : param_range,
     'svc__kernel': ['rbf']}
]

grid = GridSearchCV(
    estimator=pipe_svc, #pipe svc definita prima
    param_grid=param_grid, #param grid definita sopra
    scoring='accuracy', #metrica di valutazione per gli HP in train
    cv=10, #numero di fold usati 
    refit=True, #riesegue il fit ogni nuovo fold
    n_jobs=1 #se >1 parallelizza il calcolo
)

gs = grid.fit(X_train, y_train)
gs.best_score_
gs.best_params_


0.9800000000000001

{'svc__C': 100.0, 'svc__gamma': 0.001, 'svc__kernel': 'rbf'}

questi sono i migliori parametri rispetto alla griglia definita. Posso estrapolarli in un estimatore, che vado a rifittare sul train set e visualizzo accuracy sul test

In [17]:
clf = gs.best_estimator_
_ = clf.fit(X_train, y_train)
print(f"accuracy: {clf.score(X_test, y_test):.3f}")

accuracy: 0.956


## Random Search (code)

valori estratti da distribuzione uniforma (loguniform da 0.0001 a 1000.0)

In [23]:
from sklearn.model_selection import RandomizedSearchCV

In [20]:
param_range = scipy.stats.loguniform(0.0001, 1000.0)
param_range.rvs(10)

array([8.30145146e-02, 1.10222804e+01, 1.00184520e-04, 1.30715777e-02,
       1.06485687e-03, 4.42965766e-04, 2.01289666e-03, 2.62376594e-02,
       5.98924832e-02, 5.91176467e-01])

In [26]:
param_grid_rscv = [
    {'svc__C': param_range,
     'svc__kernel': ['linear']},
     {'svc__C': param_range,
      'svc__gamma' : param_range,
     'svc__kernel': ['rbf']}
]

rscv = RandomizedSearchCV(
    estimator=pipe_svc,
    param_distributions=param_grid_rscv,
    scoring='accuracy',
    cv=10,
    refit=True,
    random_state=1,
    n_iter=20,  # numero di iterazioni da fare
    n_jobs=1
)

In [27]:
rscv

In [28]:
_ = rscv.fit(X_train, y_train)
print(rscv.best_score_)
print(rscv.best_params_)

0.9755555555555556
{'svc__C': 0.05971247755848464, 'svc__kernel': 'linear'}


piu rapido del Grid search poichè non esaustivo

In [29]:
clf_rscv = rscv.best_estimator_
_ = clf_rscv.fit(X_train, y_train)
print(f"accuracy: {clf_rscv.score(X_test, y_test):.3f}")

accuracy: 1.000


## Halving random search (code)

In [38]:
from sklearn.experimental import enable_halving_search_cv
from sklearn.model_selection import HalvingRandomSearchCV

hrs = HalvingRandomSearchCV(
    estimator=pipe_svc,
    param_distributions=param_grid,
    n_candidates='exhaust',
    # il numero di candidati da provare ad ogni iterazione
    # se impostato a 'exhaust' il numero di candidati
    # è pari al numero di combinazioni possibili
    # per i parametri definiti in param_grid
    # se il numero di candidati è 100, il primo step
    # avrà 100 candidati, il secondo step avrà 67 candidati,
    factor=1.5,  # fattore di riduzione del numero di candidati
    # ad ogni iterazione, quindi il numero di fold viene 
    # ridotto di un fattore pari a factor. In questo caso
    # il numero di fold viene ridotto di un fattore pari a 1.5
    # se il numero di fold è 10, il primo step avrà 10 fold,
    # il secondo step avrà 7 fold, ovvero 10/1.5
    random_state=1,
    n_jobs=1,
)

_ = hrs.fit(X_train, y_train)
print(hrs.best_score_)
print(hrs.best_params_)

0.9588235294117646
{'svc__kernel': 'linear', 'svc__C': 0.01}


# Auto ML Tuning: Flaml (code)

liberia os di Microsoft che permette, definito un dataset e il tipo di problema, Regressione o classificatore, di definire in maniera automatizzata miglior estimatore e fare anche tuning

In [39]:
!git clone https://github.com/gianpd/AML.git
!pip install -q scikit-plot

Clone in 'AML' in corso...
remote: Enumerating objects: 183, done.[K
remote: Counting objects: 100% (183/183), done.[K
remote: Compressing objects: 100% (119/119), done.[K
remote: Total 183 (delta 106), reused 123 (delta 54), pack-reused 0 (from 0)[K
Ricezione degli oggetti: 100% (183/183), 50.00 KiB | 1.19 MiB/s, fatto.
Risoluzione dei delta: 100% (106/106), fatto.


usiamo un vero dataset scaricato da kaggle, usando le api di kaggle <br>
dataset di aml in use casi di crypto

In [41]:
!pip install -q kaggle

-q riduce l’output a solo messaggi essenziali o di errore.

In [46]:
import json
import os

In [47]:
kaggle_file = '/Users/adanfindo/Desktop/proAiclone/Kaggle Settings.json'
with open(kaggle_file) as f:
    kaggle_cred = json.load(f)

In [48]:
os.environ['KAGGLE_USERNAME'] = kaggle_cred['username']
os.environ['KAGGLE_KEY'] = kaggle_cred['key']

!kaggle datasets download -d ellipticco/elliptic-data-set

Dataset URL: https://www.kaggle.com/datasets/ellipticco/elliptic-data-set
License(s): Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)
Downloading elliptic-data-set.zip to /Users/adanfindo/Desktop/proAiclone
 99%|███████████████████████████████████████▍| 144M/146M [00:06<00:00, 30.6MB/s]
100%|████████████████████████████████████████| 146M/146M [00:06<00:00, 25.2MB/s]


creo una cartella **data** in cui unzippo il dataset

In [50]:
!mkdir data
!unzip -o elliptic-data-set.zip -d data

Archive:  elliptic-data-set.zip
  inflating: data/elliptic_bitcoin_dataset/elliptic_txs_classes.csv  
  inflating: data/elliptic_bitcoin_dataset/elliptic_txs_edgelist.csv  
  inflating: data/elliptic_bitcoin_dataset/elliptic_txs_features.csv  
