Neste trabalho, O objetivo foi de buscar os melhores hiperparametros de uma SVM para Regressão num banco de dados em particular. Há 3 hiperparâmetros que consideramos como os mais importantes: C, gamma, e epsilon.

Dentre os algoritimos de otimização propostos para este trabalho, temos: 
    - Random search;
    - Grid search;
    - Bayesian optimization;
    - PSO;
    - Simulated aneeling;
    - CMA-ES.
    
Para a utilziação de cada um dos algoritimos acima fizemos o uso da bibliotecas: sklearn.svm, hyperopt, pyswarm and optuna.

Vamos fazer a busca no seguinte range:
    - C entre 2^{-5} e 2^{15}  (uniforme nos expoentes);
    - gamma entre 2^{15} e 2^{-3} (uniforme nos expoentes);
    - episolon entre 0.05 e 10  (uniforme neste intervalo);
    
Para o desenvolvimneto, utilizamos como dados de treino e testes os arquivos Xtreino5.npy e Xteste5.npy. Para as sáidas dos dados correspondenetres usamos os arquivos ytreino5.npy e yteste5.npy. Todos os arquivos foram disponibilizados na página no trabalho https://www.ic.unicamp.br/~wainer/cursos/1s2020/431/ex4.html.


### Importação das Bibliotecas

Como primeiro passo, importamos as bibliotecas necessárias para a implementação desse trabalho:

In [1]:
import numpy as np
from sklearn.svm import SVR
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV
from sklearn import metrics
import pyspark
from hyperopt import fmin, tpe, hp, SparkTrials, STATUS_OK, Trials
from sklearn.model_selection import cross_val_score

from pyswarm import pso
import optuna
from scipy.stats import loguniform
import random

### Leitura e Exibição dos arquivos

Após importamos as bibliotecas necessárias, realizamos a leitura dos arquivos .npy disponibilizados para uso neste trabalho. Para isso fizemos uso da função load() da biblioteca numpy. Armazenamos cada um dos arquivos de treino e de teste em variáveis locais.

In [2]:
x_treino = np.load('data/Xtreino5.npy')
x_teste = np.load('data/Xteste5.npy')
y_treino = np.load('data/ytreino5.npy')
y_teste = np.load('data/yteste5.npy')

### Medida de erro

Para um dos algoritimos de otimização, e para cada conjunto de hiperparametros, treinamos o SVM no conjunto de treino ( Xtreino e ytreino), e medimos o erro absoluto médio (MAE) no conjunto de teste (Xteste e yteste). 

## Randomized Search

In [3]:
n_combinations = 125

# Hyperparameters Search Space
C_range = np.random.uniform(-5, 15, n_combinations).astype(float)
C_range = 2**C_range

# C_range = loguniform(2**-5, 2**15).rvs(size=n_combinations)

gamma_range = np.random.uniform(-15, 3, n_combinations).astype(float)
gamma_range = 2**gamma_range

# gamma_range = loguniform(2**-15, 2** 3).rvs(size=n_combinations)

epsilon_range = np.random.uniform(0.05, 1.0, n_combinations).astype(float)

 
hyperparameters = {'gamma': list(gamma_range), 
                    'C': list(C_range),
                  'epsilon': list(epsilon_range)}

In [4]:
# Run randomized search
randomCV = RandomizedSearchCV(SVR(kernel='rbf'), param_distributions=hyperparameters, n_iter=20)
randomCV.fit(x_treino, y_treino)
 
# Identify optimal hyperparameter values
best_gamma  = randomCV.best_params_['gamma']
best_C      = randomCV.best_params_['C']
best_epsilon= randomCV.best_params_['epsilon']

print("The best performing C value is: {:5.2f}".format(best_C))
print("The best performing gamma value is: {:5.5f}".format(best_gamma))
print("The best performing epsilon value is: {:5.2f}".format(best_epsilon))


The best performing C value is: 81.48
The best performing gamma value is: 0.00065
The best performing epsilon value is:  0.48


In [5]:
# Validation

svr  = SVR(kernel='rbf', gamma=best_gamma, epsilon=best_epsilon, C=best_C)
svr.fit(x_treino, y_treino)

pred = svr.predict(x_teste)

# print(regression.score(x_teste, y_teste))
print("MAE: ", metrics.mean_absolute_error(y_true=y_teste, y_pred=pred))

MAE:  3.6183541243157356


### Grid seach

O próximo algoritimo de otimização proposto foi o Grid Search. Seguindo a especificação de uma busca em uma grid de 5x5x5, amostras do range de busca foram tomadas:

In [6]:
# Hyperparameters Search Space
n_combinations = 5

# Taken 5 samples randomly
grid_c = random.sample(list(C_range), k=n_combinations)
grid_gamma = random.sample(list(gamma_range), k=n_combinations)
grid_episolon = random.sample(list(epsilon_range), k=n_combinations)

hyperparameters_grid = {'gamma': list(grid_gamma), 
                        'C': list(grid_c),
                        'epsilon': list(grid_episolon)}

In [7]:
# Run Grid Search
randomCV = GridSearchCV(SVR(kernel='rbf'), param_grid=hyperparameters_grid, cv = 5)
randomCV.fit(x_treino, y_treino)
 
# Identify optimal hyperparameter values
best_gamma  = randomCV.best_params_['gamma']
best_C      = randomCV.best_params_['C']
best_epsilon= randomCV.best_params_['epsilon']
 
print("The best performing gamma value is: {:5.5f}".format(best_gamma))
print("The best performing C value is: {:5.2f}".format(best_C))
print("The best performing epsilon value is: {:5.2f}".format(best_epsilon))

The best performing gamma value is: 0.00092
The best performing C value is: 224.82
The best performing epsilon value is:  1.00


In [8]:
# Validation

svr  = SVR(kernel='rbf', gamma=best_gamma, epsilon=best_epsilon, C=best_C)
svr.fit(x_treino, y_treino)

pred = svr.predict(x_teste)

# print(regression.score(x_teste, y_teste))
print("MAE: ", metrics.mean_absolute_error(y_true=y_teste, y_pred=pred))

MAE:  3.535026819654117


### Otimização bayesiana

Outro algoritimo proposto foi a otimização bayesiana. Para a sua implementação utilziamos a biblioteca hyperopt, que dispnibiliza O regressor (TPE) para modelar a distribuição de probabilidades que é muito mais rápido que a implementação padrão utilizando “processos gaussianos”.

Esta implementação foi feita em passos:
    - Definição da função de mínimo;
    - Definição do espaço de pesquisa sobre os hiperparâmteros;
    - Seleção do algoritimo de busca;
    - Execução do algoritimo de ajuste com hyperopt fmin();
    
Fizemos 125 chamadas para a função.

### Definição da Função de mínimo

Como estamos fazendo a busca para um SVM, definimos um parâmetro params ['type'] como o nome do modelo, e uma função para executar o treinamento e retornar a precisão da validação cruzada. 
Como estamos tentando maximizar a precisão da validação cruzada, devemos negar esse valor para o hyperopt, pois o hyperopt sabe apenas como minimizar uma função.

In [9]:
def get_acc_status(clf,X_,y):
    acc = cross_val_score(clf, X_, y, cv=5).mean()
    return {'loss': -acc, 'status': STATUS_OK}

In [10]:
def objective(params):
    classifier_type = params['type']
    del params['type']
    if classifier_type == 'svm':
        clf = SVR(**params)
    else:
        return 0
    accuracy = cross_val_score(clf, x_treino, y_treino).mean()
    
    return {'loss': -accuracy, 'status': STATUS_OK}

### Definir espaço de pesquisa sobre os hiperparâmetros

Definimos o espaço de pesquisa dos hiperparâmetros C, gamma, e episolon de acordo com o range proposto para este trabalho.

In [11]:
search_space = hp.choice('classifier_type', [
    {
        'type': 'svm',
        'C': hp.uniform('C', (2**-5), (2**15)),
        'gamma': hp.uniform('gamma', (2**-15), (2**3)),
        'epsilon': hp.uniform('epsilon', 0.05, 1.0),
        'kernel': hp.choice('kernel', ['rbf'])
    },
])

### Selecionar um algoritimo de busca

As duas opções principais de algoritmos de busca são:

    - hyperopt.tpe.suggest: Estimadores da Árvore de Parzen, uma abordagem bayesiana que seleciona iterativa e adaptativamente novas configurações de hiperparâmetro para explorar com base em resultados anteriores;
    - hyperopt.rand.suggest: Pesquisa aleatória, uma abordagem não adaptativa que mostra o espaço de pesquisa.
    
Conforme pedido, utilziamos o algoritimo TPE.

### Executar o algoritmo de ajuste com hyperopt fmin ()

Definimos max_evals como o número máximo de pontos no espaço do hiperparâmetro para testar, ou seja, o número máximo de modelos para ajustar e avaliar.

O SparkTrials usa 2 argumentos:
    - parallelism: Número de modelos para ajustar e avaliar simultaneamente.
    - timeout: tempo máximo (em segundos) que fmin pode demorar. Este argumento é opcional.

O rastreamento automatizado do MLflow está ativado por padrão. Ligue para mlflow.start_run () antes de chamar fmin (), como mostra o exemplo abaixo.

In [12]:
hypopt_trials = Trials()
 
best_params = fmin(objective, search_space, algo=tpe.suggest, 
max_evals=125, trials= hypopt_trials)
 
best_gamma  = best_params['gamma']
best_C      = best_params['C']
best_epsilon= best_params['epsilon']
 
print("The best performing gamma value is: {:5.5f}".format(best_gamma))
print("The best performing C value is: {:5.2f}".format(best_C))
print("The best performing epsilon value is: {:5.2f}".format(best_epsilon))

100%|█████████████████████████████████████████████| 125/125 [00:09<00:00, 13.15trial/s, best loss: -0.5257307735450938]
The best performing gamma value is: 0.00408
The best performing C value is: 3863.98
The best performing epsilon value is:  0.52


In [13]:
# Validation

svr  = SVR(kernel='rbf', gamma=best_gamma, epsilon=best_epsilon, C=best_C)
svr.fit(x_treino, y_treino)

pred = svr.predict(x_teste)

# print(regression.score(x_teste, y_teste))
print("MAE: ", metrics.mean_absolute_error(y_true=y_teste, y_pred=pred))

MAE:  4.288336166490628


## PSO

Outro algoritimo proposto foi o PSO. Para a sua implementação utilziamos a biblioteca pyswarm, trabalhando com o uso de 11 partículas por 11 interações  e utilzaimos os valores default para os hiperparametros do PSO.

In [14]:
# PARAMETERS
C_MIN = 2**(-5)
C_MAX = 2**15

GAMMA_MIN = 2**(-15)
GAMMA_MAX = 2**3

EPSILON_MIN = 0.05
EPSILON_MAX = 1.0

lb = np.array([C_MIN, GAMMA_MIN, EPSILON_MIN])
ub = np.array([C_MAX, GAMMA_MAX, EPSILON_MAX])

# FUNCTION
def svr_fun(X):
    c = X[0]
    g = X[1]
    eps = X[2]
    
    svr  = SVR(kernel='rbf', C=c, gamma=g, epsilon=eps)
    svr.fit(x_treino, y_treino)
    
    pred = svr.predict(x_teste)
    mae = metrics.mean_absolute_error(y_true=y_teste, y_pred=pred)
    
    return mae

print("PSO...")
x_opt, y_opt = pso(svr_fun, lb, ub, swarmsize=11, maxiter=11)

print(" C optimal: "+ str(x_opt[0])+
     "\n Gamma Optimal: "+ str(x_opt[1])+
     "\n Epsilon Optimal: "+ str(x_opt[2]))
print("MAE: ", str(y_opt))

PSO...
Stopping search: maximum iterations reached --> 11
 C optimal: 25227.86190629691
 Gamma Optimal: 3.0517578125e-05
 Epsilon Optimal: 0.07258265456785185
MAE:  2.320434520745058


## Simulated Annealing

Para a implementação dos Métodos de Simmulate Annealing e CMA-ES foi utilizado a biblioteca optuna.

Para o método de Simulated Annealing a biblioteca fornece uma implementação via classe através dos chamados "samplers" para determinar os valores dos parâmetros a serem avaliados durante o teste. Para o Simmulated Annealing o sampler é implementado via classe explicitamente (vale ressaltar que estamos utilizando a implementação proposta pela própria documentação).

In [15]:
class SimulatedAnnealingSampler(optuna.samplers.BaseSampler):
    def __init__(self, temperature=100):
        self._rng = np.random.RandomState()
        self._temperature = temperature  # Current temperature.
        self._current_trial = None  # Current state.

    def sample_relative(self, study, trial, search_space):
        if search_space == {}:
            return {}

        #
        # An implementation of SA algorithm.
        #

        # Calculate transition probability.
        prev_trial = study.trials[-2]
        if self._current_trial is None or prev_trial.value <= self._current_trial.value:
            probability = 1.0
        else:
            probability = np.exp((self._current_trial.value - prev_trial.value) / self._temperature)
        self._temperature *= 0.9  # Decrease temperature.

        # Transit the current state if the previous result is accepted.
        if self._rng.uniform(0, 1) < probability:
            self._current_trial = prev_trial

        # Sample parameters from the neighborhood of the current point.
        #
        # The sampled parameters will be used during the next execution of
        # the objective function passed to the study.
        params = {}
        for param_name, param_distribution in search_space.items():
            if not isinstance(param_distribution, optuna.distributions.UniformDistribution):
                raise NotImplementedError('Only suggest_uniform() is supported')

            current_value = self._current_trial.params[param_name]
            width = (param_distribution.high - param_distribution.low) * 0.1
            neighbor_low = max(current_value - width, param_distribution.low)
            neighbor_high = min(current_value + width, param_distribution.high)
            params[param_name] = self._rng.uniform(neighbor_low, neighbor_high)

        return params

    #
    # The rest is boilerplate code and unrelated to SA algorithm.
    #
    def infer_relative_search_space(self, study, trial):
        return optuna.samplers.intersection_search_space(study)

    def sample_independent(self, study, trial, param_name, param_distribution):
        independent_sampler = optuna.samplers.RandomSampler()
        return independent_sampler.sample_independent(study, trial, param_name, param_distribution)





Por fim o é necessário criar uma função objetivo a qual deseja-se otimizar, em nosso caso procuramos minimizar o Erro Médio Absoluto (MAE) com uma validação no conjunto de testes da aplicação dos hyperparâmetros encontrados para o problema do SVM Regressor.

Utilizamos 125 para a simulação.

In [16]:
def objective(trial):
    c = trial.suggest_uniform('c', 2**(-5),  2**15)
    gamma = trial.suggest_uniform('gamma', 2**(-15),  2**3)    
    epsilon = trial.suggest_uniform('epsilon', 0.05,  1.0)
    
    svr  = SVR(kernel='rbf', C=c, gamma=gamma, epsilon=epsilon)
    svr.fit(x_treino, y_treino)
    
    pred = svr.predict(x_teste)
    mae = metrics.mean_absolute_error(y_true=y_teste, y_pred=pred)
    
    return mae


sampler = SimulatedAnnealingSampler()
study = optuna.create_study(sampler=sampler)
study.optimize(objective, n_trials=125)

[I 2020-05-06 17:24:29,763] Finished trial#0 with value: 5.766257209913847 with parameters: {'c': 2495.156715464481, 'gamma': 7.628336030542195, 'epsilon': 0.5347943315441175}. Best is trial#0 with value: 5.766257209913847.
[I 2020-05-06 17:24:29,827] Finished trial#1 with value: 5.76758500107791 with parameters: {'c': 5626.38251303355, 'gamma': 7.3663454925127025, 'epsilon': 0.5741008638305747}. Best is trial#0 with value: 5.766257209913847.
[I 2020-05-06 17:24:29,888] Finished trial#2 with value: 5.769421490181162 with parameters: {'c': 8846.56132752596, 'gamma': 6.91452250507197, 'epsilon': 0.6277548990400752}. Best is trial#0 with value: 5.766257209913847.
[I 2020-05-06 17:24:29,945] Finished trial#3 with value: 5.769605251617363 with parameters: {'c': 9285.15208339238, 'gamma': 6.735715309260219, 'epsilon': 0.6340596759204821}. Best is trial#0 with value: 5.766257209913847.
[I 2020-05-06 17:24:30,002] Finished trial#4 with value: 5.771442684265217 with parameters: {'c': 12526.9093

[I 2020-05-06 17:24:32,184] Finished trial#36 with value: 5.752542066853223 with parameters: {'c': 2190.561157283064, 'gamma': 4.805317305813672, 'epsilon': 0.12576804764907637}. Best is trial#30 with value: 5.751198920451745.
[I 2020-05-06 17:24:32,257] Finished trial#37 with value: 5.7526252264609035 with parameters: {'c': 3259.702582695172, 'gamma': 4.718819114833263, 'epsilon': 0.12934310205362257}. Best is trial#30 with value: 5.751198920451745.
[I 2020-05-06 17:24:32,335] Finished trial#38 with value: 5.751417991914564 with parameters: {'c': 3655.448196637714, 'gamma': 4.01187459358119, 'epsilon': 0.09772646050801262}. Best is trial#30 with value: 5.751198920451745.
[I 2020-05-06 17:24:32,407] Finished trial#39 with value: 5.752405116244711 with parameters: {'c': 3556.390683437655, 'gamma': 3.4805759878114206, 'epsilon': 0.13628346286550702}. Best is trial#30 with value: 5.751198920451745.
[I 2020-05-06 17:24:32,482] Finished trial#40 with value: 5.752308520815438 with parameters

[I 2020-05-06 17:24:34,854] Finished trial#71 with value: 4.909430433685845 with parameters: {'c': 6621.231102359655, 'gamma': 0.05539172378292453, 'epsilon': 0.2793150816098372}. Best is trial#70 with value: 4.836742364577102.
[I 2020-05-06 17:24:34,936] Finished trial#72 with value: 5.7599611169852665 with parameters: {'c': 1682.1348658537008, 'gamma': 0.6725868025276338, 'epsilon': 0.44882674633810515}. Best is trial#70 with value: 4.836742364577102.
[I 2020-05-06 17:24:35,011] Finished trial#73 with value: 4.959253770660642 with parameters: {'c': 6026.37175459742, 'gamma': 0.058474221119656083, 'epsilon': 0.3796905608799042}. Best is trial#70 with value: 4.836742364577102.
[I 2020-05-06 17:24:35,084] Finished trial#74 with value: 5.527571177441688 with parameters: {'c': 3554.7030714190014, 'gamma': 0.15602799730854264, 'epsilon': 0.47026802520119454}. Best is trial#70 with value: 4.836742364577102.
[I 2020-05-06 17:24:35,158] Finished trial#75 with value: 4.7356151147284224 with pa

[I 2020-05-06 17:24:37,717] Finished trial#106 with value: 5.75663820152936 with parameters: {'c': 4051.4911479432008, 'gamma': 0.6472832765129696, 'epsilon': 0.3301519927865547}. Best is trial#104 with value: 4.0073215553870565.
[I 2020-05-06 17:24:37,797] Finished trial#107 with value: 5.749915443934137 with parameters: {'c': 4006.800992262197, 'gamma': 0.46179953172028143, 'epsilon': 0.3934721850246249}. Best is trial#104 with value: 4.0073215553870565.
[I 2020-05-06 17:24:37,876] Finished trial#108 with value: 5.713000725399918 with parameters: {'c': 4595.018759424363, 'gamma': 0.309939101858409, 'epsilon': 0.36762655178990883}. Best is trial#104 with value: 4.0073215553870565.
[I 2020-05-06 17:24:37,959] Finished trial#109 with value: 5.757415643338282 with parameters: {'c': 3354.310043538314, 'gamma': 0.7776356835397136, 'epsilon': 0.340102650005028}. Best is trial#104 with value: 4.0073215553870565.
[I 2020-05-06 17:24:38,044] Finished trial#110 with value: 5.7586962203305605 wi

Logo, como resultado os melhores parâmetros encontrados durante a busca são mostrados:

In [17]:
study.best_params

{'c': 4252.639157822041,
 'gamma': 0.018245621737024723,
 'epsilon': 0.4162602846606807}

Bem como o resultado para o  erro absoluto médio (MAE) no conjunto de teste com esses parâmetros:

In [18]:
study.best_value

4.0073215553870565

## CMA-ES

Semelhantemente ao algoritmo de Simullate Annealing, a implementação do algoritmo de otimização CMA-ES também foi feita via biblioteca optunza. A implementação porém é encapsulada em um sampler default fornecido pela própria biblioteca, assim não sendo necessário a implementação de uma classe sampler específica, somente a função objetivo.

Utilize 125 chamadas da função. 

In [22]:
def objective(trial):
    c = trial.suggest_uniform('c', 2**(-5),  2**15)
    gamma = trial.suggest_uniform('gamma', 2**(-15),  2**3)    
    epsilon = trial.suggest_uniform('epsilon', 0.05,  1.0)
    
    svr  = SVR(kernel='rbf', C=c, gamma=gamma, epsilon=epsilon)
    svr.fit(x_treino, y_treino)
    
    pred = svr.predict(x_teste)
    mae = metrics.mean_absolute_error(y_true=y_teste, y_pred=pred)
    
    return mae


sampler = optuna.samplers.CmaEsSampler()
study = optuna.create_study(sampler=sampler)
study.optimize(objective, n_trials=125)


[I 2020-05-06 17:26:13,001] Finished trial#0 with value: 5.680609721776994 with parameters: {'c': 26038.403109170056, 'gamma': 0.24516986867698137, 'epsilon': 0.6540674772925259}. Best is trial#0 with value: 5.680609721776994.


ValueError: high is out of bounds for int32

Logo, como resultado os melhores parâmetros encontrados durante a busca são mostrados:

In [None]:
study.best_params

Bem como o resultado para o  erro absoluto médio (MAE) no conjunto de teste com esses parâmetros:

In [None]:
study.best_value