<h1>Metodos de otmização de Hiper parametro.</h1>

In [1]:
# Importando o que precisamos
from sklearn.tree import DecisionTreeClassifier
from xgboost import XGBClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import cross_val_score

In [2]:
# Carregando o conjunto de dados
entradas, saida = load_breast_cancer(return_X_y=True)

In [12]:
print(entradas)

[[1.799e+01 1.038e+01 1.228e+02 ... 2.654e-01 4.601e-01 1.189e-01]
 [2.057e+01 1.777e+01 1.329e+02 ... 1.860e-01 2.750e-01 8.902e-02]
 [1.969e+01 2.125e+01 1.300e+02 ... 2.430e-01 3.613e-01 8.758e-02]
 ...
 [1.660e+01 2.808e+01 1.083e+02 ... 1.418e-01 2.218e-01 7.820e-02]
 [2.060e+01 2.933e+01 1.401e+02 ... 2.650e-01 4.087e-01 1.240e-01]
 [7.760e+00 2.454e+01 4.792e+01 ... 0.000e+00 2.871e-01 7.039e-02]]


In [13]:
print(saida)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 0
 1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 1 1
 1 0 1 1 1 1 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1
 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 0 0 0 1 1
 1 1 0 1 0 1 0 1 1 1 0 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0
 0 1 0 0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 0 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1
 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 0 1 1 1 1 1 0 1 1
 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1
 1 1 1 1 1 1 0 1 0 1 1 0 

In [3]:
# Vamos passar o modelo preditivo, os dados de entrada e saida, a funcao de desempenho e o numero de particoes para a funcao de 
# validacao cruzada
desempenho_cross_val = cross_val_score(estimator = DecisionTreeClassifier(random_state=37),
                                       X = entradas, 
                                       y = saida,
                                       scoring = 'roc_auc',
                                       cv = 3)

print('Desempenho médio de AUC-ROC: {}'.format(round(desempenho_cross_val.mean(),3)))

Desempenho médio de AUC-ROC: 0.916


<h2>1. Grid Search</h2>

<p>
    Possivelmente o caso mais ingênuo e mais simples. O <b>Grid Search</b>, ou busca em grade, é um algoritmo de busca que recebe uma conjunto de valores de um ou mais hiperparâmetros e testa todas as combinações dentro dessa vizinhança.<br>
    O algoritmo tabela qual foi o desempenho de cada configuração e ao final de todos os testes, fala qual é a melhor escolha.<br>
    Atualmente, existem alternativas muito melhores que o <b>Grid Search</b>, mas vale a pena citá-lo por sua simplicidade.
    </p>

In [7]:
# Importando o Grid Search com cross-validation
from sklearn.model_selection import GridSearchCV

# Vamos passar para o GridSearchCV o modelo preditivo, a vizinhança de hiperparâmetros,
# a função de desemepnho e o número de partições do conjunto de dados:
grid_search_cv = GridSearchCV(estimator = DecisionTreeClassifier(random_state = 37),
                              param_grid = {'max_depth':range(1,50)}, # Testando comprimentos máximos de 1 a 50
                              scoring='roc_auc', cv = 3)

# Realizando a otimização por GridSearch para os dados de cancer de mama:
grid_search_cv.fit(entradas,saida)

#Vamos ver informações relevantes:
print('Melhor comprimento máximo: {}'.format(grid_search_cv.best_params_['max_depth']))
print('Desempenho AUC-ROC do melhor modelo: {}'.format(round(grid_search_cv.best_score_,3)))
print('Tempo para realizar a otimização:')
%timeit -n 1 -r 1 grid_search_cv.fit(entradas,saida)

Melhor comprimento máximo: 3
Desempenho AUC-ROC do melhor modelo: 0.923
Tempo para realizar a otimização:
1.24 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)


<p>
    Podemos ver que o modelo selecionou uma árvore de decisão com máximo comprimento 3 e performou melhor que a árvore sem otimização!<br>
    Também vimos o tempo de execução, por volta de 1.15 s, que vai ser útil para comparar com os outros algoritmos.
    </p>

<h2>2. Random Search</h2>

<p>
    Este algoritmo é muito parecido com o <b>Grid Search</b>, exceto por um motivo: ao invés de testar todas as combinações na vizinhança, o <b>Random Search</b>, ou busca aleatória, testa combinações aleatórias de hiperparâmetros, conforme um número especificado de amostras a tirar.<br>
    
Ele é uma alternativa para o <b>Grid Search</b> quando o conjunto de dados é muito grande, ou há um número muito grande de hiperparâmetros para otimizar.<br> 
    Para mostrar essas vantagens, vamos aproveitar para otimizar também outros hiperparâmetros da árvore de decisão.
</p>

In [None]:
from sklearn.model_selection import RandomizedSearchCV

# Definindo o Random Search CV. Vamos fornecer o argumento n_iter, que fala quantas configurações de hparams testar:
random_search_cv = RandomizedSearchCV(estimator = DecisionTreeClassifier(random_state = 37),
                              param_distributions = {'max_depth':range(1,50), # Testando comprimentos máximos de 1 a 50
                                                     'min_samples_leaf':range(1,20)} , # O mínimo de amostras por folha, de 1 a 20
                              scoring='roc_auc', 
                              cv = 3,
                              n_iter = 50)

# Realizando a otimização por GridSearch para os dados de cancer de mama:
random_search_cv.fit(entradas,saida)

#Vamos ver informações relevantes:
print('Melhor comprimento máximo: {}'.format(random_search_cv.best_params_['max_depth']))
print('Melhor minimo de amostras por folha: {}'.format(random_search_cv.best_params_['min_samples_leaf']))
print('Desempenho AUC-ROC do melhor modelo: {}'.format(round(random_search_cv.best_score_,3)))
print('Tempo para realizar a otimização:')
%timeit -n 1 -r 1 random_search_cv.fit(entradas,saida)

<p>
    Muito bom!<br>
    Conseguimos aumentar o desempenho do modelo e ainda diminuir o tempo de execução.<br>
    Para conjuntos de dados maiores, essa melhoria aumenta mais ainda.<br>
    Porém, ainda existem alternativas mais sofisticadas e mais rápidas que Random Search…
    </p>

<h2>3. Bayes Search</h2>

<p>
    Subindo na liga dos algoritmos de otimização, nos deparamos com este método. <b>Bayes Search</b>, ou busca bayesiana, tenta estimar qual é a combinação de hiperparâmetros que resultará na maior performance, com base numa distribuição criada a partir das combinações testadas anteriormente.<br>
    A grande sacada é forma que esse algoritmo faz as estimativas: <br>
    Ele procura as regiões onde há menor confiança na distribuição levantada e, dentro dessas regiões, qual é a que pode ter um valor mais elevado para a performance. Isso fica mais claro com a gif acima!<br>
    Assim, a cada iteração da busca bayesiana, a configuração de hiperparâmetros com a maior chance de melhoria é escolhida e a distribuição da performance do modelo é atualizada, permitindo a escolha de um novo ponto.<br>
    O ganho de desempenho que esse algoritmo proporciona é brutal em relação aos anteriores e é uma das melhores escolhas para datasets gigantes e modelos com muitos hiperparâmetros.<br>
    Vamos buscar ainda mais hiperparâmetros e ampliar o espaço de busca dos que já definimos:
    </p>

In [None]:
# Filtrando avisos 
import warnings
warnings.filterwarnings('ignore')

# Importando o Bayes Search com cross-validation:
from skopt import BayesSearchCV

# Importando espaços de busca
from skopt.space import Integer

# Definindo o Random Search CV. Vamos fornecer o argumento n_iter, que fala quantas configurações de hparams testar:
bayes_search_cv = BayesSearchCV(estimator = DecisionTreeClassifier(random_state = 37),
                              search_spaces = {'max_depth':Integer(1,100), # Testando comprimentos máximos de 1 a 50
                                              'min_samples_leaf':Integer(1,100)}, # O mínimo de amostras por folha, de 1 a 50
                              scoring='roc_auc',
                              cv = 3,
                              n_iter = 50, random_state=37)

# Realizando a otimização por GridSearch para os dados de cancer de mama:
bayes_search_cv.fit(entradas,saida)

#Vamos ver informações relevantes:
print('Melhor comprimento maximo: {}'.format(bayes_search_cv.best_params_['max_depth']))
print('Melhor minimo de amostras por folha: {}'.format(bayes_search_cv.best_params_['min_samples_leaf']))
print('Desempenho AUC-ROC do melhor modelo: {}'.format(round(bayes_search_cv.best_score_,3)))
print('Tempo para realizar a otimização:')
%timeit -n 1 -r 1 bayes_search_cv.fit(entradas,saida)

<p>
   Parece que chegamos no desempenho máximo: <br>
   Esse algoritmo de otimização gerou um modelo tão bom quanto o <b>Random Search</b>. <br>
   No entanto, notamos uma demora maior de execução — o <b>Bayes Search</b> funciona melhor para treinamentos mais complexos e com espaços de busca muito grandes, então para nosso exemplo, <b>Random Search</b> bastaria. Mas fica o aprendizado para os projetos reais!
   </p>