# Introdução à Otimização de Hiperparâmetros

## Modelos em Aprendizado de Máquina
No mundo do aprendizado de máquina, um modelo é uma representação de um sistema. Ele é treinado usando um conjunto de dados e, com base nesse treinamento, faz previsões ou toma decisões sem ser explicitamente programado para realizar uma determinada tarefa.

In [1]:
from sklearn.linear_model import LogisticRegression

# Criando um modelo de Regressão Logística
modelo = LogisticRegression()

## Parâmetros vs Hiperparâmetros em Aprendizado de Máquina
Em aprendizado de máquina, o processo de treinamento envolve ajustar os parâmetros do modelo para melhor se adequar aos dados. 

Em contraste, os hiperparâmetros são configurações que influenciam como esse treinamento é realizado.

### Parâmetros:
O que são? São componentes do modelo que são aprendidos diretamente dos dados durante o treinamento.

Exemplo: Nos modelos de redes neurais, os parâmetros são os pesos e biases (viés, um termo que adiciona um valor constante para ajudar o modelo a melhor se ajustar aos dados) que são ajustados através do treinamento.

In [2]:
# Carregando dataset do sklearn
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from keras.models import Sequential
from keras.layers import Dense
import numpy as np

# Carregando o dataset de dígitos
data = load_digits()
X = data.data
y = data.target

In [3]:
X.shape

(1797, 64)

In [4]:
y.shape

(1797,)

In [5]:
np.unique(y)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [6]:
# Dividindo em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando uma rede neural simples
model = Sequential()
model.add(Dense(4, input_dim=X_train.shape[1], activation='relu'))
model.add(Dense(2, activation='relu'))
model.add(Dense(64, activation='relu'))
model.add(Dense(10, activation='softmax'))

# Compilando e treinando o modelo
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(X_train, y_train, epochs=10, batch_size=32, verbose=0)

<keras.callbacks.History at 0x18ec3911990>

In [7]:
# Mostrando alguns parâmetros (pesos) da primeira camada
weights_first_layer = model.layers[0].get_weights()[0]
print("Pesos da primeira camada:\n", weights_first_layer)

Pesos da primeira camada:
 [[-0.16057912  0.02454808 -0.11131157 -0.17258233]
 [-0.16137795  0.25865427 -0.02449736 -0.09264661]
 [-0.04494302 -0.10240892 -0.10039603 -0.00079198]
 [ 0.0192206   0.3303808   0.17554003  0.19058096]
 [ 0.2178754  -0.22448872 -0.02378447  0.2230431 ]
 [ 0.08693727 -0.0244666  -0.19474138  0.22462773]
 [-0.04933892  0.08130708  0.1142305   0.25108552]
 [ 0.07461306 -0.0515631  -0.02345793  0.2453607 ]
 [-0.08426176  0.28490832 -0.04470127 -0.21831715]
 [ 0.0509194   0.21812695  0.20668599  0.01462329]
 [-0.24281858  0.08915081 -0.21961792  0.07073421]
 [ 0.26395437  0.0428807  -0.1265999   0.14326102]
 [-0.18381104  0.0311495   0.26282874 -0.2534998 ]
 [ 0.08738904  0.3010773   0.12824626 -0.24069051]
 [ 0.13338959  0.30897355  0.0613963   0.01021276]
 [-0.2544828  -0.08106738 -0.06234331 -0.15031917]
 [ 0.24216598 -0.15679546  0.23011161  0.17326947]
 [-0.26025486  0.36287338  0.24520251  0.12379906]
 [-0.22498856  0.28565285  0.08471644 -0.11663449]
 [ 0

In [8]:
weights_first_layer.shape

(64, 4)

### Hiperparâmetros:
O que são? São configurações que definem aspectos do treinamento e da estrutura do modelo. Não são aprendidos nos dados, mas são configurados antes do treinamento.

Exemplo: Em redes neurais, a taxa de aprendizado, o número de camadas, o número de neurônios em uma camada, e a função de ativação são todos hiperparâmetros.

In [9]:
# Definindo hiperparâmetros para uma rede neural
learning_rate = 0.001
batch_size = 32
epochs = 50
number_of_neurons_layer1 = 128
number_of_neurons_layer2 = 64
number_of_neurons_layer3 = 128
activation_function = 'relu'

# Criando um modelo usando os hiperparâmetros
model = Sequential()
model.add(Dense(number_of_neurons_layer1, input_dim=X_train.shape[1], activation=activation_function))
model.add(Dense(number_of_neurons_layer2, activation=activation_function))
model.add(Dense(number_of_neurons_layer3, activation=activation_function))
model.add(Dense(10, activation='softmax'))

# Treinando o modelo usando os hiperparâmetros
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(X_train, y_train, epochs=epochs, batch_size=batch_size, verbose=0)


<keras.callbacks.History at 0x18ec48ea410>

`learning_rate` = 0.001: Taxa de aprendizado é um hiperparâmetro que define o tamanho do passo que será usado no ajuste dos pesos durante o treinamento. Embora seja definido aqui, note que ele não está sendo usado diretamente no código fornecido, pois o otimizador 'adam' tem sua própria taxa de aprendizado adaptativa.

`batch_size` = 32: Tamanho do lote (ou batch) é a quantidade de amostras de dados que serão usadas para atualizar os pesos de uma única vez. Esse é um hiperparâmetro importante quando você está usando um método de otimização estocástico ou mini-batch.

`epochs` = 50: Número de épocas indica quantas vezes o algoritmo verá o conjunto de treinamento completo. Se você tem, digamos, 1000 amostras de treinamento e o batch_size é 100, então uma época terá 10 atualizações (passos) para o modelo.

`number_of_neurons_layer1` = 128 e `number_of_neurons_layer2` = 64 e `number_of_neurons_layer3` = 128: Estes definem o número de neurônios nas camadas ocultas da rede neural. A arquitetura e a profundidade da rede (número de camadas e neurônios em cada camada) são hiperparâmetros.

`activation_function` = 'relu': Função de ativação que é usada nos neurônios da rede. Dependendo da função escolhida, a rede pode aprender diferentes tipos de representações. O 'relu' (Rectified Linear Unit) é um dos mais populares atualmente.

`loss` = 'sparse_categorical_crossentropy': Define a função de perda, que é a métrica que a rede tentará minimizar durante o treinamento.

`optimizer` = 'adam': Define o otimizador usado, que é o algoritmo de otimização. Existem vários otimizadores e cada um tem seus próprios hiperparâmetros internos.

## Conclusão:

``Parâmetros`` são intrínsecos ao modelo e são ajustados durante o treinamento.

``Hiperparâmetros`` definem como o treinamento é realizado e a estrutura do modelo, sendo definidos externamente e não ajustados automaticamente pelo modelo durante o treinamento.

## A Crucialidade da Otimização de Hiperparâmetros
Hiperparâmetros adequados podem fazer a diferença entre um modelo médio e um modelo altamente eficiente. A otimização de hiperparâmetros:

- Melhora o desempenho do modelo no conjunto de dados.
- Pode ajudar a prevenir overfitting ou underfitting.
- Pode acelerar o treinamento do modelo ou torná-lo mais eficaz.

Encontrar os hiperparâmetros ideais muitas vezes é um desafio. Se pegarmos, por exemplo, uma rede neural, a taxa de aprendizado, o tamanho do batch, a quantidade de camadas e unidades em cada camada, entre outros, são hiperparâmetros que precisamos definir antes do treinamento. A combinação certa desses hiperparâmetros pode variar amplamente de um conjunto de dados para outro, e a otimização automática desses hiperparâmetros é onde podemos extrair o máximo do potencial de um modelo.

# Métodos de Otimização de Hiperparâmetros
Após a introdução sobre a importância dos hiperparâmetros, agora nos deparamos com um questionamento: "Como podemos encontrar o melhor conjunto de hiperparâmetros para nosso modelo?". Existem diversos métodos que auxiliam nessa busca, e hoje, iremos explorar três dos mais populares.

## Grid Search
O Grid Search, ou Pesquisa em Grade, é um dos métodos mais simples e amplamente utilizados para otimização de hiperparâmetros.

O método Grid Search, ou busca em grade, consiste em testar manualmente cada combinação possível de hiperparâmetros. Por exemplo, se tivermos dois hiperparâmetros e quisermos testar 5 valores diferentes para cada um, realizaríamos um total de 25 treinamentos (5x5).

``Vantagens``:

É determinístico; você sabe exatamente quais combinações serão testadas.
Pode ser paralelizado facilmente.

``Desvantagens``:

Pode ser muito demorado, especialmente quando o espaço de busca é grande.
Não é eficiente, pois testa combinações que podem ser consideradas subótimas com base em resultados anteriores.

In [10]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

def metricas_classificacao(y_real, y_pred):
    # Calcular métricas
    metrics = {
        "Acurácia": accuracy_score(y_real, y_pred),
        "Precisão (macro)": precision_score(y_real, y_pred, average='macro'),
        "Recall (macro)": recall_score(y_real, y_pred, average='macro'),
        "F1-Score (macro)": f1_score(y_real, y_pred, average='macro')
    }
    
    # Printar métricas
    for key, value in metrics.items():
        print(f"{key}: {value}")

    # Calcular a Matriz de Confusão
    confusion_mat = confusion_matrix(y_real, y_pred)

    # Printar Matriz de Confusão
    print("Matriz de Confusão:")
    sns.heatmap(confusion_mat, annot=True, cmap='YlGnBu', fmt='g')
    plt.xlabel('Previsto')
    plt.ylabel('Real')
    plt.show()

    return metrics


In [12]:
# Importando as bibliotecas necessárias para construir o modelo da rede neural
from keras.models import Sequential
from keras.layers import Dense

# Função que cria e retorna um modelo de rede neural
def create_model(neurons1=128, neurons2=64, activation_function='relu'):
    
    # Inicializando o modelo sequencial
    model = Sequential()
    
    # Adicionando a primeira camada oculta com o número de neurônios especificado (neurons1)
    # 'input_dim' especifica o número de características de entrada
    model.add(Dense(neurons1, input_dim=X_train.shape[1], activation=activation_function))
    
    # Adicionando a segunda camada oculta com o número de neurônios especificado (neurons2)
    model.add(Dense(neurons2, activation=activation_function))
    
    # Adicionando a terceira camada oculta com 128 neurônios
    model.add(Dense(128, activation=activation_function))
    
    # Adicionando a camada de saída com 10 neurônios (para um problema de classificação de 10 classes)
    model.add(Dense(10, activation='softmax'))
    
    # Compilando o modelo - especificando o otimizador, a função de perda e a métrica de avaliação
    model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
    
    return model

In [11]:
# Importando o KerasClassifier que permite usar modelos Keras com scikit-learn
from keras.wrappers.scikit_learn import KerasClassifier
# Importando GridSearchCV para otimização de hiperparâmetros
from sklearn.model_selection import GridSearchCV

# Criando uma instância do KerasClassifier com a função de criação do modelo e especificando 20 épocas
model_for_grid = KerasClassifier(build_fn=create_model, epochs=20, verbose=0)

# Definindo a grade de hiperparâmetros que queremos testar
param_grid = {
    'neurons1': [64, 128, 256],                # diferentes quantidades de neurônios para a primeira camada
    'neurons2': [64, 128, 256],                # diferentes quantidades de neurônios para a segunda camada
    'activation_function': ['relu', 'tanh']  # diferentes funções de ativação
}

# Configurando o GridSearchCV com o modelo, a grade de parâmetros, e outras opções
grid = GridSearchCV(estimator=model_for_grid, param_grid=param_grid, n_jobs=-1, cv=3)

# Iniciando a busca pelos melhores hiperparâmetros usando o conjunto de treinamento
grid_result = grid.fit(X_train, y_train)

# Imprimindo os melhores hiperparâmetros encontrados
print(f"Melhores parâmetros: {grid_result.best_params_}")

  model_for_grid = KerasClassifier(build_fn=create_model, epochs=20, verbose=0)


In [None]:
3 * 3 * 2 * 20

In [None]:
best_model = create_model(neurons1=128, neurons2=128, activation_function='relu')
best_model.fit(X_train, y_train, epochs=20, verbose = 0)
y_pred = np.argmax(best_model.predict(X_test), axis=1)
metricas = metricas_classificacao(y_test, y_pred)

In [None]:
model = create_model(neurons1=64, neurons2=64, activation_function='relu')
model.fit(X_train, y_train, epochs=20, verbose = 0)
y_pred = np.argmax(model.predict(X_test), axis=1)
metricas = metricas_classificacao(y_test, y_pred)

## Random Search

Como difere do Grid Search:

Em vez de testar todas as combinações possíveis, o Random Search testa uma quantidade determinada de combinações aleatórias de hiperparâmetros. Em nosso exemplo anterior de 3x3x2 combinações, em vez de testar todas as 18 combinações, podemos testar, digamos, 10 combinações aleatórias. Isso pode ser mais eficiente quando se tem um espaço de pesquisa muito grande.

In [None]:
from sklearn.model_selection import RandomizedSearchCV

# Definindo o espaço de hiperparâmetros
param_dist = {
    'neurons1': [64, 128, 256, 512],
    'neurons2': [64, 128, 256, 512],
    'activation_function': ['relu', 'tanh', 'softmax']
}

model_for_grid = KerasClassifier(build_fn=create_model, epochs=20, verbose=0)

# Configurando o RandomizedSearchCV com 10 iterações
random_search = RandomizedSearchCV(estimator=model_for_grid, param_distributions=param_dist, n_iter=10, n_jobs=-1, cv=3)

# Iniciando a busca pelos melhores hiperparâmetros usando o conjunto de treinamento
random_result = random_search.fit(X_train, y_train)

# Imprimindo os melhores hiperparâmetros encontrados
print(f"Melhores parâmetros usando RandomizedSearchCV: {random_result.best_params_}")


Ao invés de testarmos 4x4x3 = 48 combinações , testamos 10 combinações aleatórias

In [None]:
model = create_model(neurons1=128, neurons2=256, activation_function='relu')
model.fit(X_train, y_train, epochs=20, verbose = 0)
y_pred = np.argmax(model.predict(X_test), axis=1)
metricas = metricas_classificacao(y_test, y_pred)

## Otimização Bayesiana com BayesianOptimization
A otimização bayesiana é uma técnica probabilística para encontrar o mínimo de funções. Diferente do Random Search, que faz uma busca aleatória pelo espaço de hiperparâmetros, a otimização bayesiana tenta racionalizar a melhor área do espaço a ser pesquisada com base em avaliações anteriores. Ela usa um processo gaussiano para fazer isso.

### Funcionamento Básico:
Modelo probabilístico: Um modelo probabilístico é construído com base nas funções e seus parâmetros avaliados anteriormente. Esse modelo é frequentemente um processo gaussiano.

Escolha do próximo ponto: Com base no modelo atual, escolhe-se o próximo ponto para avaliar. Isso não é apenas baseado em áreas onde a performance é boa, mas também onde a incerteza é alta. Assim, equilibra a exploração de novas áreas e a exploração de áreas conhecidas.

### Aplicação em Machine Learning:
Para otimização de hiperparâmetros, a função que queremos minimizar (ou maximizar) é geralmente a métrica de erro (ou acurácia) do nosso modelo. Por exemplo, se estamos treinando uma rede neural, a função tomará hiperparâmetros como entrada (como taxa de aprendizado, número de neurônios, etc.) e retornará o erro no conjunto de validação.

In [None]:
!pip install bayesian-optimization

``Função Objetivo``: Precisamos definir a função que queremos otimizar. No nosso caso, essa função irá:
- Receber hiperparâmetros como entrada.
- Construir e treinar um modelo usando esses hiperparâmetros.
- Retornar a métrica de erro (ou acurácia).

``Limites dos Hiperparâmetros``: A otimização bayesiana requer que os hiperparâmetros tenham limites. Se for um hiperparâmetro contínuo (como a taxa de aprendizado), simplesmente definimos um intervalo. Para hiperparâmetros categóricos (como funções de ativação), usamos um truque: mapeamos cada categoria para um número (por exemplo, 'relu' para 0, 'tanh' para 1) e depois usamos esse índice como hiperparâmetro contínuo. Depois, na função objetivo, mapeamos o índice de volta à sua categoria original.

``Otimização``: Com a função objetivo e os limites definidos, podemos executar a otimização. Decidimos quantos pontos iniciais queremos (pontos escolhidos aleatoriamente antes de começar a otimização bayesiana) e quantas iterações de otimização queremos.

In [13]:
# Importando a biblioteca necessária
from bayes_opt import BayesianOptimization

# Definindo a função objetivo que queremos otimizar.
# Esta função treina um modelo com hiperparâmetros fornecidos e retorna a acurácia de validação.
def objective_function(neurons1, neurons2, activation_index):
    
    # Mapeia os índices para suas respectivas funções de ativação.
    activation_functions = ['relu', 'tanh']
    activation_function = activation_functions[int(activation_index)]
    
    # Cria e compila o modelo usando os hiperparâmetros fornecidos.
    model = create_model(int(neurons1), int(neurons2), activation_function)
    
    # Treina o modelo e obtém o histórico de treinamento.
    history = model.fit(X_train, y_train, epochs=20, verbose=0, validation_split=0.2)
    
    # Obtém a acurácia de validação da última época.
    val_accuracy = history.history['val_accuracy'][-1]
    
    return val_accuracy

# Definindo os limites dos hiperparâmetros para a otimização bayesiana.
# Os hiperparâmetros contínuos têm intervalos definidos (por exemplo, neurons1 entre 64 e 256).
# Para hiperparâmetros categóricos, usamos índices (por exemplo, activation_index entre 0 e 1).
pbounds = {
    'neurons1': (64, 256),
    'neurons2': (64, 256),
    'activation_index': (0, 1)
}

# Inicializa o otimizador bayesiano com a função objetivo e os limites dos hiperparâmetros.
optimizer = BayesianOptimization(
    f=objective_function,     # Função objetivo definida anteriormente.
    pbounds=pbounds,          # Limites dos hiperparâmetros.
    random_state=1            # Semente para reprodutibilidade.
)

# Executa a otimização bayesiana.
# 'init_points' define quantos pontos iniciais aleatórios serão testados antes da otimização começar.
# 'n_iter' define quantas iterações de otimização serão executadas.
optimizer.maximize(init_points=5, n_iter=10)

# Exibe os melhores hiperparâmetros encontrados.
print(f"Melhores parâmetros usando otimização bayesiana: {optimizer.max['params']}")

|   iter    |  target   | activa... | neurons1  | neurons2  |
-------------------------------------------------------------
| [0m1        [0m | [0m0.9618   [0m | [0m0.417    [0m | [0m202.3    [0m | [0m64.02    [0m |
| [95m2        [0m | [95m0.9757   [0m | [95m0.3023   [0m | [95m92.18    [0m | [95m81.73    [0m |
| [0m3        [0m | [0m0.9722   [0m | [0m0.1863   [0m | [0m130.3    [0m | [0m140.2    [0m |
| [0m4        [0m | [0m0.9722   [0m | [0m0.5388   [0m | [0m144.5    [0m | [0m195.6    [0m |
| [0m5        [0m | [0m0.9722   [0m | [0m0.2045   [0m | [0m232.6    [0m | [0m69.26    [0m |
| [0m6        [0m | [0m0.9722   [0m | [0m0.5312   [0m | [0m91.33    [0m | [0m80.78    [0m |
| [0m7        [0m | [0m0.9618   [0m | [0m0.1372   [0m | [0m93.61    [0m | [0m83.19    [0m |
| [0m8        [0m | [0m0.9618   [0m | [0m0.8808   [0m | [0m93.38    [0m | [0m81.32    [0m |
| [0m9        [0m | [0m0.9549   [0m | [0m0.2253   


"'activation_index': 0.48873272287485325:

Este valor contínuo representa a função de ativação selecionada para o modelo. Na implementação, duas funções de ativação ('relu' e 'tanh') foram mapeadas para os índices 0 e 1, respectivamente.
O valor 0.4887 é mais próximo de 0 do que de 1. Portanto, ao arredondar, o índice 0 é selecionado, correspondendo à função de ativação 'relu'.

'neurons1': 225.5063053565966:

Representa o número ideal de neurônios na primeira camada oculta identificado pelo otimizador bayesiano.
Em uma implementação prática, esse número seria arredondado para 226 neurônios na primeira camada oculta.

'neurons2': 251.9811401659988:

Indica o número ideal de neurônios para a segunda camada oculta.
Ao arredondar, resulta em uma segunda camada oculta com 252 neurônios."