# Otimizador SGD (Stochastic Gradient Descent)

Um dos otimizadores mais clássicos na área de aprendizado de máquina. Método que visa minimizar a função de perda utilizando o método da descida do gradiente.

> A parte **estocástica** se deve ao fato do algoritmo calcular o gradiente da função de perda para uma amostra do conjunto de treinamento em cada passo, tornando o processo mais rápido e eficiente, embora possa introduzir ruído no treinamento do algoritmo como um todo.

O algoritmo pode ser visto no seguinte esquema a seguir:

1. Divisão do conjunto de dados em pequenos lotes aleatórios, geralmente chamados de *mini lotes* ou *batches*;
2. Percorrer cada lote de forma iterativa, de forma que:
   - Calculemos o gradiente da função de perda em relação aos parâmetros do modelo $\nabla L(y;\hat{y})$;
   - Os parâmetros do algoritmo são atualizados na direção oposta do gradiente da função:
   $$w_{(i+1)} = w_i - \eta \nabla L(y;\hat{y}) $$
3. Caso o parâmetro **momentum** seja selecionado, guardamos informações do gradiente descendente anterior de forma que este contribua na atualização do peso atual, dessa forma os pesos são ajustados da seguinte maneira:
   $$w_{(i+1)} = w_i + \text{momentum} \cdot w_i - \eta \nabla L(y;\hat{y}) $$

| Vantagens | Desvantagens |
|:---:|:---:|
| Eficiente para treinar modelos em grandes conjuntos de dados, uma vez que usa apenas pequeno lotes para cada iteração | Aleatorização devido à aleatoridade dos mini lotes,  levando a necessidade de uma otimização manual para a taxa de aprendizado |
| Atualização contínua conforme novos dados chegam no modelo, ] os pesos podem ser atualizados em tempo real com a geração de novos mini lotes | Convergência não garantida, uma vez que o mínimo global da função de perda  pode ficar preso em mínimos locais |

In [4]:
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import SGD

model = Sequential()

model.add(
    Dense(128, input_dim=20, activation='relu')
)

model.add(
    Dense(1, activation='sigmoid')
)

sgd = SGD(learning_rate = 0.01)  # Defina a taxa de aprendizado conforme necessário

model.compile(
    loss='binary_crossentropy',
    optimizer=sgd,
    metrics=['accuracy']
)
