# Gradient Descent

* É um **algoritmo iterativo** utilizado para encontrar o mínimo de uma função diferenciável.

* Em Machine Learning, utiliza-se este algoritmo para minimizar a função custo (cost function) como em Regressão Linear e encontrar parâmetros otimizados.

* Uma **função custo** é a função que mede a variação (desvio) da predição do modelo do valor real, minimizando os erros.

* Este algoritmo é baseado em uma função convexa. De início, escolhe-se um ponto arbitrário da base de dados para encontrar sua performance. Então, calcula-se a derivada desta função para encontrar a tangente da função modelada. A inclinação da tangente informa o que deve modificado nos parametros (bias). A ideia é que, incialmente, a inclinação deve ser grosseira, mas ir reduzindo conforme o algoritmo é otimizado até atingir o mínimo desejável.

    - **Taxa de aprendizagem (Learning Rate)** é a quantidade de passos até chegar ao minímo da função custo. Ele é calculado e modificado conforme a função custo analisada. Quanto menor, mais precisão, porém muitas iterações são necessárias para chegar ao final do cálculo.

* Como exemplo, considere dois parâmetros de controle: $\theta_0$ e $\theta_1$ e uma taxa de aprendizagem $\alpha$. O processo iterativo para modificar $\alpha$ é:
$$\theta_0 \to \theta_0 - \alpha \frac{\partial J(\theta_0, \theta_1)}{\partial \theta_0} \ \ e \ \ \theta_1 \to \theta_1 - \alpha \frac{\partial J(\theta_0, \theta_1)}{\partial \theta_1}$$

## Tipos de Gradiente Descent

### Batch gradient descent:
* Este modelos considera a soma dos erros para cada ponto do conjunto de treinamento, atualizando o modelo apenas após todos o conjunto de treinamento ser calculado. Apesar de ser eficiente no sentido de menos passos, leva um tempo considerável para grandes datasets e necessita de armazenamento em memória compatível com o tamanho do dataset. Não é o mais ideal.

### Stochastic gradient descent:
* Executa uma iteração para cada dado dentro do conjunto de dados de treinamento e atualiza os parâmetros do conjunto a cada iteração. Como só é necessário armazenar um único conjunto de treinamento na mémora, eles tem baixo custo de armazenamento. Essas atualizações garantem mais velocidade e otimização aos dados, mas leva mais tempo do que o normal, porém melhor que o Batch.

* Este tipo de execução resultam em gradientes com ruídos, mas também podem ser úteis para encontrar minímos globais ao invés de locais. 

### Mini-batch gradient descent:
* É a junção dos dois modelos. Ele divide o conjunto de treinamento em subconjuntos menores e performa diversos batchs a cada iteração.

## Exemplo

* Vamos considerar a função $f(x) = 3w_0^2 + 4w_1^2 - 5w_0 + 7$ e encontrar o mínimo dela pelo algoritmo

In [2]:
import numpy as np

In [13]:
def f(w):
    return 3*w[0]**2 + 4*w[1]**2 - 5*w[0] + 7

def grad(w):
    df_dw0 = 6*w[0] - 5
    df_dw1 = 8*w[1]
    return np.array([df_dw0, df_dw1])

def gradient_descent(w_new, w_prev, lr):
    print(w_prev)
    print(f(w_prev))
    while True:
        w_prev = w_new
        w_0 = w_prev[0] - lr*grad(w_prev)[0]
        w_1 = w_prev[1] - lr*grad(w_prev)[1]
        w_new = np.array([w_0, w_1])
        print(w_new)
        print(f(w_new))
        if (w_new[0] - w_prev[0])**2 + (w_new[1] - w_prev[1])**2 < 1e-6:
            break

gradient_descent(np.array([5, 10]), np.array([5, 10]), 0.03)


[ 5 10]
457
[4.25 7.6 ]
270.97749999999996
[3.635 5.776]
161.91337899999996
[3.1307  4.38976]
97.83031890039999
[2.717174  3.3362176]
60.08462513702703
[2.37808268 2.53552538]
37.790974028107705
[2.1000278  1.92699929]
24.583516253356322
[1.87202279 1.46451946]
16.732563015773216
[1.68505869 1.11303479]
12.048360674226597
[1.53174813 0.84590644]
9.242247148028154
[1.40603346 0.64288889]
7.553847501493853
[1.30294744 0.48859556]
6.533181375871123
[1.2184169  0.37133262]
5.9130864019803235
[1.14910186 0.28221279]
5.534372198113799
[1.09226352 0.21448172]
5.301810837873198
[1.04565609 0.16300611]
5.158193493533129
[1.00743799 0.12388464]
5.068993584890293
[0.97609915 0.09415233]
5.013271550515018
[0.95040131 0.07155577]
4.978262311072791
[0.92932907 0.05438239]
4.956141987409894
[0.91204984 0.04133061]
4.9420884096295845
[0.89788087 0.03141127]
4.933112489776624
[0.88626231 0.02387256]
4.927350693764443
[0.8767351  0.01814315]
4.9236345007040905
[0.86892278 0.01378879]
4.9212270155731
[0.