# 2. Gradient Descent

- Otimização: primeira ordem
    - Utiliza a primeira derivada da função objetivo para encontrar os pontos máximos ou mínimos.

- Gradiente: indica a direção para a qual caminhar na função $f$ de forma a aumentar o falor de $f$ mais rapidamente.

- Gradiente em função multi-variada $f(x, y, \dots)$
    - Denotado por $\nabla f$
    - Vetor formado pelas derivadas parciais em todas as direções

$$
\nabla f = 
\begin{bmatrix}
\dfrac{\partial f}{\partial x}\\
\\
\dfrac{\partial f}{\partial y}\\
\vdots
\end{bmatrix}
$$

- O sinal do gradiente em um ponto indica se $f$ está aumentando ou diminuindo:
    - **Gradiente positivo:** a função está aumentando nesse ponto
    - **Gradiente negativo:** a função está diminuindo nesse ponto

- Se queremos encontrar os pontos de máximo de $f$, basta andar na direção do gradiente (**gradient ascent**)
- Se queremos os pontos de mínimo basta seguir na direção contrária do gradiente (**gradient descent**).


## 2.1. Receita para o gradiente descendente


1. **função objetivo**
2. **derivada da função objetivo**
3. **critério de parada**
4. **taxa de aprendizagem**

A atualização do $x$ é feita baseado na derivada em relação a $x$.

$$x_t = x - \alpha \dfrac{\partial f}{\partial x}$$

ou no caso unidimensional

$$x_t = x - \alpha f'(x)$$

Exemplo de aplicação:

$$ f(x) = x^2 - 2x $$
$$ f'(x) = x - 2 $$


In [13]:
import random
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

In [2]:
# f(x) = x^2 - 2x
def objective_function(x):
    return x ** 2 - 2 * x

# f'(x) = 2x - 2
def derivative_function(x):
    return 2 * x - 2

In [8]:
x = np.linspace(-1, 3, 1000)

fig = px.line(x=x, y=objective_function(x), width=800)
fig.show()

In [21]:
x = np.linspace(-1, 3, 1000)

fig = px.line(x=x, y=derivative_function(x), width=800)
fig.show()

In [10]:
def gradient_descent(obj, dev_obj, learning_rate, n_iter, bounds: tuple, seed: int = None):
    rng = random.Random(seed)

    x_min, x_max = bounds
    x_o = x_min + rng.random() * (x_max - x_min)

    yield None, x_o, obj(x_o), dev_obj(x_o)

    for i in range(n_iter):
        grad = dev_obj(x_o)
        x_o -= (learning_rate * grad)

        yield i, x_o, obj(x_o), grad

In [12]:
list(
    gradient_descent(
        objective_function,
        derivative_function,
        0.1, 100, (-1, 3), 42
    )
)

[(None, 1.557707193831535, -0.6889626859485545, 1.11541438766307),
 (0, 1.446165755065228, -0.800936119007075, 1.11541438766307),
 (1, 1.3569326040521825, -0.8725991161645279, 0.8923315101304561),
 (2, 1.285546083241746, -0.9184634343452978, 0.713865208104365),
 (3, 1.228436866593397, -0.9478165979809905, 0.571092166483492),
 (4, 1.1827494932747176, -0.9666026227078339, 0.4568737331867938),
 (5, 1.146199594619774, -0.9786256785330136, 0.36549898654943513),
 (6, 1.1169596756958193, -0.9863204342611287, 0.2923991892395481),
 (7, 1.0935677405566555, -0.9912450779271225, 0.23391935139163866),
 (8, 1.0748541924453243, -0.9943968498733584, 0.18713548111331102),
 (9, 1.0598833539562595, -0.9964139839189494, 0.14970838489064864),
 (10, 1.0479066831650077, -0.9977049497081276, 0.11976670791251909),
 (11, 1.0383253465320061, -0.9985311678132016, 0.09581336633001536),
 (12, 1.0306602772256048, -0.9990599474004491, 0.07665069306401229),
 (13, 1.0245282217804839, -0.9993983663362873, 0.061320554451

In [18]:
def gradient_descent(obj, dev_obj, learning_rate, n_iter, etol, bounds: tuple, seed: int = None):
    rng = random.Random(seed)

    x_min, x_max = bounds
    x_o = x_min + rng.random() * (x_max - x_min)

    yield None, x_o, obj(x_o), dev_obj(x_o)

    for i in range(n_iter):
        grad = dev_obj(x_o)
        x_new = x_o - (learning_rate * grad)

        if abs(x_o - x_new) < etol:
            return
    
        x_o = x_new

        yield i, x_o, obj(x_o), grad

In [20]:
list(
    gradient_descent(
        objective_function,
        derivative_function,
        0.1, 100, 0.0001, (-1, 3), 42
    )
)

[(None, 1.557707193831535, -0.6889626859485545, 1.11541438766307),
 (0, 1.446165755065228, -0.800936119007075, 1.11541438766307),
 (1, 1.3569326040521825, -0.8725991161645279, 0.8923315101304561),
 (2, 1.285546083241746, -0.9184634343452978, 0.713865208104365),
 (3, 1.228436866593397, -0.9478165979809905, 0.571092166483492),
 (4, 1.1827494932747176, -0.9666026227078339, 0.4568737331867938),
 (5, 1.146199594619774, -0.9786256785330136, 0.36549898654943513),
 (6, 1.1169596756958193, -0.9863204342611287, 0.2923991892395481),
 (7, 1.0935677405566555, -0.9912450779271225, 0.23391935139163866),
 (8, 1.0748541924453243, -0.9943968498733584, 0.18713548111331102),
 (9, 1.0598833539562595, -0.9964139839189494, 0.14970838489064864),
 (10, 1.0479066831650077, -0.9977049497081276, 0.11976670791251909),
 (11, 1.0383253465320061, -0.9985311678132016, 0.09581336633001536),
 (12, 1.0306602772256048, -0.9990599474004491, 0.07665069306401229),
 (13, 1.0245282217804839, -0.9993983663362873, 0.061320554451

In [None]:
fig = go.Figure()

fig.add_trace(go.Scatter(x=x, y=objective_function(x),
                    mode='lines',
                    name='lines'))

fig.add_trace(go.Scatter(x=result[1], y=result[2],
                    mode='lines+markers',
                    name='lines+markers'))

fig.show()

# 3. Redes neurais

- Neurônios artificiais
- Função de ativação
- Otimização de pesos: gradiente descendente
- Backpropagation


- Modelo perceptron


- Multilayer perceptron

# 4. Cross-validation revisitado

# Tarefa