### Derivadas Parciais e Gradientes

O que são derivadas parciais?

Em um modelo de aprendizado de máquina, a função que queremos otimizar é uma **função de erro ou perda** (por exemplo, a **função de perda de entropia cruzada** para classificação). Essa finção depende de vários parâmetros (como pesos de redes neurais). As **derivadas parciais** medem como a função de erro muda em relação a cada parâmetro individualmente, enquanto os outros parâmetros permanecem constantes.

🔹**Derivadas Parciais** A derivada parcial de uma função $f(x_1, x_2, \dots, x_n)$ em relação a $x_i$ é a taxa de variação de $f$ quando $x_i$ muda, enquanto as outras variáveis são mantidas constantes.\
Por exemplo, se temos uma função de perda $L(w_1, w_2)$, as derivadas parciais seriam:
$$\frac{\partial L}{\partial w_1} \quad \text{e} \quad \frac{\partial L}{\partial w_2}$$
Aqui,  $w_1$ e $w_2$ são os pesos da rede neural.

O que são Gradientes?

O gradiente é um vetor que contém todas as derivadas parciais de uma função de erro. Quando treinamos uma rede neural, o gradiente nos diz em qual direção e com qual magnitude devemos ajustar os pesos para reduzir a função de perda.

🔹O gradiente de uma função $f(w_1, w_2, \dots, w_n)$ é dado por:
$$\nabla f(w_1, w_2, \dots, w_n) = \left( \frac{\partial f}{\partial w_1}, \frac{\partial f}{\partial w_2}, \dots, \frac{\partial f}{\partial w_n} \right)$$

Em rede neurais, utiliza o algoritmo de backpropagation usa o gradiente para ajustar os pesos da rede, calculando as derivadas parciais da função de erro em relação aos pesos e aplicando esses ajustes em cada camada.

**Exemplo**

Se estamos treinando uma rede neural para prever a próxima palavra em uma sequência de texto (como em um modelo de linguagem), queremos minimizar a função de perda (por exempl, a perda de entropia cruzada) com relação aos pesos da rede. Isso é feito calculando o gradiente da função de erro e atualizando os pesos.

🔹Digamos que nossa função de perda seja $L = (y - \hat{y})^2$, onde $y$ é o valor real e $/hat{y}$ é previsão.\
🔹O gradiente de $L$ com relação ao peso $w$ seria:

$$\frac{\partial L}{\partial w} = 2 (y - \hat{y}) \cdot \frac{\partial \hat{y}}{\partial w}$$

Esse gradiente é enteão usado para atualizar os pesos da rede neural durante o treinamento.


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.animation as animation

# Função de erro (função quadrática)
def L(w):
    return (w - 2)**2

# Derivada da função de erro
def grad_L(w):
    return 2 * (w - 2)

# Gradiente Descendente
def gradient_descent(starting_w, learning_rate, iterations):
    w_values = [starting_w]  # Ponto inicial
    for i in range(iterations):
        grad = grad_L(w_values[-1])
        new_w = w_values[-1] - learning_rate * grad  # Atualiza o peso
        w_values.append(new_w)
    return w_values

# Parâmetros
starting_w = 5.0  # Ponto de início
learning_rate = 0.1  # Taxa de aprendizado
iterations = 20  # Número de iterações

# Executando o Gradiente Descendente
w_values = gradient_descent(starting_w, learning_rate, iterations)

# Gerando o gráfico
fig, ax = plt.subplots()
w = np.linspace(0, 4, 100)
ax.plot(w, L(w), label="Função de erro (L(w) = (w - 2)^2)", color="blue")
ax.set_xlim(0, 5)
ax.set_ylim(0, 10)

# Ponto de mínimo
ax.scatter(2, 0, color="red", label="Mínimo (w = 2)")

# Animação
line, = ax.plot([], [], 'ro', label='Progresso do Gradiente')

def update(frame):
    line.set_data(w_values[:frame], L(np.array(w_values[:frame])))
    return line,

ani = animation.FuncAnimation(fig, update, frames=len(w_values), interval=500, repeat=False)

# Exibindo o gráfico animado
plt.legend()
plt.title("Gradiente Descendente para Minimizar L(w)")
plt.show()

# Para salvar a animação em um arquivo gif, podemos usar:
# ani.save('gradient_descent.gif', writer='imagemagick', fps=2)