### Derivadas Parciais e Gradientes

O que s√£o derivadas parciais?

Em um modelo de aprendizado de m√°quina, a fun√ß√£o que queremos otimizar √© uma **fun√ß√£o de erro ou perda** (por exemplo, a **fun√ß√£o de perda de entropia cruzada** para classifica√ß√£o). Essa fin√ß√£o depende de v√°rios par√¢metros (como pesos de redes neurais). As **derivadas parciais** medem como a fun√ß√£o de erro muda em rela√ß√£o a cada par√¢metro individualmente, enquanto os outros par√¢metros permanecem constantes.

üîπ**Derivadas Parciais** A derivada parcial de uma fun√ß√£o $f(x_1, x_2, \dots, x_n)$ em rela√ß√£o a $x_i$ √© a taxa de varia√ß√£o de $f$ quando $x_i$ muda, enquanto as outras vari√°veis s√£o mantidas constantes.\
Por exemplo, se temos uma fun√ß√£o de perda $L(w_1, w_2)$, as derivadas parciais seriam:
$$\frac{\partial L}{\partial w_1} \quad \text{e} \quad \frac{\partial L}{\partial w_2}$$
Aqui,  $w_1$ e $w_2$ s√£o os pesos da rede neural.

O que s√£o Gradientes?

O gradiente √© um vetor que cont√©m todas as derivadas parciais de uma fun√ß√£o de erro. Quando treinamos uma rede neural, o gradiente nos diz em qual dire√ß√£o e com qual magnitude devemos ajustar os pesos para reduzir a fun√ß√£o de perda.

üîπO gradiente de uma fun√ß√£o $f(w_1, w_2, \dots, w_n)$ √© dado por:
$$\nabla f(w_1, w_2, \dots, w_n) = \left( \frac{\partial f}{\partial w_1}, \frac{\partial f}{\partial w_2}, \dots, \frac{\partial f}{\partial w_n} \right)$$

Em rede neurais, utiliza o algoritmo de backpropagation usa o gradiente para ajustar os pesos da rede, calculando as derivadas parciais da fun√ß√£o de erro em rela√ß√£o aos pesos e aplicando esses ajustes em cada camada.

**Exemplo**

Se estamos treinando uma rede neural para prever a pr√≥xima palavra em uma sequ√™ncia de texto (como em um modelo de linguagem), queremos minimizar a fun√ß√£o de perda (por exempl, a perda de entropia cruzada) com rela√ß√£o aos pesos da rede. Isso √© feito calculando o gradiente da fun√ß√£o de erro e atualizando os pesos.

üîπDigamos que nossa fun√ß√£o de perda seja $L = (y - \hat{y})^2$, onde $y$ √© o valor real e $/hat{y}$ √© previs√£o.\
üîπO gradiente de $L$ com rela√ß√£o ao peso $w$ seria:

$$\frac{\partial L}{\partial w} = 2 (y - \hat{y}) \cdot \frac{\partial \hat{y}}{\partial w}$$

Esse gradiente √© ente√£o usado para atualizar os pesos da rede neural durante o treinamento.


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.animation as animation

# Fun√ß√£o de erro (fun√ß√£o quadr√°tica)
def L(w):
    return (w - 2)**2

# Derivada da fun√ß√£o de erro
def grad_L(w):
    return 2 * (w - 2)

# Gradiente Descendente
def gradient_descent(starting_w, learning_rate, iterations):
    w_values = [starting_w]  # Ponto inicial
    for i in range(iterations):
        grad = grad_L(w_values[-1])
        new_w = w_values[-1] - learning_rate * grad  # Atualiza o peso
        w_values.append(new_w)
    return w_values

# Par√¢metros
starting_w = 5.0  # Ponto de in√≠cio
learning_rate = 0.1  # Taxa de aprendizado
iterations = 20  # N√∫mero de itera√ß√µes

# Executando o Gradiente Descendente
w_values = gradient_descent(starting_w, learning_rate, iterations)

# Gerando o gr√°fico
fig, ax = plt.subplots()
w = np.linspace(0, 4, 100)
ax.plot(w, L(w), label="Fun√ß√£o de erro (L(w) = (w - 2)^2)", color="blue")
ax.set_xlim(0, 5)
ax.set_ylim(0, 10)

# Ponto de m√≠nimo
ax.scatter(2, 0, color="red", label="M√≠nimo (w = 2)")

# Anima√ß√£o
line, = ax.plot([], [], 'ro', label='Progresso do Gradiente')

def update(frame):
    line.set_data(w_values[:frame], L(np.array(w_values[:frame])))
    return line,

ani = animation.FuncAnimation(fig, update, frames=len(w_values), interval=500, repeat=False)

# Exibindo o gr√°fico animado
plt.legend()
plt.title("Gradiente Descendente para Minimizar L(w)")
plt.show()

# Para salvar a anima√ß√£o em um arquivo gif, podemos usar:
# ani.save('gradient_descent.gif', writer='imagemagick', fps=2)