# 🧭 Derivadas Parciais e Gradientes: A Bússola do Aprendizado

## *Módulo 10 - Como encontrar a derivada de uma função com várias variáveis. O vetor gradiente e como ele aponta na direção de maior inclinação*

---

**Por Pedro Nunes Guth**

Fala, galera! 🚀 Chegamos ao módulo que vai mudar sua vida no mundo da IA!

Nos módulos anteriores, vocês já dominaram:
- Funções de múltiplas variáveis (nossa paisagem do erro)
- Derivadas simples (a inclinação em uma dimensão)
- A regra da cadeia (a base do backpropagation)

Agora vamos juntar tudo isso e descobrir como navegar nessa paisagem multidimensional usando nossa **bússola matemática**: o gradiente!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/cálculo-para-ia-modulo-10_img_01.png)

In [None]:
# Imports necessários para nossa jornada
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import sympy as sp
from matplotlib import cm
import warnings
warnings.filterwarnings('ignore')

# Configurações visuais
plt.style.use('default')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

print("🧭 Bibliotecas carregadas! Bora explorar os gradientes!")

## 🎯 O Que São Derivadas Parciais?

Tá, mas o que é uma derivada parcial afinal?

Imagina que você tá numa festa no terraço de um prédio em Copacabana. A altura do terraço varia dependendo de onde você tá (coordenada x) E também de que andar você tá (coordenada y).

A **derivada parcial** é como se você perguntasse:
- "Se eu andar só pra frente/trás (eixo x), mantendo minha posição lateral fixa, quão íngreme fica?"
- "Se eu andar só pros lados (eixo y), mantendo minha posição frontal fixa, quão íngreme fica?"

### Definição Matemática

Para uma função $f(x, y)$, temos:

**Derivada parcial em relação a x:**
$$\frac{\partial f}{\partial x} = \lim_{h \to 0} \frac{f(x+h, y) - f(x, y)}{h}$$

**Derivada parcial em relação a y:**
$$\frac{\partial f}{\partial y} = \lim_{h \to 0} \frac{f(x, y+h) - f(x, y)}{h}$$

**Dica do Pedro:** O símbolo $\partial$ ("del" ou "d parcial") é usado pra diferenciar das derivadas "normais" que vocês já conhecem. É só um jeito de falar: "ó, aqui tem mais de uma variável, então tô derivando em relação a UMA só".

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/cálculo-para-ia-modulo-10_img_02.png)

In [None]:
# Vamos ver as derivadas parciais na prática
# Definindo símbolos para trabalhar com derivadas simbólicas
x, y = sp.symbols('x y')

# Nossa função exemplo: f(x,y) = x² + 2xy + y²
# (lembra da função de custo que vimos antes?)
f = x**2 + 2*x*y + y**2

print("📊 Nossa função: f(x,y) =", f)
print()

# Calculando as derivadas parciais
df_dx = sp.diff(f, x)  # Derivada parcial em relação a x
df_dy = sp.diff(f, y)  # Derivada parcial em relação a y

print("🎯 Derivada parcial em relação a x:")
print(f"∂f/∂x = {df_dx}")
print()
print("🎯 Derivada parcial em relação a y:")
print(f"∂f/∂y = {df_dy}")
print()

# Vamos avaliar num ponto específico (2, 1)
ponto_x, ponto_y = 2, 1
valor_df_dx = df_dx.subs([(x, ponto_x), (y, ponto_y)])
valor_df_dy = df_dy.subs([(x, ponto_x), (y, ponto_y)])

print(f"💡 No ponto ({ponto_x}, {ponto_y}):")
print(f"∂f/∂x = {valor_df_dx}")
print(f"∂f/∂y = {valor_df_dy}")
print()
print("🔍 Interpretação:")
print(f"- Se aumentarmos x (mantendo y=1), a função cresce {valor_df_dx} unidades por unidade de x")
print(f"- Se aumentarmos y (mantendo x=2), a função cresce {valor_df_dy} unidades por unidade de y")

## 🎨 Visualizando Derivadas Parciais

Bora ver isso graficamente! Liiindo!

Vou mostrar como as derivadas parciais são literalmente as inclinações das "fatias" da nossa função.

In [None]:
# Criando uma visualização das derivadas parciais
def nossa_funcao(x, y):
    """Nossa função f(x,y) = x² + 2xy + y²"""
    return x**2 + 2*x*y + y**2

def derivada_parcial_x(x, y):
    """∂f/∂x = 2x + 2y"""
    return 2*x + 2*y

def derivada_parcial_y(x, y):
    """∂f/∂y = 2x + 2y"""
    return 2*x + 2*y

# Criando a grade de pontos
x_vals = np.linspace(-3, 3, 100)
y_vals = np.linspace(-3, 3, 100)
X, Y = np.meshgrid(x_vals, y_vals)
Z = nossa_funcao(X, Y)

# Plotando a função 3D e as derivadas
fig = plt.figure(figsize=(15, 5))

# Subplot 1: Função original
ax1 = fig.add_subplot(131, projection='3d')
surf = ax1.plot_surface(X, Y, Z, cmap='viridis', alpha=0.7)
ax1.set_title('Função Original f(x,y)')
ax1.set_xlabel('x')
ax1.set_ylabel('y')
ax1.set_zlabel('f(x,y)')

# Subplot 2: Derivada parcial em x
ax2 = fig.add_subplot(132)
# Fatia em y=1 (fixo)
y_fixo = 1
z_fatia_x = nossa_funcao(x_vals, y_fixo)
inclinacao_x = derivada_parcial_x(x_vals, y_fixo)

ax2.plot(x_vals, z_fatia_x, 'b-', linewidth=2, label=f'f(x, y={y_fixo})')
ax2.plot(x_vals, inclinacao_x, 'r--', linewidth=2, label='∂f/∂x')
ax2.set_title(f'Fatia da função em y={y_fixo}')
ax2.set_xlabel('x')
ax2.set_ylabel('Valor')
ax2.legend()
ax2.grid(True)

# Subplot 3: Derivada parcial em y
ax3 = fig.add_subplot(133)
# Fatia em x=1 (fixo)
x_fixo = 1
z_fatia_y = nossa_funcao(x_fixo, y_vals)
inclinacao_y = derivada_parcial_y(x_fixo, y_vals)

ax3.plot(y_vals, z_fatia_y, 'b-', linewidth=2, label=f'f(x={x_fixo}, y)')
ax3.plot(y_vals, inclinacao_y, 'g--', linewidth=2, label='∂f/∂y')
ax3.set_title(f'Fatia da função em x={x_fixo}')
ax3.set_xlabel('y')
ax3.set_ylabel('Valor')
ax3.legend()
ax3.grid(True)

plt.tight_layout()
plt.show()

print("🎯 Olha só que lindo! As derivadas parciais mostram a inclinação em cada direção!")

## 🧭 O Vetor Gradiente: Nossa Bússola Mágica

Agora vem a parte mais dahora! O **gradiente** é simplesmente um vetor que junta todas as derivadas parciais.

### Definição do Gradiente

Para uma função $f(x, y)$, o gradiente é:

$$\nabla f = \begin{bmatrix} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{bmatrix}$$

O símbolo $\nabla$ ("nabla") é nosso operador gradiente.

### Por Que o Gradiente É Especial?

O gradiente tem uma propriedade **INCRÍVEL**:

🎯 **Ele sempre aponta na direção de MAIOR crescimento da função!**

É como se fosse uma seta que diz: "Ó, se você quer que a função cresça o máximo possível, vá nessa direção aqui!"

### Analogia do Pedro

Imagina que você tá perdido no Pão de Açúcar numa neblina. Você quer chegar no topo o mais rápido possível. O gradiente é como um GPS que sempre aponta na direção mais íngreme pra cima!

**Dica do Pedro:** Se você quer ir pro vale (minimizar a função), é só seguir na direção **OPOSTA** ao gradiente! É exatamente isso que fazemos no Gradiente Descendente (próximo módulo).

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/cálculo-para-ia-modulo-10_img_03.png)

In [None]:
# Implementando o cálculo do gradiente
def calcular_gradiente(x, y):
    """Calcula o gradiente da nossa função no ponto (x, y)"""
    df_dx = 2*x + 2*y  # ∂f/∂x
    df_dy = 2*x + 2*y  # ∂f/∂y
    return np.array([df_dx, df_dy])

# Testando em alguns pontos
pontos_teste = [(0, 0), (1, 1), (-1, 2), (2, -1)]

print("🧭 Calculando gradientes em diferentes pontos:\n")

for i, (px, py) in enumerate(pontos_teste):
    grad = calcular_gradiente(px, py)
    valor_funcao = nossa_funcao(px, py)
    magnitude = np.linalg.norm(grad)  # Tamanho do vetor
    
    print(f"📍 Ponto ({px}, {py}):")
    print(f"   f({px}, {py}) = {valor_funcao}")
    print(f"   ∇f = [{grad[0]}, {grad[1]}]")
    print(f"   |∇f| = {magnitude:.2f} (magnitude do gradiente)")
    
    if magnitude == 0:
        print(f"   🎯 PONTO CRÍTICO! Gradiente = 0")
    else:
        print(f"   🚀 Direção de maior crescimento: [{grad[0]/magnitude:.2f}, {grad[1]/magnitude:.2f}]")
    print()

## 📊 Visualizando o Campo de Gradientes

Bora ver como esses vetores gradiente ficam espalhados pela nossa paisagem! Vai ficar liiindo!

In [None]:
# Criando um campo de vetores gradiente
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Criando uma grade mais esparsa para os vetores
x_vec = np.linspace(-2, 2, 15)
y_vec = np.linspace(-2, 2, 15)
X_vec, Y_vec = np.meshgrid(x_vec, y_vec)

# Calculando os gradientes em cada ponto
U = 2*X_vec + 2*Y_vec  # ∂f/∂x
V = 2*X_vec + 2*Y_vec  # ∂f/∂y

# Plot 1: Contorno da função + campo de gradientes
x_contour = np.linspace(-3, 3, 100)
y_contour = np.linspace(-3, 3, 100)
X_cont, Y_cont = np.meshgrid(x_contour, y_contour)
Z_cont = nossa_funcao(X_cont, Y_cont)

contour = ax1.contour(X_cont, Y_cont, Z_cont, levels=15, alpha=0.6)
ax1.clabel(contour, inline=True, fontsize=8)

# Adicionando os vetores gradiente
ax1.quiver(X_vec, Y_vec, U, V, 
          scale=50, scale_units='xy', angles='xy', 
          color='red', alpha=0.7, width=0.003)

ax1.set_title('Campo de Gradientes sobre Curvas de Nível')
ax1.set_xlabel('x')
ax1.set_ylabel('y')
ax1.grid(True, alpha=0.3)
ax1.axis('equal')

# Plot 2: Mapa de calor da magnitude do gradiente
magnitude_grad = np.sqrt(U**2 + V**2)
heatmap = ax2.imshow(magnitude_grad, extent=[-2, 2, -2, 2], 
                    origin='lower', cmap='plasma', alpha=0.8)
ax2.contour(X_vec, Y_vec, magnitude_grad, levels=10, colors='white', alpha=0.5)

# Adicionando colorbar
plt.colorbar(heatmap, ax=ax2, label='|∇f|')

ax2.set_title('Magnitude do Gradiente')
ax2.set_xlabel('x')
ax2.set_ylabel('y')

plt.tight_layout()
plt.show()

print("🔥 Repara como:")
print("📍 Os vetores vermelhos SEMPRE apontam perpendicular às curvas de nível")
print("📍 Quanto mais 'quente' a cor, maior a magnitude do gradiente")
print("📍 No centro (0,0), o gradiente é zero = ponto crítico!")

## 🔄 Fluxograma: Do Conceito à Aplicação

Vamos visualizar como todos esses conceitos se conectam:

```mermaid
graph TD
    A[Função f(x,y)] --> B[Calcular ∂f/∂x]
    A --> C[Calcular ∂f/∂y]
    B --> D[Montar Vetor Gradiente ∇f]
    C --> D
    D --> E[Direção de Maior Crescimento]
    D --> F[Inverter Direção = Maior Decrescimento]
    E --> G[Máximo Local]
    F --> H[Mínimo Local]
    H --> I[Gradiente Descendente]
    I --> J[Otimização de IA]
```

## 🎯 Exemplo Prático: Função de Custo de Machine Learning

Bora ver isso aplicado numa função de custo real de ML! 

Vamos usar o exemplo clássico da regressão linear: queremos encontrar os melhores parâmetros $w_0$ (intercepto) e $w_1$ (inclinação) para uma reta.

A função de custo Mean Squared Error (MSE) é:

$$J(w_0, w_1) = \frac{1}{2m} \sum_{i=1}^{m} (w_0 + w_1 x^{(i)} - y^{(i)})^2$$

**Dica do Pedro:** Essa é a mesma ideia que vimos no Módulo 9, mas agora vamos calcular o gradiente pra saber pra onde "descer"!

In [None]:
# Criando dados sintéticos para regressão linear
np.random.seed(42)
m = 20  # número de amostras
X_data = np.random.uniform(-2, 2, m)
y_true = 1.5 * X_data + 0.5 + np.random.normal(0, 0.3, m)  # y = 1.5x + 0.5 + ruído

def custo_mse(w0, w1, X, y):
    """Função de custo MSE"""
    predicoes = w0 + w1 * X
    erro = predicoes - y
    return np.mean(erro**2) / 2

def gradiente_mse(w0, w1, X, y):
    """Gradiente da função MSE"""
    m = len(X)
    predicoes = w0 + w1 * X
    erro = predicoes - y
    
    # Derivadas parciais
    dJ_dw0 = np.mean(erro)  # ∂J/∂w0
    dJ_dw1 = np.mean(erro * X)  # ∂J/∂w1
    
    return np.array([dJ_dw0, dJ_dw1])

# Visualizando os dados
plt.figure(figsize=(12, 4))

# Plot 1: Dados originais
plt.subplot(1, 3, 1)
plt.scatter(X_data, y_true, alpha=0.7, color='blue')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Dados de Treino')
plt.grid(True, alpha=0.3)

# Plot 2: Superfície de custo
w0_range = np.linspace(-1, 2, 50)
w1_range = np.linspace(0, 3, 50)
W0, W1 = np.meshgrid(w0_range, w1_range)
J_surface = np.zeros_like(W0)

for i in range(len(w0_range)):
    for j in range(len(w1_range)):
        J_surface[j, i] = custo_mse(W0[j, i], W1[j, i], X_data, y_true)

ax2 = plt.subplot(1, 3, 2, projection='3d')
surf = ax2.plot_surface(W0, W1, J_surface, cmap='viridis', alpha=0.7)
ax2.set_xlabel('w0 (intercepto)')
ax2.set_ylabel('w1 (inclinação)')
ax2.set_zlabel('Custo J')
ax2.set_title('Superfície de Custo MSE')

# Plot 3: Curvas de nível + gradientes
plt.subplot(1, 3, 3)
contour = plt.contour(W0, W1, J_surface, levels=20)
plt.clabel(contour, inline=True, fontsize=8)

# Calculando gradientes em alguns pontos
w0_points = [0, 0.5, 1.0, 1.5]
w1_points = [1, 1.5, 2.0, 2.5]

for w0_p, w1_p in zip(w0_points, w1_points):
    grad = gradiente_mse(w0_p, w1_p, X_data, y_true)
    plt.arrow(w0_p, w1_p, -grad[0]*0.5, -grad[1]*0.5, 
             head_width=0.05, head_length=0.05, fc='red', ec='red')

plt.xlabel('w0 (intercepto)')
plt.ylabel('w1 (inclinação)')
plt.title('Gradientes (setas vermelhas)')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("🎯 Repara que as setas vermelhas apontam na direção do MÍNIMO!")
print("   (Invertemos o gradiente pra mostrar a direção de descida)")

## 🧮 Propriedades Importantes do Gradiente

Antes de partir pra prática, vamos consolidar as propriedades mais importantes:

### 1. **Direção de Maior Crescimento**
$$\nabla f \text{ aponta na direção onde } f \text{ cresce mais rapidamente}$$

### 2. **Perpendicular às Curvas de Nível**
$$\nabla f \perp \text{curvas de nível}$$

### 3. **Magnitude = Taxa Máxima de Variação**
$$|\nabla f| = \text{máxima taxa de variação no ponto}$$

### 4. **Gradiente Zero = Ponto Crítico**
$$\nabla f = 0 \Rightarrow \text{possível máximo, mínimo ou ponto de sela}$$

### Regras de Derivação para Gradientes

**Linearidade:**
$$\nabla(af + bg) = a\nabla f + b\nabla g$$

**Regra do Produto:**
$$\nabla(fg) = f\nabla g + g\nabla f$$

**Regra da Cadeia (multivariável):**
$$\nabla f(g(x,y), h(x,y)) = \frac{\partial f}{\partial g}\nabla g + \frac{\partial f}{\partial h}\nabla h$$

**Dica do Pedro:** A regra da cadeia multivariável é o coração do backpropagation! Vocês vão ver isso funcionando no próximo módulo.

In [None]:
# Implementando as propriedades do gradiente
def demonstrar_propriedades():
    """Demonstra as propriedades principais do gradiente"""
    
    # Definindo uma função mais complexa
    def f_complexa(x, y):
        return x**2 + 2*y**2 + x*y - 2*x - 4*y + 5
    
    def grad_f_complexa(x, y):
        df_dx = 2*x + y - 2
        df_dy = 4*y + x - 4
        return np.array([df_dx, df_dy])
    
    print("🔍 Testando propriedades do gradiente\n")
    
    # Propriedade 1: Direção de maior crescimento
    ponto = np.array([1, 1])
    grad = grad_f_complexa(ponto[0], ponto[1])
    
    if np.linalg.norm(grad) > 0:
        direcao_grad = grad / np.linalg.norm(grad)  # Normalizar
        
        # Testar várias direções
        angulos = np.linspace(0, 2*np.pi, 8)
        direcoes = np.array([[np.cos(a), np.sin(a)] for a in angulos])
        
        print(f"📍 No ponto {ponto}:")
        print(f"   Gradiente: [{grad[0]:.3f}, {grad[1]:.3f}]")
        print(f"   Direção do gradiente: [{direcao_grad[0]:.3f}, {direcao_grad[1]:.3f}]")
        print()
        
        # Calculando derivada direcional em várias direções
        step = 0.01
        derivadas_direcionais = []
        
        for direcao in direcoes:
            # Derivada direcional = gradiente · direção
            deriv_dir = np.dot(grad, direcao)
            derivadas_direcionais.append(deriv_dir)
        
        derivadas_direcionais = np.array(derivadas_direcionais)
        max_idx = np.argmax(derivadas_direcionais)
        
        print("🎯 Derivadas direcionais em diferentes direções:")
        for i, (angulo, deriv) in enumerate(zip(angulos, derivadas_direcionais)):
            simbolo = "🔥" if i == max_idx else "  "
            print(f"   {simbolo} Ângulo {angulo:.2f}: {deriv:.3f}")
        
        print(f"\n✅ Confirmado: Máxima derivada direcional na direção do gradiente!")
        print(f"   Valor máximo: {derivadas_direcionais[max_idx]:.3f}")
        print(f"   Magnitude do gradiente: {np.linalg.norm(grad):.3f}")
    
    # Propriedade 2: Encontrar pontos críticos
    print("\n🔍 Procurando pontos críticos (∇f = 0):")
    # Para nossa função, resolvemos o sistema:
    # 2x + y - 2 = 0
    # x + 4y - 4 = 0
    
    # Solução: x = 4/7, y = 6/7
    x_critico = 4/7
    y_critico = 6/7
    
    grad_critico = grad_f_complexa(x_critico, y_critico)
    valor_critico = f_complexa(x_critico, y_critico)
    
    print(f"📍 Ponto crítico encontrado: ({x_critico:.4f}, {y_critico:.4f})")
    print(f"   Gradiente no ponto: [{grad_critico[0]:.6f}, {grad_critico[1]:.6f}]")
    print(f"   Valor da função: {valor_critico:.4f}")
    
demonstrar_propriedades()

## 📈 Comparando Diferentes Tipos de Funções

Vamos ver como o gradiente se comporta em diferentes "paisagens"!

In [None]:
# Comparando diferentes funções e seus gradientes
fig, axes = plt.subplots(2, 3, figsize=(18, 10))

# Função 1: Paraboloide (convexa)
def f1(x, y):
    return x**2 + y**2

def grad_f1(x, y):
    return np.array([2*x, 2*y])

# Função 2: Ponto de sela
def f2(x, y):
    return x**2 - y**2

def grad_f2(x, y):
    return np.array([2*x, -2*y])

# Função 3: Função de Rosenbrock (banana function)
def f3(x, y):
    a, b = 1, 100
    return (a - x)**2 + b*(y - x**2)**2

def grad_f3(x, y):
    a, b = 1, 100
    df_dx = -2*(a - x) - 4*b*x*(y - x**2)
    df_dy = 2*b*(y - x**2)
    return np.array([df_dx, df_dy])

funcoes = [f1, f2, f3]
gradientes = [grad_f1, grad_f2, grad_f3]
nomes = ['Paraboloide (Convexa)', 'Ponto de Sela', 'Rosenbrock (Banana)']
ranges = [(-2, 2), (-2, 2), (-1.5, 1.5)]

for i, (func, grad_func, nome, (min_val, max_val)) in enumerate(zip(funcoes, gradientes, nomes, ranges)):
    # Criando a grade
    x_range = np.linspace(min_val, max_val, 100)
    y_range = np.linspace(min_val, max_val, 100)
    X, Y = np.meshgrid(x_range, y_range)
    Z = func(X, Y)
    
    # Superfície 3D
    ax_3d = axes[0, i]
    if i == 2:  # Rosenbrock precisa de escala logarítmica
        Z_log = np.log10(Z + 1)
        surf = ax_3d.contour(X, Y, Z_log, levels=15)
    else:
        surf = ax_3d.contour(X, Y, Z, levels=15)
    
    ax_3d.set_title(f'{nome}\n(Curvas de Nível)')
    ax_3d.set_xlabel('x')
    ax_3d.set_ylabel('y')
    ax_3d.grid(True, alpha=0.3)
    
    # Campo de gradientes
    ax_grad = axes[1, i]
    
    # Grade mais esparsa para vetores
    x_vec = np.linspace(min_val, max_val, 12)
    y_vec = np.linspace(min_val, max_val, 12)
    X_vec, Y_vec = np.meshgrid(x_vec, y_vec)
    
    U, V = np.zeros_like(X_vec), np.zeros_like(Y_vec)
    for row in range(X_vec.shape[0]):
        for col in range(X_vec.shape[1]):
            grad_val = grad_func(X_vec[row, col], Y_vec[row, col])
            U[row, col] = grad_val[0]
            V[row, col] = grad_val[1]
    
    # Normalizando os vetores para visualização
    magnitude = np.sqrt(U**2 + V**2)
    # Evitar divisão por zero
    mask = magnitude > 1e-10
    U_norm, V_norm = np.zeros_like(U), np.zeros_like(V)
    U_norm[mask] = U[mask] / magnitude[mask]
    V_norm[mask] = V[mask] / magnitude[mask]
    
    # Plot do campo de vetores
    if i == 2:  # Rosenbrock
        contour_bg = ax_grad.contour(X, Y, np.log10(Z + 1), levels=10, alpha=0.3)
    else:
        contour_bg = ax_grad.contour(X, Y, Z, levels=10, alpha=0.3)
    
    ax_grad.quiver(X_vec, Y_vec, U_norm, V_norm, magnitude,
                  scale=15, scale_units='xy', angles='xy', cmap='plasma')
    
    ax_grad.set_title(f'Campo de Gradientes\n(Cor = Magnitude)')
    ax_grad.set_xlabel('x')
    ax_grad.set_ylabel('y')
    ax_grad.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("🔥 Comparação das paisagens:")
print("📍 Paraboloide: Todos os gradientes apontam pro centro (mínimo global)")
print("📍 Ponto de Sela: Gradientes se afastam numa direção, se aproximam na outra")
print("📍 Rosenbrock: Paisagem complexa com vale estreito (desafio para otimização!)")

## 🎮 Exercício Prático 1: Calculadora de Gradientes

Bora praticar! Implementa uma calculadora que recebe uma função simbólica e calcula o gradiente automaticamente.

In [None]:
# EXERCÍCIO: Complete a função abaixo
def calculadora_gradiente(expressao_str, ponto):
    """
    Calcula o gradiente de uma função simbólica num ponto específico.
    
    Args:
        expressao_str: String com a expressão (ex: 'x**2 + y**2')
        ponto: Tupla (x, y) onde calcular o gradiente
    
    Returns:
        tuple: (gradiente_array, magnitude, direção_unitária)
    """
    
    # Passo 1: Definir símbolos
    x, y = sp.symbols('x y')
    
    # Passo 2: Converter string para expressão simbólica
    # COMPLETE AQUI:
    f = sp.sympify(expressao_str)
    
    # Passo 3: Calcular derivadas parciais
    # COMPLETE AQUI:
    df_dx = sp.diff(f, x)
    df_dy = sp.diff(f, y)
    
    # Passo 4: Avaliar no ponto dado
    px, py = ponto
    # COMPLETE AQUI:
    grad_x = float(df_dx.subs([(x, px), (y, py)]))
    grad_y = float(df_dy.subs([(x, px), (y, py)]))
    
    gradiente = np.array([grad_x, grad_y])
    
    # Passo 5: Calcular magnitude e direção unitária
    # COMPLETE AQUI:
    magnitude = np.linalg.norm(gradiente)
    if magnitude > 0:
        direcao_unitaria = gradiente / magnitude
    else:
        direcao_unitaria = np.array([0, 0])
    
    return gradiente, magnitude, direcao_unitaria

# Testando a função
print("🧮 Testando a Calculadora de Gradientes\n")

testes = [
    ('x**2 + y**2', (1, 1)),
    ('x*y + x**2', (2, 3)),
    ('sin(x) + cos(y)', (0, 0)),
    ('exp(x + y)', (0, 0))
]

for expressao, ponto in testes:
    grad, mag, direcao = calculadora_gradiente(expressao, ponto)
    
    print(f"📍 f(x,y) = {expressao}")
    print(f"   Ponto: {ponto}")
    print(f"   Gradiente: [{grad[0]:.4f}, {grad[1]:.4f}]")
    print(f"   Magnitude: {mag:.4f}")
    print(f"   Direção unitária: [{direcao[0]:.4f}, {direcao[1]:.4f}]")
    print()

print("✅ Exercício concluído! Parabéns!")

## 🚀 Conexão com o Próximo Módulo: Gradiente Descendente

Agora que vocês dominaram o gradiente, vamos ver como usar ele pra **otimizar** funções!

### A Ideia Central

Se o gradiente aponta pra onde a função **cresce mais**, então:
- **-∇f** aponta pra onde a função **decresce mais**!
- Seguindo a direção **-∇f**, chegamos no mínimo!

### Algoritmo do Gradiente Descendente (Preview)

```
1. Comece num ponto inicial θ₀
2. Calcule o gradiente ∇f(θ)
3. Atualize: θ = θ - α∇f(θ)  (α = learning rate)
4. Repita até convergir
```

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/cálculo-para-ia-modulo-10_img_04.png)

In [None]:
# Preview do Gradiente Descendente
def preview_gradiente_descendente():
    """Uma prévia do que veremos no próximo módulo"""
    
    # Função simples: f(x,y) = (x-1)² + (y-2)²
    def f_exemplo(x, y):
        return (x - 1)**2 + (y - 2)**2
    
    def grad_f_exemplo(x, y):
        return np.array([2*(x - 1), 2*(y - 2)])
    
    # Parâmetros
    ponto_inicial = np.array([-2.0, 4.0])
    learning_rate = 0.1
    num_iteracoes = 20
    
    # Executando o algoritmo
    trajetoria = [ponto_inicial.copy()]
    ponto_atual = ponto_inicial.copy()
    
    print("🚀 Preview do Gradiente Descendente\n")
    print(f"Objetivo: Minimizar f(x,y) = (x-1)² + (y-2)²")
    print(f"Ponto inicial: {ponto_inicial}")
    print(f"Learning rate: {learning_rate}\n")
    
    for i in range(num_iteracoes):
        # Calcular gradiente
        grad = grad_f_exemplo(ponto_atual[0], ponto_atual[1])
        
        # Atualizar posição (passo do gradiente descendente)
        ponto_atual = ponto_atual - learning_rate * grad
        trajetoria.append(ponto_atual.copy())
        
        if i < 5 or i % 5 == 0:  # Mostrar apenas algumas iterações
            valor_atual = f_exemplo(ponto_atual[0], ponto_atual[1])
            print(f"Iteração {i+1:2d}: ({ponto_atual[0]:.3f}, {ponto_atual[1]:.3f}) | f = {valor_atual:.6f}")
    
    trajetoria = np.array(trajetoria)
    
    # Visualização
    x_range = np.linspace(-3, 3, 100)
    y_range = np.linspace(-1, 5, 100)
    X, Y = np.meshgrid(x_range, y_range)
    Z = f_exemplo(X, Y)
    
    plt.figure(figsize=(10, 8))
    
    # Curvas de nível
    contour = plt.contour(X, Y, Z, levels=20, alpha=0.6)
    plt.clabel(contour, inline=True, fontsize=8)
    
    # Trajetória do gradiente descendente
    plt.plot(trajetoria[:, 0], trajetoria[:, 1], 'ro-', 
             linewidth=2, markersize=6, alpha=0.8, label='Trajetória')
    
    # Ponto inicial e final
    plt.plot(trajetoria[0, 0], trajetoria[0, 1], 'go', 
             markersize=10, label='Início')
    plt.plot(trajetoria[-1, 0], trajetoria[-1, 1], 'bs', 
             markersize=10, label='Final')
    
    # Mínimo teórico
    plt.plot(1, 2, 'k*', markersize=15, label='Mínimo Verdadeiro')
    
    plt.xlabel('x')
    plt.ylabel('y')
    plt.title('Preview: Gradiente Descendente em Ação!')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.axis('equal')
    
    plt.show()
    
    print(f"\n🎯 Resultado final: ({trajetoria[-1, 0]:.6f}, {trajetoria[-1, 1]:.6f})")
    print(f"🎯 Mínimo teórico: (1.000000, 2.000000)")
    print(f"🎯 Erro final: {np.linalg.norm(trajetoria[-1] - np.array([1, 2])):.6f}")
    
    return trajetoria

trajetoria_final = preview_gradiente_descendente()

## 💡 Algoritmo: Do Gradiente à Otimização

Vamos ver o fluxo completo de como o gradiente nos leva à otimização:

```mermaid
graph TD
    A[Função de Custo J(θ)] --> B[Ponto Inicial θ₀]
    B --> C[Calcular ∇J(θ)]
    C --> D{|∇J| < ε?}
    D -->|Não| E[θ = θ - α∇J(θ)]
    E --> C
    D -->|Sim| F[Convergiu! θ* encontrado]
    F --> G[Parâmetros Otimizados]
    G --> H[Modelo Treinado]
```

## 🎯 Exercício Prático 2: Desafio da Otimização

Agora é sua vez! Vamos implementar um mini-otimizador usando gradientes.

In [None]:
# EXERCÍCIO DESAFIO: Implementar um otimizador simples
def mini_otimizador(func, grad_func, ponto_inicial, learning_rate=0.01, max_iter=100, tolerancia=1e-6):
    """
    Mini-otimizador usando gradiente descendente
    
    Args:
        func: Função a ser minimizada
        grad_func: Função que calcula o gradiente
        ponto_inicial: Ponto de partida [x, y]
        learning_rate: Taxa de aprendizado
        max_iter: Máximo de iterações
        tolerancia: Critério de parada
    
    Returns:
        dict: Resultados da otimização
    """
    
    ponto = np.array(ponto_inicial, dtype=float)
    historico_pontos = [ponto.copy()]
    historico_valores = [func(ponto[0], ponto[1])]
    historico_gradientes = []
    
    print(f"🚀 Iniciando otimização...")
    print(f"   Ponto inicial: [{ponto[0]:.4f}, {ponto[1]:.4f}]")
    print(f"   Valor inicial: {historico_valores[0]:.6f}\n")
    
    for i in range(max_iter):
        # COMPLETE AQUI: Calcule o gradiente
        grad = grad_func(ponto[0], ponto[1])
        historico_gradientes.append(grad.copy())
        
        # COMPLETE AQUI: Verifique critério de parada
        grad_magnitude = np.linalg.norm(grad)
        if grad_magnitude < tolerancia:
            print(f"✅ Convergiu na iteração {i}! |∇f| = {grad_magnitude:.8f}")
            break
        
        # COMPLETE AQUI: Faça o passo do gradiente descendente
        ponto = ponto - learning_rate * grad
        
        # Registrar progresso
        valor_atual = func(ponto[0], ponto[1])
        historico_pontos.append(ponto.copy())
        historico_valores.append(valor_atual)
        
        # Mostrar progresso a cada 10 iterações
        if i % 10 == 0 or i < 5:
            print(f"Iter {i:3d}: [{ponto[0]:8.4f}, {ponto[1]:8.4f}] | f = {valor_atual:10.6f} | |∇f| = {grad_magnitude:.6f}")
    
    return {
        'ponto_final': ponto,
        'valor_final': historico_valores[-1],
        'iteracoes': len(historico_pontos) - 1,
        'historico_pontos': np.array(historico_pontos),
        'historico_valores': np.array(historico_valores),
        'convergiu': grad_magnitude < tolerancia
    }

# Testando com a função de Rosenbrock (desafio clássico!)
def rosenbrock(x, y):
    """Função de Rosenbrock: f(x,y) = (1-x)² + 100(y-x²)²"""
    return (1 - x)**2 + 100 * (y - x**2)**2

def grad_rosenbrock(x, y):
    """Gradiente da função de Rosenbrock"""
    df_dx = -2*(1 - x) - 400*x*(y - x**2)
    df_dy = 200*(y - x**2)
    return np.array([df_dx, df_dy])

print("🌟 DESAFIO: Otimizando a Função de Rosenbrock")
print("   Mínimo conhecido: (1, 1) com f(1,1) = 0")
print("   Esta é uma função notoriamente difícil de otimizar!\n")

resultado = mini_otimizador(
    rosenbrock, 
    grad_rosenbrock, 
    ponto_inicial=[-1.2, 1.0],  # Ponto inicial padrão para Rosenbrock
    learning_rate=0.001,  # Learning rate pequeno para estabilidade
    max_iter=1000,
    tolerancia=1e-5
)

print(f"\n📊 RESULTADO FINAL:")
print(f"   Ponto encontrado: [{resultado['ponto_final'][0]:.6f}, {resultado['ponto_final'][1]:.6f}]")
print(f"   Valor final: {resultado['valor_final']:.8f}")
print(f"   Iterações: {resultado['iteracoes']}")
print(f"   Convergiu: {resultado['convergiu']}")
print(f"   Erro do mínimo: {np.linalg.norm(resultado['ponto_final'] - np.array([1, 1])):.6f}")

# Visualizando o resultado
if len(resultado['historico_pontos']) > 1:
    plt.figure(figsize=(12, 5))
    
    # Plot 1: Trajetória
    plt.subplot(1, 2, 1)
    x_range = np.linspace(-1.5, 1.5, 100)
    y_range = np.linspace(-0.5, 1.5, 100)
    X, Y = np.meshgrid(x_range, y_range)
    Z = rosenbrock(X, Y)
    
    plt.contour(X, Y, np.log10(Z + 1), levels=20, alpha=0.6)
    
    trajetoria = resultado['historico_pontos']
    plt.plot(trajetoria[:, 0], trajetoria[:, 1], 'ro-', alpha=0.7, markersize=3)
    plt.plot(trajetoria[0, 0], trajetoria[0, 1], 'go', markersize=8, label='Início')
    plt.plot(trajetoria[-1, 0], trajetoria[-1, 1], 'bs', markersize=8, label='Final')
    plt.plot(1, 1, 'k*', markersize=12, label='Mínimo Verdadeiro')
    
    plt.xlabel('x')
    plt.ylabel('y')
    plt.title('Trajetória na Função de Rosenbrock')
    plt.legend()
    plt.grid(True, alpha=0.3)
    
    # Plot 2: Convergência
    plt.subplot(1, 2, 2)
    plt.semilogy(resultado['historico_valores'])
    plt.xlabel('Iteração')
    plt.ylabel('Valor da Função (log)')
    plt.title('Convergência')
    plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()

print("\n🎉 Parabéns! Você implementou seu primeiro otimizador!")

## 📚 Resumo: O Que Aprendemos Hoje

Liiindo! Chegamos ao fim do módulo mais importante até agora! 🎉

### 🎯 Conceitos Principais

1. **Derivadas Parciais**
   - $\frac{\partial f}{\partial x}$: taxa de variação "congelando" outras variáveis
   - Representam inclinação em direções específicas

2. **Vetor Gradiente**
   - $\nabla f = [\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}]$
   - **Sempre aponta na direção de maior crescimento**
   - Perpendicular às curvas de nível

3. **Propriedades do Gradiente**
   - Magnitude = máxima taxa de variação
   - $\nabla f = 0$ = ponto crítico
   - $-\nabla f$ = direção de maior decrescimento

### 🔗 Conexões com IA

- **Funções de Custo**: Paisagens multidimensionais para otimizar
- **Backpropagation**: Usa regra da cadeia + gradientes
- **Gradiente Descendente**: Segue $-\nabla J$ para minimizar custo
- **Otimização**: Base de todo aprendizado supervisionado

### 💡 Dicas Importantes

1. **Interpretação Geométrica**: Gradiente = "GPS" matemático
2. **Visualização**: Sempre desenhe pra entender
3. **Implementação**: NumPy + SymPy são seus amigos
4. **Debugging**: Verifique se $\nabla f = 0$ nos mínimos conhecidos

**Dica Final do Pedro:** O gradiente é sua bússola no mundo da IA. Entendendo ele, você entende como as máquinas "aprendem" a encontrar soluções ótimas!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/cálculo-para-ia-modulo-10_img_05.png)

## 🚀 Preparação para o Próximo Módulo

No **Módulo 11**, vamos finalmente implementar o algoritmo completo do **Gradiente Descendente**!

### O Que Vem Por Aí

1. **Algoritmo Completo**: Implementação passo a passo
2. **Learning Rate**: Como escolher a taxa de aprendizado
3. **Critérios de Parada**: Quando parar a otimização
4. **Problemas Comuns**: Mínimos locais, overshoot, etc.
5. **Aplicação Real**: Treinando uma rede neural simples

### Para Casa 📝

1. Pratique calculando gradientes à mão
2. Experimente com diferentes funções na calculadora
3. Tente visualizar gradientes de funções que você criar
4. Pense: "Como o gradiente me ajudaria a descer uma montanha?"

---

**Bora pro próximo módulo dominar a otimização!** 🔥

*Pedro Nunes Guth - Expert em IA & Matemática Descomplicada*