# üß≠ Derivadas Parciais e Gradientes: A B√∫ssola do Aprendizado

## *M√≥dulo 10 - Como encontrar a derivada de uma fun√ß√£o com v√°rias vari√°veis. O vetor gradiente e como ele aponta na dire√ß√£o de maior inclina√ß√£o*

---

**Por Pedro Nunes Guth**

Fala, galera! üöÄ Chegamos ao m√≥dulo que vai mudar sua vida no mundo da IA!

Nos m√≥dulos anteriores, voc√™s j√° dominaram:
- Fun√ß√µes de m√∫ltiplas vari√°veis (nossa paisagem do erro)
- Derivadas simples (a inclina√ß√£o em uma dimens√£o)
- A regra da cadeia (a base do backpropagation)

Agora vamos juntar tudo isso e descobrir como navegar nessa paisagem multidimensional usando nossa **b√∫ssola matem√°tica**: o gradiente!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-10_img_01.png)

In [None]:
# Imports necess√°rios para nossa jornada
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import sympy as sp
from matplotlib import cm
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes visuais
plt.style.use('default')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

print("üß≠ Bibliotecas carregadas! Bora explorar os gradientes!")

## üéØ O Que S√£o Derivadas Parciais?

T√°, mas o que √© uma derivada parcial afinal?

Imagina que voc√™ t√° numa festa no terra√ßo de um pr√©dio em Copacabana. A altura do terra√ßo varia dependendo de onde voc√™ t√° (coordenada x) E tamb√©m de que andar voc√™ t√° (coordenada y).

A **derivada parcial** √© como se voc√™ perguntasse:
- "Se eu andar s√≥ pra frente/tr√°s (eixo x), mantendo minha posi√ß√£o lateral fixa, qu√£o √≠ngreme fica?"
- "Se eu andar s√≥ pros lados (eixo y), mantendo minha posi√ß√£o frontal fixa, qu√£o √≠ngreme fica?"

### Defini√ß√£o Matem√°tica

Para uma fun√ß√£o $f(x, y)$, temos:

**Derivada parcial em rela√ß√£o a x:**
$$\frac{\partial f}{\partial x} = \lim_{h \to 0} \frac{f(x+h, y) - f(x, y)}{h}$$

**Derivada parcial em rela√ß√£o a y:**
$$\frac{\partial f}{\partial y} = \lim_{h \to 0} \frac{f(x, y+h) - f(x, y)}{h}$$

**Dica do Pedro:** O s√≠mbolo $\partial$ ("del" ou "d parcial") √© usado pra diferenciar das derivadas "normais" que voc√™s j√° conhecem. √â s√≥ um jeito de falar: "√≥, aqui tem mais de uma vari√°vel, ent√£o t√¥ derivando em rela√ß√£o a UMA s√≥".

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-10_img_02.png)

In [None]:
# Vamos ver as derivadas parciais na pr√°tica
# Definindo s√≠mbolos para trabalhar com derivadas simb√≥licas
x, y = sp.symbols('x y')

# Nossa fun√ß√£o exemplo: f(x,y) = x¬≤ + 2xy + y¬≤
# (lembra da fun√ß√£o de custo que vimos antes?)
f = x**2 + 2*x*y + y**2

print("üìä Nossa fun√ß√£o: f(x,y) =", f)
print()

# Calculando as derivadas parciais
df_dx = sp.diff(f, x)  # Derivada parcial em rela√ß√£o a x
df_dy = sp.diff(f, y)  # Derivada parcial em rela√ß√£o a y

print("üéØ Derivada parcial em rela√ß√£o a x:")
print(f"‚àÇf/‚àÇx = {df_dx}")
print()
print("üéØ Derivada parcial em rela√ß√£o a y:")
print(f"‚àÇf/‚àÇy = {df_dy}")
print()

# Vamos avaliar num ponto espec√≠fico (2, 1)
ponto_x, ponto_y = 2, 1
valor_df_dx = df_dx.subs([(x, ponto_x), (y, ponto_y)])
valor_df_dy = df_dy.subs([(x, ponto_x), (y, ponto_y)])

print(f"üí° No ponto ({ponto_x}, {ponto_y}):")
print(f"‚àÇf/‚àÇx = {valor_df_dx}")
print(f"‚àÇf/‚àÇy = {valor_df_dy}")
print()
print("üîç Interpreta√ß√£o:")
print(f"- Se aumentarmos x (mantendo y=1), a fun√ß√£o cresce {valor_df_dx} unidades por unidade de x")
print(f"- Se aumentarmos y (mantendo x=2), a fun√ß√£o cresce {valor_df_dy} unidades por unidade de y")

## üé® Visualizando Derivadas Parciais

Bora ver isso graficamente! Liiindo!

Vou mostrar como as derivadas parciais s√£o literalmente as inclina√ß√µes das "fatias" da nossa fun√ß√£o.

In [None]:
# Criando uma visualiza√ß√£o das derivadas parciais
def nossa_funcao(x, y):
    """Nossa fun√ß√£o f(x,y) = x¬≤ + 2xy + y¬≤"""
    return x**2 + 2*x*y + y**2

def derivada_parcial_x(x, y):
    """‚àÇf/‚àÇx = 2x + 2y"""
    return 2*x + 2*y

def derivada_parcial_y(x, y):
    """‚àÇf/‚àÇy = 2x + 2y"""
    return 2*x + 2*y

# Criando a grade de pontos
x_vals = np.linspace(-3, 3, 100)
y_vals = np.linspace(-3, 3, 100)
X, Y = np.meshgrid(x_vals, y_vals)
Z = nossa_funcao(X, Y)

# Plotando a fun√ß√£o 3D e as derivadas
fig = plt.figure(figsize=(15, 5))

# Subplot 1: Fun√ß√£o original
ax1 = fig.add_subplot(131, projection='3d')
surf = ax1.plot_surface(X, Y, Z, cmap='viridis', alpha=0.7)
ax1.set_title('Fun√ß√£o Original f(x,y)')
ax1.set_xlabel('x')
ax1.set_ylabel('y')
ax1.set_zlabel('f(x,y)')

# Subplot 2: Derivada parcial em x
ax2 = fig.add_subplot(132)
# Fatia em y=1 (fixo)
y_fixo = 1
z_fatia_x = nossa_funcao(x_vals, y_fixo)
inclinacao_x = derivada_parcial_x(x_vals, y_fixo)

ax2.plot(x_vals, z_fatia_x, 'b-', linewidth=2, label=f'f(x, y={y_fixo})')
ax2.plot(x_vals, inclinacao_x, 'r--', linewidth=2, label='‚àÇf/‚àÇx')
ax2.set_title(f'Fatia da fun√ß√£o em y={y_fixo}')
ax2.set_xlabel('x')
ax2.set_ylabel('Valor')
ax2.legend()
ax2.grid(True)

# Subplot 3: Derivada parcial em y
ax3 = fig.add_subplot(133)
# Fatia em x=1 (fixo)
x_fixo = 1
z_fatia_y = nossa_funcao(x_fixo, y_vals)
inclinacao_y = derivada_parcial_y(x_fixo, y_vals)

ax3.plot(y_vals, z_fatia_y, 'b-', linewidth=2, label=f'f(x={x_fixo}, y)')
ax3.plot(y_vals, inclinacao_y, 'g--', linewidth=2, label='‚àÇf/‚àÇy')
ax3.set_title(f'Fatia da fun√ß√£o em x={x_fixo}')
ax3.set_xlabel('y')
ax3.set_ylabel('Valor')
ax3.legend()
ax3.grid(True)

plt.tight_layout()
plt.show()

print("üéØ Olha s√≥ que lindo! As derivadas parciais mostram a inclina√ß√£o em cada dire√ß√£o!")

## üß≠ O Vetor Gradiente: Nossa B√∫ssola M√°gica

Agora vem a parte mais dahora! O **gradiente** √© simplesmente um vetor que junta todas as derivadas parciais.

### Defini√ß√£o do Gradiente

Para uma fun√ß√£o $f(x, y)$, o gradiente √©:

$$\nabla f = \begin{bmatrix} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{bmatrix}$$

O s√≠mbolo $\nabla$ ("nabla") √© nosso operador gradiente.

### Por Que o Gradiente √â Especial?

O gradiente tem uma propriedade **INCR√çVEL**:

üéØ **Ele sempre aponta na dire√ß√£o de MAIOR crescimento da fun√ß√£o!**

√â como se fosse uma seta que diz: "√ì, se voc√™ quer que a fun√ß√£o cres√ßa o m√°ximo poss√≠vel, v√° nessa dire√ß√£o aqui!"

### Analogia do Pedro

Imagina que voc√™ t√° perdido no P√£o de A√ß√∫car numa neblina. Voc√™ quer chegar no topo o mais r√°pido poss√≠vel. O gradiente √© como um GPS que sempre aponta na dire√ß√£o mais √≠ngreme pra cima!

**Dica do Pedro:** Se voc√™ quer ir pro vale (minimizar a fun√ß√£o), √© s√≥ seguir na dire√ß√£o **OPOSTA** ao gradiente! √â exatamente isso que fazemos no Gradiente Descendente (pr√≥ximo m√≥dulo).

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-10_img_03.png)

In [None]:
# Implementando o c√°lculo do gradiente
def calcular_gradiente(x, y):
    """Calcula o gradiente da nossa fun√ß√£o no ponto (x, y)"""
    df_dx = 2*x + 2*y  # ‚àÇf/‚àÇx
    df_dy = 2*x + 2*y  # ‚àÇf/‚àÇy
    return np.array([df_dx, df_dy])

# Testando em alguns pontos
pontos_teste = [(0, 0), (1, 1), (-1, 2), (2, -1)]

print("üß≠ Calculando gradientes em diferentes pontos:\n")

for i, (px, py) in enumerate(pontos_teste):
    grad = calcular_gradiente(px, py)
    valor_funcao = nossa_funcao(px, py)
    magnitude = np.linalg.norm(grad)  # Tamanho do vetor
    
    print(f"üìç Ponto ({px}, {py}):")
    print(f"   f({px}, {py}) = {valor_funcao}")
    print(f"   ‚àáf = [{grad[0]}, {grad[1]}]")
    print(f"   |‚àáf| = {magnitude:.2f} (magnitude do gradiente)")
    
    if magnitude == 0:
        print(f"   üéØ PONTO CR√çTICO! Gradiente = 0")
    else:
        print(f"   üöÄ Dire√ß√£o de maior crescimento: [{grad[0]/magnitude:.2f}, {grad[1]/magnitude:.2f}]")
    print()

## üìä Visualizando o Campo de Gradientes

Bora ver como esses vetores gradiente ficam espalhados pela nossa paisagem! Vai ficar liiindo!

In [None]:
# Criando um campo de vetores gradiente
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Criando uma grade mais esparsa para os vetores
x_vec = np.linspace(-2, 2, 15)
y_vec = np.linspace(-2, 2, 15)
X_vec, Y_vec = np.meshgrid(x_vec, y_vec)

# Calculando os gradientes em cada ponto
U = 2*X_vec + 2*Y_vec  # ‚àÇf/‚àÇx
V = 2*X_vec + 2*Y_vec  # ‚àÇf/‚àÇy

# Plot 1: Contorno da fun√ß√£o + campo de gradientes
x_contour = np.linspace(-3, 3, 100)
y_contour = np.linspace(-3, 3, 100)
X_cont, Y_cont = np.meshgrid(x_contour, y_contour)
Z_cont = nossa_funcao(X_cont, Y_cont)

contour = ax1.contour(X_cont, Y_cont, Z_cont, levels=15, alpha=0.6)
ax1.clabel(contour, inline=True, fontsize=8)

# Adicionando os vetores gradiente
ax1.quiver(X_vec, Y_vec, U, V, 
          scale=50, scale_units='xy', angles='xy', 
          color='red', alpha=0.7, width=0.003)

ax1.set_title('Campo de Gradientes sobre Curvas de N√≠vel')
ax1.set_xlabel('x')
ax1.set_ylabel('y')
ax1.grid(True, alpha=0.3)
ax1.axis('equal')

# Plot 2: Mapa de calor da magnitude do gradiente
magnitude_grad = np.sqrt(U**2 + V**2)
heatmap = ax2.imshow(magnitude_grad, extent=[-2, 2, -2, 2], 
                    origin='lower', cmap='plasma', alpha=0.8)
ax2.contour(X_vec, Y_vec, magnitude_grad, levels=10, colors='white', alpha=0.5)

# Adicionando colorbar
plt.colorbar(heatmap, ax=ax2, label='|‚àáf|')

ax2.set_title('Magnitude do Gradiente')
ax2.set_xlabel('x')
ax2.set_ylabel('y')

plt.tight_layout()
plt.show()

print("üî• Repara como:")
print("üìç Os vetores vermelhos SEMPRE apontam perpendicular √†s curvas de n√≠vel")
print("üìç Quanto mais 'quente' a cor, maior a magnitude do gradiente")
print("üìç No centro (0,0), o gradiente √© zero = ponto cr√≠tico!")

## üîÑ Fluxograma: Do Conceito √† Aplica√ß√£o

Vamos visualizar como todos esses conceitos se conectam:

```mermaid
graph TD
    A[Fun√ß√£o f(x,y)] --> B[Calcular ‚àÇf/‚àÇx]
    A --> C[Calcular ‚àÇf/‚àÇy]
    B --> D[Montar Vetor Gradiente ‚àáf]
    C --> D
    D --> E[Dire√ß√£o de Maior Crescimento]
    D --> F[Inverter Dire√ß√£o = Maior Decrescimento]
    E --> G[M√°ximo Local]
    F --> H[M√≠nimo Local]
    H --> I[Gradiente Descendente]
    I --> J[Otimiza√ß√£o de IA]
```

## üéØ Exemplo Pr√°tico: Fun√ß√£o de Custo de Machine Learning

Bora ver isso aplicado numa fun√ß√£o de custo real de ML! 

Vamos usar o exemplo cl√°ssico da regress√£o linear: queremos encontrar os melhores par√¢metros $w_0$ (intercepto) e $w_1$ (inclina√ß√£o) para uma reta.

A fun√ß√£o de custo Mean Squared Error (MSE) √©:

$$J(w_0, w_1) = \frac{1}{2m} \sum_{i=1}^{m} (w_0 + w_1 x^{(i)} - y^{(i)})^2$$

**Dica do Pedro:** Essa √© a mesma ideia que vimos no M√≥dulo 9, mas agora vamos calcular o gradiente pra saber pra onde "descer"!

In [None]:
# Criando dados sint√©ticos para regress√£o linear
np.random.seed(42)
m = 20  # n√∫mero de amostras
X_data = np.random.uniform(-2, 2, m)
y_true = 1.5 * X_data + 0.5 + np.random.normal(0, 0.3, m)  # y = 1.5x + 0.5 + ru√≠do

def custo_mse(w0, w1, X, y):
    """Fun√ß√£o de custo MSE"""
    predicoes = w0 + w1 * X
    erro = predicoes - y
    return np.mean(erro**2) / 2

def gradiente_mse(w0, w1, X, y):
    """Gradiente da fun√ß√£o MSE"""
    m = len(X)
    predicoes = w0 + w1 * X
    erro = predicoes - y
    
    # Derivadas parciais
    dJ_dw0 = np.mean(erro)  # ‚àÇJ/‚àÇw0
    dJ_dw1 = np.mean(erro * X)  # ‚àÇJ/‚àÇw1
    
    return np.array([dJ_dw0, dJ_dw1])

# Visualizando os dados
plt.figure(figsize=(12, 4))

# Plot 1: Dados originais
plt.subplot(1, 3, 1)
plt.scatter(X_data, y_true, alpha=0.7, color='blue')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Dados de Treino')
plt.grid(True, alpha=0.3)

# Plot 2: Superf√≠cie de custo
w0_range = np.linspace(-1, 2, 50)
w1_range = np.linspace(0, 3, 50)
W0, W1 = np.meshgrid(w0_range, w1_range)
J_surface = np.zeros_like(W0)

for i in range(len(w0_range)):
    for j in range(len(w1_range)):
        J_surface[j, i] = custo_mse(W0[j, i], W1[j, i], X_data, y_true)

ax2 = plt.subplot(1, 3, 2, projection='3d')
surf = ax2.plot_surface(W0, W1, J_surface, cmap='viridis', alpha=0.7)
ax2.set_xlabel('w0 (intercepto)')
ax2.set_ylabel('w1 (inclina√ß√£o)')
ax2.set_zlabel('Custo J')
ax2.set_title('Superf√≠cie de Custo MSE')

# Plot 3: Curvas de n√≠vel + gradientes
plt.subplot(1, 3, 3)
contour = plt.contour(W0, W1, J_surface, levels=20)
plt.clabel(contour, inline=True, fontsize=8)

# Calculando gradientes em alguns pontos
w0_points = [0, 0.5, 1.0, 1.5]
w1_points = [1, 1.5, 2.0, 2.5]

for w0_p, w1_p in zip(w0_points, w1_points):
    grad = gradiente_mse(w0_p, w1_p, X_data, y_true)
    plt.arrow(w0_p, w1_p, -grad[0]*0.5, -grad[1]*0.5, 
             head_width=0.05, head_length=0.05, fc='red', ec='red')

plt.xlabel('w0 (intercepto)')
plt.ylabel('w1 (inclina√ß√£o)')
plt.title('Gradientes (setas vermelhas)')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("üéØ Repara que as setas vermelhas apontam na dire√ß√£o do M√çNIMO!")
print("   (Invertemos o gradiente pra mostrar a dire√ß√£o de descida)")

## üßÆ Propriedades Importantes do Gradiente

Antes de partir pra pr√°tica, vamos consolidar as propriedades mais importantes:

### 1. **Dire√ß√£o de Maior Crescimento**
$$\nabla f \text{ aponta na dire√ß√£o onde } f \text{ cresce mais rapidamente}$$

### 2. **Perpendicular √†s Curvas de N√≠vel**
$$\nabla f \perp \text{curvas de n√≠vel}$$

### 3. **Magnitude = Taxa M√°xima de Varia√ß√£o**
$$|\nabla f| = \text{m√°xima taxa de varia√ß√£o no ponto}$$

### 4. **Gradiente Zero = Ponto Cr√≠tico**
$$\nabla f = 0 \Rightarrow \text{poss√≠vel m√°ximo, m√≠nimo ou ponto de sela}$$

### Regras de Deriva√ß√£o para Gradientes

**Linearidade:**
$$\nabla(af + bg) = a\nabla f + b\nabla g$$

**Regra do Produto:**
$$\nabla(fg) = f\nabla g + g\nabla f$$

**Regra da Cadeia (multivari√°vel):**
$$\nabla f(g(x,y), h(x,y)) = \frac{\partial f}{\partial g}\nabla g + \frac{\partial f}{\partial h}\nabla h$$

**Dica do Pedro:** A regra da cadeia multivari√°vel √© o cora√ß√£o do backpropagation! Voc√™s v√£o ver isso funcionando no pr√≥ximo m√≥dulo.

In [None]:
# Implementando as propriedades do gradiente
def demonstrar_propriedades():
    """Demonstra as propriedades principais do gradiente"""
    
    # Definindo uma fun√ß√£o mais complexa
    def f_complexa(x, y):
        return x**2 + 2*y**2 + x*y - 2*x - 4*y + 5
    
    def grad_f_complexa(x, y):
        df_dx = 2*x + y - 2
        df_dy = 4*y + x - 4
        return np.array([df_dx, df_dy])
    
    print("üîç Testando propriedades do gradiente\n")
    
    # Propriedade 1: Dire√ß√£o de maior crescimento
    ponto = np.array([1, 1])
    grad = grad_f_complexa(ponto[0], ponto[1])
    
    if np.linalg.norm(grad) > 0:
        direcao_grad = grad / np.linalg.norm(grad)  # Normalizar
        
        # Testar v√°rias dire√ß√µes
        angulos = np.linspace(0, 2*np.pi, 8)
        direcoes = np.array([[np.cos(a), np.sin(a)] for a in angulos])
        
        print(f"üìç No ponto {ponto}:")
        print(f"   Gradiente: [{grad[0]:.3f}, {grad[1]:.3f}]")
        print(f"   Dire√ß√£o do gradiente: [{direcao_grad[0]:.3f}, {direcao_grad[1]:.3f}]")
        print()
        
        # Calculando derivada direcional em v√°rias dire√ß√µes
        step = 0.01
        derivadas_direcionais = []
        
        for direcao in direcoes:
            # Derivada direcional = gradiente ¬∑ dire√ß√£o
            deriv_dir = np.dot(grad, direcao)
            derivadas_direcionais.append(deriv_dir)
        
        derivadas_direcionais = np.array(derivadas_direcionais)
        max_idx = np.argmax(derivadas_direcionais)
        
        print("üéØ Derivadas direcionais em diferentes dire√ß√µes:")
        for i, (angulo, deriv) in enumerate(zip(angulos, derivadas_direcionais)):
            simbolo = "üî•" if i == max_idx else "  "
            print(f"   {simbolo} √Çngulo {angulo:.2f}: {deriv:.3f}")
        
        print(f"\n‚úÖ Confirmado: M√°xima derivada direcional na dire√ß√£o do gradiente!")
        print(f"   Valor m√°ximo: {derivadas_direcionais[max_idx]:.3f}")
        print(f"   Magnitude do gradiente: {np.linalg.norm(grad):.3f}")
    
    # Propriedade 2: Encontrar pontos cr√≠ticos
    print("\nüîç Procurando pontos cr√≠ticos (‚àáf = 0):")
    # Para nossa fun√ß√£o, resolvemos o sistema:
    # 2x + y - 2 = 0
    # x + 4y - 4 = 0
    
    # Solu√ß√£o: x = 4/7, y = 6/7
    x_critico = 4/7
    y_critico = 6/7
    
    grad_critico = grad_f_complexa(x_critico, y_critico)
    valor_critico = f_complexa(x_critico, y_critico)
    
    print(f"üìç Ponto cr√≠tico encontrado: ({x_critico:.4f}, {y_critico:.4f})")
    print(f"   Gradiente no ponto: [{grad_critico[0]:.6f}, {grad_critico[1]:.6f}]")
    print(f"   Valor da fun√ß√£o: {valor_critico:.4f}")
    
demonstrar_propriedades()

## üìà Comparando Diferentes Tipos de Fun√ß√µes

Vamos ver como o gradiente se comporta em diferentes "paisagens"!

In [None]:
# Comparando diferentes fun√ß√µes e seus gradientes
fig, axes = plt.subplots(2, 3, figsize=(18, 10))

# Fun√ß√£o 1: Paraboloide (convexa)
def f1(x, y):
    return x**2 + y**2

def grad_f1(x, y):
    return np.array([2*x, 2*y])

# Fun√ß√£o 2: Ponto de sela
def f2(x, y):
    return x**2 - y**2

def grad_f2(x, y):
    return np.array([2*x, -2*y])

# Fun√ß√£o 3: Fun√ß√£o de Rosenbrock (banana function)
def f3(x, y):
    a, b = 1, 100
    return (a - x)**2 + b*(y - x**2)**2

def grad_f3(x, y):
    a, b = 1, 100
    df_dx = -2*(a - x) - 4*b*x*(y - x**2)
    df_dy = 2*b*(y - x**2)
    return np.array([df_dx, df_dy])

funcoes = [f1, f2, f3]
gradientes = [grad_f1, grad_f2, grad_f3]
nomes = ['Paraboloide (Convexa)', 'Ponto de Sela', 'Rosenbrock (Banana)']
ranges = [(-2, 2), (-2, 2), (-1.5, 1.5)]

for i, (func, grad_func, nome, (min_val, max_val)) in enumerate(zip(funcoes, gradientes, nomes, ranges)):
    # Criando a grade
    x_range = np.linspace(min_val, max_val, 100)
    y_range = np.linspace(min_val, max_val, 100)
    X, Y = np.meshgrid(x_range, y_range)
    Z = func(X, Y)
    
    # Superf√≠cie 3D
    ax_3d = axes[0, i]
    if i == 2:  # Rosenbrock precisa de escala logar√≠tmica
        Z_log = np.log10(Z + 1)
        surf = ax_3d.contour(X, Y, Z_log, levels=15)
    else:
        surf = ax_3d.contour(X, Y, Z, levels=15)
    
    ax_3d.set_title(f'{nome}\n(Curvas de N√≠vel)')
    ax_3d.set_xlabel('x')
    ax_3d.set_ylabel('y')
    ax_3d.grid(True, alpha=0.3)
    
    # Campo de gradientes
    ax_grad = axes[1, i]
    
    # Grade mais esparsa para vetores
    x_vec = np.linspace(min_val, max_val, 12)
    y_vec = np.linspace(min_val, max_val, 12)
    X_vec, Y_vec = np.meshgrid(x_vec, y_vec)
    
    U, V = np.zeros_like(X_vec), np.zeros_like(Y_vec)
    for row in range(X_vec.shape[0]):
        for col in range(X_vec.shape[1]):
            grad_val = grad_func(X_vec[row, col], Y_vec[row, col])
            U[row, col] = grad_val[0]
            V[row, col] = grad_val[1]
    
    # Normalizando os vetores para visualiza√ß√£o
    magnitude = np.sqrt(U**2 + V**2)
    # Evitar divis√£o por zero
    mask = magnitude > 1e-10
    U_norm, V_norm = np.zeros_like(U), np.zeros_like(V)
    U_norm[mask] = U[mask] / magnitude[mask]
    V_norm[mask] = V[mask] / magnitude[mask]
    
    # Plot do campo de vetores
    if i == 2:  # Rosenbrock
        contour_bg = ax_grad.contour(X, Y, np.log10(Z + 1), levels=10, alpha=0.3)
    else:
        contour_bg = ax_grad.contour(X, Y, Z, levels=10, alpha=0.3)
    
    ax_grad.quiver(X_vec, Y_vec, U_norm, V_norm, magnitude,
                  scale=15, scale_units='xy', angles='xy', cmap='plasma')
    
    ax_grad.set_title(f'Campo de Gradientes\n(Cor = Magnitude)')
    ax_grad.set_xlabel('x')
    ax_grad.set_ylabel('y')
    ax_grad.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("üî• Compara√ß√£o das paisagens:")
print("üìç Paraboloide: Todos os gradientes apontam pro centro (m√≠nimo global)")
print("üìç Ponto de Sela: Gradientes se afastam numa dire√ß√£o, se aproximam na outra")
print("üìç Rosenbrock: Paisagem complexa com vale estreito (desafio para otimiza√ß√£o!)")

## üéÆ Exerc√≠cio Pr√°tico 1: Calculadora de Gradientes

Bora praticar! Implementa uma calculadora que recebe uma fun√ß√£o simb√≥lica e calcula o gradiente automaticamente.

In [None]:
# EXERC√çCIO: Complete a fun√ß√£o abaixo
def calculadora_gradiente(expressao_str, ponto):
    """
    Calcula o gradiente de uma fun√ß√£o simb√≥lica num ponto espec√≠fico.
    
    Args:
        expressao_str: String com a express√£o (ex: 'x**2 + y**2')
        ponto: Tupla (x, y) onde calcular o gradiente
    
    Returns:
        tuple: (gradiente_array, magnitude, dire√ß√£o_unit√°ria)
    """
    
    # Passo 1: Definir s√≠mbolos
    x, y = sp.symbols('x y')
    
    # Passo 2: Converter string para express√£o simb√≥lica
    # COMPLETE AQUI:
    f = sp.sympify(expressao_str)
    
    # Passo 3: Calcular derivadas parciais
    # COMPLETE AQUI:
    df_dx = sp.diff(f, x)
    df_dy = sp.diff(f, y)
    
    # Passo 4: Avaliar no ponto dado
    px, py = ponto
    # COMPLETE AQUI:
    grad_x = float(df_dx.subs([(x, px), (y, py)]))
    grad_y = float(df_dy.subs([(x, px), (y, py)]))
    
    gradiente = np.array([grad_x, grad_y])
    
    # Passo 5: Calcular magnitude e dire√ß√£o unit√°ria
    # COMPLETE AQUI:
    magnitude = np.linalg.norm(gradiente)
    if magnitude > 0:
        direcao_unitaria = gradiente / magnitude
    else:
        direcao_unitaria = np.array([0, 0])
    
    return gradiente, magnitude, direcao_unitaria

# Testando a fun√ß√£o
print("üßÆ Testando a Calculadora de Gradientes\n")

testes = [
    ('x**2 + y**2', (1, 1)),
    ('x*y + x**2', (2, 3)),
    ('sin(x) + cos(y)', (0, 0)),
    ('exp(x + y)', (0, 0))
]

for expressao, ponto in testes:
    grad, mag, direcao = calculadora_gradiente(expressao, ponto)
    
    print(f"üìç f(x,y) = {expressao}")
    print(f"   Ponto: {ponto}")
    print(f"   Gradiente: [{grad[0]:.4f}, {grad[1]:.4f}]")
    print(f"   Magnitude: {mag:.4f}")
    print(f"   Dire√ß√£o unit√°ria: [{direcao[0]:.4f}, {direcao[1]:.4f}]")
    print()

print("‚úÖ Exerc√≠cio conclu√≠do! Parab√©ns!")

## üöÄ Conex√£o com o Pr√≥ximo M√≥dulo: Gradiente Descendente

Agora que voc√™s dominaram o gradiente, vamos ver como usar ele pra **otimizar** fun√ß√µes!

### A Ideia Central

Se o gradiente aponta pra onde a fun√ß√£o **cresce mais**, ent√£o:
- **-‚àáf** aponta pra onde a fun√ß√£o **decresce mais**!
- Seguindo a dire√ß√£o **-‚àáf**, chegamos no m√≠nimo!

### Algoritmo do Gradiente Descendente (Preview)

```
1. Comece num ponto inicial Œ∏‚ÇÄ
2. Calcule o gradiente ‚àáf(Œ∏)
3. Atualize: Œ∏ = Œ∏ - Œ±‚àáf(Œ∏)  (Œ± = learning rate)
4. Repita at√© convergir
```

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-10_img_04.png)

In [None]:
# Preview do Gradiente Descendente
def preview_gradiente_descendente():
    """Uma pr√©via do que veremos no pr√≥ximo m√≥dulo"""
    
    # Fun√ß√£o simples: f(x,y) = (x-1)¬≤ + (y-2)¬≤
    def f_exemplo(x, y):
        return (x - 1)**2 + (y - 2)**2
    
    def grad_f_exemplo(x, y):
        return np.array([2*(x - 1), 2*(y - 2)])
    
    # Par√¢metros
    ponto_inicial = np.array([-2.0, 4.0])
    learning_rate = 0.1
    num_iteracoes = 20
    
    # Executando o algoritmo
    trajetoria = [ponto_inicial.copy()]
    ponto_atual = ponto_inicial.copy()
    
    print("üöÄ Preview do Gradiente Descendente\n")
    print(f"Objetivo: Minimizar f(x,y) = (x-1)¬≤ + (y-2)¬≤")
    print(f"Ponto inicial: {ponto_inicial}")
    print(f"Learning rate: {learning_rate}\n")
    
    for i in range(num_iteracoes):
        # Calcular gradiente
        grad = grad_f_exemplo(ponto_atual[0], ponto_atual[1])
        
        # Atualizar posi√ß√£o (passo do gradiente descendente)
        ponto_atual = ponto_atual - learning_rate * grad
        trajetoria.append(ponto_atual.copy())
        
        if i < 5 or i % 5 == 0:  # Mostrar apenas algumas itera√ß√µes
            valor_atual = f_exemplo(ponto_atual[0], ponto_atual[1])
            print(f"Itera√ß√£o {i+1:2d}: ({ponto_atual[0]:.3f}, {ponto_atual[1]:.3f}) | f = {valor_atual:.6f}")
    
    trajetoria = np.array(trajetoria)
    
    # Visualiza√ß√£o
    x_range = np.linspace(-3, 3, 100)
    y_range = np.linspace(-1, 5, 100)
    X, Y = np.meshgrid(x_range, y_range)
    Z = f_exemplo(X, Y)
    
    plt.figure(figsize=(10, 8))
    
    # Curvas de n√≠vel
    contour = plt.contour(X, Y, Z, levels=20, alpha=0.6)
    plt.clabel(contour, inline=True, fontsize=8)
    
    # Trajet√≥ria do gradiente descendente
    plt.plot(trajetoria[:, 0], trajetoria[:, 1], 'ro-', 
             linewidth=2, markersize=6, alpha=0.8, label='Trajet√≥ria')
    
    # Ponto inicial e final
    plt.plot(trajetoria[0, 0], trajetoria[0, 1], 'go', 
             markersize=10, label='In√≠cio')
    plt.plot(trajetoria[-1, 0], trajetoria[-1, 1], 'bs', 
             markersize=10, label='Final')
    
    # M√≠nimo te√≥rico
    plt.plot(1, 2, 'k*', markersize=15, label='M√≠nimo Verdadeiro')
    
    plt.xlabel('x')
    plt.ylabel('y')
    plt.title('Preview: Gradiente Descendente em A√ß√£o!')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.axis('equal')
    
    plt.show()
    
    print(f"\nüéØ Resultado final: ({trajetoria[-1, 0]:.6f}, {trajetoria[-1, 1]:.6f})")
    print(f"üéØ M√≠nimo te√≥rico: (1.000000, 2.000000)")
    print(f"üéØ Erro final: {np.linalg.norm(trajetoria[-1] - np.array([1, 2])):.6f}")
    
    return trajetoria

trajetoria_final = preview_gradiente_descendente()

## üí° Algoritmo: Do Gradiente √† Otimiza√ß√£o

Vamos ver o fluxo completo de como o gradiente nos leva √† otimiza√ß√£o:

```mermaid
graph TD
    A[Fun√ß√£o de Custo J(Œ∏)] --> B[Ponto Inicial Œ∏‚ÇÄ]
    B --> C[Calcular ‚àáJ(Œ∏)]
    C --> D{|‚àáJ| < Œµ?}
    D -->|N√£o| E[Œ∏ = Œ∏ - Œ±‚àáJ(Œ∏)]
    E --> C
    D -->|Sim| F[Convergiu! Œ∏* encontrado]
    F --> G[Par√¢metros Otimizados]
    G --> H[Modelo Treinado]
```

## üéØ Exerc√≠cio Pr√°tico 2: Desafio da Otimiza√ß√£o

Agora √© sua vez! Vamos implementar um mini-otimizador usando gradientes.

In [None]:
# EXERC√çCIO DESAFIO: Implementar um otimizador simples
def mini_otimizador(func, grad_func, ponto_inicial, learning_rate=0.01, max_iter=100, tolerancia=1e-6):
    """
    Mini-otimizador usando gradiente descendente
    
    Args:
        func: Fun√ß√£o a ser minimizada
        grad_func: Fun√ß√£o que calcula o gradiente
        ponto_inicial: Ponto de partida [x, y]
        learning_rate: Taxa de aprendizado
        max_iter: M√°ximo de itera√ß√µes
        tolerancia: Crit√©rio de parada
    
    Returns:
        dict: Resultados da otimiza√ß√£o
    """
    
    ponto = np.array(ponto_inicial, dtype=float)
    historico_pontos = [ponto.copy()]
    historico_valores = [func(ponto[0], ponto[1])]
    historico_gradientes = []
    
    print(f"üöÄ Iniciando otimiza√ß√£o...")
    print(f"   Ponto inicial: [{ponto[0]:.4f}, {ponto[1]:.4f}]")
    print(f"   Valor inicial: {historico_valores[0]:.6f}\n")
    
    for i in range(max_iter):
        # COMPLETE AQUI: Calcule o gradiente
        grad = grad_func(ponto[0], ponto[1])
        historico_gradientes.append(grad.copy())
        
        # COMPLETE AQUI: Verifique crit√©rio de parada
        grad_magnitude = np.linalg.norm(grad)
        if grad_magnitude < tolerancia:
            print(f"‚úÖ Convergiu na itera√ß√£o {i}! |‚àáf| = {grad_magnitude:.8f}")
            break
        
        # COMPLETE AQUI: Fa√ßa o passo do gradiente descendente
        ponto = ponto - learning_rate * grad
        
        # Registrar progresso
        valor_atual = func(ponto[0], ponto[1])
        historico_pontos.append(ponto.copy())
        historico_valores.append(valor_atual)
        
        # Mostrar progresso a cada 10 itera√ß√µes
        if i % 10 == 0 or i < 5:
            print(f"Iter {i:3d}: [{ponto[0]:8.4f}, {ponto[1]:8.4f}] | f = {valor_atual:10.6f} | |‚àáf| = {grad_magnitude:.6f}")
    
    return {
        'ponto_final': ponto,
        'valor_final': historico_valores[-1],
        'iteracoes': len(historico_pontos) - 1,
        'historico_pontos': np.array(historico_pontos),
        'historico_valores': np.array(historico_valores),
        'convergiu': grad_magnitude < tolerancia
    }

# Testando com a fun√ß√£o de Rosenbrock (desafio cl√°ssico!)
def rosenbrock(x, y):
    """Fun√ß√£o de Rosenbrock: f(x,y) = (1-x)¬≤ + 100(y-x¬≤)¬≤"""
    return (1 - x)**2 + 100 * (y - x**2)**2

def grad_rosenbrock(x, y):
    """Gradiente da fun√ß√£o de Rosenbrock"""
    df_dx = -2*(1 - x) - 400*x*(y - x**2)
    df_dy = 200*(y - x**2)
    return np.array([df_dx, df_dy])

print("üåü DESAFIO: Otimizando a Fun√ß√£o de Rosenbrock")
print("   M√≠nimo conhecido: (1, 1) com f(1,1) = 0")
print("   Esta √© uma fun√ß√£o notoriamente dif√≠cil de otimizar!\n")

resultado = mini_otimizador(
    rosenbrock, 
    grad_rosenbrock, 
    ponto_inicial=[-1.2, 1.0],  # Ponto inicial padr√£o para Rosenbrock
    learning_rate=0.001,  # Learning rate pequeno para estabilidade
    max_iter=1000,
    tolerancia=1e-5
)

print(f"\nüìä RESULTADO FINAL:")
print(f"   Ponto encontrado: [{resultado['ponto_final'][0]:.6f}, {resultado['ponto_final'][1]:.6f}]")
print(f"   Valor final: {resultado['valor_final']:.8f}")
print(f"   Itera√ß√µes: {resultado['iteracoes']}")
print(f"   Convergiu: {resultado['convergiu']}")
print(f"   Erro do m√≠nimo: {np.linalg.norm(resultado['ponto_final'] - np.array([1, 1])):.6f}")

# Visualizando o resultado
if len(resultado['historico_pontos']) > 1:
    plt.figure(figsize=(12, 5))
    
    # Plot 1: Trajet√≥ria
    plt.subplot(1, 2, 1)
    x_range = np.linspace(-1.5, 1.5, 100)
    y_range = np.linspace(-0.5, 1.5, 100)
    X, Y = np.meshgrid(x_range, y_range)
    Z = rosenbrock(X, Y)
    
    plt.contour(X, Y, np.log10(Z + 1), levels=20, alpha=0.6)
    
    trajetoria = resultado['historico_pontos']
    plt.plot(trajetoria[:, 0], trajetoria[:, 1], 'ro-', alpha=0.7, markersize=3)
    plt.plot(trajetoria[0, 0], trajetoria[0, 1], 'go', markersize=8, label='In√≠cio')
    plt.plot(trajetoria[-1, 0], trajetoria[-1, 1], 'bs', markersize=8, label='Final')
    plt.plot(1, 1, 'k*', markersize=12, label='M√≠nimo Verdadeiro')
    
    plt.xlabel('x')
    plt.ylabel('y')
    plt.title('Trajet√≥ria na Fun√ß√£o de Rosenbrock')
    plt.legend()
    plt.grid(True, alpha=0.3)
    
    # Plot 2: Converg√™ncia
    plt.subplot(1, 2, 2)
    plt.semilogy(resultado['historico_valores'])
    plt.xlabel('Itera√ß√£o')
    plt.ylabel('Valor da Fun√ß√£o (log)')
    plt.title('Converg√™ncia')
    plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()

print("\nüéâ Parab√©ns! Voc√™ implementou seu primeiro otimizador!")

## üìö Resumo: O Que Aprendemos Hoje

Liiindo! Chegamos ao fim do m√≥dulo mais importante at√© agora! üéâ

### üéØ Conceitos Principais

1. **Derivadas Parciais**
   - $\frac{\partial f}{\partial x}$: taxa de varia√ß√£o "congelando" outras vari√°veis
   - Representam inclina√ß√£o em dire√ß√µes espec√≠ficas

2. **Vetor Gradiente**
   - $\nabla f = [\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}]$
   - **Sempre aponta na dire√ß√£o de maior crescimento**
   - Perpendicular √†s curvas de n√≠vel

3. **Propriedades do Gradiente**
   - Magnitude = m√°xima taxa de varia√ß√£o
   - $\nabla f = 0$ = ponto cr√≠tico
   - $-\nabla f$ = dire√ß√£o de maior decrescimento

### üîó Conex√µes com IA

- **Fun√ß√µes de Custo**: Paisagens multidimensionais para otimizar
- **Backpropagation**: Usa regra da cadeia + gradientes
- **Gradiente Descendente**: Segue $-\nabla J$ para minimizar custo
- **Otimiza√ß√£o**: Base de todo aprendizado supervisionado

### üí° Dicas Importantes

1. **Interpreta√ß√£o Geom√©trica**: Gradiente = "GPS" matem√°tico
2. **Visualiza√ß√£o**: Sempre desenhe pra entender
3. **Implementa√ß√£o**: NumPy + SymPy s√£o seus amigos
4. **Debugging**: Verifique se $\nabla f = 0$ nos m√≠nimos conhecidos

**Dica Final do Pedro:** O gradiente √© sua b√∫ssola no mundo da IA. Entendendo ele, voc√™ entende como as m√°quinas "aprendem" a encontrar solu√ß√µes √≥timas!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-10_img_05.png)

## üöÄ Prepara√ß√£o para o Pr√≥ximo M√≥dulo

No **M√≥dulo 11**, vamos finalmente implementar o algoritmo completo do **Gradiente Descendente**!

### O Que Vem Por A√≠

1. **Algoritmo Completo**: Implementa√ß√£o passo a passo
2. **Learning Rate**: Como escolher a taxa de aprendizado
3. **Crit√©rios de Parada**: Quando parar a otimiza√ß√£o
4. **Problemas Comuns**: M√≠nimos locais, overshoot, etc.
5. **Aplica√ß√£o Real**: Treinando uma rede neural simples

### Para Casa üìù

1. Pratique calculando gradientes √† m√£o
2. Experimente com diferentes fun√ß√µes na calculadora
3. Tente visualizar gradientes de fun√ß√µes que voc√™ criar
4. Pense: "Como o gradiente me ajudaria a descer uma montanha?"

---

**Bora pro pr√≥ximo m√≥dulo dominar a otimiza√ß√£o!** üî•

*Pedro Nunes Guth - Expert em IA & Matem√°tica Descomplicada*