# 🎯 Derivadas 2: As Regras do Jogo
## Dominando as Regras de Derivação para Funções de Perda

**Por Pedro Nunes Guth** 📚

---

Fala pessoal! Lembram do nosso **Módulo 4** onde descobrimos que a derivada é como a **inclinação da montanha do erro** em cada ponto? Pois é, agora chegou a hora de aprender as **regras do jogo**! 

Tá, mas o que são essas regras? Imagine que você está jogando futebol, mas cada vez que a bola muda de posição, você precisa calcular a velocidade dela na mão... Seria um saco, né? Por isso existem as **regras de derivação** - elas são como as regras do futebol que tornam o jogo possível!

Hoje vamos dominar:
- 🔸 **Regra da Soma**: Como derivar quando as funções estão "somando forças"
- 🔸 **Regra do Produto**: Quando duas funções estão "trabalhando juntas"
- 🔸 **Regra do Quociente**: Quando uma função está "dividindo o trabalho" com outra
- 🔸 **Aplicações em Funções de Perda**: O que realmente importa para IA!

Bora que vai ser **Liiindo!** 🚀

In [None]:
# Setup inicial - Importando nossas ferramentas
import numpy as np
import matplotlib.pyplot as plt
from scipy.optimize import minimize_scalar
import sympy as sp
from sympy import symbols, diff, simplify, expand
import warnings
warnings.filterwarnings('ignore')

# Configurações para gráficos bonitos
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

print("🎯 Setup completo! Vamos às regras de derivação!")
print("📊 Bibliotecas carregadas com sucesso")

## 🧠 Por Que Precisamos das Regras de Derivação?

Lembra da nossa **definição fundamental** do Módulo 4?

$$f'(x) = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h}$$

Tá, mas imagina ter que calcular isso **na mão** toda vez que encontramos uma função tipo:

$$\text{Loss}(w) = (w^2 + 3w) \cdot \sin(w) + \frac{w^3}{w+1}$$

Seria como ter que **reinventar a roda** toda vez que você quer andar de bicicleta! 🚲

### A Analogia do Restaurante

Pensa assim: você tem um restaurante e quer saber como o **lucro total** varia. O lucro pode vir de:
- **Soma**: Hambúrguer + Batata frita (receitas se somam)
- **Produto**: Preço × Quantidade vendida (receitas se multiplicam)
- **Quociente**: Receita ÷ Custos (eficiência)

As regras de derivação nos dizem como calcular a **taxa de variação** em cada caso!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/cálculo-para-ia-modulo-05_img_01.png)

## 📐 Regra da Soma: "Dividir para Conquistar"

A **regra da soma** é moleza! Se você tem duas funções que estão se **somando** ou **subtraindo**, você deriva cada uma separadamente:

### Fórmula Matemática:
$$\text{Se } f(x) = g(x) + h(x)$$
$$\text{Então } f'(x) = g'(x) + h'(x)$$

### A Intuição:
É como medir a velocidade de dois carros numa estrada. Se eles estão na **mesma direção**, as velocidades se somam. Se estão em **direções opostas**, elas se subtraem!

### **Dica do Pedro** 💡
Pensa na derivada como "quanto cada pedacinho contribui para a mudança total". Na soma, cada pedacinho contribui independentemente!

### Exemplo Prático em IA:
Imagine uma função de perda que tem duas componentes:
$$\text{Loss}(w) = \text{MSE}(w) + \text{Regularização}(w)$$
$$\text{Loss}(w) = w^2 + 0.1w$$

A derivada fica:
$$\text{Loss}'(w) = (w^2)' + (0.1w)' = 2w + 0.1$$

In [None]:
# Implementando a Regra da Soma com SymPy
print("🔸 REGRA DA SOMA - Exemplos Práticos")
print("="*50)

# Definindo a variável simbólica
w = symbols('w')

# Exemplo 1: Função de perda simples
f1 = w**2
f2 = 3*w
soma = f1 + f2

print(f"f1(w) = {f1}")
print(f"f2(w) = {f2}")
print(f"Soma: f(w) = {soma}")
print()

# Calculando as derivadas
df1_dw = diff(f1, w)
df2_dw = diff(f2, w)
dsoma_dw = diff(soma, w)

print("📊 DERIVADAS:")
print(f"f1'(w) = {df1_dw}")
print(f"f2'(w) = {df2_dw}")
print(f"(f1 + f2)'(w) = {dsoma_dw}")
print(f"Regra da Soma: {df1_dw} + {df2_dw} = {df1_dw + df2_dw}")
print()

# Verificando que são iguais
print(f"✅ Verificação: {dsoma_dw} = {df1_dw + df2_dw} -> {dsoma_dw == df1_dw + df2_dw}")

In [None]:
# Visualizando a Regra da Soma
w_vals = np.linspace(-3, 3, 100)

# Convertendo para funções NumPy
f1_func = lambda x: x**2
f2_func = lambda x: 3*x
soma_func = lambda x: x**2 + 3*x

# Derivadas
df1_func = lambda x: 2*x
df2_func = lambda x: 3*np.ones_like(x)
dsoma_func = lambda x: 2*x + 3

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gráfico das funções originais
ax1.plot(w_vals, f1_func(w_vals), 'b-', label='f1(w) = w²', linewidth=2)
ax1.plot(w_vals, f2_func(w_vals), 'r-', label='f2(w) = 3w', linewidth=2)
ax1.plot(w_vals, soma_func(w_vals), 'g-', label='f1 + f2 = w² + 3w', linewidth=3)
ax1.set_title('🔸 Funções Originais')
ax1.set_xlabel('w')
ax1.set_ylabel('f(w)')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Gráfico das derivadas
ax2.plot(w_vals, df1_func(w_vals), 'b--', label="f1'(w) = 2w", linewidth=2)
ax2.plot(w_vals, df2_func(w_vals), 'r--', label="f2'(w) = 3", linewidth=2)
ax2.plot(w_vals, dsoma_func(w_vals), 'g-', label="(f1+f2)' = 2w + 3", linewidth=3)
ax2.set_title('📊 Derivadas - Regra da Soma')
ax2.set_xlabel('w')
ax2.set_ylabel("f'(w)")
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("🎯 Observa como a derivada da soma é exatamente a soma das derivadas!")

## ⚡ Regra do Produto: "A Dança das Funções"

Agora a coisa fica mais interessante! Quando duas funções estão se **multiplicando**, elas fazem uma "dança" especial.

### Fórmula Matemática:
$$\text{Se } f(x) = g(x) \cdot h(x)$$
$$\text{Então } f'(x) = g'(x) \cdot h(x) + g(x) \cdot h'(x)$$

### A Analogia da Dança 💃🕺
Imagine dois dançarinos numa apresentação:
- **Primeiro termo**: O primeiro dançarino acelera (g'(x)) enquanto o segundo mantém o ritmo (h(x))
- **Segundo termo**: O primeiro mantém o ritmo (g(x)) enquanto o segundo acelera (h'(x))
- **Resultado**: A mudança total é a soma dos dois efeitos!

### Por que não é simplesmente g'(x) × h'(x)?
Porque quando duas coisas estão se multiplicando, o **efeito total** depende de como **cada uma** afeta a **outra**. É como o PIB de um país: se a população cresce E a renda per capita cresce, o efeito total não é só um dos dois!

### **Dica do Pedro** 💡
Decoreba o mantra: "**Deriva o primeiro, mantém o segundo. Mantém o primeiro, deriva o segundo. Soma tudo!**"

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/cálculo-para-ia-modulo-05_img_02.png)

In [None]:
# Implementando a Regra do Produto
print("⚡ REGRA DO PRODUTO - Exemplos Práticos")
print("="*50)

# Exemplo 1: Função de perda com regularização
w = symbols('w')
g = w**2  # Primeira função
h = w + 1  # Segunda função
produto = g * h

print(f"g(w) = {g}")
print(f"h(w) = {h}")
print(f"Produto: f(w) = g(w) × h(w) = {produto}")
print(f"Expandido: f(w) = {expand(produto)}")
print()

# Calculando as derivadas
dg_dw = diff(g, w)
dh_dw = diff(h, w)
dproduto_dw = diff(produto, w)

print("📊 DERIVADAS:")
print(f"g'(w) = {dg_dw}")
print(f"h'(w) = {dh_dw}")
print()

# Aplicando a regra do produto manualmente
regra_produto = dg_dw * h + g * dh_dw
print("🔸 REGRA DO PRODUTO:")
print(f"f'(w) = g'(w)×h(w) + g(w)×h'(w)")
print(f"f'(w) = ({dg_dw})×({h}) + ({g})×({dh_dw})")
print(f"f'(w) = {regra_produto}")
print(f"Simplificado: f'(w) = {simplify(regra_produto)}")
print()

print(f"✅ Derivada direta: {dproduto_dw}")
print(f"✅ Pela regra do produto: {simplify(regra_produto)}")
print(f"✅ São iguais? {simplify(dproduto_dw - regra_produto) == 0}")

In [None]:
# Visualizando a Regra do Produto - Exemplo com Função de Perda
w_vals = np.linspace(-2, 2, 100)

# Exemplo: Loss(w) = w² × (w + 1) - comum em regularização
g_func = lambda x: x**2
h_func = lambda x: x + 1
produto_func = lambda x: x**2 * (x + 1)

# Derivadas
dg_func = lambda x: 2*x
dh_func = lambda x: np.ones_like(x)
dproduto_func = lambda x: 3*x**2 + 2*x  # Resultado da regra do produto

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Funções originais
ax1.plot(w_vals, g_func(w_vals), 'b-', label='g(w) = w²', linewidth=2)
ax1.plot(w_vals, h_func(w_vals), 'r-', label='h(w) = w + 1', linewidth=2)
ax1.plot(w_vals, produto_func(w_vals), 'purple', label='f(w) = w²(w+1)', linewidth=3)
ax1.set_title('⚡ Funções no Produto')
ax1.set_xlabel('w')
ax1.set_ylabel('f(w)')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Derivadas e componentes da regra do produto
termo1 = lambda x: 2*x * (x + 1)  # g'(w) × h(w)
termo2 = lambda x: x**2 * 1       # g(w) × h'(w)

ax2.plot(w_vals, termo1(w_vals), 'g--', label="g'(w)×h(w) = 2w(w+1)", linewidth=2)
ax2.plot(w_vals, termo2(w_vals), 'orange', linestyle='--', label="g(w)×h'(w) = w²", linewidth=2)
ax2.plot(w_vals, dproduto_func(w_vals), 'purple', label="f'(w) = 3w² + 2w", linewidth=3)
ax2.set_title('📊 Regra do Produto - Componentes')
ax2.set_xlabel('w')
ax2.set_ylabel("f'(w)")
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("🎯 Veja como a derivada final (roxa) é a SOMA dos dois termos da regra do produto!")

## 🎪 Regra do Quociente: "A Gangorra Matemática"

A regra do quociente é como uma **gangorra no parquinho**! Quando o numerador sobe, o resultado tende a subir. Quando o denominador sobe, o resultado tende a descer.

### Fórmula Matemática:
$$\text{Se } f(x) = \frac{g(x)}{h(x)}$$
$$\text{Então } f'(x) = \frac{g'(x) \cdot h(x) - g(x) \cdot h'(x)}{[h(x)]^2}$$

### A Analogia da Eficiência 📊
Imagina que você quer medir a **eficiência** do seu modelo:
$$\text{Eficiência} = \frac{\text{Acurácia}}{\text{Tempo de Treinamento}}$$

- Se a **acurácia aumenta** (numerador ↑), a eficiência melhora
- Se o **tempo aumenta** (denominador ↑), a eficiência piora
- A **taxa de variação** da eficiência depende de **ambos os efeitos**!

### Por que tem aquele sinal de menos?
Porque quando o **denominador cresce**, o valor da fração **diminui**! É como uma gangorra: quando um lado sobe, o outro desce.

### **Dica do Pedro** 💡
Lembra da fórmula: **"Deriva em cima, mantém embaixo MENOS mantém em cima, deriva embaixo. Tudo dividido pelo embaixo ao quadrado!"** É meio língua-travada, mas funciona! 😄

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/cálculo-para-ia-modulo-05_img_03.png)

In [None]:
# Implementando a Regra do Quociente
print("🎪 REGRA DO QUOCIENTE - Exemplos Práticos")
print("="*50)

# Exemplo: Função de taxa de aprendizado adaptativa
w = symbols('w')
g = w**2 + 1  # Numerador
h = w + 2     # Denominador
quociente = g / h

print(f"g(w) = {g}  (numerador)")
print(f"h(w) = {h}  (denominador)")
print(f"Quociente: f(w) = g(w)/h(w) = {quociente}")
print()

# Calculando as derivadas
dg_dw = diff(g, w)
dh_dw = diff(h, w)
dquociente_dw = diff(quociente, w)

print("📊 DERIVADAS INDIVIDUAIS:")
print(f"g'(w) = {dg_dw}")
print(f"h'(w) = {dh_dw}")
print()

# Aplicando a regra do quociente manualmente
numerador_regra = dg_dw * h - g * dh_dw
denominador_regra = h**2
regra_quociente = numerador_regra / denominador_regra

print("🔸 REGRA DO QUOCIENTE:")
print(f"f'(w) = [g'(w)×h(w) - g(w)×h'(w)] / [h(w)]²")
print(f"Numerador: ({dg_dw})×({h}) - ({g})×({dh_dw})")
print(f"Numerador: {numerador_regra}")
print(f"Numerador simplificado: {simplify(numerador_regra)}")
print(f"Denominador: ({h})² = {denominador_regra}")
print()
print(f"✅ Derivada pela regra: {simplify(regra_quociente)}")
print(f"✅ Derivada direta: {simplify(dquociente_dw)}")
print(f"✅ São iguais? {simplify(dquociente_dw - regra_quociente) == 0}")

In [None]:
# Visualizando a Regra do Quociente
w_vals = np.linspace(0.1, 3, 100)  # Evitando w = -2 que zera o denominador

# Funções
g_func = lambda x: x**2 + 1
h_func = lambda x: x + 2
quociente_func = lambda x: (x**2 + 1) / (x + 2)

# Derivada do quociente: (2w(w+2) - (w²+1)) / (w+2)²
dquociente_func = lambda x: (2*x*(x+2) - (x**2 + 1)) / (x + 2)**2

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gráfico das funções
ax1.plot(w_vals, g_func(w_vals), 'b-', label='g(w) = w² + 1', linewidth=2)
ax1.plot(w_vals, h_func(w_vals), 'r-', label='h(w) = w + 2', linewidth=2)
ax1.plot(w_vals, quociente_func(w_vals), 'green', label='f(w) = (w²+1)/(w+2)', linewidth=3)
ax1.set_title('🎪 Funções no Quociente')
ax1.set_xlabel('w')
ax1.set_ylabel('f(w)')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Gráfico da derivada
ax2.plot(w_vals, dquociente_func(w_vals), 'green', label="f'(w) - Regra do Quociente", linewidth=3)
ax2.axhline(y=0, color='black', linestyle='-', alpha=0.3)
ax2.set_title('📊 Derivada pela Regra do Quociente')
ax2.set_xlabel('w')
ax2.set_ylabel("f'(w)")
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Análise dos pontos críticos
print("🔍 ANÁLISE:")
print("- Observe como a derivada muda de sinal")
print("- Pontos onde f'(w) = 0 são mínimos ou máximos locais")
print("- Isso é crucial para otimização em IA!")

## 🧮 Mermaid: Fluxograma das Regras de Derivação

```mermaid
graph TD
    A[Função Composta f(x)] --> B{Que tipo de operação?}
    B -->|Soma/Subtração| C[Regra da Soma]
    B -->|Multiplicação| D[Regra do Produto]
    B -->|Divisão| E[Regra do Quociente]
    
    C --> C1["f'(x) = g'(x) + h'(x)"]
    D --> D1["f'(x) = g'(x)h(x) + g(x)h'(x)"]
    E --> E1["f'(x) = [g'(x)h(x) - g(x)h'(x)] / [h(x)]²"]
    
    C1 --> F[Aplicar no Gradiente Descendente]
    D1 --> F
    E1 --> F
    
    F --> G[Otimizar Função de Perda]
```

Este fluxograma mostra como **decidir** qual regra usar e como todas levam ao mesmo objetivo: **calcular gradientes** para otimização!

## 🎯 Aplicações em Funções de Perda - O Que Realmente Importa!

Agora vem a **parte boa**! Vamos ver como essas regras se aplicam em **funções de perda reais** que encontramos em IA.

### Função de Perda Típica:
$$L(w) = \underbrace{\frac{1}{2n}\sum_{i=1}^{n}(y_i - w \cdot x_i)^2}_{\text{MSE}} + \underbrace{\lambda w^2}_{\text{Regularização L2}}$$

Vamos simplificar para uma versão que podemos trabalhar:
$$L(w) = \underbrace{(y - wx)^2}_{\text{Erro quadrático}} + \underbrace{\lambda w^2}_{\text{Regularização}}$$

### Análise das Regras:
1. **Regra da Soma**: Entre o erro e a regularização
2. **Regra do Produto**: Dentro de $(y - wx)^2$
3. **Regra da Cadeia** (próximo módulo): Para o termo quadrático

### Por que isso importa?
No **Gradiente Descendente**, precisamos calcular $\frac{\partial L}{\partial w}$ para saber **como ajustar** os pesos. Sem essas regras, seria impossível!

In [None]:
# Exemplo Real: Função de Perda com Regularização
print("🎯 APLICAÇÃO EM FUNÇÕES DE PERDA")
print("="*50)

# Definindo símbolos
w, x, y, lam = symbols('w x y lambda')

# Função de perda: L(w) = (y - w*x)² + λ*w²
erro_quadratico = (y - w*x)**2
regularizacao = lam * w**2
loss_total = erro_quadratico + regularizacao

print(f"📊 COMPONENTES DA FUNÇÃO DE PERDA:")
print(f"Erro Quadrático: {erro_quadratico}")
print(f"Regularização L2: {regularizacao}")
print(f"Loss Total: L(w) = {loss_total}")
print()

# Calculando a derivada (gradiente)
dL_dw = diff(loss_total, w)
print(f"🔸 GRADIENTE (derivada em relação a w):")
print(f"dL/dw = {dL_dw}")
print(f"Simplificado: dL/dw = {simplify(dL_dw)}")
print()

# Analisando cada termo
dErro_dw = diff(erro_quadratico, w)
dReg_dw = diff(regularizacao, w)

print(f"📈 ANÁLISE POR COMPONENTES:")
print(f"d/dw[(y-wx)²] = {dErro_dw}")
print(f"d/dw[λw²] = {dReg_dw}")
print(f"Total (Regra da Soma): {dErro_dw} + {dReg_dw}")
print()

# Exemplo numérico
print(f"🧮 EXEMPLO NUMÉRICO:")
print(f"Se y=5, x=2, λ=0.1, w=1.5:")
valores = {y: 5, x: 2, lam: 0.1, w: 1.5}
loss_valor = loss_total.subs(valores)
grad_valor = dL_dw.subs(valores)
print(f"L(1.5) = {float(loss_valor):.4f}")
print(f"dL/dw(1.5) = {float(grad_valor):.4f}")
print(f"Direção do ajuste: {'Diminuir w' if float(grad_valor) > 0 else 'Aumentar w'}")

In [None]:
# Visualizando a Função de Perda e seu Gradiente
# Usando valores específicos: y=5, x=2, λ=0.1
y_val, x_val, lam_val = 5, 2, 0.1

def loss_function(w):
    """Função de perda: L(w) = (y - w*x)² + λ*w²"""
    return (y_val - w * x_val)**2 + lam_val * w**2

def gradient_function(w):
    """Gradiente: dL/dw = -2x(y - wx) + 2λw"""
    return -2 * x_val * (y_val - w * x_val) + 2 * lam_val * w

w_vals = np.linspace(0, 4, 100)
loss_vals = [loss_function(w) for w in w_vals]
grad_vals = [gradient_function(w) for w in w_vals]

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gráfico da função de perda
ax1.plot(w_vals, loss_vals, 'b-', linewidth=3, label='L(w) = (y-wx)² + λw²')

# Encontrar o mínimo
min_idx = np.argmin(loss_vals)
w_min = w_vals[min_idx]
loss_min = loss_vals[min_idx]

ax1.plot(w_min, loss_min, 'ro', markersize=10, label=f'Mínimo em w≈{w_min:.2f}')
ax1.set_title('🎯 Função de Perda com Regularização')
ax1.set_xlabel('w (peso)')
ax1.set_ylabel('L(w) (perda)')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Gráfico do gradiente
ax2.plot(w_vals, grad_vals, 'r-', linewidth=3, label="dL/dw")
ax2.axhline(y=0, color='black', linestyle='--', alpha=0.5, label='Gradiente = 0')
ax2.plot(w_min, 0, 'ro', markersize=10, label='Ponto crítico')
ax2.set_title('📊 Gradiente da Função de Perda')
ax2.set_xlabel('w (peso)')
ax2.set_ylabel('dL/dw')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"🔍 INSIGHTS:")
print(f"- O mínimo ocorre onde o gradiente é zero: w ≈ {w_min:.3f}")
print(f"- Quando dL/dw > 0: devemos DIMINUIR w")
print(f"- Quando dL/dw < 0: devemos AUMENTAR w")
print(f"- Isso é exatamente o que o Gradiente Descendente faz! (Módulo 11)")

## 🔥 Exemplo Avançado: Combinando Todas as Regras

Agora vamos ver um exemplo que **combina** todas as regras que aprendemos! Imagina uma função de perda mais sofisticada:

$$L(w) = \underbrace{w^2 + 3w}_{\text{Soma}} \times \underbrace{\sin(w)}_{\text{Produto}} + \underbrace{\frac{w^3}{w+1}}_{\text{Quociente}}$$

Essa função combina:
- **Regra da Soma**: $w^2 + 3w$
- **Regra do Produto**: $(w^2 + 3w) \times \sin(w)$
- **Regra do Quociente**: $\frac{w^3}{w+1}$

### **Dica do Pedro** 💡
Na vida real, as funções de perda podem ficar bem complexas, especialmente em redes neurais profundas. Mas os **princípios** são sempre os mesmos!

In [None]:
# Exemplo Avançado: Combinando Todas as Regras
print("🔥 EXEMPLO AVANÇADO - Combinando Todas as Regras")
print("="*60)

w = symbols('w')

# Definindo os componentes
termo_soma = w**2 + 3*w
termo_produto = termo_soma * sp.sin(w)  # (w² + 3w) × sin(w)
termo_quociente = w**3 / (w + 1)       # w³ / (w + 1)

# Função completa
L_complexa = termo_produto + termo_quociente

print(f"📊 FUNÇÃO DE PERDA COMPLEXA:")
print(f"Termo com Produto: (w² + 3w) × sin(w)")
print(f"Termo com Quociente: w³/(w+1)")
print(f"L(w) = {L_complexa}")
print()

# Calculando a derivada total
dL_dw_complexa = diff(L_complexa, w)
print(f"🔸 DERIVADA COMPLETA:")
print(f"dL/dw = {dL_dw_complexa}")
print()

# Analisando por partes
print(f"📈 ANÁLISE POR COMPONENTES:")

# Derivada do termo produto
d_produto = diff(termo_produto, w)
print(f"d/dw[(w²+3w)sin(w)] = {d_produto}")
print(f"  (Usa regra da soma + regra do produto)")
print()

# Derivada do termo quociente
d_quociente = diff(termo_quociente, w)
print(f"d/dw[w³/(w+1)] = {d_quociente}")
print(f"  Simplificado: {simplify(d_quociente)}")
print(f"  (Usa regra do quociente)")
print()

# Verificação
soma_componentes = d_produto + d_quociente
print(f"✅ VERIFICAÇÃO (Regra da Soma):")
print(f"dL/dw = d_produto + d_quociente")
print(f"Simplificando ambos: {simplify(dL_dw_complexa - soma_componentes) == 0}")

In [None]:
# Visualizando a Função Complexa
w_range = np.linspace(-0.5, 3, 1000)

# Convertendo para funções NumPy (cuidado com w = -1)
def L_complexa_func(w_vals):
    # Evita divisão por zero
    safe_vals = np.where(np.abs(w_vals + 1) < 1e-10, w_vals + 1e-10, w_vals)
    termo1 = (safe_vals**2 + 3*safe_vals) * np.sin(safe_vals)
    termo2 = safe_vals**3 / (safe_vals + 1)
    return termo1 + termo2

def dL_complexa_func(w_vals):
    # Aproximação numérica da derivada
    h = 1e-8
    return (L_complexa_func(w_vals + h) - L_complexa_func(w_vals - h)) / (2*h)

L_vals = L_complexa_func(w_range)
dL_vals = dL_complexa_func(w_range)

fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 10))

# Função de perda complexa
ax1.plot(w_range, L_vals, 'purple', linewidth=3, label='L(w) - Função Complexa')
ax1.set_title('🔥 Função de Perda Complexa (Todas as Regras Combinadas)')
ax1.set_xlabel('w')
ax1.set_ylabel('L(w)')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Derivada da função complexa
ax2.plot(w_range, dL_vals, 'red', linewidth=3, label="dL/dw")
ax2.axhline(y=0, color='black', linestyle='--', alpha=0.5)

# Identificando pontos críticos (aproximados)
zero_crossings = []
for i in range(len(dL_vals)-1):
    if dL_vals[i] * dL_vals[i+1] < 0:  # Mudança de sinal
        zero_crossings.append(w_range[i])

for wc in zero_crossings[:3]:  # Primeiros 3 pontos
    ax2.plot(wc, 0, 'go', markersize=8)
    ax1.plot(wc, L_complexa_func(np.array([wc]))[0], 'go', markersize=8)

ax2.set_title('📊 Gradiente da Função Complexa')
ax2.set_xlabel('w')
ax2.set_ylabel('dL/dw')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"🎯 PONTOS CRÍTICOS ENCONTRADOS (aprox.): {len(zero_crossings)}")
print(f"📍 Primeiros pontos críticos: {zero_crossings[:3] if zero_crossings else 'Nenhum no intervalo'}")
print(f"🔍 Em funções complexas, pode haver múltiplos mínimos locais!")

## 💪 Exercício 1: Praticando as Regras

Agora é sua vez! Vamos praticar com uma função de perda inspirada em problemas reais de Machine Learning.

### 🎯 Desafio:
Calcule a derivada da seguinte função de perda usando as regras que aprendemos:

$$L(w) = \frac{w^2 + 2w}{w + 3} + (w^3 - w) \times \cos(w)$$

### Passos:
1. **Identifique** qual regra usar para cada termo
2. **Calcule** a derivada de cada componente
3. **Combine** usando a regra da soma
4. **Verifique** seu resultado usando SymPy

### **Dica do Pedro** 💡
Lembre-se: primeiro identifique a **estrutura** da função (soma, produto, quociente), depois aplique as regras **de fora para dentro**!

In [None]:
# 💪 EXERCÍCIO 1 - Espaço para sua solução
print("💪 EXERCÍCIO 1 - Calcule a derivada de L(w)")
print("L(w) = (w² + 2w)/(w + 3) + (w³ - w) × cos(w)")
print("="*50)

# Defina a função aqui
w = symbols('w')

# COMPLETE AQUI - Defina cada termo da função
termo_quociente = # COMPLETE: (w^2 + 2w) / (w + 3)
termo_produto =   # COMPLETE: (w^3 - w) * cos(w)
L_exercicio =     # COMPLETE: soma dos termos

print(f"📊 SUA FUNÇÃO:")
print(f"Termo 1 (quociente): {termo_quociente}")
print(f"Termo 2 (produto): {termo_produto}")
print(f"L(w) = {L_exercicio}")
print()

# COMPLETE AQUI - Calcule as derivadas manualmente usando as regras
print(f"🔸 APLICANDO AS REGRAS:")

# Para o quociente: d/dw[(w²+2w)/(w+3)]
print("Termo 1 - Regra do Quociente:")
# COMPLETE: aplique a regra do quociente

# Para o produto: d/dw[(w³-w)×cos(w)]
print("Termo 2 - Regra do Produto:")
# COMPLETE: aplique a regra do produto

# Calculando com SymPy para verificação
dL_exercicio = diff(L_exercicio, w)
print(f"\n✅ RESULTADO COM SYMPY:")
print(f"dL/dw = {dL_exercicio}")
print(f"Simplificado: {simplify(dL_exercicio)}")

# Descomente as linhas abaixo quando completar o exercício
# print("\n🎯 Compare seu resultado com o SymPy!")
# print("Se chegou ao mesmo resultado, parabéns! 🎉")

## 🚀 Exercício 2: Aplicação em Gradient Descent

Agora vamos usar nossas regras de derivação numa aplicação **real** de otimização! 

### 🎯 Cenário:
Você tem uma função de perda simples para um problema de regressão:
$$L(w) = (y - wx)^2 + 0.1w^2$$

Dados: $x = 3$, $y = 7$ (queremos encontrar $w$ que minimiza a perda)

### Tarefa:
1. **Calcule** $\frac{dL}{dw}$ usando as regras de derivação
2. **Implemente** um mini Gradient Descent
3. **Visualize** como $w$ converge para o mínimo

### **Dica do Pedro** 💡
Lembra do **Módulo 1**? Estamos literalmente "descendo a montanha do erro"! O gradiente nos diz a direção mais íngreme!

In [None]:
# 🚀 EXERCÍCIO 2 - Mini Gradient Descent
print("🚀 EXERCÍCIO 2 - Aplicação em Gradient Descent")
print("="*50)

# Dados do problema
x_data = 3
y_data = 7
lambda_reg = 0.1

print(f"📊 DADOS:")
print(f"x = {x_data}, y = {y_data}, λ = {lambda_reg}")
print(f"Função: L(w) = (y - wx)² + λw²")
print(f"Substituindo: L(w) = ({y_data} - {x_data}w)² + {lambda_reg}w²")
print()

# COMPLETE AQUI - Implemente as funções
def loss_function(w):
    """Calcula L(w) = (y - wx)² + λw²"""
    # COMPLETE: retorne o valor da função de perda
    pass

def gradient_function(w):
    """Calcula dL/dw usando as regras de derivação"""
    # COMPLETE: calcule e retorne o gradiente
    # Dica: use regra da soma + regra da cadeia para (y-wx)²
    # Resultado deve ser: -2x(y-wx) + 2λw
    pass

def gradient_descent(w_inicial, learning_rate, num_iterations):
    """Implementa o algoritmo de Gradient Descent"""
    w = w_inicial
    history = {'w': [w], 'loss': [loss_function(w)]}
    
    for i in range(num_iterations):
        # COMPLETE: calcule o gradiente
        grad = # COMPLETE
        
        # COMPLETE: atualize w usando a regra: w = w - learning_rate * gradiente
        w = # COMPLETE
        
        # Salva histórico
        history['w'].append(w)
        history['loss'].append(loss_function(w))
    
    return w, history

# Testando (descomente quando completar)
# w_inicial = 0.5
# learning_rate = 0.01
# num_iterations = 100

# w_final, history = gradient_descent(w_inicial, learning_rate, num_iterations)

# print(f"🎯 RESULTADOS:")
# print(f"w inicial: {w_inicial}")
# print(f"w final: {w_final:.4f}")
# print(f"Loss inicial: {history['loss'][0]:.4f}")
# print(f"Loss final: {history['loss'][-1]:.4f}")

print("\n💡 Complete as funções acima e descomente o teste!")

## 🎉 Resumo: As Regras do Jogo Dominadas!

**Liiindo!** Chegamos ao fim do nosso módulo sobre as **regras de derivação**! Vamos recapitular o que aprendemos:

### 📚 O Que Dominamos:

#### 1. **Regra da Soma/Subtração** ➕
$$\frac{d}{dx}[f(x) + g(x)] = f'(x) + g'(x)$$
- **Analogia**: Como medir velocidades de carros na mesma estrada
- **Aplicação**: Separar componentes de loss (MSE + Regularização)

#### 2. **Regra do Produto** ✖️
$$\frac{d}{dx}[f(x) \cdot g(x)] = f'(x) \cdot g(x) + f(x) \cdot g'(x)$$
- **Analogia**: A dança de dois dançarinos
- **Aplicação**: Termos que se multiplicam nas funções de perda

#### 3. **Regra do Quociente** ➗
$$\frac{d}{dx}\left[\frac{f(x)}{g(x)}\right] = \frac{f'(x) \cdot g(x) - f(x) \cdot g'(x)}{[g(x)]^2}$$
- **Analogia**: A gangorra matemática
- **Aplicação**: Métricas de eficiência e normalização

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/cálculo-para-ia-modulo-05_img_04.png)

## 🔮 Conexão com os Próximos Módulos

### **Módulo 6 - Regra da Cadeia** 🔗
As regras que aprendemos hoje são **fundamentais**, mas ainda não conseguimos derivar funções como $(3x^2 + 1)^{10}$ ou $\sin(x^2)$. Para isso, precisamos da **Regra da Cadeia** - que é o **coração** do backpropagation!

### **Módulos 11-12 - Gradiente Descendente** ⬇️
Todo o cálculo de derivadas que fizemos hoje será usado para **otimizar** funções de perda reais. O gradiente que calculamos é exatamente a "**bússola**" que nos guia na descida da montanha do erro!

```mermaid
graph LR
    A[Módulo 5: Regras de Derivação] --> B[Módulo 6: Regra da Cadeia]
    B --> C[Módulo 10: Gradientes]
    C --> D[Módulo 11: Gradient Descent]
    D --> E[Módulo 12: Otimizadores Avançados]
    
    A -.-> F[Funções de Perda Complexas]
    B -.-> G[Backpropagation]
    C -.-> H[Redes Neurais]
```

### **Dica do Pedro** para o Próximo Módulo 💡
Pratique bastante as regras de hoje! No **Módulo 6**, vamos combinar elas com a **Regra da Cadeia** para criar o algoritmo mais importante da IA moderna. Vai ser **épico**! 🚀

---

**Bora** para o próximo módulo! Nos vemos na **Regra da Cadeia** - onde a mágica do backpropagation acontece! 🎯✨