# 🔗 Regra da Cadeia: A Chave Secreta do Backpropagation

## Módulo 6: O Notebook Mais Crítico de Todo o Curso!

### Por Pedro Nunes Guth

---

Salve galera! Chegou a hora do **MOMENTO MAIS IMPORTANTE** do nosso curso de Cálculo para IA! 🚀

Tá, mas Pedro... por que esse notebook é TÃO crítico assim? Bom, imagina que você é um detetive tentando descobrir quem é o culpado por cada erro que sua rede neural comete. A **Regra da Cadeia** é sua lupa de investigação!

É ela que permite que a nossa rede neural **aprenda de trás pra frente** (backpropagation), descobrindo exatamente quanto cada neurônio contribuiu pro erro final.

**🎯 O que vamos ver hoje:**
- Como funções compostas funcionam na prática
- A matemática da regra da cadeia (sem drama!)
- Aplicação direta no backpropagation
- Implementação passo a passo
- Porque isso é A ALMA de toda IA moderna

Bora mergulhar nessa! 🏊‍♂️

In [None]:
# Setup inicial - As ferramentas do Pedro
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D
import warnings
warnings.filterwarnings('ignore')

# Configuração dos gráficos
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

print("🔧 Ferramentas carregadas!")
print("📊 Gráficos configurados!")
print("🚀 Bora começar a brincadeira!")

# 🧠 Parte 1: O Que Diabos é uma Função Composta?

Tá, antes de partir pro backpropagation, vamos entender o conceito básico. Lembra quando você era criança e brincava daqueles bonequinhos russos (matryoshka)? Uma boneca dentro da outra?

**Função composta é exatamente isso!** Uma função dentro da outra.

## 🎭 A Analogia da Fábrica de Brigadeiros

Imagina uma fábrica de brigadeiros com 3 etapas:
1. **Estação 1**: Mistura os ingredientes → $u = g(x)$
2. **Estação 2**: Aquece a mistura → $v = h(u)$ 
3. **Estação 3**: Enrola o brigadeiro → $y = f(v)$

O resultado final é: $y = f(h(g(x)))$ - uma função composta!

## 📐 Matematicamente Falando

Se temos:
- $y = f(u)$ onde $u = g(x)$
- Então: $y = f(g(x))$ é uma **função composta**

A **Regra da Cadeia** nos diz como derivar isso:

$$\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}$$

**🎯 Dica do Pedro:** Pensa como uma corrente - cada elo multiplica com o próximo!

In [None]:
# Vamos ver a regra da cadeia na prática!
# Exemplo: y = (2x + 1)³

def funcao_composta_exemplo(x):
    """Função composta: y = (2x + 1)³"""
    u = 2*x + 1  # Função interna: g(x) = 2x + 1
    y = u**3     # Função externa: f(u) = u³
    return y, u

def derivada_pela_regra_da_cadeia(x):
    """Derivada usando regra da cadeia"""
    u = 2*x + 1
    
    # dy/du = 3u²
    dy_du = 3 * u**2
    
    # du/dx = 2
    du_dx = 2
    
    # Regra da cadeia: dy/dx = (dy/du) × (du/dx)
    dy_dx = dy_du * du_dx
    
    return dy_dx, dy_du, du_dx

# Testando com x = 3
x_teste = 3
y, u = funcao_composta_exemplo(x_teste)
derivada, dy_du, du_dx = derivada_pela_regra_da_cadeia(x_teste)

print(f"📊 Para x = {x_teste}:")
print(f"   u = g(x) = 2({x_teste}) + 1 = {u}")
print(f"   y = f(u) = ({u})³ = {y}")
print(f"")
print(f"🔗 Regra da Cadeia:")
print(f"   dy/du = 3u² = 3({u})² = {dy_du}")
print(f"   du/dx = 2")
print(f"   dy/dx = {dy_du} × {du_dx} = {derivada}")
print(f"")
print(f"✅ Resultado: A taxa de variação é {derivada}!")

# 📈 Visualizando a Regra da Cadeia

Vamos ver graficamente como isso funciona! É sempre mais fácil entender vendo, né?

In [None]:
# Visualização da função composta e sua derivada
x = np.linspace(-2, 2, 400)

# Função composta: y = (2x + 1)³
y_composta = (2*x + 1)**3

# Derivada pela regra da cadeia: dy/dx = 6(2x + 1)²
derivada = 6 * (2*x + 1)**2

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gráfico da função
ax1.plot(x, y_composta, 'b-', linewidth=3, label='y = (2x + 1)³')
ax1.grid(True, alpha=0.3)
ax1.set_xlabel('x')
ax1.set_ylabel('y')
ax1.set_title('Função Composta', fontsize=14, fontweight='bold')
ax1.legend()

# Destacar um ponto específico
x_ponto = 0.5
y_ponto = (2*x_ponto + 1)**3
ax1.plot(x_ponto, y_ponto, 'ro', markersize=8)
ax1.annotate(f'({x_ponto}, {y_ponto:.1f})', 
             xy=(x_ponto, y_ponto), 
             xytext=(x_ponto+0.2, y_ponto+2),
             arrowprops=dict(arrowstyle='->', color='red'))

# Gráfico da derivada
ax2.plot(x, derivada, 'r-', linewidth=3, label="dy/dx = 6(2x + 1)²")
ax2.grid(True, alpha=0.3)
ax2.set_xlabel('x')
ax2.set_ylabel('Derivada')
ax2.set_title('Derivada (Inclinação)', fontsize=14, fontweight='bold')
ax2.legend()

# Destacar o mesmo ponto na derivada
derivada_ponto = 6 * (2*x_ponto + 1)**2
ax2.plot(x_ponto, derivada_ponto, 'ro', markersize=8)
ax2.annotate(f'Inclinação = {derivada_ponto:.1f}', 
             xy=(x_ponto, derivada_ponto), 
             xytext=(x_ponto+0.2, derivada_ponto+5),
             arrowprops=dict(arrowstyle='->', color='red'))

plt.tight_layout()
plt.show()

print("📊 Observe que:")
print(f"   • No ponto x = {x_ponto}, a função vale {y_ponto:.1f}")
print(f"   • A inclinação (derivada) nesse ponto é {derivada_ponto:.1f}")
print(f"   • Isso significa que a função está crescendo rapidamente!")

# 🔗 Parte 2: A Matemática Descomplicada da Regra da Cadeia

Agora que você já viu na prática, vamos entender a matemática por trás. Relaxa, vai ser moleza!

## 🎯 O Teorema da Regra da Cadeia

**Versão Formal:** Se $y = f(u)$ e $u = g(x)$, então:

$$\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}$$

**Versão Pedro:** "A derivada da função de fora vezes a derivada da função de dentro!"

## 🏗️ Construção Intuitiva

Imagina que você quer saber como $y$ muda quando $x$ muda um pouquinho:

1. **Passo 1**: $x$ muda → isso afeta $u$ na taxa $\frac{du}{dx}$
2. **Passo 2**: $u$ muda → isso afeta $y$ na taxa $\frac{dy}{du}$
3. **Resultado**: O efeito total é o produto das duas taxas!

## 🔄 Para Múltiplas Camadas

Se temos $y = f(v)$, $v = h(u)$, $u = g(x)$:

$$\frac{dy}{dx} = \frac{dy}{dv} \cdot \frac{dv}{du} \cdot \frac{du}{dx}$$

**🎯 Dica do Pedro:** É como uma corrente - cada elo multiplica com o próximo, não importa quantos elos temos!

In [None]:
# Implementação da regra da cadeia para múltiplas camadas
class CadeiaDerivativas:
    """Classe para demonstrar a regra da cadeia com múltiplas funções"""
    
    def __init__(self):
        self.historico = []
    
    def funcao_composta_complexa(self, x):
        """Exemplo: y = sin(e^(x²))"""
        
        # Camada 1: u = x²
        u = x**2
        
        # Camada 2: v = e^u
        v = np.exp(u)
        
        # Camada 3: y = sin(v)
        y = np.sin(v)
        
        return y, v, u
    
    def calcular_derivadas(self, x):
        """Calcula as derivadas usando regra da cadeia"""
        
        y, v, u = self.funcao_composta_complexa(x)
        
        # Derivadas parciais
        du_dx = 2*x              # d/dx(x²) = 2x
        dv_du = np.exp(u)        # d/du(e^u) = e^u
        dy_dv = np.cos(v)        # d/dv(sin(v)) = cos(v)
        
        # Regra da cadeia: dy/dx = (dy/dv) × (dv/du) × (du/dx)
        dy_dx = dy_dv * dv_du * du_dx
        
        # Guardar para visualização
        resultado = {
            'x': x, 'u': u, 'v': v, 'y': y,
            'du_dx': du_dx, 'dv_du': dv_du, 'dy_dv': dy_dv,
            'dy_dx': dy_dx
        }
        
        return resultado
    
    def mostrar_calculo(self, x):
        """Mostra o cálculo passo a passo"""
        
        resultado = self.calcular_derivadas(x)
        
        print(f"🔢 Calculando para x = {x}")
        print(f"" + "="*50)
        print(f"📍 Valores das funções:")
        print(f"   u = x² = ({x})² = {resultado['u']:.4f}")
        print(f"   v = e^u = e^{resultado['u']:.4f} = {resultado['v']:.4f}")
        print(f"   y = sin(v) = sin({resultado['v']:.4f}) = {resultado['y']:.4f}")
        print(f"")
        print(f"🔗 Derivadas individuais:")
        print(f"   du/dx = 2x = 2({x}) = {resultado['du_dx']:.4f}")
        print(f"   dv/du = e^u = {resultado['dv_du']:.4f}")
        print(f"   dy/dv = cos(v) = {resultado['dy_dv']:.4f}")
        print(f"")
        print(f"⚡ REGRA DA CADEIA:")
        print(f"   dy/dx = (dy/dv) × (dv/du) × (du/dx)")
        print(f"   dy/dx = {resultado['dy_dv']:.4f} × {resultado['dv_du']:.4f} × {resultado['du_dx']:.4f}")
        print(f"   dy/dx = {resultado['dy_dx']:.4f}")
        
        return resultado

# Testando nossa classe
cadeia = CadeiaDerivativas()
resultado = cadeia.mostrar_calculo(0.5)

# 🧠 Parte 3: Entrando no Mundo das Redes Neurais

Agora vem a parte **MAIS IMPORTANTE** do curso todo! Como a regra da cadeia funciona nas redes neurais?

## 🏗️ Anatomia de um Neurônio

Um neurônio faz basicamente isto:
1. **Soma ponderada**: $z = w_1x_1 + w_2x_2 + ... + w_nx_n + b$
2. **Função de ativação**: $a = \sigma(z)$ (sigmoid, ReLU, etc.)

Isso é uma **função composta**! $a = \sigma(w \cdot x + b)$

## 🎯 O Problema do Aprendizado

Nossa rede comete erros. Queremos saber:
- "**Quanto cada peso $w$ contribuiu pro erro?**"
- "**Em que direção devo ajustar cada peso?**"

A resposta está na derivada: $\frac{\partial \text{Erro}}{\partial w}$

## 🔄 Backpropagation = Regra da Cadeia

O backpropagation é **literalmente** a regra da cadeia aplicada de trás pra frente!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/cálculo-para-ia-modulo-06_img_01.png)

In [None]:
# Vamos criar um neurônio simples para ver a regra da cadeia em ação
class NeuronioSimples:
    """Um neurônio para demonstrar backpropagation"""
    
    def __init__(self, pesos, bias):
        self.w = np.array(pesos)  # Pesos
        self.b = bias             # Bias
        
        # Guardar valores para backprop
        self.x = None
        self.z = None
        self.a = None
    
    def sigmoid(self, z):
        """Função sigmoid: σ(z) = 1/(1 + e^(-z))"""
        return 1 / (1 + np.exp(-np.clip(z, -500, 500)))
    
    def sigmoid_derivada(self, z):
        """Derivada da sigmoid: σ'(z) = σ(z)(1 - σ(z))"""
        s = self.sigmoid(z)
        return s * (1 - s)
    
    def forward(self, x):
        """Forward pass - calcular saída"""
        self.x = np.array(x)
        
        # Soma ponderada: z = w·x + b
        self.z = np.dot(self.w, self.x) + self.b
        
        # Ativação: a = σ(z)
        self.a = self.sigmoid(self.z)
        
        return self.a
    
    def backward(self, erro_da_saida):
        """Backward pass - calcular gradientes usando REGRA DA CADEIA!"""
        
        # REGRA DA CADEIA em ação!
        # dL/dw = (dL/da) × (da/dz) × (dz/dw)
        
        # 1. dL/da já temos (erro_da_saida)
        dL_da = erro_da_saida
        
        # 2. da/dz = derivada da sigmoid
        da_dz = self.sigmoid_derivada(self.z)
        
        # 3. dz/dw = x (derivada de w·x + b em relação a w)
        dz_dw = self.x
        
        # 4. dz/db = 1 (derivada de w·x + b em relação a b)
        dz_db = 1
        
        # APLICANDO A REGRA DA CADEIA!
        dL_dw = dL_da * da_dz * dz_dw  # Gradiente dos pesos
        dL_db = dL_da * da_dz * dz_db  # Gradiente do bias
        
        return dL_dw, dL_db, da_dz
    
    def mostrar_calculo(self, x, erro):
        """Mostra o cálculo completo"""
        
        print("🧠 NEURÔNIO EM AÇÃO!")
        print("=" * 60)
        
        # Forward pass
        saida = self.forward(x)
        print(f"📊 FORWARD PASS:")
        print(f"   Entrada: x = {self.x}")
        print(f"   Pesos: w = {self.w}")
        print(f"   Bias: b = {self.b}")
        print(f"   Soma: z = w·x + b = {self.z:.4f}")
        print(f"   Saída: a = σ(z) = {self.a:.4f}")
        print()
        
        # Backward pass
        dL_dw, dL_db, da_dz = self.backward(erro)
        print(f"🔄 BACKWARD PASS (Regra da Cadeia):")
        print(f"   Erro da saída: dL/da = {erro:.4f}")
        print(f"   Derivada sigmoid: da/dz = {da_dz:.4f}")
        print(f"   Derivada z vs w: dz/dw = x = {self.x}")
        print(f"   ")
        print(f"   🔗 REGRA DA CADEIA:")
        print(f"   dL/dw = (dL/da) × (da/dz) × (dz/dw)")
        print(f"   dL/dw = {erro:.4f} × {da_dz:.4f} × {self.x} = {dL_dw}")
        print(f"   dL/db = {erro:.4f} × {da_dz:.4f} × 1 = {dL_db:.4f}")
        
        return dL_dw, dL_db

# Testando nosso neurônio
neuronio = NeuronioSimples(pesos=[0.5, -0.3], bias=0.1)
x_entrada = [1.0, 2.0]
erro_exemplo = 0.2  # Digamos que o erro seja 0.2

gradientes_w, gradiente_b = neuronio.mostrar_calculo(x_entrada, erro_exemplo)

# 📊 Visualizando o Backpropagation

Vamos ver como os gradientes fluem pela rede!

In [None]:
# Visualização do fluxo de gradientes
def visualizar_gradientes():
    """Cria uma visualização do fluxo de gradientes"""
    
    # Simulação de uma rede com 3 camadas
    camadas = ['Entrada', 'Oculta 1', 'Oculta 2', 'Saída']
    posicoes_x = [0, 1, 2, 3]
    
    # Simulação de gradientes (quanto maior, mais importante)
    gradientes = [1.0, 0.8, 0.5, 0.2]  # Diminuem conforme voltamos
    
    fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 10))
    
    # Gráfico 1: Forward Pass
    ax1.plot(posicoes_x, [1, 0.8, 0.6, 0.4], 'bo-', linewidth=3, markersize=10)
    for i, (pos, camada) in enumerate(zip(posicoes_x, camadas)):
        ax1.annotate(camada, (pos, [1, 0.8, 0.6, 0.4][i]), 
                    textcoords="offset points", xytext=(0,10), ha='center')
    
    ax1.set_title('Forward Pass: Informação Indo Pra Frente', fontsize=14, fontweight='bold')
    ax1.set_ylabel('Ativação')
    ax1.grid(True, alpha=0.3)
    ax1.set_xlim(-0.5, 3.5)
    
    # Setas mostrando direção
    for i in range(len(posicoes_x)-1):
        ax1.annotate('', xy=(posicoes_x[i+1]-0.1, 0.2), xytext=(posicoes_x[i]+0.1, 0.2),
                    arrowprops=dict(arrowstyle='->', lw=2, color='blue'))
    
    # Gráfico 2: Backward Pass
    cores = plt.cm.Reds([0.3, 0.5, 0.7, 0.9])  # Cores baseadas na magnitude do gradiente
    barras = ax2.bar(posicoes_x, gradientes, color=cores, alpha=0.7, width=0.6)
    
    # Adicionar valores nas barras
    for i, (pos, grad, camada) in enumerate(zip(posicoes_x, gradientes, camadas)):
        ax2.text(pos, grad + 0.05, f'{grad:.1f}', ha='center', fontweight='bold')
        ax2.text(pos, -0.15, camada, ha='center', rotation=45)
    
    ax2.set_title('Backward Pass: Gradientes Voltando (Regra da Cadeia!)', fontsize=14, fontweight='bold')
    ax2.set_ylabel('Magnitude do Gradiente')
    ax2.grid(True, alpha=0.3)
    ax2.set_xlim(-0.5, 3.5)
    ax2.set_ylim(-0.3, 1.2)
    
    # Setas mostrando direção reversa
    for i in range(len(posicoes_x)-1, 0, -1):
        ax2.annotate('', xy=(posicoes_x[i-1]+0.1, 0.05), xytext=(posicoes_x[i]-0.1, 0.05),
                    arrowprops=dict(arrowstyle='->', lw=2, color='red'))
    
    plt.tight_layout()
    plt.show()
    
    print("📊 Observe que:")
    print("   🔵 Forward: Informação flui da entrada para a saída")
    print("   🔴 Backward: Gradientes fluem da saída para a entrada")
    print("   📉 Gradientes diminuem conforme voltamos (problema do vanishing gradient!)")
    print("   🔗 Cada gradiente é calculado pela REGRA DA CADEIA!")

visualizar_gradientes()

# 🌊 Parte 4: Backpropagation em uma Rede Completa

Agora vamos implementar o backpropagation completo em uma rede neural simples!

## 🏗️ Arquitetura da Nossa Rede

Vamos criar uma rede com:
- **Entrada**: 2 neurônios
- **Camada oculta**: 3 neurônios (sigmoid)
- **Saída**: 1 neurônio (sigmoid)

## 🎯 O Fluxo Completo

1. **Forward**: $x \rightarrow h \rightarrow y$
2. **Erro**: $L = \frac{1}{2}(y - y_{target})^2$
3. **Backward**: Regra da cadeia para cada peso!

**🎯 Dica do Pedro:** É aqui que a mágica acontece! Cada peso recebe exatamente o gradiente que merece!

In [None]:
# Implementação completa de uma rede neural com backpropagation
class RedeNeuralSimples:
    """Rede neural simples para demonstrar backpropagation"""
    
    def __init__(self, entrada=2, oculta=3, saida=1):
        # Inicialização aleatória dos pesos (pequenos valores)
        self.W1 = np.random.randn(entrada, oculta) * 0.5    # Pesos entrada -> oculta
        self.b1 = np.zeros((1, oculta))                     # Bias camada oculta
        self.W2 = np.random.randn(oculta, saida) * 0.5      # Pesos oculta -> saída
        self.b2 = np.zeros((1, saida))                      # Bias saída
        
        # Para guardar valores durante forward pass
        self.z1 = None
        self.a1 = None
        self.z2 = None
        self.a2 = None
        self.X = None
        
    def sigmoid(self, z):
        """Função sigmoid"""
        return 1 / (1 + np.exp(-np.clip(z, -500, 500)))
    
    def sigmoid_derivada(self, z):
        """Derivada da sigmoid"""
        s = self.sigmoid(z)
        return s * (1 - s)
    
    def forward(self, X):
        """Forward propagation"""
        self.X = X
        
        # Camada oculta: z1 = X·W1 + b1, a1 = σ(z1)
        self.z1 = np.dot(X, self.W1) + self.b1
        self.a1 = self.sigmoid(self.z1)
        
        # Camada de saída: z2 = a1·W2 + b2, a2 = σ(z2)
        self.z2 = np.dot(self.a1, self.W2) + self.b2
        self.a2 = self.sigmoid(self.z2)
        
        return self.a2
    
    def calcular_erro(self, y_true, y_pred):
        """Função de custo: Mean Squared Error"""
        return 0.5 * np.mean((y_true - y_pred)**2)
    
    def backward(self, X, y_true):
        """Backward propagation usando REGRA DA CADEIA!"""
        m = X.shape[0]  # Número de exemplos
        
        # PASSO 1: Gradiente da função de custo
        # dL/da2 = (a2 - y_true)
        dL_da2 = (self.a2 - y_true)
        
        # PASSO 2: Gradientes da camada de saída (REGRA DA CADEIA!)
        # dL/dz2 = (dL/da2) × (da2/dz2)
        da2_dz2 = self.sigmoid_derivada(self.z2)
        dL_dz2 = dL_da2 * da2_dz2
        
        # dL/dW2 = (dL/dz2) × (dz2/dW2) = (dL/dz2) × a1
        dL_dW2 = np.dot(self.a1.T, dL_dz2) / m
        
        # dL/db2 = (dL/dz2) × (dz2/db2) = (dL/dz2) × 1
        dL_db2 = np.sum(dL_dz2, axis=0, keepdims=True) / m
        
        # PASSO 3: Gradientes da camada oculta (REGRA DA CADEIA NOVAMENTE!)
        # dL/da1 = (dL/dz2) × (dz2/da1) = (dL/dz2) × W2
        dL_da1 = np.dot(dL_dz2, self.W2.T)
        
        # dL/dz1 = (dL/da1) × (da1/dz1)
        da1_dz1 = self.sigmoid_derivada(self.z1)
        dL_dz1 = dL_da1 * da1_dz1
        
        # dL/dW1 = (dL/dz1) × (dz1/dW1) = (dL/dz1) × X
        dL_dW1 = np.dot(X.T, dL_dz1) / m
        
        # dL/db1 = (dL/dz1) × (dz1/db1) = (dL/dz1) × 1
        dL_db1 = np.sum(dL_dz1, axis=0, keepdims=True) / m
        
        gradientes = {
            'dL_dW2': dL_dW2, 'dL_db2': dL_db2,
            'dL_dW1': dL_dW1, 'dL_db1': dL_db1,
            'dL_dz2': dL_dz2, 'dL_dz1': dL_dz1
        }
        
        return gradientes
    
    def treinar_um_passo(self, X, y, taxa_aprendizado=0.1):
        """Um passo de treinamento"""
        
        # Forward pass
        y_pred = self.forward(X)
        
        # Calcular erro
        erro = self.calcular_erro(y, y_pred)
        
        # Backward pass
        gradientes = self.backward(X, y)
        
        # Atualizar pesos (Gradient Descent)
        self.W2 -= taxa_aprendizado * gradientes['dL_dW2']
        self.b2 -= taxa_aprendizado * gradientes['dL_db2']
        self.W1 -= taxa_aprendizado * gradientes['dL_dW1']
        self.b1 -= taxa_aprendizado * gradientes['dL_db1']
        
        return erro, gradientes

# Criando nossa rede
rede = RedeNeuralSimples()

# Dados de exemplo (problema XOR)
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
y = np.array([[0], [1], [1], [0]])  # XOR

print("🧠 REDE NEURAL CRIADA!")
print(f"📊 Dados de entrada: {X.shape}")
print(f"📊 Dados de saída: {y.shape}")
print(f"🔧 Pesos W1: {rede.W1.shape}")
print(f"🔧 Pesos W2: {rede.W2.shape}")
print(f"")
print(f"🎯 Vamos treinar para resolver o problema XOR!")

In [None]:
# Vamos treinar nossa rede e ver a regra da cadeia em ação!
def treinar_e_visualizar(rede, X, y, epocas=1000):
    """Treina a rede e mostra a evolução"""
    
    historico_erro = []
    historico_gradientes = []
    
    print("🚀 COMEÇANDO O TREINAMENTO!")
    print("=" * 50)
    
    for epoca in range(epocas):
        erro, gradientes = rede.treinar_um_passo(X, y, taxa_aprendizado=1.0)
        
        historico_erro.append(erro)
        
        # Guardar magnitude dos gradientes
        mag_grad = np.mean(np.abs(gradientes['dL_dW2'])) + np.mean(np.abs(gradientes['dL_dW1']))
        historico_gradientes.append(mag_grad)
        
        # Mostrar progresso
        if epoca % 200 == 0:
            y_pred = rede.forward(X)
            print(f"Época {epoca:4d}: Erro = {erro:.6f}, |Gradientes| = {mag_grad:.6f}")
            print(f"             Predições: {y_pred.flatten()}")
    
    return historico_erro, historico_gradientes

# Treinar nossa rede
historico_erro, historico_grad = treinar_e_visualizar(rede, X, y)

print("\n✅ TREINAMENTO CONCLUÍDO!")
print("\n📊 RESULTADO FINAL:")
y_final = rede.forward(X)
for i in range(len(X)):
    print(f"   Input: {X[i]} → Esperado: {y[i][0]} → Predição: {y_final[i][0]:.4f}")

In [None]:
# Visualização da evolução do treinamento
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gráfico do erro
ax1.plot(historico_erro, 'b-', linewidth=2)
ax1.set_title('Evolução do Erro Durante o Treinamento', fontsize=14, fontweight='bold')
ax1.set_xlabel('Época')
ax1.set_ylabel('Erro (MSE)')
ax1.grid(True, alpha=0.3)
ax1.set_yscale('log')

# Adicionar anotações
ax1.annotate('Erro diminuindo\ngraças aos gradientes!', 
            xy=(500, historico_erro[500]), xytext=(300, historico_erro[100]),
            arrowprops=dict(arrowstyle='->', color='red', lw=2),
            fontsize=12, ha='center',
            bbox=dict(boxstyle="round,pad=0.3", facecolor='yellow', alpha=0.7))

# Gráfico dos gradientes
ax2.plot(historico_grad, 'r-', linewidth=2, label='Magnitude dos Gradientes')
ax2.set_title('Evolução dos Gradientes (Regra da Cadeia)', fontsize=14, fontweight='bold')
ax2.set_xlabel('Época')
ax2.set_ylabel('Magnitude Média dos Gradientes')
ax2.grid(True, alpha=0.3)
ax2.legend()

# Adicionar anotações
ax2.annotate('Gradientes ficam menores\nconforme convergimos', 
            xy=(800, historico_grad[800]), xytext=(400, max(historico_grad)*0.7),
            arrowprops=dict(arrowstyle='->', color='blue', lw=2),
            fontsize=12, ha='center',
            bbox=dict(boxstyle="round,pad=0.3", facecolor='lightblue', alpha=0.7))

plt.tight_layout()
plt.show()

print("📊 ANÁLISE DOS GRÁFICOS:")
print(f"   🔵 Erro final: {historico_erro[-1]:.6f}")
print(f"   🔴 Gradiente final: {historico_grad[-1]:.6f}")
print(f"   ✅ A rede aprendeu o XOR usando a REGRA DA CADEIA!")
print(f"   🔗 Cada peso foi ajustado na direção correta graças ao backpropagation")

# 🎯 Parte 5: Exemplo Prático - Demonstração Detalhada

Vamos fazer um exemplo **SUPER DETALHADO** mostrando cada passo da regra da cadeia em uma iteração!

In [None]:
# Exemplo super detalhado - Passo a passo da regra da cadeia
def exemplo_detalhado_regra_cadeia():
    """Mostra EXATAMENTE como a regra da cadeia funciona"""
    
    print("🔍 EXEMPLO SUPER DETALHADO DA REGRA DA CADEIA")
    print("=" * 70)
    print()
    
    # Rede simples: 2 entradas → 1 saída
    # Função: y = σ(w1*x1 + w2*x2 + b)
    
    # Valores de exemplo
    x1, x2 = 0.5, 1.0
    w1, w2 = 0.3, -0.4
    b = 0.1
    y_target = 0.8  # Valor que queremos
    
    print(f"📊 CONFIGURAÇÃO:")
    print(f"   Entradas: x1 = {x1}, x2 = {x2}")
    print(f"   Pesos: w1 = {w1}, w2 = {w2}")
    print(f"   Bias: b = {b}")
    print(f"   Alvo: y_target = {y_target}")
    print()
    
    # PASSO 1: Forward Pass
    print(f"🔄 PASSO 1: FORWARD PASS")
    z = w1*x1 + w2*x2 + b
    y = 1 / (1 + np.exp(-z))  # sigmoid
    
    print(f"   z = w1*x1 + w2*x2 + b")
    print(f"   z = {w1}*{x1} + {w2}*{x2} + {b} = {z}")
    print(f"   y = σ(z) = σ({z}) = {y:.4f}")
    print()
    
    # PASSO 2: Calcular Erro
    print(f"📊 PASSO 2: CALCULAR ERRO")
    erro = 0.5 * (y - y_target)**2
    print(f"   L = 0.5 * (y - y_target)²")
    print(f"   L = 0.5 * ({y:.4f} - {y_target})² = {erro:.6f}")
    print()
    
    # PASSO 3: Backward Pass - REGRA DA CADEIA!
    print(f"🔗 PASSO 3: BACKWARD PASS (REGRA DA CADEIA!)")
    print(f"" + "="*50)
    
    # Gradiente da função de custo
    dL_dy = y - y_target
    print(f"1️⃣ Derivada do erro:")
    print(f"   dL/dy = y - y_target = {y:.4f} - {y_target} = {dL_dy:.6f}")
    print()
    
    # Derivada da sigmoid
    dy_dz = y * (1 - y)
    print(f"2️⃣ Derivada da sigmoid:")
    print(f"   dy/dz = y(1-y) = {y:.4f} * (1-{y:.4f}) = {dy_dz:.6f}")
    print()
    
    # Derivadas das somas ponderadas
    dz_dw1 = x1
    dz_dw2 = x2
    dz_db = 1
    
    print(f"3️⃣ Derivadas da soma ponderada:")
    print(f"   dz/dw1 = x1 = {dz_dw1}")
    print(f"   dz/dw2 = x2 = {dz_dw2}")
    print(f"   dz/db = 1 = {dz_db}")
    print()
    
    # APLICANDO A REGRA DA CADEIA!
    print(f"🎯 APLICANDO A REGRA DA CADEIA:")
    print(f"" + "-"*40)
    
    dL_dw1 = dL_dy * dy_dz * dz_dw1
    dL_dw2 = dL_dy * dy_dz * dz_dw2
    dL_db = dL_dy * dy_dz * dz_db
    
    print(f"dL/dw1 = (dL/dy) × (dy/dz) × (dz/dw1)")
    print(f"dL/dw1 = {dL_dy:.6f} × {dy_dz:.6f} × {dz_dw1} = {dL_dw1:.6f}")
    print()
    
    print(f"dL/dw2 = (dL/dy) × (dy/dz) × (dz/dw2)")
    print(f"dL/dw2 = {dL_dy:.6f} × {dy_dz:.6f} × {dz_dw2} = {dL_dw2:.6f}")
    print()
    
    print(f"dL/db = (dL/dy) × (dy/dz) × (dz/db)")
    print(f"dL/db = {dL_dy:.6f} × {dy_dz:.6f} × {dz_db} = {dL_db:.6f}")
    print()
    
    # INTERPRETAÇÃO
    print(f"🧠 INTERPRETAÇÃO:")
    print(f"" + "="*30)
    print(f"   • dL/dw1 = {dL_dw1:.6f} {'(positivo → aumentar w1 aumenta erro)' if dL_dw1 > 0 else '(negativo → aumentar w1 diminui erro)'}")
    print(f"   • dL/dw2 = {dL_dw2:.6f} {'(positivo → aumentar w2 aumenta erro)' if dL_dw2 > 0 else '(negativo → aumentar w2 diminui erro)'}")
    print(f"   • dL/db = {dL_db:.6f} {'(positivo → aumentar b aumenta erro)' if dL_db > 0 else '(negativo → aumentar b diminui erro)'}")
    print()
    
    # Atualização dos pesos
    taxa = 0.1
    w1_novo = w1 - taxa * dL_dw1
    w2_novo = w2 - taxa * dL_dw2
    b_novo = b - taxa * dL_db
    
    print(f"🔧 ATUALIZAÇÃO DOS PESOS (taxa = {taxa}):")
    print(f"   w1_novo = {w1} - {taxa} * {dL_dw1:.6f} = {w1_novo:.6f}")
    print(f"   w2_novo = {w2} - {taxa} * {dL_dw2:.6f} = {w2_novo:.6f}")
    print(f"   b_novo = {b} - {taxa} * {dL_db:.6f} = {b_novo:.6f}")
    
    return {
        'gradientes': [dL_dw1, dL_dw2, dL_db],
        'pesos_novos': [w1_novo, w2_novo, b_novo],
        'erro': erro
    }

resultado = exemplo_detalhado_regra_cadeia()

# 💡 Exercício Prático 1: Implementação Manual

Agora é sua vez! Vamos implementar a regra da cadeia passo a passo.

In [None]:
# EXERCÍCIO 1: Implemente a regra da cadeia para esta função
# Função: y = (3x² + 2x + 1)⁴

def exercicio_1():
    """DESAFIO: Calcule dy/dx usando regra da cadeia"""
    
    print("🎯 EXERCÍCIO 1: Regra da Cadeia Manual")
    print("=" * 45)
    print("Função: y = (3x² + 2x + 1)⁴")
    print()
    
    def funcao_composta(x):
        """y = (3x² + 2x + 1)⁴"""
        u = 3*x**2 + 2*x + 1  # Função interna
        y = u**4               # Função externa
        return y, u
    
    def derivada_manual(x):
        """COMPLETE ESTA FUNÇÃO!"""
        
        # Passo 1: Calcular u
        u = 3*x**2 + 2*x + 1
        
        # Passo 2: Derivada da função externa (dy/du)
        # DICA: se y = u⁴, então dy/du = ?
        dy_du = 4 * u**3  # COMPLETE AQUI!
        
        # Passo 3: Derivada da função interna (du/dx)
        # DICA: se u = 3x² + 2x + 1, então du/dx = ?
        du_dx = 6*x + 2   # COMPLETE AQUI!
        
        # Passo 4: Regra da cadeia
        dy_dx = dy_du * du_dx  # COMPLETE AQUI!
        
        return dy_dx, dy_du, du_dx, u
    
    # Teste com x = 2
    x_teste = 2
    y, u = funcao_composta(x_teste)
    derivada, dy_du, du_dx, u_calc = derivada_manual(x_teste)
    
    print(f"Para x = {x_teste}:")
    print(f"   u = 3({x_teste})² + 2({x_teste}) + 1 = {u}")
    print(f"   y = ({u})⁴ = {y}")
    print()
    print(f"Derivadas:")
    print(f"   dy/du = 4u³ = 4({u})³ = {dy_du}")
    print(f"   du/dx = 6x + 2 = 6({x_teste}) + 2 = {du_dx}")
    print(f"   dy/dx = {dy_du} × {du_dx} = {derivada}")
    
    # Verificação numérica
    epsilon = 1e-7
    y1, _ = funcao_composta(x_teste + epsilon)
    y2, _ = funcao_composta(x_teste - epsilon)
    derivada_numerica = (y1 - y2) / (2 * epsilon)
    
    print()
    print(f"✅ Verificação:")
    print(f"   Derivada analítica: {derivada}")
    print(f"   Derivada numérica:  {derivada_numerica:.0f}")
    print(f"   Diferença: {abs(derivada - derivada_numerica):.2e}")
    
    return derivada == int(derivada_numerica)

sucesso = exercicio_1()
print(f"\n{'🎉 PARABÉNS! Você acertou!' if sucesso else '❌ Ops! Verifique seus cálculos.'}")

# 🧪 Exercício Prático 2: Backprop em Mini-Rede

Agora vamos implementar o backpropagation em uma rede neural minúscula!

In [None]:
# EXERCÍCIO 2: Implemente o backpropagation nesta mini-rede

class MiniRede:
    """Rede neural minúscula: 1 entrada → 1 neurônio oculto → 1 saída"""
    
    def __init__(self):
        # Pesos fixos para o exercício
        self.w1 = 0.5   # Peso entrada → oculto
        self.b1 = 0.2   # Bias oculto
        self.w2 = 0.8   # Peso oculto → saída
        self.b2 = 0.1   # Bias saída
        
    def sigmoid(self, z):
        return 1 / (1 + np.exp(-z))
    
    def forward(self, x):
        """Forward pass"""
        # Camada oculta
        self.z1 = self.w1 * x + self.b1
        self.a1 = self.sigmoid(self.z1)
        
        # Camada de saída
        self.z2 = self.w2 * self.a1 + self.b2
        self.a2 = self.sigmoid(self.z2)
        
        # Guardar entrada para backward
        self.x = x
        
        return self.a2
    
    def backward_exercicio(self, y_true):
        """COMPLETE ESTA FUNÇÃO! Calcule os gradientes usando regra da cadeia"""
        
        # PASSO 1: Gradiente da função de custo
        # L = 0.5 * (a2 - y_true)²
        # dL/da2 = ?
        dL_da2 = self.a2 - y_true  # COMPLETE!
        
        # PASSO 2: Gradientes da camada de saída
        # da2/dz2 = a2 * (1 - a2)  [derivada sigmoid]
        da2_dz2 = self.a2 * (1 - self.a2)  # COMPLETE!
        
        # dL/dz2 = (dL/da2) × (da2/dz2)  [regra da cadeia!]
        dL_dz2 = dL_da2 * da2_dz2  # COMPLETE!
        
        # dL/dw2 = (dL/dz2) × (dz2/dw2) = (dL/dz2) × a1
        dL_dw2 = dL_dz2 * self.a1  # COMPLETE!
        
        # dL/db2 = (dL/dz2) × (dz2/db2) = (dL/dz2) × 1
        dL_db2 = dL_dz2 * 1  # COMPLETE!
        
        # PASSO 3: Gradientes da camada oculta
        # dL/da1 = (dL/dz2) × (dz2/da1) = (dL/dz2) × w2
        dL_da1 = dL_dz2 * self.w2  # COMPLETE!
        
        # da1/dz1 = a1 * (1 - a1)  [derivada sigmoid]
        da1_dz1 = self.a1 * (1 - self.a1)  # COMPLETE!
        
        # dL/dz1 = (dL/da1) × (da1/dz1)  [regra da cadeia!]
        dL_dz1 = dL_da1 * da1_dz1  # COMPLETE!
        
        # dL/dw1 = (dL/dz1) × (dz1/dw1) = (dL/dz1) × x
        dL_dw1 = dL_dz1 * self.x  # COMPLETE!
        
        # dL/db1 = (dL/dz1) × (dz1/db1) = (dL/dz1) × 1
        dL_db1 = dL_dz1 * 1  # COMPLETE!
        
        return {
            'dL_dw1': dL_dw1, 'dL_db1': dL_db1,
            'dL_dw2': dL_dw2, 'dL_db2': dL_db2
        }

# Teste do exercício
def testar_exercicio_2():
    rede = MiniRede()
    
    # Dados de teste
    x = 1.5
    y_true = 0.9
    
    print("🎯 EXERCÍCIO 2: Backpropagation Manual")
    print("=" * 50)
    print(f"Entrada: x = {x}")
    print(f"Alvo: y_true = {y_true}")
    print()
    
    # Forward pass
    y_pred = rede.forward(x)
    erro = 0.5 * (y_pred - y_true)**2
    
    print(f"📊 Forward Pass:")
    print(f"   z1 = {rede.w1} * {x} + {rede.b1} = {rede.z1:.4f}")
    print(f"   a1 = σ({rede.z1:.4f}) = {rede.a1:.4f}")
    print(f"   z2 = {rede.w2} * {rede.a1:.4f} + {rede.b2} = {rede.z2:.4f}")
    print(f"   a2 = σ({rede.z2:.4f}) = {rede.a2:.4f}")
    print(f"   Erro = {erro:.6f}")
    print()
    
    # Backward pass
    gradientes = rede.backward_exercicio(y_true)
    
    print(f"🔄 Backward Pass (seus resultados):")
    print(f"   dL/dw1 = {gradientes['dL_dw1']:.6f}")
    print(f"   dL/db1 = {gradientes['dL_db1']:.6f}")
    print(f"   dL/dw2 = {gradientes['dL_dw2']:.6f}")
    print(f"   dL/db2 = {gradientes['dL_db2']:.6f}")
    
    return gradientes

gradientes_exercicio = testar_exercicio_2()
print(f"\n✅ Exercício concluído! Verifique se os gradientes fazem sentido.")

# 🌟 Parte 6: Por Que Isso É TÃO Importante?

Agora que você domina a regra da cadeia, vamos entender por que ela é **FUNDAMENTAL** para toda a IA moderna!

## 🏗️ Sem Regra da Cadeia, Não Existe:

- **🤖 Redes Neurais Profundas** (Deep Learning)
- **🎨 GANs** (Redes Generativas)
- **🗣️ Transformers** (ChatGPT, BERT, etc.)
- **👁️ Visão Computacional** (CNNs)
- **📝 Processamento de Linguagem Natural**

## 🔗 A Conexão com os Próximos Módulos

Nos próximos módulos, vamos ver como:
- **Gradientes** (Módulo 10) são calculados usando regra da cadeia
- **Gradient Descent** (Módulos 11-12) usa esses gradientes para otimizar
- **Funções multivariáveis** (Módulo 9) estendem essa ideia

## 🎯 Problemas Reais que a Regra da Cadeia Resolve

1. **Vanishing Gradients**: Gradientes que "desaparecem" em redes profundas
2. **Exploding Gradients**: Gradientes que "explodem" e desestabilizam o treinamento
3. **Otimização**: Como chegar no mínimo global da função de custo

**🎯 Dica do Pedro:** A regra da cadeia é como o DNA da IA - está presente em TUDO!

In [None]:
# Demonstração do problema do vanishing gradient
def demonstrar_vanishing_gradient():
    """Mostra como gradientes podem "desaparecer" em redes profundas"""
    
    print("⚠️  DEMONSTRAÇÃO: Vanishing Gradient Problem")
    print("=" * 55)
    print()
    
    # Simular uma rede com muitas camadas
    num_camadas = [2, 5, 10, 15, 20]
    gradientes_finais = []
    
    for n in num_camadas:
        # Simular gradiente passando por n camadas
        # Cada camada multiplica por ~0.25 (derivada sigmoid típica)
        gradiente_inicial = 1.0
        gradiente_final = gradiente_inicial
        
        for camada in range(n):
            # Derivada sigmoid máxima é 0.25
            derivada_sigmoid = 0.25
            gradiente_final *= derivada_sigmoid
        
        gradientes_finais.append(gradiente_final)
        
        print(f"🔢 {n:2d} camadas: gradiente = {gradiente_inicial:.1f} × (0.25)^{n} = {gradiente_final:.2e}")
    
    print()
    print("📊 CONCLUSÃO:")
    print("   • Com 2 camadas: gradiente ainda utilizável")
    print("   • Com 10+ camadas: gradiente praticamente ZERO!")
    print("   • As primeiras camadas param de aprender 😱")
    print()
    print("💡 SOLUÇÕES MODERNAS:")
    print("   • ReLU (em vez de sigmoid)")
    print("   • Batch Normalization")
    print("   • Residual Connections (ResNet)")
    print("   • LSTM/GRU para sequências")
    
    return num_camadas, gradientes_finais

camadas, grads = demonstrar_vanishing_gradient()

# Visualização
plt.figure(figsize=(10, 6))
plt.semilogy(camadas, grads, 'ro-', linewidth=3, markersize=8)
plt.title('Vanishing Gradient Problem', fontsize=16, fontweight='bold')
plt.xlabel('Número de Camadas')
plt.ylabel('Magnitude do Gradiente (escala log)')
plt.grid(True, alpha=0.3)

# Adicionar zona de perigo
plt.axhline(y=1e-10, color='red', linestyle='--', alpha=0.7)
plt.text(12, 1e-9, 'Zona de Perigo\n(gradiente muito pequeno)', 
         ha='center', va='center',
         bbox=dict(boxstyle="round,pad=0.3", facecolor='red', alpha=0.2))

plt.show()

print("\n🎯 Esta é a importância da regra da cadeia bem implementada!")

# 📚 Resumo: O Que Aprendemos Hoje

## 🎯 Conceitos Fundamentais

1. **Função Composta**: Uma função dentro da outra ($y = f(g(x))$)

2. **Regra da Cadeia**: $\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}$

3. **Backpropagation**: Aplicação da regra da cadeia de trás pra frente

## 🔗 A Fórmula de Ouro

Para uma rede neural:
$$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial w}$$

Onde:
- $L$ = função de custo (erro)
- $a$ = ativação do neurônio  
- $z$ = soma ponderada
- $w$ = peso da conexão

## 🚀 Por Que Isso Importa

- **🧠 Permite que redes neurais aprendam**
- **📊 Cada peso é ajustado na direção correta**
- **⚡ Torna possível treinar redes com milhões de parâmetros**
- **🎯 É a base de TODA IA moderna**

## 🔮 Conexão com os Próximos Módulos

- **Módulo 7-8**: Integrais (para entender probabilidades)
- **Módulo 9**: Funções multivariáveis (múltiplas entradas)
- **Módulo 10**: Gradientes (vetores de derivadas parciais)
- **Módulo 11-12**: Gradient Descent (usando os gradientes para otimizar)

## 🎯 Dica Final do Pedro

**A regra da cadeia é como aprender a dirigir** - depois que você entende, fica automático. E igual dirigir, ela te leva a lugares incríveis! 🚗💨

Agora você tem a **chave secreta** do deep learning. Use com sabedoria! 🗝️✨

# 🎉 Parabéns! Você Dominou a Regra da Cadeia!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/cálculo-para-ia-modulo-06_img_02.png)

---

## 🏆 Certificado de Conclusão

**Você agora possui o conhecimento mais importante do Deep Learning!**

### ✅ Habilidades Adquiridas:
- ✅ Compreensão profunda da regra da cadeia
- ✅ Implementação manual do backpropagation
- ✅ Visualização do fluxo de gradientes
- ✅ Solução de problemas de vanishing gradients
- ✅ Base sólida para redes neurais profundas

### 🚀 Próximos Passos:
1. **Módulo 7**: Integrais e probabilidade
2. **Módulo 8**: AUC e métricas baseadas em integral
3. **Módulo 9**: Funções multivariáveis
4. **Módulo 10**: Gradientes em múltiplas dimensões

---

**🎯 Lembre-se**: A regra da cadeia é o coração pulsante de toda IA moderna. Você acabou de desbloquear o segredo do universe do machine learning!

**Continue firme na jornada! O Pedro acredita em você! 💪🔥**