# üöÄ Gradiente Descendente 2.0: Turbinando Nossa Descida na Montanha do Erro!

## Pedro Nunes Guth - M√≥dulo 12/12: C√°lculo para IA

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-12_img_01.png)

Fala pessoal! üéâ Chegamos no √∫ltimo m√≥dulo do nosso curso de C√°lculo para IA! Se voc√™ chegou at√© aqui, j√° entende que o gradiente descendente √© tipo aquela b√∫ssola que nos guia pela montanha do erro. Mas t√°, e se eu te disser que existem **vers√µes turbinadas** dessa b√∫ssola?

No m√≥dulo anterior, aprendemos o gradiente descendente cl√°ssico - aquele marombeiro que pega TODOS os dados de uma vez pra calcular o gradiente. Hoje vamos conhecer os primos dele:

- **SGD (Stochastic Gradient Descent)**: O cara apressadinho que usa s√≥ UM exemplo por vez
- **Mini-batch**: O meio termo inteligente
- **Adam**: O algoritmo "espert√£o" que se adapta sozinho
- **E muito mais!**

Bora descer essa montanha com **ESTILO**! üèîÔ∏è‚ö°

In [None]:
# Imports essenciais para nossa jornada!
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation
import seaborn as sns
from sklearn.datasets import make_regression, make_classification
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√£o para gr√°ficos mais bonitos
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Seed para reprodutibilidade
np.random.seed(42)

print("üéØ Ambiente preparado! Bora come√ßar nossa aventura!")

## üéØ 1. Recapitulando: O Gradiente Descendente Cl√°ssico

Antes de partir para as varia√ß√µes, vamos relembrar nosso velho amigo do m√≥dulo anterior:

### A F√≥rmula Sagrada:

$$\theta_{novo} = \theta_{atual} - \alpha \nabla J(\theta)$$

Onde:
- $\theta$: nossos par√¢metros (pesos do modelo)
- $\alpha$: taxa de aprendizado (learning rate)
- $\nabla J(\theta)$: o gradiente da fun√ß√£o de custo

### O Problema do Gradiente Cl√°ssico:

No gradiente descendente **batch** (cl√°ssico), calculamos o gradiente usando **TODOS** os exemplos:

$$\nabla J(\theta) = \frac{1}{m} \sum_{i=1}^{m} \nabla J_i(\theta)$$

T√°, mas imagina que voc√™ tem 1 milh√£o de exemplos! Vai calcular o gradiente com TODOS eles a cada itera√ß√£o? √â como querer contar todos os gr√£os de areia da praia antes de dar um passo!



**Dica do Pedro**: O gradiente batch √© preciso, mas LENTO. √â tipo aquele amigo que demora 2 horas pra escolher o que vai comer no restaurante! üòÖ

In [None]:
# Vamos criar um dataset para demonstrar os conceitos
def criar_dataset_exemplo(n_samples=1000, noise=0.1):
    """
    Cria um dataset simples para regress√£o linear
    y = 3x + 2 + ru√≠do
    """
    X = np.random.randn(n_samples, 1)
    y = 3 * X.flatten() + 2 + noise * np.random.randn(n_samples)
    return X, y

# Fun√ß√£o de custo MSE (Mean Squared Error)
def mse_loss(y_true, y_pred):
    """Calcula o erro quadr√°tico m√©dio"""
    return np.mean((y_true - y_pred) ** 2)

# Predi√ß√£o linear simples
def predict(X, w, b):
    """Faz predi√ß√£o: y = w*x + b"""
    return X.flatten() * w + b

# Implementa√ß√£o do Gradiente Descendente Batch (cl√°ssico)
def gradient_descent_batch(X, y, learning_rate=0.01, epochs=100):
    """Gradiente Descendente usando TODOS os dados por itera√ß√£o"""
    # Inicializa√ß√£o dos par√¢metros
    w = np.random.randn()
    b = np.random.randn()
    
    # Hist√≥rico para visualiza√ß√£o
    history = {'loss': [], 'w': [], 'b': []}
    
    m = len(y)  # n√∫mero de exemplos
    
    for epoch in range(epochs):
        # Predi√ß√£o usando TODOS os dados
        y_pred = predict(X, w, b)
        
        # C√°lculo do erro
        loss = mse_loss(y, y_pred)
        
        # C√°lculo dos gradientes usando TODOS os exemplos
        dw = -(2/m) * np.sum((y - y_pred) * X.flatten())
        db = -(2/m) * np.sum(y - y_pred)
        
        # Atualiza√ß√£o dos par√¢metros
        w = w - learning_rate * dw
        b = b - learning_rate * db
        
        # Salvar hist√≥rico
        history['loss'].append(loss)
        history['w'].append(w)
        history['b'].append(b)
    
    return w, b, history

# Testando o gradiente batch
X, y = criar_dataset_exemplo(1000)
w_batch, b_batch, hist_batch = gradient_descent_batch(X, y, learning_rate=0.1, epochs=50)

print(f"üéØ Gradiente Batch - Resultado final:")
print(f"   Peso (w): {w_batch:.3f} (esperado: ~3.0)")
print(f"   Bias (b): {b_batch:.3f} (esperado: ~2.0)")
print(f"   Loss final: {hist_batch['loss'][-1]:.6f}")

## üèÉ‚Äç‚ôÇÔ∏è 2. SGD: O Gradiente Descendente Apressadinho

Agora vem o **Stochastic Gradient Descent (SGD)**! Esse cara √© tipo aquele amigo que decide na primeira op√ß√£o do card√°pio - ele usa apenas **UM** exemplo por vez para calcular o gradiente!

### A Matem√°tica do SGD:

Em vez de usar todos os exemplos:
$$\nabla J(\theta) = \frac{1}{m} \sum_{i=1}^{m} \nabla J_i(\theta)$$

O SGD usa apenas um exemplo aleat√≥rio por itera√ß√£o:
$$\nabla J(\theta) \approx \nabla J_i(\theta)$$

### Vantagens do SGD:
1. **Muito mais r√°pido**: Uma itera√ß√£o √© super r√°pida!
2. **Usa menos mem√≥ria**: Processa um exemplo por vez
3. **Pode escapar de m√≠nimos locais**: O "ru√≠do" ajuda!

### Desvantagens:
1. **Converg√™ncia mais "bagun√ßada"**: O caminho n√£o √© suave
2. **Pode oscilar muito**: Como um marinheiro b√™bado descendo a montanha! üç∫

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-12_img_03.png)

**Dica do Pedro**: O SGD √© como dirigir no tr√¢nsito do Rio - voc√™ vai chegando no destino, mas fazendo umas curvas malucas pelo caminho! üöóüí®

In [None]:
# Implementa√ß√£o do SGD (Stochastic Gradient Descent)
def stochastic_gradient_descent(X, y, learning_rate=0.01, epochs=100):
    """SGD - usa apenas UM exemplo por itera√ß√£o"""
    # Inicializa√ß√£o
    w = np.random.randn()
    b = np.random.randn()
    
    # Hist√≥rico
    history = {'loss': [], 'w': [], 'b': []}
    
    m = len(y)
    
    for epoch in range(epochs):
        # Embaralha os √≠ndices para cada √©poca
        indices = np.random.permutation(m)
        
        epoch_loss = 0
        
        # Para cada exemplo individual
        for i in indices:
            # Pega apenas UM exemplo
            xi = X[i:i+1]
            yi = y[i]
            
            # Predi√ß√£o para esse exemplo
            y_pred_i = predict(xi, w, b)
            
            # Gradientes baseados em apenas UM exemplo
            error = yi - y_pred_i
            dw = -2 * error * xi.flatten()[0]
            db = -2 * error
            
            # Atualiza√ß√£o dos par√¢metros
            w = w - learning_rate * dw
            b = b - learning_rate * db
            
            epoch_loss += (error ** 2)
        
        # Loss m√©dia da √©poca
        avg_loss = epoch_loss / m
        history['loss'].append(avg_loss)
        history['w'].append(w)
        history['b'].append(b)
    
    return w, b, history

# Testando SGD
np.random.seed(42)  # Para compara√ß√£o justa
w_sgd, b_sgd, hist_sgd = stochastic_gradient_descent(X, y, learning_rate=0.01, epochs=50)

print(f"‚ö° SGD - Resultado final:")
print(f"   Peso (w): {w_sgd:.3f} (esperado: ~3.0)")
print(f"   Bias (b): {b_sgd:.3f} (esperado: ~2.0)")
print(f"   Loss final: {hist_sgd['loss'][-1]:.6f}")

print(f"\nüìä Compara√ß√£o:")
print(f"   Batch GD Loss: {hist_batch['loss'][-1]:.6f}")
print(f"   SGD Loss: {hist_sgd['loss'][-1]:.6f}")

In [None]:
# Visualizando a diferen√ßa entre Batch GD e SGD
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# Gr√°fico 1: Converg√™ncia da Loss
axes[0,0].plot(hist_batch['loss'], label='Batch GD', linewidth=3, color='blue')
axes[0,0].plot(hist_sgd['loss'], label='SGD', linewidth=2, color='red', alpha=0.7)
axes[0,0].set_title('üìâ Converg√™ncia da Fun√ß√£o de Custo')
axes[0,0].set_xlabel('√âpocas')
axes[0,0].set_ylabel('Loss (MSE)')
axes[0,0].legend()
axes[0,0].grid(True, alpha=0.3)

# Gr√°fico 2: Evolu√ß√£o do peso W
axes[0,1].plot(hist_batch['w'], label='Batch GD', linewidth=3, color='blue')
axes[0,1].plot(hist_sgd['w'], label='SGD', linewidth=2, color='red', alpha=0.7)
axes[0,1].axhline(y=3.0, color='green', linestyle='--', label='Valor Real (3.0)')
axes[0,1].set_title('‚öñÔ∏è Evolu√ß√£o do Peso (w)')
axes[0,1].set_xlabel('√âpocas')
axes[0,1].set_ylabel('Valor do Peso')
axes[0,1].legend()
axes[0,1].grid(True, alpha=0.3)

# Gr√°fico 3: Evolu√ß√£o do bias B
axes[1,0].plot(hist_batch['b'], label='Batch GD', linewidth=3, color='blue')
axes[1,0].plot(hist_sgd['b'], label='SGD', linewidth=2, color='red', alpha=0.7)
axes[1,0].axhline(y=2.0, color='green', linestyle='--', label='Valor Real (2.0)')
axes[1,0].set_title('üìè Evolu√ß√£o do Bias (b)')
axes[1,0].set_xlabel('√âpocas')
axes[1,0].set_ylabel('Valor do Bias')
axes[1,0].legend()
axes[1,0].grid(True, alpha=0.3)

# Gr√°fico 4: Trajet√≥ria no espa√ßo de par√¢metros
axes[1,1].plot(hist_batch['w'], hist_batch['b'], 'b-', linewidth=3, label='Batch GD', marker='o', markersize=4)
axes[1,1].plot(hist_sgd['w'][:20], hist_sgd['b'][:20], 'r-', linewidth=2, label='SGD (primeiras 20)', alpha=0.7, marker='s', markersize=3)
axes[1,1].plot(3.0, 2.0, 'g*', markersize=15, label='√ìtimo Real')
axes[1,1].set_title('üéØ Trajet√≥ria no Espa√ßo de Par√¢metros')
axes[1,1].set_xlabel('Peso (w)')
axes[1,1].set_ylabel('Bias (b)')
axes[1,1].legend()
axes[1,1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("üîç Observa√ß√µes:")
print("   ‚Ä¢ Batch GD: Converg√™ncia suave e est√°vel (linha azul)")
print("   ‚Ä¢ SGD: Converg√™ncia mais 'bagun√ßada', mas pode ser mais r√°pida (linha vermelha)")
print("   ‚Ä¢ SGD oscila mais, mas consegue escapar de m√≠nimos locais!")

## üéØ 3. Mini-Batch: O Meio-Termo Inteligente

T√°, mas e se a gente pegasse o melhor dos dois mundos? O **Mini-Batch Gradient Descent** √© exatamente isso!

Em vez de usar:
- **Todos** os exemplos (Batch) üêå
- **Apenas um** exemplo (SGD) üèÉ‚Äç‚ôÇÔ∏èüí®

Usamos um **pequeno grupo** de exemplos por vez!

### A Matem√°tica do Mini-Batch:

Para um mini-batch de tamanho $B$:
$$\nabla J(\theta) \approx \frac{1}{B} \sum_{i \in \text{mini-batch}} \nabla J_i(\theta)$$

### Tamanhos T√≠picos de Mini-Batch:
- **32**: Cl√°ssico para problemas pequenos
- **64**: Muito popular
- **128, 256**: Para datasets maiores
- **512+**: Para datasets gigantes

### Vantagens do Mini-Batch:
1. **Mais est√°vel que SGD**: Menos oscila√ß√£o
2. **Mais r√°pido que Batch**: N√£o precisa de todos os dados
3. **Vetoriza√ß√£o eficiente**: GPUs adoram mini-batches!
4. **Melhor generaliza√ß√£o**: Ru√≠do controlado ajuda

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-12_img_04.png)

**Dica do Pedro**: Mini-batch √© como pedir uma por√ß√£o individual no restaurante em vez de um prato pra fam√≠lia toda, mas tamb√©m n√£o √© s√≥ um salgadinho! √â o equil√≠brio perfeito! üçΩÔ∏è

In [None]:
# Implementa√ß√£o do Mini-Batch Gradient Descent
def mini_batch_gradient_descent(X, y, batch_size=32, learning_rate=0.01, epochs=100):
    """Mini-Batch GD - usa pequenos grupos de exemplos"""
    # Inicializa√ß√£o
    w = np.random.randn()
    b = np.random.randn()
    
    # Hist√≥rico
    history = {'loss': [], 'w': [], 'b': []}
    
    m = len(y)
    
    for epoch in range(epochs):
        # Embaralha os dados
        indices = np.random.permutation(m)
        X_shuffled = X[indices]
        y_shuffled = y[indices]
        
        epoch_loss = 0
        num_batches = 0
        
        # Processa em mini-batches
        for i in range(0, m, batch_size):
            # Pega o mini-batch
            end_idx = min(i + batch_size, m)
            X_batch = X_shuffled[i:end_idx]
            y_batch = y_shuffled[i:end_idx]
            
            # Predi√ß√£o para o mini-batch
            y_pred_batch = predict(X_batch, w, b)
            
            # Loss do mini-batch
            batch_loss = mse_loss(y_batch, y_pred_batch)
            epoch_loss += batch_loss
            
            # Gradientes do mini-batch
            batch_m = len(y_batch)
            dw = -(2/batch_m) * np.sum((y_batch - y_pred_batch) * X_batch.flatten())
            db = -(2/batch_m) * np.sum(y_batch - y_pred_batch)
            
            # Atualiza√ß√£o dos par√¢metros
            w = w - learning_rate * dw
            b = b - learning_rate * db
            
            num_batches += 1
        
        # Loss m√©dia da √©poca
        avg_loss = epoch_loss / num_batches
        history['loss'].append(avg_loss)
        history['w'].append(w)
        history['b'].append(b)
    
    return w, b, history

# Testando diferentes tamanhos de mini-batch
batch_sizes = [8, 32, 128]
results = {}

print("üß™ Testando diferentes tamanhos de mini-batch...\n")

for batch_size in batch_sizes:
    np.random.seed(42)  # Para compara√ß√£o justa
    w_mb, b_mb, hist_mb = mini_batch_gradient_descent(
        X, y, batch_size=batch_size, learning_rate=0.05, epochs=50
    )
    
    results[batch_size] = (w_mb, b_mb, hist_mb)
    
    print(f"üì¶ Mini-Batch (size={batch_size}):")
    print(f"   Peso (w): {w_mb:.3f}")
    print(f"   Bias (b): {b_mb:.3f}")
    print(f"   Loss final: {hist_mb['loss'][-1]:.6f}\n")

In [None]:
# Comparando os diferentes m√©todos
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico 1: Converg√™ncia da Loss
axes[0].plot(hist_batch['loss'], label='Batch GD', linewidth=3, color='blue')
axes[0].plot(hist_sgd['loss'], label='SGD', linewidth=2, color='red', alpha=0.8)

colors = ['green', 'orange', 'purple']
for i, batch_size in enumerate(batch_sizes):
    _, _, hist = results[batch_size]
    axes[0].plot(hist['loss'], label=f'Mini-Batch ({batch_size})', 
                linewidth=2, color=colors[i], alpha=0.8)

axes[0].set_title('üìà Compara√ß√£o de Converg√™ncia')
axes[0].set_xlabel('√âpocas')
axes[0].set_ylabel('Loss (MSE)')
axes[0].legend()
axes[0].grid(True, alpha=0.3)
axes[0].set_yscale('log')  # Escala logar√≠tmica para melhor visualiza√ß√£o

# Gr√°fico 2: Estabilidade (√∫ltimas 10 √©pocas)
last_n = 10
batch_std = np.std(hist_batch['loss'][-last_n:])
sgd_std = np.std(hist_sgd['loss'][-last_n:])

methods = ['Batch GD', 'SGD']
stds = [batch_std, sgd_std]
colors_bar = ['blue', 'red']

for i, batch_size in enumerate(batch_sizes):
    _, _, hist = results[batch_size]
    mb_std = np.std(hist['loss'][-last_n:])
    methods.append(f'Mini-Batch ({batch_size})')
    stds.append(mb_std)
    colors_bar.append(colors[i])

bars = axes[1].bar(methods, stds, color=colors_bar, alpha=0.7)
axes[1].set_title('üìä Estabilidade (Desvio Padr√£o das √öltimas 10 √âpocas)')
axes[1].set_ylabel('Desvio Padr√£o da Loss')
axes[1].tick_params(axis='x', rotation=45)

# Adiciona valores nas barras
for bar, std in zip(bars, stds):
    height = bar.get_height()
    axes[1].text(bar.get_x() + bar.get_width()/2., height + height*0.01,
                f'{std:.6f}', ha='center', va='bottom', fontsize=9)

plt.tight_layout()
plt.show()

print("üéØ An√°lise dos Resultados:")
print(f"   ‚Ä¢ Batch GD: Mais est√°vel (std={batch_std:.6f}), mas pode ser mais lento")
print(f"   ‚Ä¢ SGD: Menos est√°vel (std={sgd_std:.6f}), mas mais r√°pido")
print("   ‚Ä¢ Mini-Batches: Equilibram velocidade e estabilidade!")

## ‚ö° 4. A Taxa de Aprendizado: O Acelerador da Nossa Descida

Agora vamos falar de um dos **par√¢metros mais cr√≠ticos** de qualquer algoritmo de otimiza√ß√£o: a **taxa de aprendizado** ($\alpha$)!

### O Que √â a Taxa de Aprendizado?

Lembra da nossa f√≥rmula sagrada?
$$\theta_{novo} = \theta_{atual} - \alpha \nabla J(\theta)$$

O $\alpha$ √© como o **"tamanho do passo"** que damos na descida da montanha!

### Os Tr√™s Cen√°rios Cl√°ssicos:

1. **$\alpha$ muito pequeno** (ex: 0.001):
   - ‚úÖ Converg√™ncia est√°vel
   - ‚ùå **MUITO lento** - como uma lesma subindo no vidro!
   - ‚ùå Pode travar em plat√¥s

2. **$\alpha$ muito grande** (ex: 1.0):
   - ‚úÖ Converg√™ncia r√°pida (no in√≠cio)
   - ‚ùå **Pode divergir** - como um carro sem freio!
   - ‚ùå Oscila em volta do m√≠nimo sem nunca chegar

3. **$\alpha$ na medida certa** (ex: 0.01-0.1):
   - ‚úÖ Converg√™ncia r√°pida E est√°vel
   - ‚úÖ Equil√≠brio perfeito! üéØ

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-12_img_05.png)

**Dica do Pedro**: Escolher a taxa de aprendizado √© como ajustar a velocidade no Mario Kart - muito devagar voc√™ perde a corrida, muito r√°pido voc√™ bate na parede! üèéÔ∏èüí®

In [None]:
# Testando diferentes taxas de aprendizado
learning_rates = [0.001, 0.01, 0.1, 0.5, 1.0]
lr_results = {}

print("üéõÔ∏è Testando diferentes taxas de aprendizado...\n")

for lr in learning_rates:
    try:
        np.random.seed(42)
        w_lr, b_lr, hist_lr = mini_batch_gradient_descent(
            X, y, batch_size=32, learning_rate=lr, epochs=100
        )
        
        lr_results[lr] = (w_lr, b_lr, hist_lr)
        
        # Verifica se convergiu (loss final < 1000 - threshold arbitr√°rio)
        converged = hist_lr['loss'][-1] < 1000
        status = "‚úÖ Convergiu" if converged else "‚ùå Divergiu"
        
        print(f"üìä Learning Rate = {lr}:")
        print(f"   Status: {status}")
        print(f"   Loss final: {hist_lr['loss'][-1]:.6f}")
        print(f"   Peso final: {w_lr:.3f}")
        print(f"   Bias final: {b_lr:.3f}\n")
        
    except Exception as e:
        print(f"üí• Learning Rate = {lr}: EXPLODIU! (Overflow)\n")
        lr_results[lr] = None

In [None]:
# Visualizando o efeito das diferentes taxas de aprendizado
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# Cores para cada learning rate
colors = ['blue', 'green', 'orange', 'red', 'purple']

# Gr√°fico 1: Converg√™ncia da Loss (escala normal)
for i, lr in enumerate(learning_rates):
    if lr_results[lr] is not None:
        w, b, hist = lr_results[lr]
        # Plota apenas se a loss n√£o explodiu
        if max(hist['loss']) < 1000:
            axes[0,0].plot(hist['loss'], label=f'LR = {lr}', 
                          color=colors[i], linewidth=2)

axes[0,0].set_title('üìâ Converg√™ncia da Loss (Escala Normal)')
axes[0,0].set_xlabel('√âpocas')
axes[0,0].set_ylabel('Loss (MSE)')
axes[0,0].legend()
axes[0,0].grid(True, alpha=0.3)

# Gr√°fico 2: Converg√™ncia da Loss (escala log)
for i, lr in enumerate(learning_rates):
    if lr_results[lr] is not None:
        w, b, hist = lr_results[lr]
        if max(hist['loss']) < 1000:
            axes[0,1].semilogy(hist['loss'], label=f'LR = {lr}', 
                              color=colors[i], linewidth=2)

axes[0,1].set_title('üìâ Converg√™ncia da Loss (Escala Log)')
axes[0,1].set_xlabel('√âpocas')
axes[0,1].set_ylabel('Loss (MSE) - Log Scale')
axes[0,1].legend()
axes[0,1].grid(True, alpha=0.3)

# Gr√°fico 3: Evolu√ß√£o dos pesos
for i, lr in enumerate(learning_rates):
    if lr_results[lr] is not None:
        w, b, hist = lr_results[lr]
        if max(hist['loss']) < 1000:
            axes[1,0].plot(hist['w'], label=f'LR = {lr}', 
                          color=colors[i], linewidth=2)

axes[1,0].axhline(y=3.0, color='black', linestyle='--', alpha=0.5, label='Valor Real')
axes[1,0].set_title('‚öñÔ∏è Evolu√ß√£o do Peso (w)')
axes[1,0].set_xlabel('√âpocas')
axes[1,0].set_ylabel('Valor do Peso')
axes[1,0].legend()
axes[1,0].grid(True, alpha=0.3)

# Gr√°fico 4: An√°lise de estabilidade (√∫ltimas 20 √©pocas)
stable_lrs = []
volatilities = []

for lr in learning_rates:
    if lr_results[lr] is not None:
        w, b, hist = lr_results[lr]
        if max(hist['loss']) < 1000:
            # Calcular volatilidade das √∫ltimas 20 √©pocas
            last_losses = hist['loss'][-20:]
            volatility = np.std(last_losses)
            stable_lrs.append(lr)
            volatilities.append(volatility)

bars = axes[1,1].bar([str(lr) for lr in stable_lrs], volatilities, 
                    color=[colors[learning_rates.index(lr)] for lr in stable_lrs], alpha=0.7)
axes[1,1].set_title('üìä Estabilidade por Learning Rate')
axes[1,1].set_xlabel('Learning Rate')
axes[1,1].set_ylabel('Volatilidade (Desvio Padr√£o)')

# Adiciona valores nas barras
for bar, vol in zip(bars, volatilities):
    height = bar.get_height()
    axes[1,1].text(bar.get_x() + bar.get_width()/2., height + height*0.01,
                  f'{vol:.4f}', ha='center', va='bottom', fontsize=9)

plt.tight_layout()
plt.show()

print("\nüéØ Li√ß√µes Aprendidas sobre Learning Rate:")
print("   ‚Ä¢ LR muito baixo (0.001): Lento mas est√°vel")
print("   ‚Ä¢ LR m√©dio (0.01-0.1): Sweet spot! üéØ")
print("   ‚Ä¢ LR muito alto (0.5+): Inst√°vel ou diverge")
print("\nüí° Dica: Comece com 0.01 e ajuste conforme necess√°rio!")

## ü§ñ 5. Adam: O Algoritmo "Espert√£o" que Se Adapta Sozinho

Agora chegou a hora de conhecer a **estrela dos algoritmos de otimiza√ß√£o**: o **Adam** (Adaptive Moment Estimation)!

O Adam √© como aquele GPS inteligente que:
1. **Se adapta ao tr√¢nsito** (ajusta a taxa de aprendizado automaticamente)
2. **Lembra do caminho** (usa momentum das itera√ß√µes passadas)
3. **Considera o terreno** (normaliza por gradientes passados)

### A Matem√°tica do Adam:

O Adam combina duas ideias geniais:

**1. Momentum (mem√≥ria das dire√ß√µes):**
$$m_t = \beta_1 m_{t-1} + (1-\beta_1) g_t$$

**2. RMSprop (normaliza√ß√£o adaptativa):**
$$v_t = \beta_2 v_{t-1} + (1-\beta_2) g_t^2$$

**3. Corre√ß√£o de bias:**
$$\hat{m}_t = \frac{m_t}{1-\beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1-\beta_2^t}$$

**4. Atualiza√ß√£o final:**
$$\theta_{t+1} = \theta_t - \frac{\alpha}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t$$

### Par√¢metros Padr√£o do Adam:
- $\alpha = 0.001$ (learning rate)
- $\beta_1 = 0.9$ (momentum)
- $\beta_2 = 0.999$ (RMSprop)
- $\epsilon = 10^{-8}$ (estabilidade num√©rica)

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-12_img_06.png)

**Dica do Pedro**: Adam √© como ter um personal trainer, um GPS e um meteorologista te ajudando ao mesmo tempo na descida da montanha! üèãÔ∏è‚Äç‚ôÇÔ∏èüó∫Ô∏èüå§Ô∏è

In [None]:
# Implementa√ß√£o do Adam Optimizer
class AdamOptimizer:
    def __init__(self, learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8):
        self.lr = learning_rate
        self.beta1 = beta1
        self.beta2 = beta2
        self.epsilon = epsilon
        
        # Momentos para cada par√¢metro
        self.m_w = 0  # primeiro momento para w
        self.v_w = 0  # segundo momento para w
        self.m_b = 0  # primeiro momento para b
        self.v_b = 0  # segundo momento para b
        
        self.t = 0    # contador de itera√ß√µes
    
    def update(self, w, b, dw, db):
        """Atualiza os par√¢metros usando Adam"""
        self.t += 1
        
        # Atualiza momentos para w
        self.m_w = self.beta1 * self.m_w + (1 - self.beta1) * dw
        self.v_w = self.beta2 * self.v_w + (1 - self.beta2) * (dw ** 2)
        
        # Atualiza momentos para b
        self.m_b = self.beta1 * self.m_b + (1 - self.beta1) * db
        self.v_b = self.beta2 * self.v_b + (1 - self.beta2) * (db ** 2)
        
        # Corre√ß√£o de bias
        m_w_corr = self.m_w / (1 - self.beta1 ** self.t)
        v_w_corr = self.v_w / (1 - self.beta2 ** self.t)
        m_b_corr = self.m_b / (1 - self.beta1 ** self.t)
        v_b_corr = self.v_b / (1 - self.beta2 ** self.t)
        
        # Atualiza√ß√£o dos par√¢metros
        w_new = w - self.lr * m_w_corr / (np.sqrt(v_w_corr) + self.epsilon)
        b_new = b - self.lr * m_b_corr / (np.sqrt(v_b_corr) + self.epsilon)
        
        return w_new, b_new

def gradient_descent_adam(X, y, batch_size=32, learning_rate=0.001, epochs=100):
    """Gradiente Descendente com Adam Optimizer"""
    # Inicializa√ß√£o
    w = np.random.randn()
    b = np.random.randn()
    
    # Inicializa o otimizador Adam
    optimizer = AdamOptimizer(learning_rate=learning_rate)
    
    # Hist√≥rico
    history = {'loss': [], 'w': [], 'b': []}
    
    m = len(y)
    
    for epoch in range(epochs):
        # Embaralha os dados
        indices = np.random.permutation(m)
        X_shuffled = X[indices]
        y_shuffled = y[indices]
        
        epoch_loss = 0
        num_batches = 0
        
        # Processa em mini-batches
        for i in range(0, m, batch_size):
            end_idx = min(i + batch_size, m)
            X_batch = X_shuffled[i:end_idx]
            y_batch = y_shuffled[i:end_idx]
            
            # Predi√ß√£o e loss
            y_pred_batch = predict(X_batch, w, b)
            batch_loss = mse_loss(y_batch, y_pred_batch)
            epoch_loss += batch_loss
            
            # Gradientes
            batch_m = len(y_batch)
            dw = -(2/batch_m) * np.sum((y_batch - y_pred_batch) * X_batch.flatten())
            db = -(2/batch_m) * np.sum(y_batch - y_pred_batch)
            
            # Atualiza√ß√£o com Adam
            w, b = optimizer.update(w, b, dw, db)
            
            num_batches += 1
        
        # Salva hist√≥rico
        avg_loss = epoch_loss / num_batches
        history['loss'].append(avg_loss)
        history['w'].append(w)
        history['b'].append(b)
    
    return w, b, history

# Testando Adam
np.random.seed(42)
w_adam, b_adam, hist_adam = gradient_descent_adam(X, y, batch_size=32, learning_rate=0.01, epochs=50)

print("ü§ñ Adam Optimizer - Resultados:")
print(f"   Peso (w): {w_adam:.3f} (esperado: ~3.0)")
print(f"   Bias (b): {b_adam:.3f} (esperado: ~2.0)")
print(f"   Loss final: {hist_adam['loss'][-1]:.6f}")

```mermaid
graph TD
    A[Gradiente Atual] --> B[Momentum<br/>Œ≤‚ÇÅ = 0.9]
    A --> C[RMSprop<br/>Œ≤‚ÇÇ = 0.999]
    B --> D[Corre√ß√£o de Bias]
    C --> E[Corre√ß√£o de Bias]
    D --> F[Combina√ß√£o Adam]
    E --> F
    F --> G[Atualiza√ß√£o<br/>Adaptativa]
    G --> H[Novos Par√¢metros]
```

In [None]:
# Compara√ß√£o final: SGD vs Mini-Batch vs Adam
methods = {
    'SGD': hist_sgd,
    'Mini-Batch (32)': results[32][2],
    'Adam': hist_adam
}

fig, axes = plt.subplots(2, 2, figsize=(16, 12))

colors = ['red', 'green', 'blue']

# Gr√°fico 1: Converg√™ncia da Loss
for i, (method, hist) in enumerate(methods.items()):
    axes[0,0].plot(hist['loss'], label=method, linewidth=2.5, color=colors[i])

axes[0,0].set_title('üèÅ Compara√ß√£o Final: Converg√™ncia da Loss')
axes[0,0].set_xlabel('√âpocas')
axes[0,0].set_ylabel('Loss (MSE)')
axes[0,0].legend()
axes[0,0].grid(True, alpha=0.3)
axes[0,0].set_yscale('log')

# Gr√°fico 2: Converg√™ncia do peso
for i, (method, hist) in enumerate(methods.items()):
    axes[0,1].plot(hist['w'], label=method, linewidth=2.5, color=colors[i])

axes[0,1].axhline(y=3.0, color='black', linestyle='--', alpha=0.5, label='Valor Real')
axes[0,1].set_title('‚öñÔ∏è Converg√™ncia do Peso (w)')
axes[0,1].set_xlabel('√âpocas')
axes[0,1].set_ylabel('Valor do Peso')
axes[0,1].legend()
axes[0,1].grid(True, alpha=0.3)

# Gr√°fico 3: Velocidade de converg√™ncia (primeiras 20 √©pocas)
for i, (method, hist) in enumerate(methods.items()):
    axes[1,0].plot(hist['loss'][:20], label=method, linewidth=2.5, color=colors[i], marker='o', markersize=4)

axes[1,0].set_title('‚ö° Velocidade Inicial (Primeiras 20 √âpocas)')
axes[1,0].set_xlabel('√âpocas')
axes[1,0].set_ylabel('Loss (MSE)')
axes[1,0].legend()
axes[1,0].grid(True, alpha=0.3)

# Gr√°fico 4: M√©tricas finais
final_losses = []
method_names = []
final_errors_w = []  # Erro em rela√ß√£o ao valor real (3.0)

for method, hist in methods.items():
    method_names.append(method)
    final_losses.append(hist['loss'][-1])
    final_errors_w.append(abs(hist['w'][-1] - 3.0))  # Erro absoluto do peso

x = np.arange(len(method_names))
width = 0.35

# Normaliza as m√©tricas para compara√ß√£o
norm_losses = np.array(final_losses) / max(final_losses)
norm_errors = np.array(final_errors_w) / max(final_errors_w)

bars1 = axes[1,1].bar(x - width/2, norm_losses, width, label='Loss Final (Normalizada)', color='skyblue', alpha=0.8)
bars2 = axes[1,1].bar(x + width/2, norm_errors, width, label='Erro do Peso (Normalizado)', color='lightcoral', alpha=0.8)

axes[1,1].set_title('üìä M√©tricas Finais (Normalizadas)')
axes[1,1].set_ylabel('Valor Normalizado')
axes[1,1].set_xticks(x)
axes[1,1].set_xticklabels(method_names)
axes[1,1].legend()
axes[1,1].grid(True, alpha=0.3)

# Adiciona valores reais nas barras
for i, (bar1, bar2) in enumerate(zip(bars1, bars2)):
    # Loss
    height1 = bar1.get_height()
    axes[1,1].text(bar1.get_x() + bar1.get_width()/2., height1 + 0.01,
                  f'{final_losses[i]:.4f}', ha='center', va='bottom', fontsize=8)
    # Erro do peso
    height2 = bar2.get_height()
    axes[1,1].text(bar2.get_x() + bar2.get_width()/2., height2 + 0.01,
                  f'{final_errors_w[i]:.4f}', ha='center', va='bottom', fontsize=8)

plt.tight_layout()
plt.show()

print("\nüèÜ Ranking dos Algoritmos:")
print("\nüìà Por Velocidade de Converg√™ncia:")
print("   1. ü•á Adam - R√°pido e est√°vel")
print("   2. ü•à Mini-Batch - Bom equil√≠brio")
print("   3. ü•â SGD - R√°pido mas inst√°vel")

print("\nüéØ Por Precis√£o Final:")
for i, method in enumerate(method_names):
    print(f"   {i+1}. {method}: Loss = {final_losses[i]:.6f}, Erro peso = {final_errors_w[i]:.4f}")

## üß† 6. Outros Algoritmos: A Fam√≠lia Completa

Al√©m do Adam, existem outros membros da fam√≠lia dos otimizadores adaptativos. Cada um tem sua personalidade!

### üèÉ‚Äç‚ôÇÔ∏è Momentum:
- **Ideia**: "Lembra" da dire√ß√£o anterior
- **F√≥rmula**: $v_t = \gamma v_{t-1} + \alpha \nabla J(\theta)$
- **Personalidade**: Como uma bola rolando ladeira abaixo - ganha velocidade!

### üìê RMSprop:
- **Ideia**: Adapta a taxa de aprendizado por par√¢metro
- **F√≥rmula**: $E[g^2]_t = \gamma E[g^2]_{t-1} + (1-\gamma) g_t^2$
- **Personalidade**: Como um GPS que ajusta a velocidade conforme o terreno

### ‚ö° AdaGrad:
- **Ideia**: Diminui a taxa para par√¢metros frequentemente atualizados
- **Problema**: Pode "morrer" (taxa fica muito pequena)
- **Personalidade**: Workaholic que se cansa r√°pido

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-12_img_07.png)

**Dica do Pedro**: Na pr√°tica, Adam √© o "pau pra toda obra" - funciona bem na maioria dos casos. √â como ter um canivete su√≠√ßo dos otimizadores! üîß

In [None]:
# Implementa√ß√£o simples de outros otimizadores para compara√ß√£o

class MomentumOptimizer:
    def __init__(self, learning_rate=0.01, momentum=0.9):
        self.lr = learning_rate
        self.momentum = momentum
        self.v_w = 0
        self.v_b = 0
    
    def update(self, w, b, dw, db):
        # Atualiza velocidades com momentum
        self.v_w = self.momentum * self.v_w + self.lr * dw
        self.v_b = self.momentum * self.v_b + self.lr * db
        
        # Atualiza par√¢metros
        w_new = w - self.v_w
        b_new = b - self.v_b
        
        return w_new, b_new

class RMSpropOptimizer:
    def __init__(self, learning_rate=0.001, decay=0.9, epsilon=1e-8):
        self.lr = learning_rate
        self.decay = decay
        self.epsilon = epsilon
        self.s_w = 0
        self.s_b = 0
    
    def update(self, w, b, dw, db):
        # Atualiza m√©dias m√≥veis dos gradientes ao quadrado
        self.s_w = self.decay * self.s_w + (1 - self.decay) * (dw ** 2)
        self.s_b = self.decay * self.s_b + (1 - self.decay) * (db ** 2)
        
        # Atualiza par√¢metros
        w_new = w - self.lr * dw / (np.sqrt(self.s_w) + self.epsilon)
        b_new = b - self.lr * db / (np.sqrt(self.s_b) + self.epsilon)
        
        return w_new, b_new

def test_optimizer(optimizer_class, optimizer_name, **kwargs):
    """Testa um otimizador espec√≠fico"""
    np.random.seed(42)
    
    # Inicializa√ß√£o
    w = np.random.randn()
    b = np.random.randn()
    optimizer = optimizer_class(**kwargs)
    
    # Hist√≥rico
    history = {'loss': [], 'w': [], 'b': []}
    
    batch_size = 32
    epochs = 50
    m = len(y)
    
    for epoch in range(epochs):
        indices = np.random.permutation(m)
        X_shuffled = X[indices]
        y_shuffled = y[indices]
        
        epoch_loss = 0
        num_batches = 0
        
        for i in range(0, m, batch_size):
            end_idx = min(i + batch_size, m)
            X_batch = X_shuffled[i:end_idx]
            y_batch = y_shuffled[i:end_idx]
            
            y_pred_batch = predict(X_batch, w, b)
            batch_loss = mse_loss(y_batch, y_pred_batch)
            epoch_loss += batch_loss
            
            batch_m = len(y_batch)
            dw = -(2/batch_m) * np.sum((y_batch - y_pred_batch) * X_batch.flatten())
            db = -(2/batch_m) * np.sum(y_batch - y_pred_batch)
            
            w, b = optimizer.update(w, b, dw, db)
            num_batches += 1
        
        avg_loss = epoch_loss / num_batches
        history['loss'].append(avg_loss)
        history['w'].append(w)
        history['b'].append(b)
    
    return w, b, history

# Testando todos os otimizadores
optimizers_results = {}

print("üß™ Testando a fam√≠lia completa de otimizadores...\n")

# SGD simples (j√° temos)
optimizers_results['SGD'] = (w_sgd, b_sgd, hist_sgd)

# Momentum
w_mom, b_mom, hist_mom = test_optimizer(MomentumOptimizer, 'Momentum', learning_rate=0.01, momentum=0.9)
optimizers_results['Momentum'] = (w_mom, b_mom, hist_mom)

# RMSprop
w_rms, b_rms, hist_rms = test_optimizer(RMSpropOptimizer, 'RMSprop', learning_rate=0.01, decay=0.9)
optimizers_results['RMSprop'] = (w_rms, b_rms, hist_rms)

# Adam (j√° temos)
optimizers_results['Adam'] = (w_adam, b_adam, hist_adam)

# Resultados
for name, (w_final, b_final, hist) in optimizers_results.items():
    print(f"ü§ñ {name}:")
    print(f"   Peso final: {w_final:.3f}")
    print(f"   Bias final: {b_final:.3f}")
    print(f"   Loss final: {hist['loss'][-1]:.6f}\n")

In [None]:
# Compara√ß√£o visual de todos os otimizadores
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

colors = ['red', 'orange', 'green', 'blue']
opt_names = list(optimizers_results.keys())

# Gr√°fico 1: Converg√™ncia da Loss
for i, (name, (_, _, hist)) in enumerate(optimizers_results.items()):
    axes[0,0].plot(hist['loss'], label=name, linewidth=2.5, color=colors[i])

axes[0,0].set_title('üèÜ Batalha dos Otimizadores: Converg√™ncia da Loss')
axes[0,0].set_xlabel('√âpocas')
axes[0,0].set_ylabel('Loss (MSE)')
axes[0,0].legend()
axes[0,0].grid(True, alpha=0.3)
axes[0,0].set_yscale('log')

# Gr√°fico 2: Trajet√≥ria no espa√ßo de par√¢metros
for i, (name, (_, _, hist)) in enumerate(optimizers_results.items()):
    # Plota apenas os primeiros 30 pontos para clareza
    axes[0,1].plot(hist['w'][:30], hist['b'][:30], label=name, linewidth=2, 
                  color=colors[i], marker='o', markersize=3, alpha=0.8)

axes[0,1].plot(3.0, 2.0, 'k*', markersize=15, label='√ìtimo Real')
axes[0,1].set_title('üéØ Trajet√≥rias no Espa√ßo de Par√¢metros')
axes[0,1].set_xlabel('Peso (w)')
axes[0,1].set_ylabel('Bias (b)')
axes[0,1].legend()
axes[0,1].grid(True, alpha=0.3)

# Gr√°fico 3: Velocidade de converg√™ncia (primeiras 15 √©pocas)
for i, (name, (_, _, hist)) in enumerate(optimizers_results.items()):
    axes[1,0].plot(hist['loss'][:15], label=name, linewidth=2.5, 
                  color=colors[i], marker='s', markersize=4)

axes[1,0].set_title('‚ö° Largada: Primeiras 15 √âpocas')
axes[1,0].set_xlabel('√âpocas')
axes[1,0].set_ylabel('Loss (MSE)')
axes[1,0].legend()
axes[1,0].grid(True, alpha=0.3)
axes[1,0].set_yscale('log')

# Gr√°fico 4: Ranking final
final_losses = [hist['loss'][-1] for _, (_, _, hist) in optimizers_results.items()]
final_w_errors = [abs(w_final - 3.0) for w_final, _, _ in optimizers_results.values()]

# Calcula pontua√ß√£o (menor √© melhor)
loss_ranks = np.argsort(final_losses) + 1
error_ranks = np.argsort(final_w_errors) + 1
total_scores = loss_ranks + error_ranks  # Menor pontua√ß√£o = melhor

# Ordena por pontua√ß√£o total
sorted_indices = np.argsort(total_scores)
sorted_names = [opt_names[i] for i in sorted_indices]
sorted_scores = [total_scores[i] for i in sorted_indices]

# Cores baseadas na posi√ß√£o
rank_colors = ['gold', 'silver', '#CD7F32', 'gray']  # Ouro, Prata, Bronze, Cinza

bars = axes[1,1].bar(sorted_names, sorted_scores, color=rank_colors, alpha=0.8)
axes[1,1].set_title('üèÖ Ranking Final (Menor = Melhor)')
axes[1,1].set_ylabel('Pontua√ß√£o Total')
axes[1,1].set_xlabel('Otimizador')

# Adiciona medalhas
medals = ['ü•á', 'ü•à', 'ü•â', '4th']
for i, (bar, score) in enumerate(zip(bars, sorted_scores)):
    height = bar.get_height()
    axes[1,1].text(bar.get_x() + bar.get_width()/2., height + 0.05,
                  f'{medals[i]}\n{score}', ha='center', va='bottom', fontsize=10, fontweight='bold')

plt.tight_layout()
plt.show()

print("\nüèÜ RANKING FINAL DOS OTIMIZADORES:")
for i, idx in enumerate(sorted_indices):
    name = opt_names[idx]
    loss = final_losses[idx]
    w_error = final_w_errors[idx]
    print(f"   {medals[i]} {name}: Loss={loss:.6f}, Erro_peso={w_error:.4f}")

print("\nüí° Resumo das Personalidades:")
print("   ‚Ä¢ SGD: R√°pido mas inst√°vel (como um carro de corrida sem controle)")
print("   ‚Ä¢ Momentum: Ganha velocidade com o tempo (como uma bola descendo)")
print("   ‚Ä¢ RMSprop: Se adapta ao terreno (como um ve√≠culo todo-terreno)")
print("   ‚Ä¢ Adam: O equilibrado (como um carro de luxo com todos os recursos)")

## üõ†Ô∏è 7. Exerc√≠cio Pr√°tico: Criando Seu Pr√≥prio Otimizador

Agora √© sua vez de brilhar! Vamos criar um desafio pr√°tico para consolidar todo o conhecimento.

### üéØ Desafio 1: Implemente o AdaMax

O **AdaMax** √© uma varia√ß√£o do Adam que usa a norma infinita em vez da norma L2. Sua f√≥rmula √©:

$$m_t = \beta_1 m_{t-1} + (1-\beta_1) g_t$$
$$u_t = \max(\beta_2 u_{t-1}, |g_t|)$$
$$\theta_{t+1} = \theta_t - \frac{\alpha}{u_t} m_t$$

**Sua miss√£o**: Complete a implementa√ß√£o abaixo!

In [None]:
# EXERC√çCIO 1: Implemente o AdaMax
class AdaMaxOptimizer:
    def __init__(self, learning_rate=0.002, beta1=0.9, beta2=0.999, epsilon=1e-8):
        self.lr = learning_rate
        self.beta1 = beta1
        self.beta2 = beta2
        self.epsilon = epsilon
        
        # TODO: Inicialize os momentos
        self.m_w = 0  # primeiro momento para w
        self.u_w = 0  # norma infinita para w
        self.m_b = 0  # primeiro momento para b  
        self.u_b = 0  # norma infinita para b
        
        self.t = 0    # contador
    
    def update(self, w, b, dw, db):
        """TODO: Implemente a atualiza√ß√£o do AdaMax"""
        self.t += 1
        
        # TODO: Atualize os momentos para w
        self.m_w = self.beta1 * self.m_w + (1 - self.beta1) * dw
        self.u_w = max(self.beta2 * self.u_w, abs(dw))
        
        # TODO: Atualize os momentos para b
        self.m_b = self.beta1 * self.m_b + (1 - self.beta1) * db
        self.u_b = max(self.beta2 * self.u_b, abs(db))
        
        # TODO: Corre√ß√£o de bias apenas para m (n√£o para u!)
        m_w_corr = self.m_w / (1 - self.beta1 ** self.t)
        m_b_corr = self.m_b / (1 - self.beta1 ** self.t)
        
        # TODO: Atualiza√ß√£o dos par√¢metros
        w_new = w - self.lr * m_w_corr / (self.u_w + self.epsilon)
        b_new = b - self.lr * m_b_corr / (self.u_b + self.epsilon)
        
        return w_new, b_new

# Teste seu AdaMax!
print("üß™ Testando seu AdaMax...")
try:
    w_adamax, b_adamax, hist_adamax = test_optimizer(
        AdaMaxOptimizer, 'AdaMax', learning_rate=0.01, beta1=0.9, beta2=0.999
    )
    
    print(f"‚úÖ AdaMax funcionou!")
    print(f"   Peso final: {w_adamax:.3f}")
    print(f"   Bias final: {b_adamax:.3f}")
    print(f"   Loss final: {hist_adamax['loss'][-1]:.6f}")
    
    # Compara√ß√£o r√°pida com Adam
    print(f"\nüìä Compara√ß√£o com Adam:")
    print(f"   Adam Loss: {hist_adam['loss'][-1]:.6f}")
    print(f"   AdaMax Loss: {hist_adamax['loss'][-1]:.6f}")
    
    if hist_adamax['loss'][-1] < hist_adam['loss'][-1]:
        print("   üéâ Seu AdaMax est√° melhor que o Adam!")
    else:
        print("   ü§ñ Adam ainda est√° na frente, mas bom trabalho!")
        
except Exception as e:
    print(f"‚ùå Ops! Algo deu errado: {e}")
    print("üí° Dica: Verifique se voc√™ implementou todas as partes TODO")

### üéØ Desafio 2: Experimento com Learning Rate Schedule

Uma t√©cnica avan√ßada √© **variar a taxa de aprendizado** durante o treinamento. Implemente um **Learning Rate Decay**:

$$\alpha_t = \alpha_0 \cdot \frac{1}{1 + \text{decay} \cdot t}$$

Onde $t$ √© o n√∫mero da itera√ß√£o atual.

In [None]:
# EXERC√çCIO 2: SGD com Learning Rate Decay
def sgd_with_lr_decay(X, y, initial_lr=0.1, decay=0.01, epochs=100):
    """SGD com taxa de aprendizado que diminui ao longo do tempo"""
    
    # TODO: Complete a implementa√ß√£o
    w = np.random.randn()
    b = np.random.randn()
    
    history = {'loss': [], 'w': [], 'b': [], 'lr': []}  # Adicionamos lr ao hist√≥rico
    m = len(y)
    
    for epoch in range(epochs):
        # TODO: Calcule a taxa de aprendizado atual
        current_lr = initial_lr / (1 + decay * epoch)
        
        # Embaralha dados
        indices = np.random.permutation(m)
        epoch_loss = 0
        
        # SGD para cada exemplo
        for i in indices:
            xi = X[i:i+1]
            yi = y[i]
            
            # TODO: Complete o SGD usando current_lr
            y_pred_i = predict(xi, w, b)
            error = yi - y_pred_i
            
            dw = -2 * error * xi.flatten()[0]
            db = -2 * error
            
            # Atualiza√ß√£o com taxa decrescente
            w = w - current_lr * dw
            b = b - current_lr * db
            
            epoch_loss += (error ** 2)
        
        # Salva hist√≥rico
        avg_loss = epoch_loss / m
        history['loss'].append(avg_loss)
        history['w'].append(w)
        history['b'].append(b)
        history['lr'].append(current_lr)
    
    return w, b, history

# Testando diferentes configura√ß√µes de decay
print("üß™ Testando Learning Rate Decay...\n")

decay_configs = [0.0, 0.01, 0.05, 0.1]  # 0.0 = sem decay
decay_results = {}

for decay in decay_configs:
    np.random.seed(42)
    w_decay, b_decay, hist_decay = sgd_with_lr_decay(
        X, y, initial_lr=0.1, decay=decay, epochs=50
    )
    
    decay_results[decay] = (w_decay, b_decay, hist_decay)
    
    print(f"üìâ Decay = {decay}:")
    print(f"   Loss final: {hist_decay['loss'][-1]:.6f}")
    print(f"   LR inicial: {hist_decay['lr'][0]:.4f}")
    print(f"   LR final: {hist_decay['lr'][-1]:.4f}\n")

# Visualiza√ß√£o do Learning Rate Decay
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

colors = ['blue', 'green', 'orange', 'red']

# Gr√°fico 1: Evolu√ß√£o da taxa de aprendizado
for i, decay in enumerate(decay_configs):
    _, _, hist = decay_results[decay]
    axes[0].plot(hist['lr'], label=f'Decay = {decay}', 
                linewidth=2.5, color=colors[i])

axes[0].set_title('üìâ Evolu√ß√£o da Taxa de Aprendizado')
axes[0].set_xlabel('√âpocas')
axes[0].set_ylabel('Learning Rate')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Gr√°fico 2: Converg√™ncia da loss
for i, decay in enumerate(decay_configs):
    _, _, hist = decay_results[decay]
    axes[1].plot(hist['loss'], label=f'Decay = {decay}', 
                linewidth=2.5, color=colors[i])

axes[1].set_title('üìà Converg√™ncia com Different Decays')
axes[1].set_xlabel('√âpocas')
axes[1].set_ylabel('Loss (MSE)')
axes[1].legend()
axes[1].grid(True, alpha=0.3)
axes[1].set_yscale('log')

plt.tight_layout()
plt.show()

print("üéØ Observa√ß√µes sobre Learning Rate Decay:")
print("   ‚Ä¢ Sem decay (0.0): Pode oscilar no final")
print("   ‚Ä¢ Decay moderado: Melhora a converg√™ncia final")
print("   ‚Ä¢ Decay alto: Pode ficar muito lento")
print("\nüí° A chave √© encontrar o equil√≠brio!")

## üéì 8. Resumo e Li√ß√µes Aprendidas

Parab√©ns! üéâ Voc√™ completou o √∫ltimo m√≥dulo do nosso curso "C√°lculo para IA"! Vamos fazer um resumo √©pico de tudo que aprendemos sobre otimiza√ß√£o:

### üèîÔ∏è A Jornada pela Montanha do Erro:

1. **Gradiente Descendente Batch**: O marombeiro que usa todos os dados
   - ‚úÖ Preciso e est√°vel
   - ‚ùå Lento para datasets grandes

2. **SGD (Stochastic)**: O apressadinho que usa um exemplo por vez
   - ‚úÖ R√°pido e usa pouca mem√≥ria
   - ‚ùå Inst√°vel, mas pode escapar de m√≠nimos locais

3. **Mini-Batch**: O meio-termo inteligente
   - ‚úÖ Equilibra velocidade e estabilidade
   - ‚úÖ Eficiente para GPUs

4. **Adam**: O algoritmo "espert√£o" adaptativo
   - ‚úÖ Se adapta automaticamente
   - ‚úÖ Funciona bem na maioria dos casos
   - ‚úÖ Combina momentum + normaliza√ß√£o adaptativa

### üéõÔ∏è Sobre a Taxa de Aprendizado:
- **Muito baixa**: Lesma na montanha üêå
- **Muito alta**: Carro sem freio üöóüí®
- **Na medida certa**: Equil√≠brio perfeito! üéØ

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-12_img_08.png)

**Dica Final do Pedro**: Na vida real, comece com Adam e learning rate 0.001. Se n√£o funcionar, a√≠ voc√™ experimenta os outros! √â como escolher pizza - margherita sempre funciona, mas √†s vezes voc√™ quer experimentar sabores diferentes! üçï

```mermaid
graph TD
    A[In√≠cio do Treinamento] --> B{Escolha do Otimizador}
    B -->|Dataset Pequeno| C[Batch GD]
    B -->|Dataset Grande| D[SGD/Mini-Batch]
    B -->|Uso Geral| E[Adam]
    
    C --> F[Ajustar Learning Rate]
    D --> F
    E --> F
    
    F --> G{Convergiu?}
    G -->|N√£o| H[Ajustar Hiperpar√¢metros]
    G -->|Sim| I[üéâ Sucesso!]
    H --> F
```

In [None]:
# üèÜ COMPARA√á√ÉO FINAL: Todos os algoritmos que vimos
print("üéä PARAB√âNS! Voc√™ completou o curso 'C√°lculo para IA'! üéä\n")
print("üìä RESUMO FINAL - Todos os Otimizadores:")
print("="*60)

# Coletando todos os resultados para compara√ß√£o final
all_optimizers = {
    'Batch GD': (hist_batch['loss'][-1], abs(hist_batch['w'][-1] - 3.0)),
    'SGD': (hist_sgd['loss'][-1], abs(hist_sgd['w'][-1] - 3.0)),
    'Mini-Batch': (results[32][2]['loss'][-1], abs(results[32][2]['w'][-1] - 3.0)),
    'Momentum': (hist_mom['loss'][-1], abs(hist_mom['w'][-1] - 3.0)),
    'RMSprop': (hist_rms['loss'][-1], abs(hist_rms['w'][-1] - 3.0)),
    'Adam': (hist_adam['loss'][-1], abs(hist_adam['w'][-1] - 3.0))
}

# Se AdaMax foi implementado com sucesso
if 'hist_adamax' in locals():
    all_optimizers['AdaMax'] = (hist_adamax['loss'][-1], abs(hist_adamax['w'][-1] - 3.0))

# Ranking por loss final
sorted_by_loss = sorted(all_optimizers.items(), key=lambda x: x[1][0])

print("\nüèÖ RANKING POR LOSS FINAL:")
medals = ['ü•á', 'ü•à', 'ü•â'] + ['üèÜ'] * 10
for i, (name, (loss, error)) in enumerate(sorted_by_loss):
    print(f"   {medals[i]} {name:<12}: Loss = {loss:.6f}, Erro_peso = {error:.4f}")

print("\nüéØ RECOMENDA√á√ïES PR√ÅTICAS:")
print("   ‚Ä¢ Para iniciantes: Comece com Adam (lr=0.001)")
print("   ‚Ä¢ Para datasets pequenos: Batch GD funciona bem")
print("   ‚Ä¢ Para datasets grandes: Mini-Batch (32-128)")
print("   ‚Ä¢ Para pesquisa: Experimente diferentes otimizadores")

print("\nüöÄ PR√ìXIMOS PASSOS:")
print("   ‚Ä¢ Aplicar em redes neurais reais")
print("   ‚Ä¢ Experimentar com datasets reais")
print("   ‚Ä¢ Estudar regulariza√ß√£o e outras t√©cnicas")
print("   ‚Ä¢ Explorar frameworks como PyTorch/TensorFlow")

print("\n" + "="*60)
print("üéâ OBRIGADO POR FAZER PARTE DESSA JORNADA! üéâ")
print("\nüí° Lembre-se: O c√°lculo √© a linguagem da IA.")
print("    Agora voc√™ fala essa linguagem fluentemente!")
print("\nüî• V√° l√° e construa coisas incr√≠veis com IA! üî•")
print("="*60)

## üéØ Conclus√£o: Voc√™ Agora √© um Otimizador Master!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-12_img_09.png)

### üèÜ O Que Voc√™ Conquistou:

‚úÖ **Dominou** as varia√ß√µes do gradiente descendente  
‚úÖ **Entendeu** a import√¢ncia da taxa de aprendizado  
‚úÖ **Implementou** algoritmos avan√ßados como Adam  
‚úÖ **Comparou** diferentes estrat√©gias de otimiza√ß√£o  
‚úÖ **Completou** o curso "C√°lculo para IA"!  

### üåü Reflex√£o Final:

Come√ßamos nossa jornada perguntando "Por que se importar com c√°lculo?". Agora voc√™ sabe que o **c√°lculo √© o cora√ß√£o** de toda intelig√™ncia artificial moderna!

- **Derivadas** nos mostram a dire√ß√£o certa
- **Gradientes** nos guiam pela montanha do erro  
- **Otimizadores** nos levam ao topo com efici√™ncia

### üöÄ Agora √â Sua Vez!

Voc√™ tem todas as ferramentas para:
- Criar seus pr√≥prios algoritmos de ML
- Entender o que acontece "por debaixo do cap√¥" 
- Debugar e otimizar modelos como um expert
- Contribuir para o avan√ßo da IA!

**√öltima Dica do Pedro**: O aprendizado nunca para! Continue experimentando, errando, aprendendo e, principalmente, se divertindo com IA. O futuro √© nosso para construir! üåàü§ñ

---

**At√© a pr√≥xima aventura!** üéä  
**Pedro Nunes Guth** üìö‚ú®