# üèîÔ∏è Gradiente Descendente 1: A Descida na Dire√ß√£o Certa

## Pedro Nunes Guth - C√°lculo para IA (M√≥dulo 11/12)

Bora galera! Chegou a hora de colocar a m√£o na massa e implementar o algoritmo mais famoso do machine learning! Se voc√™ chegou at√© aqui, j√° estudou derivadas, gradientes e derivadas parciais. Agora √© hora de usar tudo isso para fazer o que realmente importa: **ensinar uma m√°quina a aprender!**

Imagina que voc√™ t√° perdido na Serra da Mantiqueira de noite e precisa descer da montanha. Como voc√™ faria? √ìbvio: sentiria com o p√© onde t√° mais √≠ngreme pra baixo e daria um passo nessa dire√ß√£o. √â exatamente isso que o Gradiente Descendente faz!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-11_img_01.png)

In [None]:
# Setup inicial - Bora importar as bibliotecas que vamos usar!
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import seaborn as sns
from IPython.display import HTML, display
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes para deixar os gr√°ficos bonitos
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

print("üöÄ Tudo pronto para a descida! Bora descer essa montanha do erro!")

## ü§î T√°, mas o que √© Gradiente Descendente afinal?

Lembra dos m√≥dulos anteriores? A gente viu que:
- **Derivadas** nos d√£o a inclina√ß√£o de uma fun√ß√£o em um ponto
- **Gradientes** apontam na dire√ß√£o de **maior crescimento** de uma fun√ß√£o
- **Fun√ß√µes de custo** representam o "erro" do nosso modelo

O Gradiente Descendente √© o algoritmo que usa essas informa√ß√µes para **minimizar** uma fun√ß√£o de custo. A ideia √© simples:

1. **Calcule o gradiente** (a dire√ß√£o de maior crescimento)
2. **V√° na dire√ß√£o oposta** (para diminuir o erro)
3. **Repita** at√© chegar no m√≠nimo

### A Matem√°tica por Tr√°s (Descomplicada!)

Se temos uma fun√ß√£o de custo $J(\theta)$ que queremos minimizar, o algoritmo funciona assim:

$$\theta_{novo} = \theta_{atual} - \alpha \cdot \nabla J(\theta_{atual})$$

Onde:
- $\theta$ s√£o os **par√¢metros** do modelo (pesos, bias, etc.)
- $\alpha$ √© a **taxa de aprendizado** (o tamanho do passo)
- $\nabla J(\theta)$ √© o **gradiente** da fun√ß√£o de custo

**Dica do Pedro**: O sinal negativo √© o pulo do gato! O gradiente aponta "pra cima", mas queremos ir "pra baixo" para minimizar o erro!

## üéØ Visualizando o Conceito: A Montanha do Erro

Antes de codar, vamos visualizar o que t√° rolando. Imagina uma fun√ß√£o de custo simples como uma montanha:

In [None]:
# Vamos criar uma fun√ß√£o de custo simples: uma par√°bola
def funcao_custo(x):
    """Fun√ß√£o de custo simples: (x - 3)¬≤ + 1
    O m√≠nimo global est√° em x = 3
    """
    return (x - 3)**2 + 1

def derivada_custo(x):
    """Derivada da fun√ß√£o de custo: 2(x - 3)
    Nos d√° a inclina√ß√£o em qualquer ponto x
    """
    return 2 * (x - 3)

# Criando os pontos para o gr√°fico
x = np.linspace(-2, 8, 1000)
y = funcao_custo(x)

# Plotando a "montanha do erro"
fig, ax = plt.subplots(figsize=(12, 8))
ax.plot(x, y, 'b-', linewidth=3, label='Fun√ß√£o de Custo J(x) = (x-3)¬≤ + 1')
ax.axvline(x=3, color='r', linestyle='--', alpha=0.7, label='M√≠nimo Global (x=3)')
ax.scatter([3], [1], color='red', s=200, zorder=5, label='Ponto √ìtimo')

# Marcando alguns pontos de exemplo
pontos_exemplo = [0, 1.5, 4.5, 6]
for ponto in pontos_exemplo:
    y_ponto = funcao_custo(ponto)
    inclinacao = derivada_custo(ponto)
    
    # Plotando o ponto
    ax.scatter([ponto], [y_ponto], color='orange', s=100, zorder=4)
    
    # Plotando a reta tangente (mostra a dire√ß√£o do gradiente)
    dx = 0.5
    x_tangente = np.array([ponto - dx, ponto + dx])
    y_tangente = y_ponto + inclinacao * (x_tangente - ponto)
    ax.plot(x_tangente, y_tangente, 'g--', alpha=0.6, linewidth=2)
    
    # Seta mostrando a dire√ß√£o de descida (oposta ao gradiente)
    direcao = -np.sign(inclinacao) * 0.3
    ax.arrow(ponto, y_ponto + 0.5, direcao, 0, head_width=0.3, 
             head_length=0.1, fc='purple', ec='purple', linewidth=2)

ax.set_xlabel('Par√¢metro Œ∏', fontsize=14)
ax.set_ylabel('Custo J(Œ∏)', fontsize=14)
ax.set_title('üèîÔ∏è A Montanha do Erro - Como o Gradiente Descendente Funciona', fontsize=16)
ax.legend(fontsize=12)
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("üéØ Olha s√≥! As setas roxas mostram a dire√ß√£o que devemos seguir para minimizar o erro!")
print("üìê As linhas verdes s√£o as retas tangentes - elas mostram a inclina√ß√£o (gradiente) em cada ponto.")

## üî• Implementando o Gradiente Descendente na M√£o!

Agora vem a parte mais legal! Vamos implementar o algoritmo passo a passo. Sem bibliotecas prontas - s√≥ matem√°tica pura!

### Algoritmo Passo a Passo:

```mermaid
graph TD
    A[Inicializar Œ∏ aleatoriamente] --> B[Calcular J(Œ∏)]
    B --> C[Calcular ‚àáJ(Œ∏)]
    C --> D[Atualizar: Œ∏ = Œ∏ - Œ±‚àáJ(Œ∏)]
    D --> E{Convergiu?}
    E -->|N√£o| B
    E -->|Sim| F[Œ∏ √≥timo encontrado!]
```

In [None]:
def gradiente_descendente(funcao_custo, derivada, theta_inicial, taxa_aprendizado, max_iteracoes=1000, tolerancia=1e-6):
    """
    Implementa√ß√£o do Gradiente Descendente do zero!
    
    Par√¢metros:
    - funcao_custo: fun√ß√£o que queremos minimizar
    - derivada: derivada da fun√ß√£o de custo
    - theta_inicial: ponto de partida
    - taxa_aprendizado: tamanho do passo (Œ±)
    - max_iteracoes: n√∫mero m√°ximo de itera√ß√µes
    - tolerancia: crit√©rio de parada
    
    Retorna:
    - theta_otimo: par√¢metro que minimiza a fun√ß√£o
    - historico: lista com todos os valores durante a otimiza√ß√£o
    """
    
    # Inicializando
    theta = theta_inicial
    historico_theta = [theta]
    historico_custo = [funcao_custo(theta)]
    historico_gradiente = [derivada(theta)]
    
    print(f"üöÄ Come√ßando a descida do ponto Œ∏ = {theta:.4f}")
    print(f"üìä Custo inicial: {funcao_custo(theta):.4f}")
    print(f"üìà Gradiente inicial: {derivada(theta):.4f}")
    print("="*50)
    
    for i in range(max_iteracoes):
        # 1. Calcular o gradiente no ponto atual
        gradiente_atual = derivada(theta)
        
        # 2. Atualizar theta na dire√ß√£o oposta ao gradiente
        theta_novo = theta - taxa_aprendizado * gradiente_atual
        
        # 3. Salvar no hist√≥rico
        historico_theta.append(theta_novo)
        historico_custo.append(funcao_custo(theta_novo))
        historico_gradiente.append(derivada(theta_novo))
        
        # 4. Verificar converg√™ncia
        if abs(theta_novo - theta) < tolerancia:
            print(f"‚úÖ Convergiu na itera√ß√£o {i+1}!")
            break
            
        # 5. Mostrar progresso a cada 100 itera√ß√µes
        if (i + 1) % 100 == 0:
            print(f"Itera√ß√£o {i+1}: Œ∏ = {theta_novo:.6f}, Custo = {funcao_custo(theta_novo):.6f}")
        
        # 6. Atualizar theta para a pr√≥xima itera√ß√£o
        theta = theta_novo
    
    print("="*50)
    print(f"üéØ Resultado final:")
    print(f"   Œ∏ √≥timo = {theta:.6f}")
    print(f"   Custo m√≠nimo = {funcao_custo(theta):.6f}")
    print(f"   Gradiente final = {derivada(theta):.6f}")
    
    return theta, {
        'theta': historico_theta,
        'custo': historico_custo,
        'gradiente': historico_gradiente
    }

print("üõ†Ô∏è Fun√ß√£o do Gradiente Descendente implementada! Agora vamos test√°-la!")

## üß™ Testando o Algoritmo: Primeira Descida!

Bora testar nosso gradiente descendente com a fun√ß√£o que criamos: $J(\theta) = (\theta - 3)^2 + 1$

Sabemos que o m√≠nimo t√° em $\theta = 3$. Ser√° que nosso algoritmo vai conseguir encontrar?

**Dica do Pedro**: A taxa de aprendizado √© crucial! Muito alta e o algoritmo vai "pular" o m√≠nimo, muito baixa e vai demorar uma eternidade para convergir.

In [None]:
# Teste 1: Taxa de aprendizado boa (0.1)
print("üéØ TESTE 1: Taxa de aprendizado = 0.1")
theta_otimo_1, historico_1 = gradiente_descendente(
    funcao_custo=funcao_custo,
    derivada=derivada_custo, 
    theta_inicial=0.0,  # Come√ßando longe do m√≠nimo
    taxa_aprendizado=0.1,
    max_iteracoes=1000
)

print(f"\nüìä N√∫mero de itera√ß√µes: {len(historico_1['theta']) - 1}")
print(f"üéØ Erro do resultado: {abs(theta_otimo_1 - 3):.8f}")

In [None]:
# Vamos visualizar a descida do gradiente!
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 12))

# Gr√°fico 1: Trajet√≥ria na fun√ß√£o de custo
x_plot = np.linspace(-1, 7, 1000)
y_plot = funcao_custo(x_plot)

ax1.plot(x_plot, y_plot, 'b-', linewidth=2, label='J(Œ∏) = (Œ∏-3)¬≤ + 1')
ax1.plot(historico_1['theta'], historico_1['custo'], 'ro-', markersize=4, 
         linewidth=2, alpha=0.7, label='Trajet√≥ria do GD')
ax1.scatter([historico_1['theta'][0]], [historico_1['custo'][0]], 
           color='green', s=150, marker='s', label='In√≠cio', zorder=5)
ax1.scatter([historico_1['theta'][-1]], [historico_1['custo'][-1]], 
           color='red', s=150, marker='*', label='Final', zorder=5)
ax1.set_xlabel('Œ∏')
ax1.set_ylabel('Custo J(Œ∏)')
ax1.set_title('üèîÔ∏è Descida na Montanha do Erro')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Gr√°fico 2: Evolu√ß√£o do par√¢metro Œ∏
iteracoes = range(len(historico_1['theta']))
ax2.plot(iteracoes, historico_1['theta'], 'g-', linewidth=2, marker='o', markersize=3)
ax2.axhline(y=3, color='r', linestyle='--', alpha=0.7, label='Œ∏ √≥timo = 3')
ax2.set_xlabel('Itera√ß√£o')
ax2.set_ylabel('Œ∏')
ax2.set_title('üìà Converg√™ncia do Par√¢metro')
ax2.legend()
ax2.grid(True, alpha=0.3)

# Gr√°fico 3: Evolu√ß√£o do custo
ax3.plot(iteracoes, historico_1['custo'], 'purple', linewidth=2, marker='o', markersize=3)
ax3.axhline(y=1, color='r', linestyle='--', alpha=0.7, label='Custo m√≠nimo = 1')
ax3.set_xlabel('Itera√ß√£o')
ax3.set_ylabel('Custo J(Œ∏)')
ax3.set_title('üìâ Redu√ß√£o do Custo')
ax3.legend()
ax3.grid(True, alpha=0.3)

# Gr√°fico 4: Evolu√ß√£o do gradiente
ax4.plot(iteracoes, historico_1['gradiente'], 'orange', linewidth=2, marker='o', markersize=3)
ax4.axhline(y=0, color='r', linestyle='--', alpha=0.7, label='Gradiente = 0')
ax4.set_xlabel('Itera√ß√£o')
ax4.set_ylabel('Gradiente ‚àáJ(Œ∏)')
ax4.set_title('üß≠ Converg√™ncia do Gradiente')
ax4.legend()
ax4.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("üéâ Liiindo! Olha como o algoritmo convergiu perfeitamente!")
print("üîç Repare que quando o gradiente chega perto de zero, encontramos o m√≠nimo!")

## ‚ö° O Papel Crucial da Taxa de Aprendizado

A taxa de aprendizado ($\alpha$) √© como a velocidade que voc√™ desce a montanha. Muito devagar e voc√™ nunca chega, muito r√°pido e voc√™ pode passar direto pelo vale!

Vamos comparar diferentes taxas de aprendizado:

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-11_img_02.png)

In [None]:
# Testando diferentes taxas de aprendizado
taxas = [0.01, 0.1, 0.5, 1.0]
cores = ['blue', 'green', 'orange', 'red']
resultados = {}

print("üß™ Testando diferentes taxas de aprendizado...\n")

for i, taxa in enumerate(taxas):
    print(f"üìä Taxa de aprendizado: {taxa}")
    print("="*30)
    
    try:
        theta_opt, hist = gradiente_descendente(
            funcao_custo=funcao_custo,
            derivada=derivada_custo,
            theta_inicial=0.0,
            taxa_aprendizado=taxa,
            max_iteracoes=100  # Limitando para comparar
        )
        resultados[taxa] = hist
    except:
        print(f"‚ùå Taxa {taxa} causou instabilidade!")
    
    print("\n")

In [None]:
# Visualizando o impacto das diferentes taxas
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gr√°fico 1: Converg√™ncia do par√¢metro Œ∏
for i, (taxa, hist) in enumerate(resultados.items()):
    iteracoes = range(len(hist['theta']))
    ax1.plot(iteracoes, hist['theta'], color=cores[i], linewidth=2, 
             marker='o', markersize=3, label=f'Œ± = {taxa}')

ax1.axhline(y=3, color='black', linestyle='--', alpha=0.7, label='Œ∏ √≥timo = 3')
ax1.set_xlabel('Itera√ß√£o')
ax1.set_ylabel('Œ∏')
ax1.set_title('üéØ Converg√™ncia com Diferentes Taxas de Aprendizado')
ax1.legend()
ax1.grid(True, alpha=0.3)
ax1.set_ylim(-1, 7)

# Gr√°fico 2: Evolu√ß√£o do custo
for i, (taxa, hist) in enumerate(resultados.items()):
    iteracoes = range(len(hist['custo']))
    ax2.plot(iteracoes, hist['custo'], color=cores[i], linewidth=2, 
             marker='o', markersize=3, label=f'Œ± = {taxa}')

ax2.axhline(y=1, color='black', linestyle='--', alpha=0.7, label='Custo m√≠nimo = 1')
ax2.set_xlabel('Itera√ß√£o')
ax2.set_ylabel('Custo J(Œ∏)')
ax2.set_title('üìâ Redu√ß√£o do Custo com Diferentes Taxas')
ax2.legend()
ax2.grid(True, alpha=0.3)
ax2.set_yscale('log')  # Escala logar√≠tmica para ver melhor

plt.tight_layout()
plt.show()

print("üîç An√°lise dos resultados:")
print("üêå Œ± = 0.01: Muito devagar, mas est√°vel")
print("‚úÖ Œ± = 0.1: Velocidade boa, converg√™ncia suave")
print("‚ö° Œ± = 0.5: Mais r√°pido, mas pode oscilar")
print("üí• Œ± = 1.0: Muito r√°pido, pode causar instabilidade")

print("\n**Dica do Pedro**: Na vida real, come√ßamos com Œ± ‚âà 0.01 a 0.1 e ajustamos conforme necess√°rio!")

## üåç Exemplo Pr√°tico: Regress√£o Linear com Gradiente Descendente

Agora vamos aplicar o gradiente descendente em um problema real: **Regress√£o Linear!** 

Lembra da equa√ß√£o da reta? $y = mx + b$

No machine learning, escrevemos como: $\hat{y} = \theta_0 + \theta_1 x$

Onde:
- $\theta_0$ √© o intercepto (bias)
- $\theta_1$ √© a inclina√ß√£o (peso)

### A Fun√ß√£o de Custo: Erro Quadr√°tico M√©dio (MSE)

$$J(\theta_0, \theta_1) = \frac{1}{2m} \sum_{i=1}^{m} (\hat{y}^{(i)} - y^{(i)})^2$$

$$J(\theta_0, \theta_1) = \frac{1}{2m} \sum_{i=1}^{m} (\theta_0 + \theta_1 x^{(i)} - y^{(i)})^2$$

### As Derivadas Parciais:

$$\frac{\partial J}{\partial \theta_0} = \frac{1}{m} \sum_{i=1}^{m} (\hat{y}^{(i)} - y^{(i)})$$

$$\frac{\partial J}{\partial \theta_1} = \frac{1}{m} \sum_{i=1}^{m} (\hat{y}^{(i)} - y^{(i)}) \cdot x^{(i)}$$

**Dica do Pedro**: Essas derivadas parciais nos dizem como cada par√¢metro afeta o erro total!

In [None]:
# Gerando dados sint√©ticos para regress√£o linear
np.random.seed(42)  # Para resultados reproduz√≠veis

# Dados verdadeiros: y = 2x + 1 + ru√≠do
n_amostras = 100
X = np.random.uniform(-3, 3, n_amostras)
y_verdadeiro = 2 * X + 1  # Linha verdadeira
ruido = np.random.normal(0, 0.5, n_amostras)
y = y_verdadeiro + ruido

print(f"üìä Dataset criado:")
print(f"   {n_amostras} amostras")
print(f"   Rela√ß√£o verdadeira: y = 2x + 1")
print(f"   Ru√≠do adicionado para realismo")

# Visualizando os dados
fig, ax = plt.subplots(figsize=(10, 6))
ax.scatter(X, y, alpha=0.6, color='blue', s=50, label='Dados observados')
ax.plot(X, y_verdadeiro, 'r--', linewidth=2, label='Rela√ß√£o verdadeira: y = 2x + 1')
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.set_title('üìà Dataset para Regress√£o Linear')
ax.legend()
ax.grid(True, alpha=0.3)
plt.show()

print("üéØ Objetivo: Usar gradiente descendente para encontrar Œ∏‚ÇÄ ‚âà 1 e Œ∏‚ÇÅ ‚âà 2")

In [None]:
class RegressaoLinearGD:
    """Regress√£o Linear implementada com Gradiente Descendente do zero!"""
    
    def __init__(self, taxa_aprendizado=0.01, max_iteracoes=1000, tolerancia=1e-6):
        self.taxa_aprendizado = taxa_aprendizado
        self.max_iteracoes = max_iteracoes
        self.tolerancia = tolerancia
        self.historico = {'custo': [], 'theta0': [], 'theta1': []}
        
    def funcao_custo(self, X, y, theta0, theta1):
        """Calcula o Erro Quadr√°tico M√©dio (MSE)"""
        m = len(X)
        predicoes = theta0 + theta1 * X
        custo = (1/(2*m)) * np.sum((predicoes - y)**2)
        return custo
    
    def calcular_gradientes(self, X, y, theta0, theta1):
        """Calcula as derivadas parciais"""
        m = len(X)
        predicoes = theta0 + theta1 * X
        erros = predicoes - y
        
        # Derivadas parciais
        d_theta0 = (1/m) * np.sum(erros)
        d_theta1 = (1/m) * np.sum(erros * X)
        
        return d_theta0, d_theta1
    
    def fit(self, X, y):
        """Treina o modelo usando Gradiente Descendente"""
        # Inicializa√ß√£o aleat√≥ria dos par√¢metros
        self.theta0 = np.random.normal(0, 0.1)
        self.theta1 = np.random.normal(0, 0.1)
        
        print(f"üöÄ Iniciando treinamento...")
        print(f"   Par√¢metros iniciais: Œ∏‚ÇÄ = {self.theta0:.4f}, Œ∏‚ÇÅ = {self.theta1:.4f}")
        print(f"   Taxa de aprendizado: {self.taxa_aprendizado}")
        print("="*60)
        
        for i in range(self.max_iteracoes):
            # Calcular custo atual
            custo_atual = self.funcao_custo(X, y, self.theta0, self.theta1)
            
            # Calcular gradientes
            d_theta0, d_theta1 = self.calcular_gradientes(X, y, self.theta0, self.theta1)
            
            # Salvar no hist√≥rico
            self.historico['custo'].append(custo_atual)
            self.historico['theta0'].append(self.theta0)
            self.historico['theta1'].append(self.theta1)
            
            # Atualizar par√¢metros (GRADIENTE DESCENDENTE!)
            theta0_novo = self.theta0 - self.taxa_aprendizado * d_theta0
            theta1_novo = self.theta1 - self.taxa_aprendizado * d_theta1
            
            # Verificar converg√™ncia
            if abs(theta0_novo - self.theta0) < self.tolerancia and abs(theta1_novo - self.theta1) < self.tolerancia:
                print(f"‚úÖ Converg√™ncia atingida na itera√ß√£o {i+1}!")
                break
                
            # Mostrar progresso
            if (i + 1) % 100 == 0:
                print(f"Itera√ß√£o {i+1}: Custo = {custo_atual:.6f}, Œ∏‚ÇÄ = {theta0_novo:.4f}, Œ∏‚ÇÅ = {theta1_novo:.4f}")
            
            # Atualizar par√¢metros
            self.theta0 = theta0_novo
            self.theta1 = theta1_novo
        
        print("="*60)
        print(f"üéØ Treinamento conclu√≠do!")
        print(f"   Œ∏‚ÇÄ (intercepto) = {self.theta0:.6f} (verdadeiro: 1.0)")
        print(f"   Œ∏‚ÇÅ (inclina√ß√£o) = {self.theta1:.6f} (verdadeiro: 2.0)")
        print(f"   Custo final = {self.historico['custo'][-1]:.6f}")
        
    def predict(self, X):
        """Faz predi√ß√µes"""
        return self.theta0 + self.theta1 * X

# Criando e treinando o modelo
modelo = RegressaoLinearGD(taxa_aprendizado=0.1, max_iteracoes=1000)
modelo.fit(X, y)

## üìä Visualizando o Aprendizado em A√ß√£o

Agora vem a parte mais legal: ver como o modelo **aprende** durante o treinamento!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-11_img_03.png)

In [None]:
# Visualizando o processo de aprendizado
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(16, 12))

# Gr√°fico 1: Evolu√ß√£o da linha de regress√£o
ax1.scatter(X, y, alpha=0.6, color='lightblue', s=30, label='Dados')
ax1.plot(X, y_verdadeiro, 'r--', linewidth=2, label='y = 2x + 1 (verdadeiro)')

# Mostrar algumas itera√ß√µes do aprendizado
X_plot = np.linspace(X.min(), X.max(), 100)
iteracoes_mostrar = [0, len(modelo.historico['theta0'])//4, len(modelo.historico['theta0'])//2, -1]
cores_linha = ['red', 'orange', 'green', 'blue']
labels_linha = ['In√≠cio', '25%', '50%', 'Final']

for i, (iter_idx, cor, label) in enumerate(zip(iteracoes_mostrar, cores_linha, labels_linha)):
    theta0_iter = modelo.historico['theta0'][iter_idx]
    theta1_iter = modelo.historico['theta1'][iter_idx]
    y_pred_iter = theta0_iter + theta1_iter * X_plot
    ax1.plot(X_plot, y_pred_iter, color=cor, linewidth=2, alpha=0.8, label=f'{label}: y = {theta1_iter:.2f}x + {theta0_iter:.2f}')

ax1.set_xlabel('x')
ax1.set_ylabel('y')
ax1.set_title('üéØ Evolu√ß√£o da Linha de Regress√£o')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Gr√°fico 2: Converg√™ncia do custo
iteracoes = range(len(modelo.historico['custo']))
ax2.plot(iteracoes, modelo.historico['custo'], 'purple', linewidth=2)
ax2.set_xlabel('Itera√ß√£o')
ax2.set_ylabel('Custo (MSE)')
ax2.set_title('üìâ Redu√ß√£o do Custo Durante o Treinamento')
ax2.grid(True, alpha=0.3)
ax2.set_yscale('log')

# Gr√°fico 3: Converg√™ncia dos par√¢metros
ax3.plot(iteracoes, modelo.historico['theta0'], 'blue', linewidth=2, label='Œ∏‚ÇÄ (intercepto)')
ax3.plot(iteracoes, modelo.historico['theta1'], 'red', linewidth=2, label='Œ∏‚ÇÅ (inclina√ß√£o)')
ax3.axhline(y=1, color='blue', linestyle='--', alpha=0.7, label='Œ∏‚ÇÄ verdadeiro = 1')
ax3.axhline(y=2, color='red', linestyle='--', alpha=0.7, label='Œ∏‚ÇÅ verdadeiro = 2')
ax3.set_xlabel('Itera√ß√£o')
ax3.set_ylabel('Valor do Par√¢metro')
ax3.set_title('üìà Converg√™ncia dos Par√¢metros')
ax3.legend()
ax3.grid(True, alpha=0.3)

# Gr√°fico 4: Superf√≠cie de custo 3D (conceitual)
theta0_range = np.linspace(0, 2, 50)
theta1_range = np.linspace(1, 3, 50)
THETA0, THETA1 = np.meshgrid(theta0_range, theta1_range)

# Calculando a superf√≠cie de custo
CUSTO = np.zeros_like(THETA0)
for i in range(THETA0.shape[0]):
    for j in range(THETA0.shape[1]):
        CUSTO[i, j] = modelo.funcao_custo(X, y, THETA0[i, j], THETA1[i, j])

contour = ax4.contour(THETA0, THETA1, CUSTO, levels=20, alpha=0.6)
ax4.clabel(contour, inline=True, fontsize=8)

# Plotando a trajet√≥ria do gradiente descendente
ax4.plot(modelo.historico['theta0'], modelo.historico['theta1'], 'ro-', 
         linewidth=2, markersize=3, alpha=0.8, label='Trajet√≥ria GD')
ax4.scatter([modelo.historico['theta0'][0]], [modelo.historico['theta1'][0]], 
           color='green', s=100, marker='s', label='In√≠cio', zorder=5)
ax4.scatter([modelo.historico['theta0'][-1]], [modelo.historico['theta1'][-1]], 
           color='red', s=150, marker='*', label='Final', zorder=5)
ax4.scatter([1], [2], color='blue', s=100, marker='x', label='√ìtimo verdadeiro', zorder=5)

ax4.set_xlabel('Œ∏‚ÇÄ (intercepto)')
ax4.set_ylabel('Œ∏‚ÇÅ (inclina√ß√£o)')
ax4.set_title('üó∫Ô∏è Trajet√≥ria na Superf√≠cie de Custo')
ax4.legend()
ax4.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("üéâ Liiindo! Olha como o gradiente descendente encontrou os par√¢metros quase perfeitamente!")
print(f"üí° Erro no Œ∏‚ÇÄ: {abs(modelo.theta0 - 1):.6f}")
print(f"üí° Erro no Œ∏‚ÇÅ: {abs(modelo.theta1 - 2):.6f}")

## üî• Exerc√≠cio Pr√°tico 1: Sua Vez de Implementar!

Agora √© sua vez! Vou dar uma fun√ß√£o de custo diferente e voc√™ vai implementar o gradiente descendente para ela.

**Fun√ß√£o:** $J(\theta) = \theta^4 - 4\theta^3 + 6\theta^2 - 4\theta + 5$

**Derivada:** $J'(\theta) = 4\theta^3 - 12\theta^2 + 12\theta - 4$

**Desafio:** Encontre o m√≠nimo global desta fun√ß√£o!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-11_img_04.png)

In [None]:
# EXERC√çCIO 1: Complete as fun√ß√µes abaixo

def funcao_exercicio(theta):
    """TODO: Implemente J(Œ∏) = Œ∏‚Å¥ - 4Œ∏¬≥ + 6Œ∏¬≤ - 4Œ∏ + 5"""
    # Sua implementa√ß√£o aqui
    pass

def derivada_exercicio(theta):
    """TODO: Implemente J'(Œ∏) = 4Œ∏¬≥ - 12Œ∏¬≤ + 12Œ∏ - 4"""
    # Sua implementa√ß√£o aqui
    pass

# TODO: Use a fun√ß√£o gradiente_descendente que criamos para encontrar o m√≠nimo
# Teste com diferentes pontos iniciais: -1, 0, 2, 3
# Dica: Esta fun√ß√£o tem m√∫ltiplos m√≠nimos locais!

print("üéØ Seu desafio: encontrar o m√≠nimo global da fun√ß√£o!")
print("üí° Dica: Teste diferentes pontos iniciais para ver o que acontece!")

# Descomente as linhas abaixo quando implementar as fun√ß√µes
# theta_otimo, historico = gradiente_descendente(
#     funcao_custo=funcao_exercicio,
#     derivada=derivada_exercicio,
#     theta_inicial=0.0,  # Experimente outros valores!
#     taxa_aprendizado=0.01,
#     max_iteracoes=1000
# )

## üö® Problemas Comuns no Gradiente Descendente

Como toda t√©cnica poderosa, o gradiente descendente tem suas pegadinhas. Vamos ver os principais problemas:

### 1. üêå M√≠nimos Locais vs M√≠nimo Global

Imagina que voc√™ t√° descendo uma montanha no escuro e cai num buraco. Voc√™ pode pensar que chegou no fundo, mas na verdade existe um vale muito mais profundo do lado!

```mermaid
graph TD
    A[Fun√ß√£o n√£o-convexa] --> B{M√∫ltiplos m√≠nimos}
    B --> C[M√≠nimo Local 1]
    B --> D[M√≠nimo Local 2]
    B --> E[M√≠nimo Global]
    C --> F[‚ùå Pode parar aqui]
    D --> F
    E --> G[‚úÖ Queremos chegar aqui]
```

### 2. üé¢ Taxa de Aprendizado Inadequada

- **Muito baixa**: Converge muito devagar (como uma lesma subindo no pau de sebo)
- **Muito alta**: Fica pulando de um lado pro outro sem nunca convergir (como um pintinho tonto)

### 3. üèîÔ∏è Plat√¥s e Selas

√Äs vezes o gradiente fica muito pequeno em regi√µes "planas", fazendo o algoritmo andar muito devagar.

**Dica do Pedro**: Por isso surgiram vers√µes melhoradas como Adam, RMSprop, etc. (que veremos no pr√≥ximo m√≥dulo!)

In [None]:
# Demonstrando o problema dos m√≠nimos locais
def funcao_multimodal(x):
    """Fun√ß√£o com m√∫ltiplos m√≠nimos locais"""
    return x**4 - 4*x**3 + 6*x**2 - 4*x + 5

def derivada_multimodal(x):
    """Derivada da fun√ß√£o multimodal"""
    return 4*x**3 - 12*x**2 + 12*x - 4

# Testando diferentes pontos iniciais
pontos_iniciais = [-0.5, 0.5, 1.5, 2.5]
resultados_multimodal = {}

print("üß™ Testando o problema dos m√≠nimos locais...\n")

for ponto in pontos_iniciais:
    print(f"üìç Ponto inicial: {ponto}")
    theta_opt, hist = gradiente_descendente(
        funcao_custo=funcao_multimodal,
        derivada=derivada_multimodal,
        theta_inicial=ponto,
        taxa_aprendizado=0.01,
        max_iteracoes=500
    )
    resultados_multimodal[ponto] = (theta_opt, hist)
    print(f"üéØ Convergiu para: Œ∏ = {theta_opt:.4f}, J(Œ∏) = {funcao_multimodal(theta_opt):.4f}\n")

In [None]:
# Visualizando o problema dos m√≠nimos locais
x_plot = np.linspace(-1, 3, 1000)
y_plot = funcao_multimodal(x_plot)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico 1: Fun√ß√£o com trajet√≥rias
ax1.plot(x_plot, y_plot, 'b-', linewidth=3, label='J(Œ∏) = Œ∏‚Å¥ - 4Œ∏¬≥ + 6Œ∏¬≤ - 4Œ∏ + 5')

cores = ['red', 'green', 'orange', 'purple']
for i, (ponto_inicial, (theta_final, hist)) in enumerate(resultados_multimodal.items()):
    # Trajet√≥ria
    ax1.plot(hist['theta'], hist['custo'], 'o-', color=cores[i], 
             alpha=0.7, markersize=3, linewidth=2, 
             label=f'In√≠cio: {ponto_inicial} ‚Üí Final: {theta_final:.2f}')
    
    # Ponto inicial
    ax1.scatter([ponto_inicial], [funcao_multimodal(ponto_inicial)], 
               color=cores[i], s=150, marker='s', zorder=5)
    
    # Ponto final
    ax1.scatter([theta_final], [funcao_multimodal(theta_final)], 
               color=cores[i], s=200, marker='*', zorder=5)

ax1.set_xlabel('Œ∏')
ax1.set_ylabel('J(Œ∏)')
ax1.set_title('üé¢ Problema dos M√≠nimos Locais')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Gr√°fico 2: Converg√™ncia do custo
for i, (ponto_inicial, (theta_final, hist)) in enumerate(resultados_multimodal.items()):
    iteracoes = range(len(hist['custo']))
    ax2.plot(iteracoes, hist['custo'], color=cores[i], linewidth=2,
             label=f'In√≠cio: {ponto_inicial}')

ax2.set_xlabel('Itera√ß√£o')
ax2.set_ylabel('Custo J(Œ∏)')
ax2.set_title('üìâ Converg√™ncia para Diferentes M√≠nimos')
ax2.legend()
ax2.grid(True, alpha=0.3)
ax2.set_yscale('log')

plt.tight_layout()
plt.show()

print("üîç An√°lise dos resultados:")
print("‚Ä¢ Pontos iniciais diferentes podem levar a m√≠nimos diferentes!")
print("‚Ä¢ Este √© um dos grandes desafios da otimiza√ß√£o n√£o-convexa")
print("‚Ä¢ Na pr√°tica: rodamos v√°rias vezes com inicializa√ß√µes aleat√≥rias")

print("\n**Dica do Pedro**: Em redes neurais, a inicializa√ß√£o dos pesos √© super importante!")

## üöÄ Exerc√≠cio Pr√°tico 2: Comparando Taxas de Aprendizado

Agora voc√™ vai experimentar com diferentes taxas de aprendizado e ver como elas afetam a converg√™ncia.

**Sua miss√£o**: Testar as taxas [0.001, 0.01, 0.1, 0.5] na fun√ß√£o do exerc√≠cio anterior e comparar:
- Velocidade de converg√™ncia
- Estabilidade
- Qual chega mais perto do m√≠nimo verdadeiro

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-11_img_05.png)

In [None]:
# EXERC√çCIO 2: Complete o c√≥digo para comparar taxas de aprendizado

# TODO: Teste estas taxas de aprendizado na fun√ß√£o multimodal
taxas_teste = [0.001, 0.01, 0.1, 0.5]
ponto_inicial_fixo = 0.0

print("üèÅ EXERC√çCIO: Comparando taxas de aprendizado")
print("="*50)

# TODO: Para cada taxa, execute o gradiente descendente e compare:
# 1. N√∫mero de itera√ß√µes at√© convergir
# 2. Valor final do custo
# 3. Valor final do par√¢metro Œ∏
# 4. Estabilidade (oscila√ß√µes?)

resultados_taxas = {}

for taxa in taxas_teste:
    print(f"\nüéØ Testando taxa = {taxa}")
    print("-" * 30)
    
    # TODO: Chame a fun√ß√£o gradiente_descendente aqui
    # Salve os resultados em resultados_taxas[taxa]
    
    pass  # Remova esta linha quando implementar

# TODO: Crie visualiza√ß√µes comparando os resultados
# Dicas: 
# - Gr√°fico da converg√™ncia do custo para cada taxa
# - Gr√°fico da converg√™ncia do par√¢metro Œ∏
# - Tabela resumo com os resultados finais

print("\nüìä An√°lise: Qual taxa funcionou melhor e por qu√™?")

## üéØ Quando Usar Gradiente Descendente?

O gradiente descendente √© o cora√ß√£o do machine learning moderno! Ele √© usado em:

### ‚úÖ **Ideal para:**
- **Redes neurais** (backpropagation √© gradiente descendente!)
- **Regress√£o linear/log√≠stica** com muitos dados
- **Deep learning** (√∫nica op√ß√£o vi√°vel para milh√µes de par√¢metros)
- **Fun√ß√µes diferenci√°veis** que n√£o t√™m solu√ß√£o anal√≠tica

### ‚ùå **N√£o √© ideal para:**
- **Fun√ß√µes n√£o-diferenci√°veis** (√≥bvio!)
- **Espa√ßos discretos** (n√£o tem "dire√ß√£o" para descer)
- **Problemas pequenos** com solu√ß√£o anal√≠tica simples

### üî• **Vers√µes Modernas:**
- **SGD** (Stochastic): Usa mini-batches dos dados
- **Adam**: Adapta a taxa de aprendizado automaticamente  
- **RMSprop**: Lida melhor com gradientes que variam muito
- **Momentum**: Adiciona "in√©rcia" para passar por m√≠nimos locais

**Dica do Pedro**: No pr√≥ximo m√≥dulo vamos ver essas vers√µes turbinasdas! Prepare-se!

## üß† Conectando com o Que Vem Pela Frente

O gradiente descendente que implementamos hoje √© a vers√£o "batch" - usa todos os dados de uma vez. Mas e se tivermos 1 milh√£o de exemplos? Vai ser muito lento!

No **M√≥dulo 12** (√∫ltimo do curso!), vamos ver:

### üöÄ **Stochastic Gradient Descent (SGD)**
Em vez de usar todos os dados, usa apenas um exemplo por vez:

$$\theta = \theta - \alpha \nabla J^{(i)}(\theta)$$

### ‚ö° **Mini-batch Gradient Descent**
Meio termo: usa pequenos grupos de dados:

$$\theta = \theta - \alpha \frac{1}{m_{batch}} \sum_{j=1}^{m_{batch}} \nabla J^{(j)}(\theta)$$

### üß† **Adam Optimizer**
O mais usado hoje em deep learning - adapta a taxa de aprendizado:

$$m_t = \beta_1 m_{t-1} + (1-\beta_1) g_t$$
$$v_t = \beta_2 v_{t-1} + (1-\beta_2) g_t^2$$

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/c√°lculo-para-ia-modulo-11_img_06.png)

In [None]:
# Pr√©via do que vem no pr√≥ximo m√≥dulo: Mini-batch
def mini_batch_preview(X, y, batch_size=10):
    """Pr√©via de como funciona o mini-batch (veremos no pr√≥ximo m√≥dulo)"""
    
    n_amostras = len(X)
    indices = np.arange(n_amostras)
    np.random.shuffle(indices)  # Embaralha os dados
    
    print(f"üìä Dataset completo: {n_amostras} amostras")
    print(f"üéØ Tamanho do mini-batch: {batch_size}")
    print(f"üîÑ N√∫mero de mini-batches: {n_amostras // batch_size}")
    print("\nExemplo de mini-batches:")
    
    for i in range(0, min(n_amostras, 3 * batch_size), batch_size):
        batch_indices = indices[i:i+batch_size]
        X_batch = X[batch_indices]
        y_batch = y[batch_indices]
        
        print(f"  Mini-batch {i//batch_size + 1}: {len(X_batch)} amostras")
        print(f"    X: [{X_batch[0]:.2f}, {X_batch[1]:.2f}, ..., {X_batch[-1]:.2f}]")
        print(f"    y: [{y_batch[0]:.2f}, {y_batch[1]:.2f}, ..., {y_batch[-1]:.2f}]")
    
    print("\nüí° No pr√≥ximo m√≥dulo: cada mini-batch far√° uma atualiza√ß√£o dos par√¢metros!")
    print("üöÄ Isso torna o treinamento muito mais r√°pido e eficiente!")

# Demonstra√ß√£o
mini_batch_preview(X, y, batch_size=10)

## üìö Resumo do M√≥dulo: O Que Aprendemos

Parab√©ns! üéâ Voc√™ acabou de dominar um dos algoritmos mais importantes do machine learning!

### ‚úÖ **O que rolou neste m√≥dulo:**

1. **üß≠ Entendemos o conceito**: Gradiente descendente √© como descer uma montanha seguindo a dire√ß√£o mais √≠ngreme

2. **üìê A matem√°tica**: $\theta_{novo} = \theta_{atual} - \alpha \nabla J(\theta)$

3. **üíª Implementamos do zero**: Sem bibliotecas, s√≥ matem√°tica pura!

4. **üéØ Aplicamos na pr√°tica**: Regress√£o linear completa com gradiente descendente

5. **‚ö†Ô∏è Vimos as pegadinhas**: M√≠nimos locais, taxa de aprendizado, converg√™ncia

6. **üìä Visualizamos tudo**: Gr√°ficos que mostram como o algoritmo aprende

### üîë **Conceitos-chave para levar:**

- O **gradiente aponta "pra cima"**, ent√£o vamos na **dire√ß√£o oposta** para minimizar
- A **taxa de aprendizado** ($\alpha$) controla o tamanho do passo
- **Inicializa√ß√£o** importa em fun√ß√µes n√£o-convexas
- **Converg√™ncia** acontece quando o gradiente fica pr√≥ximo de zero

### üöÄ **Conectando com o curso:**

- **M√≥dulos 1-3**: Prepararam o terreno (fun√ß√µes, limites)
- **M√≥dulos 4-6**: Derivadas e regra da cadeia (base do gradiente)
- **M√≥dulos 9-10**: M√∫ltiplas vari√°veis e gradientes (matem√°tica por tr√°s)
- **M√≥dulo 11** (atual): Implementa√ß√£o pr√°tica do algoritmo
- **M√≥dulo 12** (pr√≥ximo): Vers√µes avan√ßadas (SGD, Adam, etc.)

**Dica do Pedro**: Agora voc√™ entende o que t√° rolando "por baixo dos panos" quando treina qualquer modelo de ML! Isso √© poder! üí™

### üéØ **Para o pr√≥ximo m√≥dulo:**

Prepare-se para ver como o gradiente descendente evoluiu para lidar com:
- **Big Data** (milh√µes de exemplos)
- **Deep Learning** (milh√µes de par√¢metros)  
- **Converg√™ncia mais r√°pida** (otimizadores adaptativos)
- **Estabilidade num√©rica** (truques dos profissionais)

Bora para o √∫ltimo m√≥dulo! üöÄ