<a href="https://colab.research.google.com/github/Itallo0708/Computational-Mathematics/blob/main/notebooks/atividade_02_no_animations.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Quest√£o A)
Inicialmente importando bibliotecas e definindo fun√ß√µes essenciais para a execu√ß√£o do algoritmo do gradiente descendente.



In [1]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation, PillowWriter
from IPython.display import HTML

def calculate_ssr(intercept, slope, x, y):
    predictions = intercept + (slope * x)
    residuals = y - predictions
    ssr = np.sum(residuals ** 2)
    return ssr

def gradient_descent(learning_rate, start_intercept, x, y, slope, max_iterations=40, tolerance=0.001):
    # Executa o algoritmo de Gradiente Descendente.

    current_intercept = start_intercept
    history = []

    print(f"\n INICIANDO COM LEARNING RATE = {learning_rate}")

    # Adiciona o estado inicial.
    current_ssr = calculate_ssr(current_intercept, slope, x, y)

    # Calcula gradiente inicial.
    predictions = current_intercept + (slope * x)
    residuals = y - predictions
    gradient = -2 * np.sum(residuals)

    history.append((current_intercept, current_ssr, gradient))

    for i in range(max_iterations):
        # Calcular Gradiente.
        predictions = current_intercept + (slope * x)
        residuals = y - predictions
        gradient = -2 * np.sum(residuals)

        # Calcular Passo.
        step_size = gradient * learning_rate

        # Intercept.
        old_intercept = current_intercept
        new_intercept = old_intercept - step_size
        current_intercept = new_intercept

        # Novo Erro.
        current_ssr = calculate_ssr(current_intercept, slope, x, y)

        # Salvar Hist√≥rico.
        history.append((current_intercept, current_ssr, gradient))

        print(f"Itera√ß√£o {i+1}: Old={old_intercept:.4f} | Grad={gradient:.4f} | Step={step_size:.4f} | New={new_intercept:.4f}")

        if abs(step_size) < tolerance:
            print(f"--> Convergiu na itera√ß√£o {i+1}!")
            break

    return history

def setup_regression_view(ax, x_data, y_data, learning_rate):
    # gr√°fico da Reta
    ax.set_xlim(0, 3.5)
    ax.set_ylim(0, 4)

    # Plotar dados
    ax.scatter(x_data, y_data, color='green', s=100, label='Dados Reais', zorder=5)

    # objeto da reta vazio inicialmente
    line, = ax.plot([], [], 'b-', linewidth=3, label='Reta Prevista')

    ax.set_title(f'Ajuste da Reta (LR={learning_rate})')
    ax.set_xlabel('Peso (x)')
    ax.set_ylabel('Altura (y)')
    ax.legend(loc='upper left')
    ax.grid(True, alpha=0.3)

    return line

def setup_cost_view(ax, cost_function, x_data, y_data, fixed_slope):
    # gr√°fico Curva de Custo
    # Gerar dados para a curva
    curve_x = np.linspace(-0.5, 2.5, 100)
    curve_y = [cost_function(b, fixed_slope, x_data, y_data) for b in curve_x]

    # Plotar a curva
    ax.plot(curve_x, curve_y, 'teal', alpha=0.5, linewidth=2, label='Curva de Custo (SSR)')

    # Configurar limites
    ax.set_xlim(-0.5, 2.5)
    ax.set_ylim(0, max(curve_y) + 1)

    # Criar elementos m√≥veis (inicialmente vazios)
    dot, = ax.plot([], [], 'ro', markersize=10, zorder=5, label='Valor Atual')
    track, = ax.plot([], [], 'r--', alpha=0.3) # Rastro
    tangent_line, = ax.plot([], [], 'orange', linewidth=2, label='Derivada')

    # Caixa de texto informativa
    info_text = ax.text(0.5, 0.85, '', transform=ax.transAxes, ha='right',
                        bbox=dict(boxstyle="round", facecolor='white', alpha=0.8))

    ax.set_title('Descida do Gradiente')
    ax.set_xlabel('Intercepto')
    ax.set_ylabel('Erro (SSR)')
    ax.legend(loc='upper right')
    ax.grid(True, alpha=0.3)

    return dot, track, tangent_line, info_text

def create_animation(history, x_data, y_data, fixed_slope, learning_rate):
    # montar a figura e a anima√ß√£o

    # Criar Figura e Eixos
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 6))
    plt.subplots_adjust(wspace=0.3)

    line_reg = setup_regression_view(ax1, x_data, y_data, learning_rate)

    dot, track, tangent, info_txt = setup_cost_view(ax2, calculate_ssr, x_data, y_data, fixed_slope)

    def update(frame):
        # Pegando dados
        b, ssr, grad = history[frame]

        # Atualizar reta
        x_vals = np.array([0, 3.5])
        y_vals = b + (fixed_slope * x_vals)
        line_reg.set_data(x_vals, y_vals)

        # Atualizar curva
        history_x = [h[0] for h in history[:frame+1]]
        history_y = [h[1] for h in history[:frame+1]]

        dot.set_data([b], [ssr])
        track.set_data(history_x, history_y)

        # Atualizar Tangente
        tan_range = 0.6
        x_tan = np.linspace(b - tan_range/2, b + tan_range/2, 10)
        y_tan = grad * (x_tan - b) + ssr
        tangent.set_data(x_tan, y_tan)

        # Atualizar Texto
        info_txt.set_text(
            f'Itera√ß√£o: {frame}\nIntercepto: {b:.2f}\nErro: {ssr:.2f}\nGrad: {grad:.2f}'
        )

        return line_reg, dot, track, tangent, info_txt
    ani = FuncAnimation(fig, update, frames=len(history), blit=True, interval=150)
    return ani






# Gradiente Descendente
O objetivo desse c√≥digo foi fazer uso do algoritmo de Gradiente Descendente para ajustar um modelo de Regress√£o Linear Simples, o qual tem a finalidade de encontrar o melhor valor do intercept (*b*) , nesse caso, mantendo constante o coeficiente angular (*m*).

Nesse cen√°rio, temos que a reta da regress√£o linear, t√©cnica a qual visa tra√ßar uma reta que represente de forma eficiente o conjunto de dados, se d√° por:
$$
y_{\text{pred}} = m \cdot x + b
$$
Nesse caso iremos fixar o *m* = 0.64 e iremos usar o gradiente descendente para otimizar o valor de *b*.
# Fun√ß√£o de custo (Loss Function)
Para o processo de otimiza√ß√£o, √© essencial calcular o erro do modelo de previs√£o, isto √©, o qu√£o distante a reta estimada est√° dos pontos reais. Nesse contexto, a fun√ß√£o de custo representa matematicamente essa dist√¢ncia entre os valores previstos pelo modelo e os valores observados nos dados.

Para isso, utilizamos a Soma dos Res√≠duos ao Quadrado (*SSR*), que se d√° por:
$$
f(b) = \sum_{i=1}^{n} \left( y_{\text{real}}^{(i)} - (m \cdot x^{(i)} + b) \right)^2
$$
Visualmente, esta fun√ß√£o forma uma par√°bola convexa, onde o ponto m√≠nimo representa o intercepto ideal.
# Calculo do Gradiente (Derivada)
Para minimizar $f(b)$, calculamos a derivada da fun√ß√£o de custo em rela√ß√£o ao intercepto $b$. Pela regra da cadeia, a derivada √©:
$$\frac{df}{db} = -2 \sum_{i=1}^{n} (y_{real}^{(i)} - y_{pred}^{(i)})$$
Este valor nos indica a inclina√ß√£o da curva de custo e a dire√ß√£o para onde devemos ajustar $b$
# Step Size
Uma vez calculada a derivada (gradiente), sabemos a dire√ß√£o para onde o erro diminui, mas ainda precisamos definir o tamanho do ajuste a ser feito no intercepto. √â aqui que entra a Taxa de Aprendizado.

O tamanho real do passo (Step Size) que o algoritmo d√° em cada itera√ß√£o √© o produto da derivada pela taxa de aprendizado:
$$\text{Step Size} = \text{Gradiente} \times \ learning \ rate$$
Este mecanismo cria um comportamento autoajust√°vel, o qual, quando o erro √© alto, a curva √© √≠ngreme (gradiente alto), gerando passos grandes para avan√ßar r√°pido.

Por outro lado, conforme nos aproximamos do fundo da par√°bola, a inclina√ß√£o diminui (gradiente baixo), gerando passos cada vez menores ("baby steps") para evitar ultrapassar o ponto √≥timo e garantir uma converg√™ncia precisa.

Dessa forma, o novo valor do intercept $b$ ser√° de:
$$b_{\text{novo}} = b_{\text{atual}} - \underbrace{(\text{Gradiente} \times \ lerning \ rate)}_{\text{Step Size}}$$

# Converg√™ncia e crit√©rio de parada
O processo de otimiza√ß√£o descrito acima √© iterativo. O algoritmo repete os passos de c√°lculo do gradiente e atualiza√ß√£o do intercepto sucessivas vezes.

inicialmente, por estarmos longe do ideal, a inclina√ß√£o da curva √© acentuada (gradiente alto em magnitude), o que resulta em passos largos ($StepSize$ grande) para avan√ßar rapidamente.

No processo de aproxima√ß√£o, conforme o intercept desliza em dire√ß√£o ao fundo da par√°bola, a curva se torna menos √≠ngreme. O valor do gradiente diminui naturalmente.

No ponto exato onde o erro √© m√≠nimo, a reta tangente √© perfeitamente horizontal. Matematicamente, isso significa que a derivada √© zero ($\frac{df}{db} = 0$).

Na pr√°tica, √©  raro atingirmos o zero absoluto devido √† precis√£o de ponto flutuante. Portanto, definimos um crit√©rio de converg√™ncia no qual o algoritmo para quando o tamanho do passo ($StepSize$) se torna menor que uma toler√¢ncia pr√©-definida.

# Exemplo 1: learning hate = 0.01
Nesse cen√°rio, usaremos os pontos:

Ponto 1: $x=0.5, y=1.4$

Ponto 2: $x=2.3, y=1.9$

Ponto 3: $x=2.9, y=3.2$

assumimos que a inclina√ß√£o da reta (o coeficiente angular $m$) √© conhecida e fixa em 0.64. Nosso objetivo √© descobrir onde a reta deve cruzar o eixo vertical (o intercept $b$).

Come√ßando com um chute arbitr√°rio de que o intercepto √© 0. A reta prevista √© $$y = 0.64x + 0$$
Aplicando os valores previstos na reta na f√≥rmula do custo temos:
$$f(b) = \sum_{i=1}^{n} \left( y_{\text{real}}^{(i)} - (0.64 \cdot x^{(i)} + 0) \right)^2 = 3.15$$
Concluindo que a reta passa distante dos pontos.

Aplicando o c√°lculo do gradiente temos:
$$\frac{df}{db} = -2 \sum_{i=1}^{n} (y_{real}^{(i)} - y_{pred}^{(i)}) = -5.7$$
Assim, tem-se uma forte inclina√ß√£o descendente indicando que o ponto est√° √† esquerda do ponto √≥timo.

Em seguida, o algoritmo usa o gradiente para calcular o pr√≥ximo passo:
$$\text{Step Size} = \text{Gradiente} (-5.7) \times \text{Taxa de Aprendizado} (0.01) = -0.057$$
E com isso ajusta o valor do novo intercept:
$$b_{new} = b_{0} - \text{(-0.057)}$$

Desse modo, o processo se repete at√© que o gradiente seja praticamente nulo, a reta tangente no gr√°fico da direita fica horizontal. No nosso exemplo, isso ocorre pr√≥ximo ao valor de 0.87. Neste ponto, atingimos o M√≠nimo Global da fun√ß√£o de custo para este conjunto de dados. A reta $y = 0.64x + 0.87$ √© a melhor aproxima√ß√£o linear poss√≠vel para representar a rela√ß√£o entre Peso e Altura nestas observa√ß√µes.


In [None]:
# Dados.
weights = np.array([0.5, 2.3, 2.9])
heights_real = np.array([1.4, 1.9, 3.2])
fixed_slope = 0.64

history_data = gradient_descent(0.01, 0, weights, heights_real, fixed_slope)
animacao = create_animation(history_data, weights, heights_real, fixed_slope, 0.01)

HTML(animacao.to_jshtml())

# Exemplo 2: Learning rate = 0.05

No exemplo a seguir foram mantidos os mesmos dados com a exce√ß√£o do learning rate que inicialmente era *0.01* e agora ser√° de *0.05*.

Assim, ao executar o mesmo algoritmo, mas agora em um cen√°rio com um learning hate consideravelmente maior, temos que o gradiente converge a 0 muito mais rapidamente, pois com um learning rate maior o algoritmo consegue chegar em um valor melhor de intercept em menos intera√ß√µes.


In [None]:
history_data = gradient_descent(0.05, 0, weights, heights_real, fixed_slope)
animacao = create_animation(history_data, weights, heights_real, fixed_slope, 0.05)

HTML(animacao.to_jshtml())

# Quest√£o B)
Adaptando a fun√ß√£o usada anteriormente para executar o algoritmo com intercept e slope variando.

In [2]:
def gradient_descent_two_parameters(learning_rate, start_intercept, x, y, start_slope, max_iterations=40, tolerance=0.001):
    # Executa o algoritmo de Gradiente Descendente.

    current_intercept = start_intercept
    current_slope = start_slope
    history = []

    print(f"\n INICIANDO COM LEARNING RATE = {learning_rate}")

    # Adiciona o estado inicial.
    current_ssr = calculate_ssr(current_intercept, current_slope, x, y)

    # Calcula gradiente inicial.
    predictions = current_intercept + (current_slope * x)
    residuals = y - predictions
    d_intercept = -2 * np.sum(residuals)
    d_slope = -2 * np.sum(residuals * x)

    history.append((current_intercept, current_ssr, d_intercept, d_slope))

    for i in range(max_iterations):
        # Calcular Gradiente.
        predictions = current_intercept + (current_slope * x)
        residuals = y - predictions
        d_intercept = -2 * np.sum(residuals)
        d_slope = -2 * np.sum(residuals * x)

        # Calcular Passo.
        step_size_intercept = d_intercept * learning_rate
        step_size_slope = d_slope * learning_rate

        # Intercept.
        old_intercept = current_intercept
        new_intercept = old_intercept - step_size_intercept
        current_intercept = new_intercept

        # slope.
        old_slope = current_slope
        new_slope = old_slope - step_size_slope
        current_slope = new_slope

        # Novo Erro.
        current_ssr = calculate_ssr(current_intercept, current_slope, x, y)

        # Salvar Hist√≥rico.
        history.append((current_intercept, current_ssr, d_intercept, d_slope))

        print(f"Itera√ß√£o {i+1}: Old i={old_intercept:.4f} | old s={old_slope:.4f} | d/di={d_intercept:.4f} |d/ds={d_slope:.4f} | Step i={step_size_intercept:.4f} |step s={step_size_slope:.4f} | New i={new_intercept:.4f} | New s={new_slope:.4f}")

        if abs(step_size_intercept) < tolerance and abs(step_size_slope) < tolerance:
            print(f"--> Convergiu na itera√ß√£o {i+1}!")
            break

    return history

def create_line_animation_two_parameters(history, x_data, y_data, learning_rate, title=""):
    # 1. Criar Figura
    fig, ax = plt.subplots(figsize=(8, 6))
    ax.set_xlim(0, 3.5)
    ax.set_ylim(0, 4)

    # Plotar os dados
    ax.scatter(x_data, y_data, color='green', s=100, label='Dados Reais', zorder=5)

    # Criar a linha da reta
    line_reg, = ax.plot([], [], 'b-', linewidth=3, label='Reta Prevista')

    # Caixa de texto para mostrar os valores
    info_text = ax.text(0.05, 0.8, '', transform=ax.transAxes, ha='left',
                        bbox=dict(boxstyle="round", facecolor='white', alpha=0.8))

    ax.set_title(f'{title} com (LR={learning_rate})')
    ax.set_xlabel('Peso (x)')
    ax.set_ylabel('Altura (y)')
    ax.legend(loc='lower right')
    ax.grid(True, alpha=0.3)

    # Fun√ß√£o de Atualiza√ß√£o
    def update(frame):
        b, m, gb, gm = history[frame]
        x_vals = np.array([0, 3.5])
        y_vals = b + (m * x_vals)

        # Atualizar o gr√°fico
        line_reg.set_data(x_vals, y_vals)

        # Atualizar o texto com os valores
        info_text.set_text(
            f'Itera√ß√£o: {frame}\n'
            f'b (Intercept): {b:.2f}\n'
            f'm (Slope): {m:.2f}\n'
            f'gradient intercept : {gb:.2f}\n'
            f'gradient slope: {gm:.2f}'
        )

        return line_reg, info_text

    # Criar Anima√ß√£o
    ani = FuncAnimation(fig, update, frames=len(history), blit=True, interval=100)

    return ani

# Exemplo 1: Learning Rate = 0.01
Nesse exemplo iremos ultilizar os mesmos valores da quest√£o anterior, com o diferencial de que o slope n√£o ser√° fixo.

Inicialmente escolheremos o $intercept$ como $b = 0$, e o $slope$ como $m = 1$.

A reta prevista √© $$y = 1x + 0$$

E a Soma dos Erros ao Quadrado ser√° $$f(b) = \sum_{i=1}^{n} \left( y_{\text{real}}^{(i)} - (1 \cdot x^{(i)} + 0) \right)^2 = 1.06$$
Concluindo que a reta passa distante dos pontos.

Nesse contexto, com 2 par√¢metros, a principal mudan√ßa √© que faremos uma derivada em rela√ß√£o ao $intercept$:
$$
\frac{\partial \text{SSR}}{\partial b}
=
-2 \sum_{i=1}^{n} \left( y_i - (b + m x_i) \right)
$$

E outra em rela√ß√£o ao $slope$:
$$
\frac{\partial \text{SSR}}{\partial m}
=
-2 \sum_{i=1}^{n} x_i \left( y_i - (b + m x_i) \right)
$$

Ap√≥s essa etapa teremos o tamanho do passo para o novo $intercept$:
$$ step\ size\ intercept =\frac{\partial \text{SSR}}{\partial b} \ learning \ rate$$
Novo $intercept$:
$$ intercept \ novo = intercept - \ step \ size\ intercept$$

E teremos o tamanho do passo para o novo $intercept$:
$$ step\ size\ slope =\frac{\partial \text{SSR}}{\partial m} \ learning \ rate$$

Novo $slope$:
$$ slope \ novo = slope - \ step \ size\ slope$$

Dessa forma, a cada itera√ß√£o do algoritmo os valores de $intercept$ e $slope$ v√£o sendo ajustados, e os gradientes de ambos os par√¢metros devem se aproximar de 0, objetivando o menor valor poss√≠vel de inclina√ß√£o da reta tangente para ambos os par√¢metros.

In [3]:
weights = np.array([0.5, 2.3, 2.9])
heights_real = np.array([1.4, 1.9, 3.2])

In [None]:
teste = gradient_descent_two_parameters(0.01, 0, weights, heights_real, 1, max_iterations=40, tolerance=0.001 )
animacao_b = create_line_animation_two_parameters(teste, weights, heights_real, 0.01, "Regress√£o com 2 Par√¢metros")
HTML(animacao_b.to_jshtml())

# Exemplo: Learning rate = 0.05
Ademais, aplicando o mesmo algoritmo a uma taxa de aprendizado maior iremos obter o seguinte resultado:

In [None]:
exemplo4 = gradient_descent_two_parameters(0.05, 0, weights, heights_real, 1, max_iterations=40, tolerance=0.001 )
animacao_exemplo4= create_line_animation_two_parameters(teste, weights, heights_real, 0.05, "Regress√£o com 2 Par√¢metros")
HTML(animacao_exemplo4.to_jshtml())

No experimento, o gradiente descendente que ajusta apenas o intercepto ùëè convergiu mais r√°pido do que a vers√£o que ajusta simultaneamente ùëè e o slope ùëö, pois o valor inicial do slope j√° estava muito pr√≥ximo do √≥timo ($ùëö‚âà0,64$). Como a inclina√ß√£o j√° estava ajustada no in√≠cio, o algoritmo precisou apenas realizar pequenos deslocamentos verticais para reduzir o erro.

Nesse caso espec√≠fico, o chute inicial ter sido distante do valor √≥timo acabou aumentando o n√∫mero de itera√ß√µes, no entanto, em termos gerais, a otimiza√ß√£o simult√¢nea de todos os par√¢metros nos daria um erro menor, visto que a reta poderia ser ajustada tanto em altura, quanto em inclina√ß√£o em cen√°rios desfavor√°veis.

# Gradiente Descendente Estoc√°stico
Adaptando o c√≥digo para um modelo estoc√°stico temos:

In [4]:
def stochastic_gradient_descent(learning_rate, start_intercept, x, y, start_slope, max_iterations=40, tolerance=0.001):
    # Executa o algoritmo de Gradiente Descendente.

    current_intercept = start_intercept
    current_slope = start_slope
    history = []

    print(f"\n INICIANDO SGD COM LEARNING RATE = {learning_rate}")

    # Adiciona o estado inicial.
    current_ssr = calculate_ssr(current_intercept, current_slope, x, y)
    history.append((current_intercept, current_ssr, 0, 0))

    for i in range(max_iterations):
      # sorteio
      random_index = np.random.randint(0, len(x))
      x_i = x[random_index]
      y_i = y[random_index]

      # calcular predict e erro
      predictions = current_intercept + (current_slope * x_i)
      residuals = y_i - predictions

      # gradiente
      d_intercept = -2 * residuals
      d_slope = -2 * residuals * x_i

      # Calcular Passo.
      step_size_intercept = d_intercept * learning_rate
      step_size_slope = d_slope * learning_rate

      # Intercept.
      old_intercept = current_intercept
      new_intercept = old_intercept - step_size_intercept
      current_intercept = new_intercept

      # slope.
      old_slope = current_slope
      new_slope = old_slope - step_size_slope
      current_slope = new_slope

      # Novo Erro.
      current_ssr = calculate_ssr(current_intercept, current_slope, x, y)

      # Salvar Hist√≥rico.
      history.append((current_intercept, current_ssr, d_intercept, d_slope))

      print(f"Itera√ß√£o {i+1}: ponto:{random_index} | Old i={old_intercept:.4f} | old s={old_slope:.4f} | d/di={d_intercept:.4f} |d/ds={d_slope:.4f} | Step i={step_size_intercept:.4f} |step s={step_size_slope:.4f} | New i={new_intercept:.4f} | New s={new_slope:.4f}")

      if abs(step_size_intercept) < tolerance and abs(step_size_slope) < tolerance:
          print(f"--> Convergiu na itera√ß√£o {i+1}!")
          break

    return history

# Diferen√ßas Para o Gradiente Descendente Tradicional
No Gradiente Descendente padr√£o, para dar um √∫nico passo, o algoritmo precisa:
Calcular o erro de todos os pontos de dados. Somar todos esses erros, calcular a derivada do som√°torio dos erros ao quadrado, e s√≥ ent√£o atualizar o $intercept$ e o $slope$.

Nesse contexto, A ideia do Estoc√°stico √© em vez de olhar para todos os dados para dar um passo, vamos sortear apenas ponto de dado e usar ele para decidir a dire√ß√£o.

# Algoritmo
Come√ßamos com valores aleat√≥rios, por exemplo, $Intercept=0$, $Slope=1$, igual ao m√©todo tradicional. Em seguida, ao inv√©s de calcularmos o erro em todos os pontos, escolhe-se um ponto de forma aleat√≥ria e executa-se o c√°lculo da derivada com base apenas nesse ponto.

Com isso temos que a derivada em rela√ß√£o ao $Interept$ √©:
$$
Gradiente_{intercept} = -2(y_{real} - y_{pred})
$$
E a atualiza√ß√£o do $Intercept$ se d√° por:
$$
Intercept_{novo} = Intercept_{velho} - (Learning Rate \times Gradiente)
$$
Com isso temos que a derivada em rela√ß√£o ao $Slope$ √©:
$$
Gradiente_{slope} = -2(y_{real} - y_{pred})x
$$
E a atualiza√ß√£o do $Slope$ se d√° por:
$$
Slope_{novo} = Slope_{velho} - (Learning Rate \times Gradiente)
$$

Dessa maneira, ap√≥s o c√°lculo do novo $Intercept$ e $Slope$, outro ponto √© sorteado e o processo √© repetido at√© alcan√ßarmos uma condi√ß√£o de parada, no caso, iremos definir um limite de itera√ß√µes e um tamanho m√≠nimo do passo.

# Exemplo: Gradiente Estoc√°stico com Learning Rate = 0.05
Nesse exemplo, iniciamos com um chute inicial para o $Intercept = 0$ e $ Slope = 1$

In [None]:
exemplo5 = stochastic_gradient_descent(0.05, 0, weights, heights_real, 1, max_iterations=40, tolerance=0.001 )
animacao_5 = create_line_animation_two_parameters(exemplo5, weights, heights_real, 0.05, "Gradiente Descendente Estoc√°stico")
HTML(animacao_5.to_jshtml())

# Mini-Batch de 2 samples
No Gradiente Descendente Mini-Batch, para dar um √∫nico passo, o algoritmo precisa sortear um pequeno subconjunto dos dados, no nosso caso, 2 pontos. Calcular o erro desses dois pontos, somar esses erros, calcular a derivada do somat√≥rio dos erros ao quadrado, e ent√£o atualizar o $Intercept$ e o $Slope$.

Nesse contexto, a ideia do Mini-Batch de 2 samples √© que, ao inv√©s de olhar para todos os dados, como no m√©todo padr√£o, ou para apenas um ponto, como no estoc√°stico, utilizamos dois pontos por itera√ß√£o para decidir a dire√ß√£o de atualiza√ß√£o. Isso torna o m√©todo mais est√°vel que o estoc√°stico e mais r√°pido que o gradiente descendente tradicional.

#Algoritmo
Come√ßamos com valores iniciais, por exemplo, $Intercept = 0$, $Slope = 1$, igual aos outros m√©todos. Em seguida, ao inv√©s de calcularmos o erro em todos os pontos, sorteiam-se dois pontos de forma aleat√≥ria e executa-se o c√°lculo da derivada com base apenas nesses dois pontos.

Com isso temos que a derivada em rela√ß√£o ao $Intercept$ √©:
$$
Gradiente_{intercept} = -2 \sum_{i=1}^{2} \left( y_{real}^{(i)} - y_{pred}^{(i)} \right)
$$
E a atualiza√ß√£o do $Intercept$ se d√° por:
$$
Intercept_{novo} = Intercept_{velho} - (Learning\ Rate \times Gradiente_{intercept})
$$

Com isso temos que a derivada em rela√ß√£o ao $Slope$ √©:
$$
Gradiente_{slope} = -2 \sum_{i=1}^{2} \left( y_{real}^{(i)} - y_{pred}^{(i)} \right)x^{(i)}
$$
E a atualiza√ß√£o do $Slope$ se d√° por:
$$
Slope_{novo} = Slope_{velho} - (Learning\ Rate \times Gradiente_{slope})
$$

Dessa maneira, ap√≥s o c√°lculo do novo $Intercept$ e $Slope$, outro mini-batch contendo dois novos pontos √© sorteado e o processo √© repetido at√© alcan√ßarmos uma condi√ß√£o de parada, que pode ser definida por um limite de itera√ß√µes, por um erro m√≠nimo aceit√°vel ou por um tamanho m√≠nimo do passo.

In [5]:
def mini_batch(learning_rate, start_intercept, x, y, start_slope, max_iterations=40, tolerance=0.001, sample=2):
    # Executa o algoritmo de Gradiente Descendente.

    current_intercept = start_intercept
    current_slope = start_slope
    history = []

    print(f"\n INICIANDO SGD COM LEARNING RATE = {learning_rate}")

    # Adiciona o estado inicial.
    current_ssr = calculate_ssr(current_intercept, current_slope, x, y)
    history.append((current_intercept, current_ssr, 0, 0))

    for i in range(max_iterations):
      # sorteio
      random_index = np.random.choice(len(x), size=sample, replace=False)
      x_i = x[random_index]
      y_i = y[random_index]

      # calcular predict e erro
      predictions = current_intercept + (current_slope * x_i)
      residuals = y_i - predictions

      # gradiente
      d_intercept = -2 * np.sum(residuals)
      d_slope = -2 * np.sum(residuals * x_i)

      # Calcular Passo.
      step_size_intercept = d_intercept * learning_rate
      step_size_slope = d_slope * learning_rate

      # Intercept.
      old_intercept = current_intercept
      new_intercept = old_intercept - step_size_intercept
      current_intercept = new_intercept

      # slope.
      old_slope = current_slope
      new_slope = old_slope - step_size_slope
      current_slope = new_slope

      # Novo Erro.
      current_ssr = calculate_ssr(current_intercept, current_slope, x, y)

      # Salvar Hist√≥rico.
      history.append((current_intercept, current_ssr, d_intercept, d_slope))

      print(f"Itera√ß√£o {i+1}: Old i={old_intercept:.4f} | old s={old_slope:.4f} | d/di={d_intercept:.4f} |d/ds={d_slope:.4f} | Step i={step_size_intercept:.4f} |step s={step_size_slope:.4f} | New i={new_intercept:.4f} | New s={new_slope:.4f}")

      if abs(step_size_intercept) < tolerance and abs(step_size_slope) < tolerance:
          print(f"--> Convergiu na itera√ß√£o {i+1}!")
          break

    return history

# Exemplo 06: Mini-Batch de 2 Samples
Nesse exemplo, iniciamos com um chute inicial para o  Intercept=0  e  Slope=1

In [None]:
exemplo6 = mini_batch(0.05, 0, weights, heights_real, 1, max_iterations=1000, tolerance=0.001, sample=2 )
animacao_6 = create_line_animation_two_parameters(exemplo6, weights, heights_real, 0.05, "Mini-Batch de 2 samples")
HTML(animacao_6.to_jshtml())

No $Mini-Batch$ de 2 samples, o uso de dois pontos por itera√ß√£o proporciona uma estimativa de gradiente mais est√°vel que a do estoc√°stico, suavizando as oscila√ß√µes nas atualiza√ß√µes do $Intercept$ e do $Slope$. Como consequ√™ncia, a converg√™ncia ocorre de forma mais regular, mantendo boa velocidade de aprendizado sem perder estabilidade.

#Redes Neurais.


Fun√ß√£o de ativa√ß√£o.

In [6]:
def activation_function(x):
  return np.log(1+ np.exp(x))

Redes neurais

In [7]:
# valores observados
x_inputs = np.array([0, 0.5, 1])
y_inputs = np.array([0, 1, 0])

def neural_network(learning_rate = .1, max_iterations = 1000, min_step_size = 0.0001, optimize_weights = False):
  # weights
  weights_before_activation = np.array([[3.34], [-3.53]])
  weights_after_activation = np.array([[-1.22], [-2.30]])
  if optimize_weights:
    weights_after_activation = np.array([[0.36], [0.63]])
  # bias
  bias_before_activation = np.array([[-1.43], [0.57]])
  bias_after_activation = np.array([[0.0]])

  return weights_before_activation, weights_after_activation, bias_before_activation, bias_after_activation

def predict_values(x_inputs, weights_before_activation, weights_after_activation, bias_before_activation, bias_after_activation):
  activation_function_inputs = x_inputs * weights_before_activation + bias_before_activation
  activation_function_outputs = activation_function(activation_function_inputs)
  predictions = np.sum(activation_function_outputs * weights_after_activation, axis=0) + bias_after_activation
  return predictions, activation_function_outputs

def evaluate_residual(y_inputs, predctions):
  residuals = y_inputs - predctions
  return residuals

def derivative_ssr_b3(residuals):
  return -2 * np.sum(residuals)

def derivative_ssr_w3(residuals, activation_function_outputs):
  return -2 * np.sum(residuals * activation_function_outputs[0])

def derivative_ssr_w4(residuals, activation_function_outputs):
  return -2 * np.sum(residuals * activation_function_outputs[1])

def training_neural_network(x_inputs, y_inputs, learning_rate=0.1, max_iterations=1000, min_step_size=0.0001, optimize_weights=False):
  w_in, w_out,b_in ,b_3 = neural_network(optimize_weights= optimize_weights)

  print(f"--- IN√çCIO DO TREINAMENTO (LR={learning_rate}) ---")
  print(f"Inicial -> b3: {b_3[0][0]:.4f} | w3: {w_out[0][0]:.4f} | w4: {w_out[1][0]:.4f}\n")

  print(f"--- IN√çCIO DO TREINAMENTO (Otimizar Pesos: {optimize_weights}) ---")

  for i in range(max_iterations):
    predictions, softplus_outs = predict_values(x_inputs, w_in, w_out, b_in, b_3)

    residuals = evaluate_residual(y_inputs, predictions)

    gradient_b3 = derivative_ssr_b3(residuals)
    step_b3 = gradient_b3 * learning_rate
    print(f"\nItera√ß√£o {i+1}:")
    old_b3 = b_3[0][0]
    b_3 = b_3 - step_b3
    new_b3 = b_3[0][0]
    print(f"  [b3] Step Size: {step_b3:.6f} | Old: {old_b3:.6f} | New: {new_b3:.6f}")

    if optimize_weights:
      gradient_w3 = derivative_ssr_w3(residuals, softplus_outs[0])
      gradient_w4 = derivative_ssr_w4(residuals, softplus_outs[1])

      step_w3 = gradient_w3 * learning_rate
      step_w4 = gradient_w4 * learning_rate

      old_w3 = w_out[0][0]
      w_out[0][0] = w_out[0][0] - step_w3
      new_w3 = w_out[0][0]
      print(f"  [w3] Step Size: {step_w3:.6f} | Old: {old_w3:.6f} | New: {new_w3:.6f}")

      old_w4 = w_out[1][0]
      w_out[1][0] = w_out[1][0] - step_w4
      new_w4 = w_out[1][0]
      print(f"  [w3] Step Size: {step_w4:.6f} | Old: {old_w4:.6f} | New: {new_w4:.6f}")

      if abs(step_b3) < min_step_size and abs(step_w3) < min_step_size and abs(step_w4) < min_step_size:
        break
    if abs(step_b3) < min_step_size:
      break

  return b_3, w_out









In [8]:
final_b3, final_w_out = training_neural_network(x_inputs, y_inputs, learning_rate=0.1, max_iterations=1000, min_step_size=0.0001, optimize_weights=False)

--- IN√çCIO DO TREINAMENTO (LR=0.1) ---
Inicial -> b3: 0.0000 | w3: -1.2200 | w4: -2.3000

--- IN√çCIO DO TREINAMENTO (Otimizar Pesos: False) ---

Itera√ß√£o 1:
  [b3] Step Size: -1.565511 | Old: 0.000000 | New: 1.565511

Itera√ß√£o 2:
  [b3] Step Size: -0.626204 | Old: 1.565511 | New: 2.191715

Itera√ß√£o 3:
  [b3] Step Size: -0.250482 | Old: 2.191715 | New: 2.442197

Itera√ß√£o 4:
  [b3] Step Size: -0.100193 | Old: 2.442197 | New: 2.542390

Itera√ß√£o 5:
  [b3] Step Size: -0.040077 | Old: 2.542390 | New: 2.582467

Itera√ß√£o 6:
  [b3] Step Size: -0.016031 | Old: 2.582467 | New: 2.598498

Itera√ß√£o 7:
  [b3] Step Size: -0.006412 | Old: 2.598498 | New: 2.604910

Itera√ß√£o 8:
  [b3] Step Size: -0.002565 | Old: 2.604910 | New: 2.607475

Itera√ß√£o 9:
  [b3] Step Size: -0.001026 | Old: 2.607475 | New: 2.608501

Itera√ß√£o 10:
  [b3] Step Size: -0.000410 | Old: 2.608501 | New: 2.608911

Itera√ß√£o 11:
  [b3] Step Size: -0.000164 | Old: 2.608911 | New: 2.609075

Itera√ß√£o 12:
  [b3] Step