#Otimização com Gradiente Descendente

Utilizaremos **Gradiente Descendente** para encontrar o `intercept` ideal em uma regressão linear simples

$$
y_i = \beta_0 + \beta_1 x_i + \epsilon_i
$$

**Onde:**
* **$y_i$**: Variável dependente (resposta) para a observação $i$.
* **$x_i$**: Variável independente (explicativa) para a observação $i$.
* **$\beta_0$**: **Intercept** (onde a linha cruza o eixo $y$).
* **$\beta_1$**: **slope** (coeficiente angular, ou quanto $y$ muda para cada unidade de $x$).
* **$\epsilon_i$**: **Erro aleatório** (resíduo), variação em $y$ não explicada por $x$.



 minimizando o erro entre previsões e dados reais (`x_data`, `y_data`).

##Bibliotecas que usaremos

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation
from IPython.display import HTML

## Definição das variaveis com os dados que usaremos:

In [None]:
intercept = 0
slope = 0.64
x_data = np.array([0.5, 2.3, 2.9])
y_data = np.array([1.4, 1.9, 3.2])
max_iterations = 1000
precision = 0.0001
learning_rate = 0.01
list_intercepts = []
list_sum_of_squared_residuals = []
list_sum_of_squared_derivatives = []

# Definição das funções
Para facilitar a leitura, vamos associar as variáveis do código aos símbolos matemáticos:
* **$y_i$**: `y_data`
* **$x_i$**: `x_data`
* **$b$**: `current_intercept`
* **$m$**: `slope`


### 1. Soma dos Quadrados dos Resíduos
Correspondente à função `calculate_sum_of_squared_residuals`. Esta é a função de custo ($SSR$).

$$
SSR(b) = \sum_{i=1}^{n} (y_i - (b + m x_i))^2
$$



In [None]:
def calculate_sum_of_squared_residuals(current_intercept):
    predictions = current_intercept + slope * x_data
    residuals = y_data - predictions
    return np.sum(residuals**2)

### 2. Derivada da Função de Custo
Correspondente à função `calculate_derivative`. Esta é a derivada parcial em relação ao intercepto ($b$).

$$
\frac{\partial SSR}{\partial b} = \sum_{i=1}^{n} -2 (y_i - (b + m x_i))
$$

In [None]:
def calculate_derivative(current_intercept):
    predictions = current_intercept + slope * x_data
    residuals = y_data - predictions
    return np.sum(-2 * residuals)

### Executando o Gradiente Descendente (Otimização do Intercepto)

A cada iteração (passo do loop), o código realiza três tarefas principais, utilizando **todo o conjunto de dados**:

1.  **Calcula o Gradiente:** Determina a direção do erro com base em **todos os pontos** de dados simultaneamente.
2.  **Atualiza o Intercepto.**
3.  **Verifica a Precisão:** Se o passo de atualização do intercepto for pequeno demais (menor que a precisão definida), o loop encerra.

O processo se repete até que o gradiente seja próximo de zero (convergência) ou o maximo de iterações for atingido.

Também armazenamos o histórico dos valores do intercepto para a visualização da convergência do algoritmo em gráficos posteriores.

In [None]:
for i in range(max_iterations):
    list_intercepts.append(intercept)

    current_sum_of_squared_residuals = calculate_sum_of_squared_residuals(intercept)
    list_sum_of_squared_residuals.append(current_sum_of_squared_residuals)

    current_sum_of_squared_derivatives = calculate_derivative(intercept)
    list_sum_of_squared_derivatives.append(current_sum_of_squared_derivatives)

    print(f"""Step Size: {(learning_rate * current_sum_of_squared_derivatives):.4f},
              Old intercept: {intercept:.4f},
              New intercept: {(intercept - learning_rate * current_sum_of_squared_derivatives):.4f}""",
              flush=True)

    intercept = intercept - learning_rate * current_sum_of_squared_derivatives
    if np.abs(current_sum_of_squared_derivatives*learning_rate) < precision:
        break

print(f"Intercept Final: {intercept:.4f}")
print(f"SSR Final: {current_sum_of_squared_residuals:.4f}")
print(f"Total de Iterações: {len(list_intercepts)}")

Step Size: -0.0570,
              Old intercept: 0.0000,
              New intercept: 0.0570
Step Size: -0.0536,
              Old intercept: 0.0570,
              New intercept: 0.1107
Step Size: -0.0504,
              Old intercept: 0.1107,
              New intercept: 0.1611
Step Size: -0.0474,
              Old intercept: 0.1611,
              New intercept: 0.2084
Step Size: -0.0445,
              Old intercept: 0.2084,
              New intercept: 0.2530
Step Size: -0.0419,
              Old intercept: 0.2530,
              New intercept: 0.2948
Step Size: -0.0394,
              Old intercept: 0.2948,
              New intercept: 0.3342
Step Size: -0.0370,
              Old intercept: 0.3342,
              New intercept: 0.3712
Step Size: -0.0348,
              Old intercept: 0.3712,
              New intercept: 0.4059
Step Size: -0.0327,
              Old intercept: 0.4059,
              New intercept: 0.4386
Step Size: -0.0307,
              Old intercept: 0.4386,
             

### Animação da Convergência (Intercept + slope)

O código a seguir gera a visualização final do algoritmo de **Gradient Descent**, otimizando apenas o intercept.

A função de atualização (`update`) reconstrói a equação da reta para cada iteração do histórico de treinamento:

$$\hat{y} = \text{slope} \cdot x + \text{intercept}_{\text{atual}}$$


In [None]:
fig, ax = plt.subplots(figsize=(6, 4))
ax.scatter(x_data, y_data, color='blue', zorder=5, label='Pontos Originais')
ax.set_title('Gradiente Descendente: Convergência do Intercept')
ax.set_xlabel('height')
ax.set_ylabel('Weight')
ax.legend()
ax.grid(True)

x_line_anim = np.linspace(min(x_data) - 0.5, max(x_data) + 0.5, 100)

line, = ax.plot(x_line_anim, slope * x_line_anim + list_intercepts[0], color='red', label='Linha de Regressão')
iteration_text = ax.text(0.02, 0.95, '', transform=ax.transAxes, color='green')

def update(frame):
    current_intercept = list_intercepts[frame]
    y_line_anim = slope * x_line_anim + current_intercept
    line.set_ydata(y_line_anim)
    iteration_text.set_text(f'Iteração: {frame+1}\nIntercept: {current_intercept:.4f}')
    return line, iteration_text,

ani = FuncAnimation(fig, update, frames=len(list_intercepts), interval=80, blit=True)

plt.close(fig)
HTML(ani.to_jshtml())

Output hidden; open in https://colab.research.google.com to view.

### Visualizando a Função de Custo e a Tangente
* **Curva Roxa:** Representa o erro total (SSR) para cada valor possível de intercepto.
* **Ponto Vermelho:** valor atual do nosso intercepto.
* **Linha Laranja (Tangente):** representação visual da **derivada** no ponto.

Equação da reta tangente:

$$
 y = m \cdot (x - x_0) + y_0
$$

**Onde:**
* **$y$**: O valor da linha tangente que será desenhado.
* **$x_0$**: O **Intercept Atual** (onde o ponto vermelho está no eixo X).
* **$y_0$**: O erro atual (**SSR**) (altura do ponto vermelho).
* **$m$**: A inclinação da reta, que é exatamente o **Gradiente** calculado.
:

In [None]:
intercept_values_plot = np.linspace(0, 2, 200)
sum_of_squared_values_plot = [calculate_sum_of_squared_residuals(i) for i in intercept_values_plot]

fig, ax = plt.subplots(figsize=(6, 4))
ax.plot(intercept_values_plot, sum_of_squared_values_plot, color='purple', linestyle='-', label='Função de Perda (SSR)')
ax.set_title('Convergência na Função de Perda com Tangente')
ax.set_xlabel('Intercept')
ax.set_ylabel('Soma dos Quadrados dos Resíduos (SSR)')
ax.legend()
ax.grid(True)

point, = ax.plot([], [], 'o', color='red', markersize=8, label='Intercept Atual')
tangent_line, = ax.plot([], [], '--', color='orange', label='Linha Tangente')
iteration_text = ax.text(0.02, 0.95, '', transform=ax.transAxes, color='green', fontsize=12)

def update(frame):
    if frame >= len(list_intercepts) or frame >= len(list_sum_of_squared_residuals) or frame >= len(list_sum_of_squared_derivatives):
        return point, tangent_line, iteration_text

    current_intercept = list_intercepts[frame]
    current_ssr = list_sum_of_squared_residuals[frame]
    current_gradient = list_sum_of_squared_derivatives[frame]

    point.set_data([current_intercept], [current_ssr])

    tangent_x = np.linspace(current_intercept - 0.2, current_intercept + 0.2, 2)
    tangent_y = current_gradient * (tangent_x - current_intercept) + current_ssr

    tangent_line.set_data(tangent_x, tangent_y)

    iteration_text.set_text(f'Iteração: {frame+1}\nIntercept: {current_intercept:.4f}\nSSR: {current_ssr:.4f}')

    return point, tangent_line, iteration_text

ani = FuncAnimation(fig, update, frames=len(list_intercepts), interval=80, blit=True)

plt.close(fig)
HTML(ani.to_jshtml())

Output hidden; open in https://colab.research.google.com to view.