# **Atividade 2 - Gradiente Descendente**

In [None]:
import sys

sys.path.append('../')

In [None]:
import random
from src.utils.animate_gradient_descent import animate_gradient_descent
from IPython.display import HTML

## Código para Letra A e B

Usando os dados obtidos através do slide, temos os valores de `height` (eixo $x$) e `weight` (eixo $y$) de cada um ponto dos três pontos.

In [None]:
heights = [1.4, 1.9, 3.2]
weights = [0.5, 2.3, 2.9]

In [None]:
class LinearRegression:
    def __init__(self, x_data, y_data, optimize_slope, stochastic):
        self.x_data = x_data
        self.y_data = y_data
        self.x_values = []
        self.y_values = []

        self.intercept = 0
        self.slope = 0.5 if optimize_slope else 0.64
        self.optimize_slope = optimize_slope

        self.stochastic = stochastic

        self.intercept_history = []
        self.ssr_history = []
        self.slope_gradient_history = []
        self.intercept_gradient_history = []
        self.x_values_history = []
        self.y_values_history = []

        if self.optimize_slope:
            self.slope_history = []

    def _compute_ssr_and_gradient(self, slope, intercept):
        ssr = 0
        gradient_slope = 0
        gradient_intercept = 0

        self.x_values = self.x_data
        self.y_values = self.y_data

        if self.stochastic:
            self.x_values = []
            self.y_values = []
            i, j = random.sample(range(len(self.x_data)), 2)
            self.x_values.append(self.x_data[i])
            self.x_values.append(self.x_data[j])
            self.y_values.append(self.y_data[i])
            self.y_values.append(self.y_data[j])

        for x, y in zip(self.x_values, self.y_values):
            prediction = slope * x + intercept
            residual = y - prediction

            ssr += residual ** 2
            gradient_slope += -2 * x * residual
            gradient_intercept += -2 * residual

        return ssr, gradient_slope, gradient_intercept

    def _update_intercept(self, learning_rate, gradient_intercept):
        step = learning_rate * gradient_intercept
        self.intercept -= step
        return step

    def _update_slope(self, learning_rate, gradient_slope):
        step = learning_rate * gradient_slope
        self.slope -= step
        return step

    def gradient_descent(self, learning_rate, max_iterations, goal):
        for iteration in range(max_iterations):
            ssr, gradient_slope, gradient_intercept = self._compute_ssr_and_gradient(
                self.slope, self.intercept
            )

            self.intercept_history.append(self.intercept)
            self.ssr_history.append(ssr)
            self.slope_gradient_history.append(gradient_slope)
            self.intercept_gradient_history.append(gradient_intercept)
            self.x_values_history.append(self.x_values)
            self.y_values_history.append(self.y_values)

            print(f"Iteração {iteration + 1} ========================================")
            print(f"Intercept Antigo: {self.intercept}")

            intercept_step = self._update_intercept(learning_rate, gradient_intercept)
            print(f"Tamanho do Passo (Intercept): {intercept_step}")
            print(f"Intercept Novo: {self.intercept}")

            if self.optimize_slope:
                self.slope_history.append(self.slope)
                print("----------------------------------------------------")
                print(f"Slope Antigo: {self.slope}")
                slope_step = self._update_slope(learning_rate, gradient_slope)
                print(f"Tamanho do Passo (Slope): {slope_step}")
                print(f"Slope Novo: {self.slope}")

            if ssr < goal:
                break

## Letra A

Em seguida, iremos realizar a regressão linear com gradiente descendente usando `learning_rate = 0.01` e considerando apenas a otimização do intercept.

In [None]:
linear_regression = LinearRegression(weights, heights, False, False)
linear_regression.gradient_descent(0.01, 100, 0.45)
animation = animate_gradient_descent(linear_regression)

HTML(animation.to_jshtml())

Em seguida, iremos realizar a regressão linear com gradiente descendente usando `learning_rate = 0.3` e considerando apenas a otimização do intercept.

In [None]:
linear_regression = LinearRegression(weights, heights, False, False)
linear_regression.gradient_descent(0.3, 100, 0.45)
animation = linear_regression.animate()

HTML(animation.to_jshtml())

Pelos gráficos, podemos perceber que mesmo usando diferentes valores para o `learning_rate` o gradiente descendente convergiu para o valor ótimo do intercept. Entretanto, usando um `learning_rate` maior o algoritmo realizou 15 iterações, enquanto com `learning_rate` menor realizou 52 iterações. É importante mencionar que usar um `learning_rate` maior, apesar de trazer resultados mais rápidos, pode não convergir para o intercept ótimo devido aos overshoots. Além disso, como estamos otimizando apenas o valor do intercept a reta que está sendo ajustada aos dados varia apenas verticalmente a cada iteração.

## Letra B (Parte 1)

Primeiramente, iremos realizar a regressão linear com gradiente descendente usando `learning_rate = 0.01` e considerando a otimização do slope e intercept.

In [None]:
linear_regression = LinearRegression(weights, heights, True, False)
linear_regression.gradient_descent(0.01, 100, 0.45)
animation = linear_regression.animate()

HTML(animation.to_jshtml())

Em seguida, iremos realizar a regressão linear com gradiente descendente usando `learning_rate = 0.3` e considerando a otimização do slope e intercept.

In [None]:
linear_regression = LinearRegression(weights, heights, True, False)
linear_regression.gradient_descent(0.3, 100, 0.45)
animation = linear_regression.animate()

HTML(animation.to_jshtml())

Pelos gráficos, podemos perceber que o algoritmo que usou o `learning_rate` menor conseguiu ajustar uma reta ótima aos dados fornecidos, enquanto o que usou o `learning_rate` maior divergiu e não conseguiu ajustar uma reta aos dados. Esse comportamento do segundo algoritmo se dá devido aos overshoots. Além disso, como estamos otimizando tanto o slope quanto o intercept, a reta que se ajusta aos dados varia tanto em inclinação quando em coisa vertical a cada iteração.

## Letra B (Parte 2)

Em seguida, iremos realizar a regressão linear com gradiente descendente estocástico usando `learning_rate = 0.01` e considerando apenas a otimização do intercept.

In [None]:
linear_regression = LinearRegression(weights, heights, False, True)
linear_regression.gradient_descent(0.01, 100, 0.45)
animation = linear_regression.animate()

HTML(animation.to_jshtml())

Em seguida, iremos realizar a regressão linear com gradiente descendente estocástico usando `learning_rate = 0.3` e considerando apenas a otimização do intercept.

In [None]:
linear_regression = LinearRegression(weights, heights, False, True)
linear_regression.gradient_descent(0.3, 100, 0.45)
animation = linear_regression.animate()

HTML(animation.to_jshtml())

Pelos gráficos, observa-se que a reta do primeiro se ajusta lentamente aos dados porém o algoritmo é encerrado antes que ela se ajuste totalmente pois o erro posto como objetivo foi de `0.45`, enquanto o segundo executa apenas 2 iterações e encerra após chegar no erro objetivo.

Para visualizar melhor o comportamento do gradiente descendente estocástico, ajustamentos o `learning_rate` para `0.01` e o `goal` para `0.2`.

In [None]:
linear_regression = LinearRegression(weights, heights, False, True)
linear_regression.gradient_descent(0.01, 100, 0.2)
animation = linear_regression.animate()

HTML(animation.to_jshtml())

Observe que agora mais iterações são executados pelo algoritmo e a reta é ajustada corretamente aos dados ao longo de cada iteração.