### Regressão Linear Simples

Temos que o MSE (Mean Squared Error) pode ser definido como:
$$MSE = \frac{1}{2N} \sum_{i=1}^Ne_i^2, \quad e_i = y_i - y_{ei}$$

Nosso objetivo é minimizar essa função para $w_0$ e $w_1$, pois ela representa um erro:
$$min_{w_0, w_1}J(w_0, w_1) = MSE$$

Dessa forma temos:

$$\frac{dJ}{dw_0} = -\frac{1}{N}\sum^N_{i=1}e_i \quad ; \quad \frac{dJ}{dw_1} = -\frac{1}{N}\sum^N_{i=1}e_ix_i$$

O vetor de derivadas representa o gradiente descendente, que representa a direção para o máximo da função.

Dessa forma, para minimizarmos o erro, devemos ir atualizando os pesos no sentido contrário:
$$w_0 \leftarrow w_0 + \alpha \frac{1}{N} \sum^N_{i=1}e_i \quad ; \quad w_1 \leftarrow w_1 + \alpha \frac{1}{N} \sum^N_{i=1}e_ix_i$$

Assim, temos definida a técnica do gradiente descendente.

In [21]:
import numpy as np

def GD_linear_regression(X, Y, learning_rate, error_limit = 0.001):
    w0 = 0
    w1 = 1

    for i in range (1, 1000):

        y_error = w0 + w1 * X
        error = Y - y_error

        w0 = w0 + learning_rate * (1 / error.shape[0]) * np.sum(error)
        w1 = w1 + learning_rate * (1 / error.shape[0]) * np.dot(error, X)

        MSE = (1 / 2 * error.shape[0]) * np.dot(error, error)
        
        print(f"y estimado na época {i}:", y_error)
        print(f"vetor de erro na época {i}:", error)
        print(f"MSE na época {i}:", MSE)
        print("\n---\n")

        if MSE < error_limit: break

    return (w0, w1)
        

w0, w1 = GD_linear_regression(
    X=np.array([1, 2, 3, 4, 5]),
    Y=np.array([2, 4, 6, 8, 10]),
    learning_rate=0.1
)

print("w0 e w1 respectivamente:", w0, w1)

y estimado na época 1: [1 2 3 4 5]
vetor de erro na época 1: [1 2 3 4 5]
MSE na época 1: 137.5

---

y estimado na época 2: [ 2.4  4.5  6.6  8.7 10.8]
vetor de erro na época 2: [-0.4 -0.5 -0.6 -0.7 -0.8]
MSE na época 2: 4.750000000000034

---

y estimado na época 3: [2.14 4.04 5.94 7.84 9.74]
vetor de erro na época 3: [-0.14 -0.04  0.06  0.16  0.26]
MSE na época 3: 0.2950000000000026

---

y estimado na época 4: [2.184 4.122 6.06  7.998 9.936]
vetor de erro na época 4: [-0.184 -0.122 -0.06   0.002  0.064]
MSE na época 4: 0.1410999999999996

---

y estimado na época 5: [2.1724 4.1048 6.0372 7.9696 9.902 ]
vetor de erro na época 5: [-0.1724 -0.1048 -0.0372  0.0304  0.098 ]
MSE na época 5: 0.13154199999999955

---

y estimado na época 6: [2.17104 4.1058  6.04056 7.97532 9.91008]
vetor de erro na época 6: [-0.17104 -0.1058  -0.04056  0.02468  0.08992]
MSE na época 6: 0.12697035999999998

---

y estimado na época 7: [2.167864 4.103504 6.039144 7.974784 9.910424]
vetor de erro na época 7: [-

### Alternativamente, temos o SGD (Stochastic Gradient Descendant)

Nesse algoritmo, permutamos a amostra e atualizamos os pesos **N** vezes a cada época.
- No GD atualizamos uma vez por época.

Isso é muito bom pois como os pesos são atualizados mais vezes, temos a função convergindo mais rapidamente.

In [22]:
import numpy as np

# LMS (Least Mean Squares)
def SGD_linear_regression(X, Y, learning_rate, error_limit = 0.001):
    w0 = 0
    w1 = 1

    N = X.shape[0]

    for i in range (1, 1000):

        indices = np.random.permutation(N)
        X_shuffled = X[indices]
        Y_shuffled = Y[indices]

        for j in range(N):
            X_sample = X_shuffled[j]
            Y_sample = Y_shuffled[j]

            y_pred = w0 + w1 * X_sample
            error = Y_sample - y_pred
            
            w0 = w0 + learning_rate * error
            w1 = w1 + learning_rate * error * X_sample # O SGD pode ser mais ruidoso, imagine que peguemos um X_sample extremo, ele vai dar um passo mto grande

        y_error = w0 + w1 * X
        error = Y - y_error
        MSE = (1 / 2 * error.shape[0]) * np.dot(error, error)

        print(f"y estimado na época {i}:", y_error)
        print(f"vetor de erro na época {i}:", error)
        print(f"MSE na época {i}:", MSE)
        print("\n---\n")

        if MSE < error_limit: break

    return (w0, w1)
        

w0, w1 = SGD_linear_regression(
    X=np.array([1, 2, 3, 4, 5]),
    Y=np.array([2, 4, 6, 8, 10]),
    learning_rate=0.1
)

print("w0 e w1 respectivamente:", w0, w1)

y estimado na época 1: [2.2048  4.04096 5.87712 7.71328 9.54944]
vetor de erro na época 1: [-0.2048  -0.04096  0.12288  0.28672  0.45056]
MSE na época 1: 0.8598323199999974

---

y estimado na época 2: [2.20130693 4.05032673 5.89934653 7.74836634 9.59738614]
vetor de erro na época 2: [-0.20130693 -0.05032673  0.10065347  0.25163366  0.40261386]
MSE na época 2: 0.6965145094387117

---

y estimado na época 3: [2.20980208 4.10490104 6.         7.89509896 9.79019792]
vetor de erro na época 3: [-0.20980208 -0.10490104  0.          0.10490104  0.20980208]
MSE na época 3: 0.2751057145215746

---

y estimado na época 4: [2.18225927 4.09112963 6.         7.90887037 9.81774073]
vetor de erro na época 4: [-0.18225927 -0.09112963  0.          0.09112963  0.18225927]
MSE na época 4: 0.20761525060719943

---

y estimado na época 5: [ 2.21147178  4.17682794  6.1421841   8.10754026 10.07289642]
vetor de erro na época 5: [-0.21147178 -0.17682794 -0.1421841  -0.10754026 -0.07289642]
MSE na época 5: 0.28