[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/diogoflim/AM/blob/main/3_GradienteDescendente_RL/gdlr.ipynb)


# Aprendizado de máquina e decisões dirigidas por dados

**Professor: Diogo Ferreira de Lima Silva**

**TPP - UFF**

**Aula 3**

# Gradiente Descendente em Regressão Linear

Nessa aula, vamos implementar o algoritmo gradiente descendente para regressão linear.

Inicialmente, trabalharemos o caso com 1 atributo e depois passaremos para o caso genérico.

In [241]:
### Bibliotecas
import copy
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt

## Caso com 1 Atributo

Iniciaremos criando um vetor de valores aleatórios para o nosso alearórios e os respectivos rótulos seguindo um relacionamento linear, conforme realizado na aula 2.

In [271]:
# gerando valores para o nosso atributo x
mu, sigma = 150, 50 # média e desvio padrão
X = np.random.normal(mu, sigma, size=(100,1)) 

# Gerando os rótulos
mu_2, sigma_2 = 0, 100
y = 25 + 2 * X + np.random.normal(mu_2, sigma_2, size=(100,1))

In [273]:
print(f"Os 10 primeiros valores de x: \n{X[:10]}")
print(f"Os 10 primeiros valores de y: \n{y[:10]}")

Os 10 primeiros valores de x: 
[[174.03452572]
 [118.35302752]
 [196.41698734]
 [ 79.09681178]
 [230.01085011]
 [ 43.31802831]
 [180.69069758]
 [240.10315475]
 [164.12039992]
 [183.16377668]]
Os 10 primeiros valores de y: 
[[490.78778512]
 [281.27756992]
 [288.96417806]
 [183.27561887]
 [683.49178105]
 [270.41375252]
 [380.94500312]
 [436.05420878]
 [329.69091821]
 [331.47930387]]


### Função custo

In [275]:
def custo_total (x, y, w, b):
    m = x.shape[0] 
    custo = 0
    for i in range(m):
        f_wb = w * x[i] + b
        custo = custo + (f_wb - y[i])**2 
    J = (1 / (2 * m)) * custo
    return J

In [276]:
custo_total(X,y, 0, 0)

array([67467.39176398])

### Função gradiente

In [277]:
def gradiente(x, y, w, b): 
    m = x.shape[0] # numero de exemplos   
    dj_dw = 0
    dj_db = 0
    # loop nos exemplos 
    for i in range(m):  
        # Primeiro calculamos o valor da função linear no exemplo i
        f_wb = w * x[i] + b 
        # Calculamos a contribuição do exemplo i para as derivadas (no somatório)
        dj_dw_i = (f_wb - y[i]) * x[i] 
        dj_db_i = f_wb - y[i] 
        # Acrescentamos a contribuição de i no valor das derivadas
        dj_db += dj_db_i
        dj_dw += dj_dw_i 
    # Ao deixar o loop, temos o valor dos somatórios associados às derivadas.
    # Ainda precisamos dividir por m
    dj_dw = dj_dw / m 
    dj_db = dj_db / m 
        
    return dj_dw, dj_db

### Gradiente Descendente

In [278]:
def gradiente_descente (x, y, w_in, b_in, alfa, num_iters, f_custo, f_gradiente): 
    # Por precaução, vamos guardar o valor de nossos chutes iniciais 
    w = copy.deepcopy(w_in) 
    J_lista = []
    parametros_lista = []
    b = b_in
    w = w_in
    # Em cada iteração i
    for i in range(num_iters):
        # Calculamos o valor das derivadas parciais com a função gradiente
        dj_dw, dj_db = f_gradiente(x, y, w ,b)     
        # Atualizamos o valor dos parâmetros w e b
        b = b - alfa * dj_db                            
        w = w - alfa * dj_dw                            
        # Salvamos o valor de J no iteração i
        J_lista.append(f_custo(x, y, w, b))
        parametros_lista.append([w,b])
    
    return w, b, J_lista, parametros_lista

Vamos normalizar os valores de X

In [279]:
from sklearn.preprocessing import MinMaxScaler

X_norm = MinMaxScaler().fit(X).transform(X)


In [280]:
X_norm[0:10]

array([[0.58355198],
       [0.33497549],
       [0.68347303],
       [0.15972567],
       [0.83344465],
       [0.        ],
       [0.61326684],
       [0.87849929],
       [0.53929278],
       [0.6243073 ]])

In [281]:
y[:10]

array([[490.78778512],
       [281.27756992],
       [288.96417806],
       [183.27561887],
       [683.49178105],
       [270.41375252],
       [380.94500312],
       [436.05420878],
       [329.69091821],
       [331.47930387]])

In [284]:
w, b, J_lista, parametros_lista = gradiente_descente (X, y, w_in = 0.0, b_in = 0.0, 
                                                     alfa = 0.00003, num_iters = 1000, 
                                                    f_custo = custo_total, f_gradiente = gradiente)

In [285]:
w, b

(array([2.10798306]), array([8.56651248e-05]))

In [258]:
# Custo Final 
J_lista[-1]

array([5135.75705664])

Vamos lembrar dos nossos valores ótimos

In [261]:
X_novo = np.concatenate([np.ones(shape=(X.shape)), X], axis=1)

w_hat = np.linalg.inv(X_novo.T.dot(X_novo)).dot(X_novo.T).dot(y)

w_hat


array([[33.73655292],
       [ 1.94092938]])