O seguinte trabalho se baseia na aplicação de Gradient Descent para otimização de parâmetros de um modelo de Linear Regression.

* Linear Regression:

LR é um algorítmo de aprendizagem de máquina de regressão que aprende através da combinação linear das features do input.

Dado um conjunto de exemplos com label:

${(\vec{x_i},y_i)}_{i=1}^{N}$

Onde o vetor $\vec{x_{i}}$ representa a feature da linha $i$ e $y_{i}$ sua respectiva label.

$N$ representa o tamanho da coleção (número de linhas).

* Objetivo:

Construir uma função $f_{\vec{w},b}(\vec{x})$ como uma combinação linear de $\vec{x}$:

$f_{\vec{w},b}(\vec{x}) = \vec{w}.\vec{x} + b$

Onde $\vec{w}$ é um vetor de mesma dimensão da feature e $b$ é um número real.

A label $y_{i}$ recebe o valor de $f_{\vec{w},b}(\vec{x_{i}})$ como sua previsão. Para a previsão do modelo ser precisa é necessário otimizar os valores dos parâmetros $(\vec{w},b)$. O valor otimizado destes parâmetros é determinado minimizando a seguinte função ($S$):

$S = \dfrac{1}{N}\sum_{i=1}^{N}[y_i - f_{\vec{w},b}(\vec{x})]^2$

E esta otimização pode ser realizada através de Gradient Descent.

* Gradient Descent:

Método de otimização de algorítmos para determinar o mínimo de uma função.

Inicialmente, toma-se a derivada parcial da função ($S$) em relação aos parâmetros a serem otimizado:

$\dfrac{\partial S}{\partial w} = \dfrac{1}{N}\sum_{i=1}^{N}-2x_{i}[y_i - (wx_{i}+b)]$

$\dfrac{\partial S}{\partial b} = \dfrac{1}{N}\sum_{i=1}^{N}-2[y_i - (wx_{i}+b)]$

Em seguida os dados de treino são utilizados para atualizar o conjunto de parâmetros:

$w\leftarrow w -\alpha \dfrac{\partial S}{\partial w}$

$b \leftarrow b -\alpha \dfrac{\partial S}{\partial b}$

Partindo de $w=0$ e $b=0$. $\alpha$ é um hiperparâmetro do modelo que dita o quão rápido é a aprendizagem de atualização dos parâmetros a cada epoch.

O procedimento é repetido até a convergencia de $(\vec{w},b)$ para os valores otimizados $(\vec{w}^*,b^*)$.

* Aplicando o Gradient Descent:

Importando um dataset para aplicar o método:

In [70]:
import pandas as pd

data = pd.read_csv('Advertising.csv')

In [71]:
data.head()

Unnamed: 0.1,Unnamed: 0,TV,radio,newspaper,sales
0,1,230.1,37.8,69.2,22.1
1,2,44.5,39.3,45.1,10.4
2,3,17.2,45.9,69.3,9.3
3,4,151.5,41.3,58.5,18.5
4,5,180.8,10.8,58.4,12.9


Para simplificar o problema, utilizaremos uma unica feature (radio) para prever a label 'sales':

In [72]:
x = data['radio']
y = data['sales']

* Código para o Gradient Descent:

Função para atualizar o valor dos parâmetros:

In [73]:
def update_wb(x, y, w, b, alpha):

    # Valores iniciais de w e b e numero de linhas do dataset:
    dS_dw = 0
    dS_db = 0
    N = len(x)

    # Iterando o gradiente por todas as linhas do dataset:

    for i in range(N):
        dS_dw += -2*(x[i]*y[i]-(w*x[i]+b))
        dS_db += -2*(y[i]-(w*x[i]+b))

    # atualização dos parâmetros:
        
    w = w - (1/float(N))*alpha*dS_dw
    b = b - (1/float(N))*alpha*dS_db

    return w, b

Função para calcular o erro médio:

In [74]:
def err_med(x, y, w, b):
    N = len(x)
    erro = 0

    for i in range(N):
        erro += (y[i] - (w*x[i]+b))**2

    return erro/float(N)

Fazendo um loop sobre multiplos epochs:

In [75]:
def treino(x, y, w, b, alpha, epochs):

    # faz "e" epochs da atualização dos parâmetros:
    for e in range(epochs):
        w, b = update_wb(x, y, w, b, alpha)

        # retorna um log do número de epochs e os respectivos erros:
        # retornando apenas para epochs multiplos de 1000*
        if e%1000 == 0:
            print(f'epoch: {e}, loss: {err_med(x, y, w, b)}')

    return w, b

Treino para $\alpha = 0,001$, $w=0$, $b=0$ e $e=15000$:

In [76]:
treino(x,y,0,0,0.001,15000)

epoch: 0, loss: 92.32078294903626


epoch: 1000, loss: 25.9534763777287
epoch: 2000, loss: 20.57459375662496
epoch: 3000, loss: 18.876170218021276
epoch: 4000, loss: 18.33987992881413
epoch: 5000, loss: 18.17054214718263
epoch: 6000, loss: 18.117072440822145
epoch: 7000, loss: 18.100188969982213
epoch: 8000, loss: 18.094857884270205
epoch: 9000, loss: 18.0931745529731
epoch: 10000, loss: 18.09264302817517
epoch: 11000, loss: 18.092475195134053
epoch: 12000, loss: 18.092422200561078
epoch: 13000, loss: 18.092405467117242
epoch: 14000, loss: 18.092400183403708


(0.20254581129464883, 9.310003218435126)

Agora conhecendo os valores optimizados $(\vec{w}^*,b^*)$, podemos utlilizar o modelo ($f_{\vec{w},b}(\vec{x_{i}})$) para prever o valor da label {$y_i$} dada feature {$x_i$}:

In [77]:
def prev(x, w, b):
    return w*x +b

In [78]:
w, b = treino(x, y, 0, 0, 0.001, 15000)

x_teste = 23

y_teste = prev(x_teste, w, b)

epoch: 0, loss: 92.32078294903626
epoch: 1000, loss: 25.9534763777287
epoch: 2000, loss: 20.57459375662496
epoch: 3000, loss: 18.876170218021276
epoch: 4000, loss: 18.33987992881413
epoch: 5000, loss: 18.17054214718263
epoch: 6000, loss: 18.117072440822145
epoch: 7000, loss: 18.100188969982213
epoch: 8000, loss: 18.094857884270205
epoch: 9000, loss: 18.0931745529731
epoch: 10000, loss: 18.09264302817517
epoch: 11000, loss: 18.092475195134053
epoch: 12000, loss: 18.092422200561078
epoch: 13000, loss: 18.092405467117242
epoch: 14000, loss: 18.092400183403708


In [79]:
print(f'Valor previsto para a label: {round(y_teste, 2)}')

Valor previsto para a label: 13.97
