### SGDRegressor

+ A biblioteca Scikit-Learn disponibiliza a classe `SGDRegressor` para realizar regressão linear utilizando o algoritmo do **Gradiente Descendente Estocástico**.
+ A classe possui vários parâmetros que podem ser configurados (e.g., tipo de função de erro, esquema de variação do passo de aprendizagem, etc.).
+ Após instanciarmos um objeto dessa classe, o treinamento é feito com o método `fit` e a predição é feita com o método `predict`.
+ Os pesos são acessados, **após o treinamento**, através dos atributos `intercept_` e `coef_` do objeto da classe `SGDRegressor`.
+ Não conseguimos implementar as versões em batelada e mini-batch com esta classe.
+ Para mais informações sobre a classe `SGDRegressor`, acesse sua documentação: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html

<img src="https://raw.githubusercontent.com/zz4fap/t319_aprendizado_de_maquina/main/figures/scikitlearn.png" width="300px">

In [1]:
import numpy as np
import random

# Importamos a classe SGDRegressor do módulo Linear da biblioteca sklearn.
from sklearn.linear_model import SGDRegressor

In [2]:
# Reseta gerador de sequências pseudo-aleatórias.
random.seed(42)

#### Gerando o conjunto de treinamento.

A função objetivo do exemplo é dada por: $y = a_1 x_1 + a_2 x_2$, onde $a_1=2$ e $a_2=4$.

A função hipótese que iremos usar tem o seguinte formato: $h(x) = \hat{a}_1 x_1 + \hat{a}_2 x_2$, onde $\hat{a}_1$ e $\hat{a}_2$ são os parâmetros (ou seja, os pesos) que queremos encontrar.

**OBS**.: Percebam que não temos peso de bias (ou intercept), $a_0$, e, portanto, não precisamos do atributo de bias (valor sempre igual a 1).

In [3]:
# Número de exemplos
N = 1000

# Atributos.
x1 = np.random.randn(N, 1)
x2 = np.random.randn(N, 1)

# Ruído.
w = np.random.randn(N, 1)

# Modelo gerador.
y = 2*x1 + 4*x2

# Função observável.
y_noisy = y + w

#### Instancia o regressor baseado no gradiente descendente estocástico. 


**OBS**.: Como o modelo gerador e a função hipótese não tem o peso $a_0$ (intercept/bias), não precisamos encontrá-lo. Para fazer com que a classe `SGDRegressor` não estime o valor de $a_0$, configuramos o parâmetro `fit_intercept` da classe `SGDRegressor` com o valor `False`, ou seja `'fit_intercept=False'`.

In [4]:
# Instancia a classe SGDRegressor.
sgd_reg = SGDRegressor(fit_intercept=False)

#### Treina o regressor.

Como a função hipótese utilizada neste exemplo tem o seguinte formato: $h(x) = \hat{a}_1 x_1 + \hat{a}_2 x_2$, então, precisamos criar uma matriz de atributos que concatene os dois vetores coluna, $x_1$ e $x_2$.

**OBS**.: O método `fit` espera que os rótulos tenham apenas uma dimensão, portanto, o método `ravel()` converte o vetor coluna (duas dimensões) em uma array com apenas uma dimensão.

In [5]:
# Concatena os vetores coluna x1 e x2.
X = np.c_[x1, x2]

# Treina o modelo.
sgd_reg.fit(X, y.ravel())

# O atributo n_iter_ da classe SGDRegressor retorna o número de iterações que foram necessárias até que o algoritmo pare de treinar.
print('Number of iterations:', sgd_reg.n_iter_)

Number of iterations: 9


#### Realiza predições com o regressor.

In [6]:
# Faz previsão com o modelo treinado.
y_pred = sgd_reg.predict(X)

#### Cálculo do erro quadrático médio (MSE).

**OBS**.: Observe que é feito o reshape do vetor `y_pred`, pois ele é apenas uma array com um única dimensão e para realizar o cálculo do MSE, espera-se vetores coluna.

In [7]:
Jgde = (1.0/N)*np.sum(np.square(y_noisy - y_pred.reshape(N, 1)))
print('Jgde:', Jgde)

Jgde: 0.9607751023749168


#### Imprime os pesos encontrados pelo GDE.

**OBS**.: Como não configuramos a classe `SGDRegressor` para estimar o valor de $a_0$, o atributo `intercept_` da classe terá valor igual a `0`.

In [8]:
# Imprime os valores encontrados pelo GDE.
print('a0: %1.4f' % (sgd_reg.intercept_))
print('a1: %1.4f' % (sgd_reg.coef_[0]))
print('a2: %1.4f' % (sgd_reg.coef_[1]))

a0: 0.0000
a1: 1.9998
a2: 3.9996
