<a href="https://colab.research.google.com/github/xaximpvp2/master/blob/main/codigo_aula8_topico_adicional.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regressão linear usando Scikit-Learn

Há uma biblioteca de ferramentas open-source, e com possibilidade de uso comercial, denominada [scikit-learn](https://scikit-learn.org/stable/index.html). Essa biblioteca é vastamente utilizada no mundo e contém implementações de diversos algoritmos que iremos usar na nossa disciplina.



## Objetivos

Com este código, você irá:
- Usar o Scikit-Learn (também chamada de SK-Learn) para implementar regressão linear usando o método do gradiente

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import SGDRegressor          # Carregando ferramentas presentes na SK-learn
from sklearn.preprocessing import StandardScaler       # Carregando ferramentas presentes na SK-learn
np.set_printoptions(precision=2)

# Método do Gradiente

Scikit-learn possui o seguinte modelo de regressão baseado no método do gradiente: [sklearn.linear_model.SGDRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html#examples-using-sklearn-linear-model-sgdregressor).  

Assim como em nossas implementações anteriores do método do gradiente, o modelo performa melhor normalizando-se as suas entradas. Nesse sentido, para este fim, usaremos [sklearn.preprocessing.StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler) para realizar a normalização z-score. Aqui, a função que realiza tal normalização recebe o nome de 'standard scaler'.

### Carregando o banco de dados

In [3]:
file = open('dados_casas.txt') # As quatro primeiras colunas referem-se a características das casas.
                               # A quinta (última) coluna refere-se ao preço pelo qual tais casas foram negociadas
dados = np.loadtxt(file, delimiter=",")

X_train = dados[:,0:4]
y_train = dados[:,-1] # pega apenas a última coluna. Seria o mesmo que y = dados[:,4]

X_caracteristicas = ['Área (sqft)','quartos','andar','idade']

### Normalizando os dados

In [4]:
scaler = StandardScaler()
X_norm = scaler.fit_transform(X_train)
print(f"Intervalo pico a pico por característica/coluna nos dados originais  :{np.ptp(X_train,axis=0)}")
print(f"Intervalo pico a pico por característica/coluna nos dados escalonados:{np.ptp(X_norm,axis=0)}")

Intervalo pico a pico por característica/coluna nos dados originais  :[2.41e+03 4.00e+00 1.00e+00 9.50e+01]
Intervalo pico a pico por característica/coluna nos dados escalonados:[5.84 6.13 2.06 3.68]


### Criando e treinando o modelo de regressão

In [7]:
sgdr = SGDRegressor(max_iter=1000)
sgdr.fit(X_norm, y_train)
print(sgdr)
#print(f"Número de iterações completadas: {sgdr.n_iter_}, Número de atualizações de parâmetros: {sgdr.t_}")

SGDRegressor()


### Acessando os parâmetros ajustados para o modelo
É importante saber que os parâmetros estarão associados com os dados de entrada *normalizados*. Os valores para tais parâmetros estão bem próximos daqueles encontrados no nosso próprio código de regressão usando o gradiente.

In [8]:
b_norm = sgdr.intercept_
w_norm = sgdr.coef_
print(f"parâmetros do modelo:                   w: {w_norm}, b:{b_norm}")
print( "parâmetros do modelo (nosso código):    w: [110.61 -21.47 -32.66 -37.78], b: 362.24")

parâmetros do modelo:                   w: [110.32 -21.34 -32.51 -37.84], b:[362.25]
parâmetros do modelo (nosso código):    w: [110.61 -21.47 -32.66 -37.78], b: 362.24


### Fazendo previsões

Fazendo previsões do valor alvo para os dados de treinamento. Para isso, usaremos a rotina `predict`.

In [9]:
y_pred_sgd = sgdr.predict(X_norm)
# Opção 2: Previsão usando w,b diretamente.
y_pred = np.dot(X_norm, w_norm) + b_norm
print(f"As duas previsões são iguais? {(y_pred == y_pred_sgd).all()}")

print(f"Valores obtidos de previsão:\n{y_pred[:4]}" )
print(f"Valores alvo: \n{y_train[:4]}")

As duas previsões são iguais? True
Valores obtidos de previsão:
[248.68 295.6  485.75 389.65]
Valores alvo: 
[271.5 300.  509.8 394. ]


# Um método alternativo ao Gradiente, denominado: Equação Normal


Quando falamos especificamente da **Regressão Linear**, a biblioteca Scikit-learn também possui [uma ferramenta de regressão alternativa ao método do gradiente](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression), que implementa uma solução fechada (não iterativa) para o problema de regressão linear, e que se baseia na *Equação Normal* do problema dos mínimos quadrados linear.

Usaremos essa outra ferramenta de regressão linear fornecida pelo Scikit-Learn e compararemos com os resultados obtidos anteriormente pelo método do gradiente.


In [10]:
from sklearn.linear_model import LinearRegression # a rotina LinearRegression do Scikit learn implementa uma solução específica para esse tipo de problema, denominada Solução Fechada da Equação Normal do problema dos mínimos quadrados

modelo_LinReg = LinearRegression()
modelo_LinReg.fit(X_norm, y_train)

b_LinReg = modelo_LinReg.intercept_
w_LinReg = modelo_LinReg.coef_
print(f"parâmetros do modelo (Método Equação Normal do Scikit-learn) w: {w_LinReg}, b:{b_LinReg}")
print(f"parâmetros do modelo (Método do Gradiente do Scikit-learn) w: {w_norm}, b:{b_norm}")
print( "parâmetros do modelo (nosso Método do Gradiente):    w: [110.61 -21.47 -32.66 -37.78], b: 362.24")

parâmetros do modelo (Método Equação Normal do Scikit-learn) w: [110.61 -21.47 -32.66 -37.78], b:362.23952
parâmetros do modelo (Método do Gradiente do Scikit-learn) w: [110.32 -21.34 -32.51 -37.84], b:[362.25]
parâmetros do modelo (nosso Método do Gradiente):    w: [110.61 -21.47 -32.66 -37.78], b: 362.24


## Parabéns!
Com este código, você:
- utilizou pela primeira vez a poderosa biblioteca, Scikit-Learn!
- implementou regressão linear usando o Método do Gradiente e Normalização de características usando essa biblioteca
- implementou regressão linear usando a rotina LinearRegression (baseada na Equação Normal) dessa biblioteca.