# Capitulo 5 - Scikit-learn
## Construção de um modelo de Regressão Linear

Vamos construir um modelo de regressão linear, utilizando a biblioteca scikit-learn para prever o valor médio de imoveis.

Para treinar o nosso modelo vamos utilizar a base de dados de moradias de Boston (Boston Housing Dataset)
https://scikit-learn.org/stable/datasets/index.html#boston-dataset

Esse modelo aprenderá a relação linear entre o atributo target (atributo predito) e todos os outros atributos (atributos preditores). Depois do aprendizado, o modelo será capaz de prever o valor para atributo target de outras moradias.

1. Carregamento do conjunto de dados
2. Defininição dos atributos preditores e o atributo target 

In [10]:
from sklearn.datasets import load_boston
boston = load_boston()

X = boston.data
y = boston.target

3. Divisão dos conjuntos de dados para treino e teste

In [11]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

4. Criação, treinamento e otimização do modelo de regressão linear <br/>
A otimização do modelo é um processo iterativo de ajustes nos parâmetros do treinamento. Esse processo deve ser realizado enquanto a métrica obtida na avaliação não alcançar o valor desejado.<br/><br/>Nesse exemplo foi utilizada a métrica R2 (Coeficiente de Determinação), que basicamente determina o quanto o modelo consegue explicar os valores observados durante o treinamento. Quanto mais próximo de 1 mais explicativo é o modelo.

In [4]:
from sklearn import linear_model
modelo = linear_model.LinearRegression(normalize = False)

modelo.fit(X_train,y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

5. Avaliação do modelo de regressão linear

In [5]:
modelo.score(X_test, y_test)

0.7258515818230065

6. Realização de previsões com o modelo

In [9]:
import pandas as pd
dataFrame = pd.DataFrame(X[:10], columns=boston.feature_names)
dataFrame['esperado'] = y[:10]
dataFrame['previsão'] = modelo.predict(X)[:10]

dataFrame.head(10)


Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,esperado,previsão
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0,29.996284
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6,24.759312
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7,30.715882
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4,28.696927
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2,27.881101
5,0.02985,0.0,2.18,0.0,0.458,6.43,58.7,6.0622,3.0,222.0,18.7,394.12,5.21,28.7,25.069614
6,0.08829,12.5,7.87,0.0,0.524,6.012,66.6,5.5605,5.0,311.0,15.2,395.6,12.43,22.9,22.834294
7,0.14455,12.5,7.87,0.0,0.524,6.172,96.1,5.9505,5.0,311.0,15.2,396.9,19.15,27.1,18.84737
8,0.21124,12.5,7.87,0.0,0.524,5.631,100.0,6.0821,5.0,311.0,15.2,386.63,29.93,16.5,10.460168
9,0.17004,12.5,7.87,0.0,0.524,6.004,85.9,6.5921,5.0,311.0,15.2,386.71,17.1,18.9,18.410251
