# Regressão Linear múltipla

No caso anterior, da regressõa linear simples, comparei os dados de tamanho de imóveis com preços. Mas sabemos que o valor dos imóveis não dependem apenas de seu tamanho.
Outra variável que afeta o valor dos imóveis é o ano do imóvel (e seria uma relação inversa).
Assim, com duas variáveis independentes (tamanho e ano), vou fazer uma regressão múltipla para encontrar a relação dessas duas variáveis com o preço.

## Importando bibliotecas

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
import numpy as np
import pandas as pd
import statsmodels.api as sm

## Load the data

In [3]:
data = pd.read_csv("real_estate_price_size_year.csv")
data

Unnamed: 0,price,size,year
0,234314.144,643.09,2015
1,228581.528,656.22,2009
2,281626.336,487.29,2018
3,401255.608,1504.75,2015
4,458674.256,1275.46,2009
...,...,...,...
95,252460.400,549.80,2009
96,310522.592,1037.44,2009
97,383635.568,1504.75,2006
98,225145.248,648.29,2015


In [4]:
data.describe()

Unnamed: 0,price,size,year
count,100.0,100.0,100.0
mean,292289.47016,853.0242,2012.6
std,77051.727525,297.941951,4.729021
min,154282.128,479.75,2006.0
25%,234280.148,643.33,2009.0
50%,280590.716,696.405,2015.0
75%,335723.696,1029.3225,2018.0
max,500681.128,1842.51,2018.0


## Regressão

### Declarando as variáveis

A equação da reta de regressão múltipla seria: y = b0.x0 + b1.x1 + b2.x2, sendo x0=1. Minhas variáveis independentes são tamanho e ano.

In [5]:
from sklearn.model_selection import train_test_split
from sklearn import metrics

In [10]:
y = data['price']
x1 = data[['size', 'year']]
x = sm.add_constant(x1)

In [11]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=0)

### Regression

Queremos o melhor modelo que represente essa relação entre variáveis, com a menor 'sum of square errors' (ou soma dos quadrados dos erros).

In [13]:
results = sm.OLS(y_train,x_train).fit()
results.summary()

0,1,2,3
Dep. Variable:,price,R-squared:,0.759
Model:,OLS,Adj. R-squared:,0.752
Method:,Least Squares,F-statistic:,113.4
Date:,"Mon, 06 Apr 2020",Prob (F-statistic):,5.6e-23
Time:,18:46:32,Log-Likelihood:,-892.51
No. Observations:,75,AIC:,1791.0
Df Residuals:,72,BIC:,1798.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,-3.288e+06,1.82e+06,-1.802,0.076,-6.93e+06,3.5e+05
size,221.5519,14.727,15.044,0.000,192.193,250.910
year,1683.7572,905.649,1.859,0.067,-121.622,3489.136

0,1,2,3
Omnibus:,6.734,Durbin-Watson:,1.81
Prob(Omnibus):,0.034,Jarque-Bera (JB):,2.78
Skew:,0.119,Prob(JB):,0.249
Kurtosis:,2.087,Cond. No.,954000.0


Na regressão linear simples o R²-ajustado foi de 0.742, logo, acrescentar uma variável aumentou o poder preditivo do modelo. É importante ressaltar que todos os valores de p-valor para os coeficientes calculados são 0.000 (menores que 0,025, se considerarmos um intervalo de confiança de 95%), ou seja, são importantes para meu modelo.

A equação da regressão seria: ŷ = -5.772e+06 + 227.7009.x1 + 2916.7853.x2. Essa equação deve ser utilizada para prever preços a partir de valores de tamanho de imóveis (x1) e ano (x2).

In [14]:
y_pred = results.predict(x_test)
y_pred

26    236480.616024
86    196083.286309
2     217958.874119
55    444285.255018
75    261868.252446
93    264706.332755
16    262989.305246
73    226756.814128
54    248402.438340
95    216654.271024
53    251056.968354
92    258819.810402
78    246001.040555
13    333600.122980
7     227337.618014
30    313634.312864
22    372460.445275
24    211339.240064
33    221441.783167
8     261154.855210
43    390417.454950
62    372055.005231
3     438327.836045
71    232342.476264
45    259655.061203
dtype: float64

In [15]:
print('Explained Variance Score', metrics.explained_variance_score(y_test, y_pred)) 
#The best possible score is 1.0, lower values are worse.
print('Max Error:', (metrics.max_error(y_test, y_pred)))
# maior real - predito
print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))
# MAE = (real - predito) / n, erro médio
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))
# RMSE = raiz do quadrado do anterior
print('Median Squared Error:', metrics.median_absolute_error(y_test, y_pred))
# mediana dos (real - predito)
print('R² score:', metrics.r2_score(y_test, y_pred))

Explained Variance Score 0.8024835625159159
Max Error: 85152.88501999114
Mean Absolute Error: 34259.84698709517
Root Mean Squared Error: 40087.619838538245
Median Squared Error: 35806.12897564712
R² score: 0.7905333047681584


### Visualização

Não há como visualizar os dados em gráficos simples, já que não estamos mais falando em uma questão em duas dimensões.