In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

In [4]:
# Carrega o dataset
dataset = pd.read_csv("model_input.csv")

In [5]:
# Vamos chamar de features as variáveis que queremos usar
# Vamos chamar de y o que queremos prever
X = dataset[["area_limpo", "bathrooms_limpo", "rooms_limpo", "condo_limpo", "garages_limpo"]]
y = dataset["price_limpo"]

In [6]:
# Train test split, vamos embaralhar os dados guardar 20% dos dados para teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.20, random_state=12345, shuffle=True)

In [7]:
X.shape

(12137, 5)

In [8]:
X_train.shape

(9709, 5)

In [9]:
X_test.shape

(2428, 5)

In [11]:
X[:10]

Unnamed: 0,area_limpo,bathrooms_limpo,rooms_limpo,condo_limpo,garages_limpo
0,64,2.0,2.0,778.0,1.0
1,83,3.0,2.0,600.0,2.0
2,75,2.0,3.0,717.0,1.0
3,47,2.0,1.0,463.0,1.0
4,67,2.0,2.0,778.0,1.0
5,131,5.0,3.0,950.0,2.0
6,49,2.0,1.0,648.0,1.0
7,56,2.0,1.0,502.0,0.0
8,110,2.0,3.0,700.0,2.0
9,157,5.0,3.0,1550.0,2.0


In [12]:
X_train[:10]

Unnamed: 0,area_limpo,bathrooms_limpo,rooms_limpo,condo_limpo,garages_limpo
11278,44,1.0,2.0,220.0,0.0
8520,72,2.0,2.0,450.0,1.0
2045,41,1.0,1.0,350.0,0.0
10087,64,2.0,2.0,580.0,1.0
10525,52,1.0,2.0,380.0,1.0
1895,77,2.0,1.0,590.0,0.0
6714,61,2.0,2.0,600.0,1.0
2610,57,1.0,2.0,450.0,1.0
4283,253,5.0,4.0,1860.0,2.0
6095,102,3.0,3.0,816.0,2.0


In [13]:
y_train

11278    168095.0
8520     485000.0
2045     350000.0
10087    360000.0
10525    265000.0
           ...   
11689    380000.0
3492     389990.0
2177     290000.0
11749    260000.0
4578     890000.0
Name: price_limpo, Length: 9709, dtype: float64

In [11]:
# Vamos fazer uma regressao linear simples:
# w1*area + w2*banheiro + w3*quartos + w4*condo + w5*garagem = preco_previsto
# onde cada w é o peso que vamos dar para cada uma das variáveis
# Como nos vamos prever um preço e sabemos o preço real, podemos calcular o erro
# O objetivo do nosso aprendizado é encontrar os pesos que minimizam esse erro!

In [12]:
# Vamos criar uma regressão simples
model = LinearRegression(fit_intercept=False)

In [13]:
# Aplicar aos nossos dados de treino:
model.fit(X_train, y_train)

LinearRegression(fit_intercept=False)

In [14]:
# Vamos prever nos nossos dados de treino e de teste e comparar o error médio
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

In [16]:
# Erro médio percentual do treino
# Vamos calcular o erro percentual como sendo : (y real - y previsto)/y real
# Como não queremos que o positivo anule o negativo, vamos pegar o valor absoluto
# Vamos pegar a média deles
np.mean(np.abs(y_train - y_pred_train)/y_train)

0.26984243749508163

In [18]:
# O mesmo mas agora para teste e comparamos para ver se são comparáveis. 
np.mean(np.abs(y_test - y_pred_test)/y_test)

0.2730208848721318

In [19]:
# Coeficientes do modelo ("peso" calculado para cada variável)
model.coef_

array([   6742.96057555,   63460.06119565, -163901.34581316,
           546.11546263,   45021.9690481 ])