# House Price Predictor utilizando Decision Tree e Random Forest 

Exemplo utilizando pandas para a leitura dos dados e sklearn para ML

A base de dados vem da competição House Prices: Advanced Regression Techniques (https://www.kaggle.com/c/house-prices-advanced-regression-techniques)

O código desenvolvido foi baseado no seguinte tutorial (https://www.kaggle.com/dansbecker/how-models-work)

In [None]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor

from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split

In [None]:
file_path = '../databases/housePrices/train.csv'
data = pd.read_csv(file_path)

data.columns

In [None]:
data.head()

In [None]:
data['LotArea'].plot()

In [None]:
# Escolhendo atributo que será o alvo da predição
price_data = data.SalePrice
y = price_data

# Escolhendo atributos que serão utilizados para fazer a predição
predictors = ['LotArea', 'GarageArea', 'YearBuilt', 'BedroomAbvGr']
X = data[predictors]

by_year_lotArea = data[['YearBuilt', 'LotArea']].groupby('YearBuilt').aggregate(np.sum)
by_year_lotArea.plot()

### Regressão Linear Simples

In [None]:
# Separando dados em treino, testes e validadores
train_X, test_X, train_y, test_y = train_test_split(X, y,random_state = 0)

In [None]:
# Criando um modelo
lr_model = LinearRegression()
lr_model.fit(train_X, train_y)

In [None]:
# Novo registro
newHouse = test_X.head(1)
newHousePrice = test_y.head(1)
newHouse

In [None]:
# Realizando uma predição
price = lr_model.predict(newHouse)

In [None]:
# Resultado de uma predição
print('Preço sugerido para a nova casa -> US$ ' + str(price[0]))
print('Preço real da casa -> US$ ' + str(newHousePrice.values[0]))

In [None]:
# Calculando erro médio absoluto de várias predições
preds = lr_model.predict(test_X)
print(mean_absolute_error(test_y, preds))

### Outros modelos

#### DecisionTree com toda a base, sem separar em treino/teste

In [None]:
model = DecisionTreeRegressor()

model.fit(X,y)

predicted_prices = model.predict(X)
mean_absolute_error(y, predicted_prices)

In [None]:
#função para avaliar o MAE variando o numero de leafs
def get_mae(max_leaf_nodes, predictors_train, predictors_val, targ_train, targ_val):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(predictors_train, targ_train)
    preds_val = model.predict(predictors_val)
    mae = mean_absolute_error(targ_val, preds_val)
    return(mae)


#### DecisionTree separando os dados em treino/teste

In [None]:
for max_leaf_nodes in [5, 50, 500, 5000]:
    my_mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
    print("Max leaf nodes: %d  \t\t Mean Absolute Error:  %d" %(max_leaf_nodes, my_mae))

#### RandomForest separando os dados em treino/teste

In [None]:
forest_model = RandomForestRegressor()
forest_model.fit(train_X, train_y)
preds = forest_model.predict(val_X)
print(mean_absolute_error(val_y, preds))