**Identificação**: Diego Calbo Rech, Thomas Dahlin Dias Schuster (2444488)



# Inferência de valores de compra e venda de imóveis.

As estruturas do mercado imobiliário americano foram impactadas crucialmente e a longo prazo pela pandemia de Covid-19. Mas o setor deve manter o otimismo. Um relatório anual da Universidade de Harvard avaliou que o país está atingindo marcas históricas, apesar da disparidade habitacional estar mais acentuada desde o surgimento do novo coronavírus.


Atingindo o maior número desde 2006, no ano passado, o mercado imobiliário americano chegou a contabilizar 1,38 milhão de novas unidades habitacionais em construção. Registrou também um aumento de 5,6% nas vendas de residências unifamiliares existentes em 2020 como um todo, em comparação com o ano anterior. Ao passo que a comercialização de novas residências subiu 20,4% no mesmo período.



## **Objetivo**

Esse projeto tem como objetivo aplicar algoritmos de machine learning na inferência de valores para compra e venda de imóveis.

O dataset utilizado possui informações como quantidade de quartos, banheiros, tamanho em metros quadrados, etc. de imóveis na região de King County nos Estados Unidos.

## **Especificação Técnica**

Dataset: Para desenvolvimento desse projeto, será utilizado o dataset
denominado kc_house_data, disponível em: < https://www.kaggle.com/harlfoxem/housesalesprediction >.

Formato: A base de dados está em formato CSV separado por vírgulas(,), possui 21.615 linhas dividas em 21 colunas que possuem dados sobre características, data e preço de venda de imóveis em King County nos Estados Unidos.

## Schema do dataset


| Nome da coluna | Tipo       |
|-------         | ----       |
|id              |   String   |
|date            |   String   |
|price           |   String   |
|bedrooms        |   Int      |
|bathrooms       |   Int      |
|sqft_living     |   Int      |
|sqft_lot        |   Int      |
|floors          |   String   |
|waterfront      |   Int      |
|view            |   Int      |
|condition       |   Int      |
|grade           |   Int      |
|sqft_above      |   Int      |
|sqft_basement   |   Int      |
|yr_built        |   Int      |
|yr_renovated    |   Int      |
|zipcode         |   String   |
|lat             |   Float    |
|long            |   Float    |
|sqft_living15   |   Int      |
|sqft_lot15      |   Int      |








## Métodos de Pŕe-processamento: 
    - Pela pesquisa feita o dataset não possuía valores nulos pudessem atrapalhar a análise dos modelos.
    - Removemos colunas(`id`, `data`) que não seriam necessárias para o treino dos modelos.
    - Removemos a coluna `preço` que representa o objetivo da predição dos modelos.  



## Métricas: 

Como métricas utilizamos: 
    - o Valor do Erro Quadrático Médio(MAE); 
    - a Porcentagem da Média do Erro Absoluto(MAPE);
    - o Coeficiente de Determinação(R²).
    - e a Acurácia do modelo.



## Algoritmos Avaliados: 

Serão avaliados os algoritmos Linear Regression, Ridge Regression e Random Forest Regression. 






# Importando as bibliotecas

In [80]:
import pandas as pd # Leitura e manipulação de dados
import numpy as np # Cálculos e manipulação de dados
%matplotlib inline 
# import matplotlib.pyplot as plt
import seaborn as sns
color = sns.color_palette()
sns.set_style('darkgrid')
import warnings
warnings.filterwarnings('ignore')
# from sklearn import linear_model as lm
from sklearn import model_selection as ms
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
pd.options.display.max_columns = 21 # para visualizar todas as colunas

# Leitura e Visualização dos Dados

In [81]:
dados = pd.read_csv('kc_house_data.csv')
# https://www.kaggle.com/harlfoxem/housesalesprediction
dados.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,3,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,3,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,5,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,3,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


* Checando se existem valores nulos.

In [82]:
# Descrição do schema do dataset
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             21613 non-null  int64  
 1   date           21613 non-null  object 
 2   price          21613 non-null  float64
 3   bedrooms       21613 non-null  int64  
 4   bathrooms      21613 non-null  float64
 5   sqft_living    21613 non-null  int64  
 6   sqft_lot       21613 non-null  int64  
 7   floors         21613 non-null  float64
 8   waterfront     21613 non-null  int64  
 9   view           21613 non-null  int64  
 10  condition      21613 non-null  int64  
 11  grade          21613 non-null  int64  
 12  sqft_above     21613 non-null  int64  
 13  sqft_basement  21613 non-null  int64  
 14  yr_built       21613 non-null  int64  
 15  yr_renovated   21613 non-null  int64  
 16  zipcode        21613 non-null  int64  
 17  lat            21613 non-null  float64
 18  long  

In [83]:
# Descrição dos dados
dados.describe()

Unnamed: 0,id,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
count,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0
mean,4580302000.0,540088.1,3.370842,2.114757,2079.899736,15106.97,1.494309,0.007542,0.234303,3.40943,7.656873,1788.390691,291.509045,1971.005136,84.402258,98077.939805,47.560053,-122.213896,1986.552492,12768.455652
std,2876566000.0,367127.2,0.930062,0.770163,918.440897,41420.51,0.539989,0.086517,0.766318,0.650743,1.175459,828.090978,442.575043,29.373411,401.67924,53.505026,0.138564,0.140828,685.391304,27304.179631
min,1000102.0,75000.0,0.0,0.0,290.0,520.0,1.0,0.0,0.0,1.0,1.0,290.0,0.0,1900.0,0.0,98001.0,47.1559,-122.519,399.0,651.0
25%,2123049000.0,321950.0,3.0,1.75,1427.0,5040.0,1.0,0.0,0.0,3.0,7.0,1190.0,0.0,1951.0,0.0,98033.0,47.471,-122.328,1490.0,5100.0
50%,3904930000.0,450000.0,3.0,2.25,1910.0,7618.0,1.5,0.0,0.0,3.0,7.0,1560.0,0.0,1975.0,0.0,98065.0,47.5718,-122.23,1840.0,7620.0
75%,7308900000.0,645000.0,4.0,2.5,2550.0,10688.0,2.0,0.0,0.0,4.0,8.0,2210.0,560.0,1997.0,0.0,98118.0,47.678,-122.125,2360.0,10083.0
max,9900000000.0,7700000.0,33.0,8.0,13540.0,1651359.0,3.5,1.0,4.0,5.0,13.0,9410.0,4820.0,2015.0,2015.0,98199.0,47.7776,-121.315,6210.0,871200.0


In [84]:
# Contagem de valores nulos
dados.isnull().sum()

id               0
date             0
price            0
bedrooms         0
bathrooms        0
sqft_living      0
sqft_lot         0
floors           0
waterfront       0
view             0
condition        0
grade            0
sqft_above       0
sqft_basement    0
yr_built         0
yr_renovated     0
zipcode          0
lat              0
long             0
sqft_living15    0
sqft_lot15       0
dtype: int64

# Preparação de Dados

> Dropando/Excluindo colunas:

 - id -> Não é usado durante treinamento.
 - data -> Não é usado durante treinamento.
 - preço -> Coluna representa o objetivo do projeto.

In [85]:
# Features
# excluindo colunas de preços e de datas
X = dados.drop (['id', 'price', 'date'], axis=1)

# Response
# copiando a coluna de preços na y_train, pois é a "variavel de resposta"
y = dados['price'].copy()


In [86]:
# Dividindo o dataset em treino e teste
# Separamos 20% para testes

X_train, X_test, y_train, y_test = ms.train_test_split(X, y, test_size=0.2, random_state=42)

In [87]:
total = dados.shape[0]

print(f'''
    Quantidade dos dados de treino: {X_train.shape[0]}({(X_train.shape[0]/total)*100:.2f}% dos dados). 
    Quantidade dos dados de teste: {X_test.shape[0]}({(X_test.shape[0]/total)*100:.2f}% dos dados). 
    Total de dados: {total}.
    ''')


    Quantidade dos dados de treino: 17290(80.00% dos dados). 
    Quantidade dos dados de teste: 4323(20.00% dos dados). 
    Total de dados: 21613.
    


In [88]:
# Primeiras linhas da x_train sem as colunas de preço e de data
X_train.head()

Unnamed: 0,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
6325,3,1.75,1780,13095,1.0,0,0,4,9,1780,0,1983,0,98042,47.367,-122.152,2750,13095
13473,2,1.0,1000,3700,1.0,0,0,3,6,800,200,1929,0,98118,47.552,-122.29,1270,5000
17614,3,1.0,1080,7486,1.5,0,0,3,6,990,90,1942,0,98146,47.4838,-122.335,1170,7800
16970,3,2.25,2090,7500,1.0,0,0,4,7,1280,810,1977,0,98031,47.3951,-122.172,1800,7350
20868,2,2.5,1741,1439,2.0,0,0,3,8,1446,295,2007,0,98034,47.7043,-122.209,2090,10454


In [89]:
# y_train somente os preços 
y_train.head()

6325     325000.0
13473    257000.0
17614    228500.0
16970    288000.0
20868    479000.0
Name: price, dtype: float64

# Análise de Modelos

## Linear Regression

A regressão linear é um método estatístico para examinar a relação entre uma variável dependente, denotada como y, e uma ou mais variáveis ​​independentes, denotadas como x. A variável dependente deve ser contínua, pois pode assumir qualquer valor, ou pelo menos próximo de contínuo. As variáveis ​​independentes podem ser de qualquer tipo. 

Embora a regressão linear não possa mostrar a causação por si só, a variável dependente é geralmente afetada pelas variáveis ​​independentes.

In [104]:
from sklearn.linear_model import LinearRegression
# Instância do modelo
modelo_rl = LinearRegression(normalize=False)

# Treinamento do modelo 
modelo_rl.fit(X_train, y_train)

LinearRegression(normalize=False)

In [91]:

# Predição do treino
lr_pred_train = modelo_rl.predict(X_train)
# Erro Quadrático Médio do treino 
print(f'Valor do Erro Quadrático Médio do treino: {mean_squared_error(y_train, lr_pred_train)}')

# Predição do teste
lr_pred_test = modelo_rl.predict(X_test)
# Erro Quadrático Médio do teste
print(f'Valor do Erro Quadrático Médio do teste: {mean_squared_error(y_test, lr_pred_test)}')


Valor do Erro Quadrático Médio do treino:39311882352.2328
Valor do Erro Quadrático Médio do teste:45173046132.78781


## Ridge Regression

É um método de regularização do modelo que tem como principal objetivo suavizar atributos que sejam relacionados uns aos outros e que aumentam o ruído no modelo, podendo causar `overfitting`. Com a retirada de determinados atributos do modelo, o mesmo converge para um resultado muito mais estável.

In [92]:
from sklearn.linear_model import Ridge
# Instância do modelo
modelo_ridge = Ridge(alpha=0.5)

# Treino do modelo
modelo_ridge.fit(X_train, y_train)


Ridge(alpha=0.5)

In [93]:
# Predição do treino
rr_pred_train = modelo_ridge.predict(X_train)
# Erro Quadrático Médio do treino 
print(f'Valor do Erro Quadrático Médio do treino: {mean_squared_error(y_train, rr_pred_train)}')

# Predição do teste
rr_pred_test = modelo_ridge.predict(X_test)
# Erro Quadrático Médio do teste
print(f'Valor do Erro Quadrático Médio do teste: {mean_squared_error(y_test, rr_pred_test)}')


Valor do Erro Quadrático Médio do treino: 39311948026.90661
Valor do Erro Quadrático Médio do teste: 45178996874.09322


## Random Forest Regression

É uma generalização da operação Árvore de Decisão, em que se utiliza um conjunto de árvores de decisão (aleatórias) a fim de minimizar o sobreajuste (overfitting) de cada modelo individual de árvore gerado para os dados de entrada.

In [94]:
from sklearn.ensemble import RandomForestRegressor

# Instância do modelo
modelo_forest = RandomForestRegressor(n_estimators = 10, random_state = 0)

# Treino do modelo
modelo_forest.fit(X_train, y_train)

RandomForestRegressor(n_estimators=10, random_state=0)

In [95]:
# Predição do treino
rfr_pred_train = modelo_forest.predict(X_train)
# Erro Quadrático Médio do treino 
print(f'Valor do Erro Quadrático Médio do treino: {mean_squared_error(y_train, rfr_pred_train)}')

# Predição do teste
rfr_pred_test = modelo_forest.predict(X_test)
# Erro Quadrático Médio do teste
print(f'Valor do Erro Quadrático Médio do teste: {mean_squared_error(y_test, rfr_pred_test)}')

Valor do Erro Quadrático Médio do treino: 3415541986.533929
Valor do Erro Quadrático Médio do teste: 27459896269.572887


# Métricas de Desempenho

### Métricas da Linear Regression

In [96]:
lr_r2 = r2_score(y_test, lr_pred_test)*100
print(f'Linear Regression R score: {round(lr_r2,2)}%')

acuracia = modelo_rl.score(X_test, y_test)
print(f'Linear Regression Acurácia: {int(round(acuracia * 100))}%')

Linear Regression R score: 70.12%
Linear Regression Acurácia: 70%


In [97]:
# Média do erro absoluto do treino 
# MAE -> Mean Absolute Error 
lr_mae_train = mean_absolute_error(y_train, lr_pred_train)

# Porcentagem da média do erro absoluto do treino 
# MAPE -> Mean Absolute Percentage Error 
lr_mape_train = np.mean(np.abs((y_train - lr_pred_train) / y_train))

# Média do erro absoluto do teste 
lr_mae_test = mean_absolute_error(y_test, lr_pred_test)
# Porcentagem da média do erro absoluto do teste 
lr_mape_test = np.mean(np.abs((y_test - lr_pred_test) / y_test))



lr_data = {
    'Dataframe':['training', 'test'],
    'MAE': [lr_mae_train, lr_mae_test],
    'MAPE':[lr_mape_train, lr_mape_test]
}
pd.DataFrame(lr_data)

Unnamed: 0,Dataframe,MAE,MAPE
0,training,125033.164938,0.255405
1,test,127493.342087,0.249543


In [98]:
df1 = dados.copy()

# Deixamos o dataset com o tamanho exato ao utilizado no treino
df1 = df1[0:17290]
df1['lr_pred'] = lr_pred_train


df1[['price', 'lr_pred']].head()

Unnamed: 0,price,lr_pred
0,221900.0,487301.301235
1,538000.0,244429.831042
2,180000.0,146433.189553
3,604000.0,374834.711028
4,510000.0,564846.853055


### Métricas da Ridge Regression

In [99]:
rr_r2 = r2_score(y_test, rr_pred_test)*100
print(f'Ridge Regression R score: {round(rr_r2,2)}%')

acuracia = modelo_ridge.score(X_test, y_test)
print(f'Ridge Regression Acurácia: {int(round(acuracia * 100))}%')

Ridge Regression R score: 70.12%
Ridge Regression Acurácia: 70%


In [100]:
# Média do erro absoluto do treino
rr_mae_train = mean_absolute_error(y_train, rr_pred_train)

# Porcentagem da média do erro absoluto do treino 
rr_mape_train = np.mean(np.abs((y_train - rr_pred_train) / y_train))

# Média do erro absoluto do teste 
rr_mae_test = mean_absolute_error(y_test, rr_pred_test)
# Porcentagem da média do erro absoluto do teste 
rr_mape_test = np.mean(np.abs((y_test - rr_pred_test) / y_test))


rr_data = {
    'Dataframe':['training', 'test'],
    'MAE': [rr_mae_train, rr_mae_test],
    'MAPE':[rr_mape_train, rr_mape_test]
}
pd.DataFrame(rr_data)

Unnamed: 0,Dataframe,MAE,MAPE
0,training,125024.001005,0.255363
1,test,127490.410798,0.249511


In [101]:
df1['rr_pred'] = rr_pred_train


df1[['price', 'lr_pred', 'rr_pred']].head()

Unnamed: 0,price,lr_pred,rr_pred
0,221900.0,487301.301235,487472.956459
1,538000.0,244429.831042,244489.919293
2,180000.0,146433.189553,146547.572529
3,604000.0,374834.711028,374963.657877
4,510000.0,564846.853055,564643.435287


### Métricas da Random Forest Regression

In [102]:
rfr_r2 = r2_score(y_test, rfr_pred_test)*100
print(f'Ridge Regression R score: {round(rfr_r2,2)}%')

acuracia = modelo_forest.score(X_test, y_test)
print(f'Ridge Regression Acurácia: {int(round(acuracia * 100))}%')

Ridge Regression R score: 81.84%
Ridge Regression Acurácia: 82%


In [1]:
# Média do erro absoluto do treino 
rfr_mae_train = mean_absolute_error(y_train, rfr_pred_train)

# Porcentagem da média do erro absoluto do treino 
rfr_mape_train = np.mean(np.abs((y_train - rfr_pred_train) / y_train))

# Média do erro absoluto do teste 
rfr_mae_test = mean_absolute_error(y_test, rfr_pred_test)
# Porcentagem da média do erro absoluto do teste 
rfr_mape_test = np.mean(np.abs((y_test - rfr_pred_test) / y_test))


rfr_data = {
    'Dataframe':['training', 'test'],
    'MAE': [rfr_mae_train, rfr_mae_test],
    'MAPE':[rfr_mape_train, rfr_mape_test]
}
pd.DataFrame(rfr_data)

NameError: name 'mean_absolute_error' is not defined

# Resultado

Com base nas métricas utilizadas avaliamos o modelo Random Forest Regression como a melho opção a ser utilizada neste caso. 

Ele apresentou tanto a maior taxa de acurácia quanto uma menor valor de erro médio.