# 1 - Introdução

O objetivo do projeto é apresentar um modelo de regressão linear múltipla com código sucinto e uma explicação clara aplicada para predição da variável 'SalePrice' à partir do dataset 'Daegu_Real_Estate_data.csv'. A base apresenta os preços de venda da cidade de Daegu, Coréia do Sul, entre o período de agosto de 2007 e agosto de 2017. Dataset retirado da plataforma Kaggle: https://www.kaggle.com/gunhee/koreahousedata.

Comentários e sugestões são bem vindos.

O projeto está dividido nas seguintes seções:

1 - Introdução

2 - Importação de bibliotecas

3 - Carregamento de dados

4 - Tratamento de dados

    4.1 - Transformação em variável dummy
    4.2 - Transformação logarítimica
    4.3 - Definição de variáveis
    4.4 - Divisão do dataset em linhas de teste e de treino
     

5 - Treinamento do modelo

6 - Métricas de performance

7 - Conclusão

8 - Referências

# 2 - Importação de bibliotecas

In [1]:
import pandas as pd
import numpy as np

from sklearn import metrics as m
from sklearn import linear_model as lm
from sklearn import model_selection as ms
from sklearn.metrics import r2_score 
from sklearn.metrics import mean_squared_error

# 3 - Carregamento da base de dados

In [2]:
df = pd.read_csv ('Daegu_Real_Estate_data.csv')

# 4 - Tratamento de dados

### 4.1 - Tranformação em variáveis dummy 

Tranformação das variáveis qualitativas para variáveis dummy

In [31]:
hallway_dummy = pd.get_dummies(df['HallwayType']).iloc[:,1:]

In [32]:
heating_dummy = pd.get_dummies(df['HeatingType']).iloc[:,1:]

In [33]:
aptmanage_dummy = pd.get_dummies(df['AptManageType']).iloc[:,1:]

In [34]:
busstop_dummy = pd.get_dummies(df['TimeToBusStop']).iloc[:,1:]

In [35]:
timetosubwaystation_dummy = pd.get_dummies(df['TimeToSubway']).iloc[:,1:]

In [36]:
subway_dummy = pd.get_dummies(df['SubwayStation']).iloc[:,1:]

### 4.2 - Tranformação logarítimica 

Tranformação das variáveis numéricas em logarítimos na base 10

In [50]:
df1 = df.drop(['SalePrice', 'HallwayType', 'HeatingType', 'AptManageType', 'TimeToBusStop', 'TimeToSubway', 'SubwayStation'], axis=1)

In [51]:
df2 = df1.loc[:,'YearBuilt':'N_FacilitiesNearBy(Total)'].apply(lambda x : np.log10(x+1))

### 4.3 - Definição de variáveis 

Definição da variável a ser predita e das variáveis a serem usadas na predição (variáveis dependente e indepentes) 

In [52]:
df3 = pd.concat([df2, hallway_dummy, heating_dummy, aptmanage_dummy, busstop_dummy, timetosubwaystation_dummy, subway_dummy], axis = 1)

In [43]:
x = df3
y = df['SalePrice'].copy()

x_train = df3
y_train = df['SalePrice'].copy()

### 4.4 - Divisão do dataset em linhas de teste e de treino

Visando evitar o overfitting (evitar que o modelo "decore" as respostas) 70% das linhas da base 'Daegu_Real_Estate_data.csv' foram separadas para treino e 30% para teste

In [44]:
x_train, x_test, y_train, y_test = ms.train_test_split(x, y, test_size = 0.3, random_state = 19)

# 5 - Treinamento de modelo

In [45]:
model = lm.LinearRegression()
model.fit(x_train, y_train)

LinearRegression()

In [46]:
pred_train = model.predict(x_train)
pred_test = model.predict(x_test)

# 6 - Métricas de performance

Métricas de performance usadas: Mean Absolute Error (MAE), Mean Absolute Percentage Error (MAPE), Mean Squared Error (MSE), R Mean Squared Error (RMSE), R - quadrado (R2) 

In [47]:
#Training

mae_train = m.mean_absolute_error(y_train, pred_train )
mape_train = np.mean(np.abs((y_train - pred_train)/ y_train))
MSE_train = mean_squared_error(y_train,pred_train)
RMSE_train = mean_squared_error(y_train,pred_train,squared=False) 
R2_train = r2_score(y_train,pred_train)

#Test

mae_test = m.mean_absolute_error(y_test, pred_test )
mape_test = np.mean(np.abs((y_test - pred_test)/ y_test))
MSE_test = mean_squared_error(y_test,pred_test)
RMSE_test = mean_squared_error(y_test,pred_test,squared=False) 
R2_test = r2_score(y_test,pred_test)

In [48]:
data = {
    'Dataframe': ['Treino', 'Teste'],
    'MAE': [mae_train, mae_test],
    'MAPE': [mape_train, mape_test],
    'MSE': [MSE_train, MSE_test],
    'RMSE': [RMSE_train, RMSE_test],
    'R2': [R2_train, R2_test]}

pd.DataFrame(data)

Unnamed: 0,Dataframe,MAE,MAPE,MSE,RMSE,R2
0,Treino,25709.309241,0.151679,1136968000.0,33718.951163,0.899669
1,Teste,26538.293552,0.148853,1229190000.0,35059.800702,0.890915


# 7 - Conclusão

Os dados de teste do modelo apresentaram performance de 14,88% de Mean Average Percentage Error e R-quadrado de 0.89 

À partir das alterações feitas na etapa de tratamento de dados, pode-se constatar que a tranformação das variáveis qualitativas em variáveis dummy e a transformação das variáveis numéricas em logarítimicas reduziram a métrica de MAPE em 0,0216 e aumentaram a métrica de R2 em 0,0380 em relação a uma regressão linear simples sem tratamento de dados*

Como próximos passos para a melhora de performance, pode ser feito uma análise de correlção entre as variáveis dependentes para evitar o problema da multicolinearidade

*Resultado das métricas de performance da aplicação da regresssão linear simples sem tratamento de dados não foi colocada, a fim de tornar a apresentação mais sucinta 

# 8 -  Referências

https://www.kaggle.com/samuelsferreira/house-prices-passo-a-passo-brazilian-

https://www.kaggle.com/janiobachmann/house-prices-useful-regression-techniques

https://www.youtube.com/watch?v=tsVWd6I5nuk

https://www.kaggle.com/fedi1996/house-prices-data-cleaning-viz-and-modeling

https://medium.com/turing-talks/como-avaliar-seu-modelo-de-regress%C3%A3o-c2c8d73dab96

https://www.researchgate.net/publication/331441290_Modelo_de_regressao_linear_multipla_para_avaliacao_do_valor_de_mercado_de_apartamentos_residenciais_em_Fortaleza_CE/fulltext/5c796908299bf1268d308e20/Modelo-de-regressao-linear-multipla-para-avaliacao-do-valor-de-mercado-de-apartamentos-residenciais-em-Fortaleza-CE.pdf?origin=publication_detail