# Modelagem preditiva

A modelagem preditiva são modelos computacionais que usam a matemática para prever resultados futuros. Os algoritmos preditivos usam dados de treino para aprender sobre o comportamento das variáveis afim de buscar a aproximação da função alvo, a função alvo é a formulação matemática que explica a relação entre os dados de entrada e de saída.

A análise preditiva está sendo utilizada por empresas e indivíduos em todo o mundo para extrair valor de dados históricos, após ser desenvolvido e validado, o modelo preditivo consegue generalizar o conhecimento aprendido dos dados históricos para prever o futuro.

### Importando as bibliotecas necessárias

Para fazer nosso trabalho precisamos das funções e métodos por isso vamos importar as bibliotecas do python.

In [17]:
import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import ExtraTreesRegressor
from xgboost import XGBRegressor

from sklearn.model_selection import train_test_split

from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import r2_score

In [3]:
import warnings
warnings.filterwarnings('ignore')

### Carregando o conjunto de dados

In [4]:
# Carregando o conjunto de dados e salvando na variável 'imoveis'.
imoveis = pd.read_csv('../imoveis_clean_base.csv')

# Vamos tirar as colunas 'Unnamed: 0', 'Link', 'Estado', 'Cidade' e 'Descrição'
imoveis = imoveis.drop(['Unnamed: 0', 'Link', 'Estado', 'Cidade', 'Descrição'], axis=1)

In [5]:
pd.set_option('display.max_columns', 100)

# Verificando o dataset
imoveis.head()

Unnamed: 0,Valor_aluguel,Valor_condomínio,Valor_iptu,Área_total,Qt_quartos,Qt_vagas,Qt_banheiros,Academia,Acesso_para_deficientes,Ar_condicionado,Área_de_serviço,Armário_embutido,Armário_na_cozinha,Bicicletário,Churrasqueira,Circuito_de_segurança,Conexão_à_internet,Elevador,Espaço_gourmet,Garagem,Interfone,Lavanderia,Mobiliado,Piscina,Playground,Quadra_de_tênis,Quadra_poliesportiva,Salão_de_festas,Sauna,Segurança_24h,Sistema_de_alarme,Spa,Varanda
0,3250.0,700.0,0.0,75.0,3.0,2.0,2.0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,3100.0,856.0,290.0,60.0,2.0,2.0,2.0,1,0,0,0,0,0,0,1,0,0,1,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0
2,1500.0,280.0,160.0,110.0,3.0,2.0,3.0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,1,0,1
3,1300.0,399.0,100.0,60.0,2.0,1.0,2.0,1,0,0,0,0,0,0,1,0,0,1,1,0,0,0,0,1,0,0,1,1,1,0,0,0,0
4,1100.0,360.0,110.0,95.0,3.0,2.0,1.0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0


In [6]:
# Verificando a dimensão do nosso dataset
imoveis.shape

(15958, 33)

In [7]:
df = imoveis

In [8]:
# Separando a variável target
X = df.drop(['Valor_aluguel'], axis=1)
y = df['Valor_aluguel'].values

In [9]:
X

Unnamed: 0,Valor_condomínio,Valor_iptu,Área_total,Qt_quartos,Qt_vagas,Qt_banheiros,Academia,Acesso_para_deficientes,Ar_condicionado,Área_de_serviço,Armário_embutido,Armário_na_cozinha,Bicicletário,Churrasqueira,Circuito_de_segurança,Conexão_à_internet,Elevador,Espaço_gourmet,Garagem,Interfone,Lavanderia,Mobiliado,Piscina,Playground,Quadra_de_tênis,Quadra_poliesportiva,Salão_de_festas,Sauna,Segurança_24h,Sistema_de_alarme,Spa,Varanda
0,700.0,0.0,75.0,3.0,2.0,2.0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,856.0,290.0,60.0,2.0,2.0,2.0,1,0,0,0,0,0,0,1,0,0,1,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0
2,280.0,160.0,110.0,3.0,2.0,3.0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,1,0,1
3,399.0,100.0,60.0,2.0,1.0,2.0,1,0,0,0,0,0,0,1,0,0,1,1,0,0,0,0,1,0,0,1,1,1,0,0,0,0
4,360.0,110.0,95.0,3.0,2.0,1.0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15953,300.0,40.0,44.0,1.0,0.0,1.0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
15954,600.0,0.0,90.0,3.0,1.0,2.0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1
15955,1200.0,0.0,52.0,2.0,1.0,2.0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1
15956,350.0,0.0,35.0,1.0,1.0,1.0,0,0,0,1,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0


In [10]:
y

array([3250., 3100., 1500., ..., 1600., 1000., 3500.])

### Criando dados de treino e teste

In [11]:
# Separando dados de treino(70%) e teste(30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

### Vários modelos de regressão

Nessa parte vamos criar um array com vários algoritmos para executarmos ao mesmo tempo afim de ver os resultados.

In [12]:
# Preparando a lista de modelos
modelos = []
modelos.append(('LinearRegression', LinearRegression()))
modelos.append(('Ridge', Ridge()))
modelos.append(('Lasso', Lasso()))
modelos.append(('ElasticNet', ElasticNet()))
modelos.append(('KNN', KNeighborsRegressor()))
modelos.append(('DecisionTree', DecisionTreeRegressor()))
modelos.append(('RandomForest', RandomForestRegressor()))
modelos.append(('ExtraTrees', ExtraTreesRegressor()))
modelos.append(('XGB', XGBRegressor()))

Aplicando um loop for para executar em nossos dados de treino e teste todos os algoritmos.

In [13]:
for nome, modelo in modelos:
    
    model = modelo
    model.fit(X_train, y_train)
    result = model.predict(X_test)
    
    R2 = r2_score(y_test,result)
    MAE = mean_absolute_error(y_test,result)
    MSE = mean_squared_error(y_test,result)
    
    msg = "%s: [R^2 = %f] [MAE = %f] [MSE = %f]" % (nome, R2, MAE, MSE)
    print(msg)

LinearRegression: [R^2 = 0.391366] [MAE = 504.122467] [MSE = 427969.506842]
Ridge: [R^2 = 0.391363] [MAE = 504.123751] [MSE = 427971.760452]
Lasso: [R^2 = 0.390120] [MAE = 504.575231] [MSE = 428845.894600]
ElasticNet: [R^2 = 0.330252] [MAE = 544.236963] [MSE = 470942.353230]
KNN: [R^2 = 0.369786] [MAE = 495.793901] [MSE = 443143.504929]
DecisionTree: [R^2 = 0.155490] [MAE = 549.701914] [MSE = 593828.872385]
RandomForest: [R^2 = 0.517030] [MAE = 428.422585] [MSE = 339607.244778]
ExtraTrees: [R^2 = 0.507977] [MAE = 427.998538] [MSE = 345973.077891]
XGB: [R^2 = 0.508897] [MAE = 449.316352] [MSE = 345326.026386]


-------------------------------------------------

## Métricas de avaliação

### R-Quadrado (R²)

O R-Quadrado, ou Coeficiente de Determinação, é uma métrica que visa expressar a quantidade da variança dos dados que é explicada pelo modelo. Em outras palavras, essa medida calcula qual a porcentagem da variança que pôde ser prevista pelo modelo de regressão e, portanto, nos diz o quão “próximo” as medidas reais estão do nosso modelo.

O valor do seu R-Quadrado varia de 0 a 1 e geralmente é representado em porcentagem. Por exemplo, um R² = 75% nos diz que 75% da variância de nossos dados podem ser explicados pelo modelo construído, enquanto os outros 25%, teoricamente, se tratariam de uma variância residual.

### Erro Absoluto Médio (MAE)

O Erro Absoluto Médio consiste na média das distâncias entre valores preditos e reais. Em outras palavras, tira-se média da diferença absoluta dos valores preditos e real.

In [26]:
# No exemplo abaixo vamos ver o MSE do algoritmo XGB, pois no loop for foi o último a ser executado, na matemática fica assim:
(abs(y_test - result).sum() / len(result))

449.31635217499314

### Erro Quadrático Médio (MSE)

O Erro Quadrático Médio consiste na média do erro das previsões ao quadrado. Em outras palavras, é a média da soma dos resíduos(diferença entra os valores predito e real) ao quadrado.

In [27]:
# No exemplo abaixo vamos ver o MSE do algoritmo XGB, pois no loop for foi o último a ser executado, na matemática fica assim:
((y_test - result)**2).sum() / len(result)

345326.0263856546

--------------------------------------------------------------

### Melhor resultado do modelo:

RandomForest: [R^2 = 0.517030] [MAE = 428.422585] [MSE = 339607.244778]