# Modelagem preditiva

A modelagem preditiva são modelos computacionais que usam a matemática para prever resultados futuros. Os algoritmos preditivos usam dados de treino para aprender sobre o comportamento das variáveis afim de buscar a aproximação da função alvo, a função alvo é a formulação matemática que explica a relação entre os dados de entrada e de saída.

A análise preditiva está sendo utilizada por empresas e indivíduos em todo o mundo para extrair valor de dados históricos, após ser desenvolvido e validado, o modelo preditivo consegue generalizar o conhecimento aprendido dos dados históricos para prever o futuro.

### Importando as bibliotecas necessárias

Para fazer nosso trabalho precisamos das funções e métodos por isso vamos importar as bibliotecas do python.

In [30]:
import pandas as pd
import numpy as np

from tpot import TPOTRegressor

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

from sklearn.metrics import mean_absolute_error
from sklearn.metrics import r2_score 

In [31]:
import warnings
warnings.filterwarnings('ignore')

### Carregando o conjunto de dados

In [32]:
# Carregando o conjunto de dados e salvando na variável 'imoveis'.
imoveis = pd.read_csv('../imoveis_clean_base.csv')

# Vamos tirar as colunas 'Unnamed: 0', 'Link', 'Estado', 'Cidade' e 'Descrição'
imoveis = imoveis.drop(['Unnamed: 0', 'Link', 'Estado', 'Cidade', 'Descrição'], axis=1)

In [33]:
pd.set_option('display.max_columns', 100)

# Verificando o dataset
imoveis.head()

Unnamed: 0,Valor_aluguel,Valor_condomínio,Valor_iptu,Área_total,Qt_quartos,Qt_vagas,Qt_banheiros,Academia,Acesso_para_deficientes,Ar_condicionado,Área_de_serviço,Armário_embutido,Armário_na_cozinha,Bicicletário,Churrasqueira,Circuito_de_segurança,Conexão_à_internet,Elevador,Espaço_gourmet,Garagem,Interfone,Lavanderia,Mobiliado,Piscina,Playground,Quadra_de_tênis,Quadra_poliesportiva,Salão_de_festas,Sauna,Segurança_24h,Sistema_de_alarme,Spa,Varanda
0,3250.0,700.0,0.0,75.0,3.0,2.0,2.0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,3100.0,856.0,290.0,60.0,2.0,2.0,2.0,1,0,0,0,0,0,0,1,0,0,1,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0
2,1500.0,280.0,160.0,110.0,3.0,2.0,3.0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,1,0,1
3,1300.0,399.0,100.0,60.0,2.0,1.0,2.0,1,0,0,0,0,0,0,1,0,0,1,1,0,0,0,0,1,0,0,1,1,1,0,0,0,0
4,1100.0,360.0,110.0,95.0,3.0,2.0,1.0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0


In [34]:
# Verificando a dimensão do nosso dataset
imoveis.shape

(15958, 33)

In [35]:
df = imoveis

In [36]:
# Separando a variável target
X = df.drop(['Valor_aluguel'], axis=1)
y = df['Valor_aluguel'].values

In [37]:
X

Unnamed: 0,Valor_condomínio,Valor_iptu,Área_total,Qt_quartos,Qt_vagas,Qt_banheiros,Academia,Acesso_para_deficientes,Ar_condicionado,Área_de_serviço,Armário_embutido,Armário_na_cozinha,Bicicletário,Churrasqueira,Circuito_de_segurança,Conexão_à_internet,Elevador,Espaço_gourmet,Garagem,Interfone,Lavanderia,Mobiliado,Piscina,Playground,Quadra_de_tênis,Quadra_poliesportiva,Salão_de_festas,Sauna,Segurança_24h,Sistema_de_alarme,Spa,Varanda
0,700.0,0.0,75.0,3.0,2.0,2.0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,856.0,290.0,60.0,2.0,2.0,2.0,1,0,0,0,0,0,0,1,0,0,1,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0
2,280.0,160.0,110.0,3.0,2.0,3.0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,1,0,1
3,399.0,100.0,60.0,2.0,1.0,2.0,1,0,0,0,0,0,0,1,0,0,1,1,0,0,0,0,1,0,0,1,1,1,0,0,0,0
4,360.0,110.0,95.0,3.0,2.0,1.0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15953,300.0,40.0,44.0,1.0,0.0,1.0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
15954,600.0,0.0,90.0,3.0,1.0,2.0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1
15955,1200.0,0.0,52.0,2.0,1.0,2.0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1
15956,350.0,0.0,35.0,1.0,1.0,1.0,0,0,0,1,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0


In [38]:
y

array([3250., 3100., 1500., ..., 1600., 1000., 3500.])

### Padronização

In [39]:
scaler_X = StandardScaler().fit(X)
standardX = scaler_X.transform(X)

In [40]:
scaler_y = StandardScaler().fit(y.reshape(-1, 1))
standardy = scaler_y.transform(y.reshape(-1, 1))

In [41]:
standardX

array([[ 1.07379338, -0.82169789,  0.26097643, ..., -0.24833957,
        -0.14213381, -0.52139986],
       [ 1.59416898,  2.66063248, -0.37183549, ..., -0.24833957,
        -0.14213381, -0.52139986],
       [-0.32721784,  1.09958783,  1.73753757, ...,  4.02674446,
        -0.14213381,  1.91791382],
       ...,
       [ 2.74166389, -0.82169789, -0.70933518, ..., -0.24833957,
        -0.14213381,  1.91791382],
       [-0.09371597, -0.82169789, -1.42652202, ..., -0.24833957,
        -0.14213381, -0.52139986],
       [ 2.14456625, -0.82169789, -1.42652202, ..., -0.24833957,
        -0.14213381,  1.91791382]])

In [43]:
standardy

array([[ 1.82750174],
       [ 1.64627027],
       [-0.28686541],
       ...,
       [-0.16604443],
       [-0.89097031],
       [ 2.12955419]])

### Criando dados de treino e teste

In [44]:
# Separando dados de treino e teste
X_train, X_test, y_train, y_test = train_test_split(standardX, standardy, test_size=0.3, random_state=0)

### Modelo com o Tpot AutoML

O objetivo do TPOT é automatizar a construção de pipelines de machine learning combinando uma representação de árvore de expressão flexível de pipelines com algoritmos de pesquisa. O TPOT usa a biblioteca scikit-learn baseada em Python.

In [45]:
model = TPOTRegressor(generations=1, 
                      population_size=50, 
                      scoring='r2', 
                      cv=2, verbosity=2, 
                      random_state=0)

In [46]:
%%time
model.fit(X_train, y_train)



HBox(children=(FloatProgress(value=0.0, description='Optimization Progress', style=ProgressStyle(description_w…

Generation 1 - Current best internal CV score: 0.5490238781736173

Best pipeline: GradientBoostingRegressor(StandardScaler(input_matrix), alpha=0.8, learning_rate=0.1, loss=huber, max_depth=8, max_features=0.15000000000000002, min_samples_leaf=14, min_samples_split=7, n_estimators=100, subsample=0.9500000000000001)
Wall time: 4min 6s


TPOTRegressor(config_dict=None, crossover_rate=0.1, cv=2,
              disable_update_check=False, early_stop=None, generations=1,
              max_eval_time_mins=5, max_time_mins=None, memory=None,
              mutation_rate=0.9, n_jobs=1, offspring_size=None,
              periodic_checkpoint_folder=None, population_size=50,
              random_state=0, scoring='r2', subsample=1.0,
              template='RandomTree', use_dask=False, verbosity=2,
              warm_start=False)

### Exportando a pipeline de execução

In [47]:
model.export('pipeline.py')
with open('pipeline.py') as pipe:
    print("".join(pipe.readlines()))

import numpy as np
import pandas as pd
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

# NOTE: Make sure that the class is labeled 'target' in the data file
tpot_data = pd.read_csv('PATH/TO/DATA/FILE', sep='COLUMN_SEPARATOR', dtype=np.float64)
features = tpot_data.drop('target', axis=1).values
training_features, testing_features, training_target, testing_target = \
            train_test_split(features, tpot_data['target'].values, random_state=0)

# Average CV score on the training set was:0.5490238781736173
exported_pipeline = make_pipeline(
    StandardScaler(),
    GradientBoostingRegressor(alpha=0.8, learning_rate=0.1, loss="huber", max_depth=8, max_features=0.15000000000000002, min_samples_leaf=14, min_samples_split=7, n_estimators=100, subsample=0.9500000000000001)
)

exported_pipeline.fit(training_features, training_target)
resu

### Executando a pipeline

In [48]:
import numpy as np
import pandas as pd
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

model_tpot = make_pipeline(
    StandardScaler(),
    GradientBoostingRegressor(alpha=0.8, learning_rate=0.1, loss="huber", max_depth=8, max_features=0.15000000000000002, min_samples_leaf=14, min_samples_split=7, n_estimators=100, subsample=0.9500000000000001)
)

model_tpot.fit(X_train, y_train)

Pipeline(memory=None,
         steps=[('standardscaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('gradientboostingregressor',
                 GradientBoostingRegressor(alpha=0.8, criterion='friedman_mse',
                                           init=None, learning_rate=0.1,
                                           loss='huber', max_depth=8,
                                           max_features=0.15000000000000002,
                                           max_leaf_nodes=None,
                                           min_impurity_decrease=0.0,
                                           min_impurity_split=None,
                                           min_samples_leaf=14,
                                           min_samples_split=7,
                                           min_weight_fraction_leaf=0.0,
                                           n_estimators=100,
                                           n_iter_no_chan

In [49]:
result = model_tpot.predict(X_test)
result

array([ 0.14196177,  0.55522112, -0.30311502, ...,  0.79476329,
       -0.71115636,  0.24654046])

#### Voltando com os valores reais sem a padronização

In [108]:
mean = y.mean()
std = y.std()

y_test_rescaling = (y_test * std) + mean
result_rescaling = (result * std) + mean

print('Valores de y_test voltado ao normal',y_test_rescaling)
print('\n')
print('Valores de previsão do modelo ao normal',result_rescaling)

Valores de y_test voltado ao normal [[1800.]
 [2200.]
 [1400.]
 ...
 [2590.]
 [1100.]
 [3200.]]


Valores de previsão do modelo ao normal [1854.92774739 2196.97044744 1486.55066885 ... 2395.23251595 1148.82675885
 1941.48447305]


In [111]:
# Verificando o resultado
R2 = r2_score(y_test_rescaling,result_rescaling)
MAE = mean_absolute_error(y_test_rescaling,result_rescaling)
print(R2)
print(MAE)

0.5567411532209796
413.58182117921007


-------------------------------------------------

## Métricas de avaliação

### R-Quadrado (R²)

O R-Quadrado, ou Coeficiente de Determinação, é uma métrica que visa expressar a quantidade da variança dos dados que é explicada pelo modelo. Em outras palavras, essa medida calcula qual a porcentagem da variança que pôde ser prevista pelo modelo de regressão e, portanto, nos diz o quão “próximo” as medidas reais estão do nosso modelo.

O valor do seu R-Quadrado varia de 0 a 1 e geralmente é representado em porcentagem. Por exemplo, um R² = 75% nos diz que 75% da variância de nossos dados podem ser explicados pelo modelo construído, enquanto os outros 25%, teoricamente, se tratariam de uma variância residual.

### Erro Absoluto Médio (MAE)

O Erro Absoluto Médio consiste na média das distâncias entre valores preditos e reais. Em outras palavras, tira-se média da diferença absoluta dos valores preditos e real.

In [None]:
# No exemplo abaixo vamos ver o MSE do algoritmo XGB, pois no loop for foi o último a ser executado, na matemática fica assim:
(abs(y_test - result).sum() / len(result))

### Erro Quadrático Médio (MSE)

O Erro Quadrático Médio consiste na média do erro das previsões ao quadrado. Em outras palavras, é a média da soma dos resíduos(diferença entra os valores predito e real) ao quadrado.

In [None]:
# No exemplo abaixo vamos ver o MSE do algoritmo XGB, pois no loop for foi o último a ser executado, na matemática fica assim:
((y_test - result)**2).sum() / len(result)

----------------------------------------------

### Melhor resultado do modelo:

In [114]:
# Verificando o resultado
R2 = r2_score(y_test_rescaling,result_rescaling)
MAE = mean_absolute_error(y_test_rescaling,result_rescaling)
print('Resutado com o R²:',R2)
print('Resultado com o MAE:',MAE)

Resutado com o R²: 0.5567411532209796
Resultado com o MAE: 413.58182117921007
