## 3. Machine Learning

### 3.1 Importando dados preprocessados

In [6]:
import pandas as pd

treino = pd.read_csv('https://raw.githubusercontent.com/cassiasamp/calculadora-de-imoveis-jun-20/master/analise_e_preprocessamento/treino_preprocessado.csv')
teste = pd.read_csv('https://raw.githubusercontent.com/cassiasamp/calculadora-de-imoveis-jun-20/master/analise_e_preprocessamento/teste_preprocessado.csv')

In [7]:
# dividindo os dados de treino e teste (X e y)

X_train = treino.drop('preco', axis=1)
y_train = treino['preco']
X_test = teste.drop('preco', axis=1)
y_test = teste['preco']

### 3.2 Criando um modelo de base para comparar os resultados (baseline) 

In [8]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X_train, y_train)
lr.score(X_test, y_test)

0.7529715525631803

In [9]:
from sklearn.dummy import DummyRegressor

reg = DummyRegressor(strategy='mean')
reg.fit(X_train, y_train)
reg.score(X_test, y_test)

-0.007175323673028533

### 3.3 Comparando diferentes modelos de regressão (estimadores)

In [32]:
from sklearn.linear_model import RidgeCV, Lasso, ElasticNet, LassoLars, HuberRegressor
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import GradientBoostingRegressor, AdaBoostRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.ensemble import RandomForestRegressor
# se quiser, instalar e usar LGBM e XGBoost de fora do sklearn
'''
from lightgbm import LGBMRegressor
from xgboost import XGBRegressor
'''

'\nfrom lightgbm import LGBMRegressor\nfrom xgboost import XGBRegressor\n'

In [33]:
reg_list = [RidgeCV(),
            SVR(),
            KNeighborsRegressor(),
            RandomForestRegressor(),
            AdaBoostRegressor(),
            GradientBoostingRegressor(),
            MLPRegressor(),
            # LGBMRegressor(), 
            # XGBRegressor(objective='reg:squarederror')
            ]

In [15]:
from sklearn.model_selection import cross_val_score
import numpy as np

for reg in reg_list:
    print(f'Treinando o modelo {reg.__class__.__name__}')
    reg.fit(X_train, y_train)
    
    train_score = reg.score(X_train, y_train)
    cv_scores = cross_val_score(reg, X_train, y_train)
    test_score = reg.score(X_test, y_test)
    
    print(f"R² treino: {train_score}")
    print(f"R² validação : {np.mean(cv_scores):.2f} +- {np.std(cv_scores):.2f}")
    print(f"R² teste: {test_score}")
    print('-'*70)

Treinando o modelo RidgeCV
R² treino: 0.7116347123381197
R² validação : 0.71 +- 0.09
R² teste: 0.7514335728093169
----------------------------------------------------------------------
Treinando o modelo SVR
R² treino: 0.7584588667353014
R² validação : 0.75 +- 0.08
R² teste: 0.7801788224409432
----------------------------------------------------------------------
Treinando o modelo KNeighborsRegressor
R² treino: 0.8176339918210596
R² validação : 0.72 +- 0.10
R² teste: 0.7252475060194269
----------------------------------------------------------------------
Treinando o modelo RandomForestRegressor
R² treino: 0.8995498685755843
R² validação : 0.69 +- 0.12
R² teste: 0.7398893122922656
----------------------------------------------------------------------
Treinando o modelo AdaBoostRegressor
R² treino: 0.6707407756382326
R² validação : 0.60 +- 0.07
R² teste: 0.6339262918817496
----------------------------------------------------------------------
Treinando o modelo GradientBoostingRegresso



R² treino: 0.7399462106811417
R² validação : 0.69 +- 0.10
R² teste: 0.7672914038081111
----------------------------------------------------------------------




In [16]:
# Bonus: testando com todos os regressores do sklearn
from sklearn.utils import all_estimators

estimators = all_estimators(type_filter='regressor')

relatorio = {'nome':[],
             'train_score':[],
             'cv_scores_mean':[],
             'test_score':[],
             'estimador':[]
             }

ignore_list = ['IsotonicRegression',
 'MultiOutputRegressor',
 'ElasticNet',
 'MultiTaskElasticNet',
 'MultiTaskElasticNetCV',
 'MultiTaskLasso',
 'MultiTaskLassoCV',
 'RadiusNeighborsRegressor',
 'RegressorChain',
 'StackingRegressor',
 'VotingRegressor']


In [30]:
# Se quiser instalar e usar LGBM e XGBoost de fora do sklearn
'''
estimators.extend(
    [('LGBMRegressor', LGBMRegressor),
     ('XGBRegressor', XGBRegressor)]
)
'''

"\nestimators.extend(\n    [('LGBMRegressor', LGBMRegressor),\n     ('XGBRegressor', XGBRegressor)]\n)\n"

In [19]:
for name, RegressorClass in estimators:
    if name not in ignore_list:
        print(f'Treinando o modelo {name}')
        reg = RegressorClass()
        reg.fit(X_train, y_train)

        train_score = reg.score(X_train, y_train)
        cv_scores = cross_val_score(reg, X_train, y_train)
        test_score = reg.score(X_test, y_test)

        print(f"R² treino: {train_score}")
        print(f"R² validaação: {np.mean(cv_scores):.2f} +- {np.std(cv_scores):.2f}")
        print(f"R² teste: {test_score}")
        print('-'*70)

        relatorio['nome'].append(name)
        relatorio['train_score'].append(train_score)
        relatorio['cv_scores_mean'].append(np.mean(cv_scores))
        relatorio['test_score'].append(test_score)
        relatorio['estimador'].append(reg)

Treinando o modelo ARDRegression
R² treino: 0.7119003161122139
R² validaação: 0.71 +- 0.09
R² teste: 0.7526207665594502
----------------------------------------------------------------------
Treinando o modelo AdaBoostRegressor
R² treino: 0.6753814063451928
R² validaação: 0.60 +- 0.06
R² teste: 0.6383884906289323
----------------------------------------------------------------------
Treinando o modelo BaggingRegressor
R² treino: 0.8933040594732892
R² validaação: 0.68 +- 0.11
R² teste: 0.7153582838699588
----------------------------------------------------------------------
Treinando o modelo BayesianRidge
R² treino: 0.7119341375714523
R² validaação: 0.71 +- 0.09
R² teste: 0.7520286629146453
----------------------------------------------------------------------
Treinando o modelo CCA
R² treino: 0.5390192659785343
R² validaação: 0.52 +- 0.11
R² teste: 0.6992692088582081
----------------------------------------------------------------------
Treinando o modelo DecisionTreeRegressor
R² trei



R² treino: 0.7118824235365495
R² validaação: 0.71 +- 0.09
R² teste: 0.7522566818336653
----------------------------------------------------------------------
Treinando o modelo ExtraTreeRegressor
R² treino: 0.9221724519725403
R² validaação: 0.63 +- 0.13
R² teste: 0.6698870198273661
----------------------------------------------------------------------
Treinando o modelo ExtraTreesRegressor
R² treino: 0.9221724519725403
R² validaação: 0.68 +- 0.12
R² teste: 0.7108512846073223
----------------------------------------------------------------------
Treinando o modelo GammaRegressor
R² treino: 0.5281576868647873
R² validaação: 0.53 +- 0.05
R² teste: 0.5304408649801144
----------------------------------------------------------------------
Treinando o modelo GaussianProcessRegressor
R² treino: 0.844588860274418
R² validaação: -117431.06 +- 229591.35
R² teste: -44.89733573698892
----------------------------------------------------------------------
Treinando o modelo GradientBoostingRegressor




R² treino: 0.7563523488367733
R² validaação: 0.70 +- 0.09
R² teste: 0.772262483972917
----------------------------------------------------------------------
Treinando o modelo NuSVR
R² treino: 0.7582457760427077
R² validaação: 0.75 +- 0.08
R² teste: 0.7785186759420891
----------------------------------------------------------------------
Treinando o modelo OrthogonalMatchingPursuit
R² treino: 0.653482483665506
R² validaação: 0.66 +- 0.09
R² teste: 0.7269073488806175
----------------------------------------------------------------------
Treinando o modelo OrthogonalMatchingPursuitCV
R² treino: 0.7119440832005488
R² validaação: 0.71 +- 0.09
R² teste: 0.752035470538984
----------------------------------------------------------------------
Treinando o modelo PLSCanonical
R² treino: 0.31813510522145105
R² validaação: 0.29 +- 0.20
R² teste: 0.5163283502645619
----------------------------------------------------------------------
Treinando o modelo PLSRegression
R² treino: 0.7046536585594195




R² treino: 0.5673012575234844
R² validaação: 0.60 +- 0.08
R² teste: 0.5143112276546418
----------------------------------------------------------------------
Treinando o modelo PoissonRegressor
R² treino: 0.715481256237379
R² validaação: 0.71 +- 0.08
R² teste: 0.750439781253455
----------------------------------------------------------------------
Treinando o modelo RANSACRegressor
R² treino: 0.6749241718646268
R² validaação: 0.68 +- 0.09
R² teste: 0.7396159278188825
----------------------------------------------------------------------
Treinando o modelo RandomForestRegressor
R² treino: 0.8994789679380315
R² validaação: 0.70 +- 0.11
R² teste: 0.7358339304702927
----------------------------------------------------------------------
Treinando o modelo Ridge
R² treino: 0.711940373699615
R² validaação: 0.71 +- 0.09
R² teste: 0.7520366238790087
----------------------------------------------------------------------
Treinando o modelo RidgeCV
R² treino: 0.7116347123381197
R² validaação: 0.71

In [20]:
relatorio = pd.DataFrame(relatorio).sort_values(by='cv_scores_mean', ascending=False)
relatorio.head(10)

Unnamed: 0,nome,train_score,cv_scores_mean,test_score,estimador
39,SVR,0.758459,0.748145,0.780179,SVR()
27,NuSVR,0.758246,0.745875,0.778519,NuSVR()
12,GradientBoostingRegressor,0.824523,0.734025,0.784261,([DecisionTreeRegressor(criterion='friedman_ms...
13,HistGradientBoostingRegressor,0.834408,0.724294,0.751856,HistGradientBoostingRegressor()
15,KNeighborsRegressor,0.817634,0.716235,0.725248,KNeighborsRegressor()
33,PoissonRegressor,0.715481,0.712963,0.75044,PoissonRegressor()
37,RidgeCV,0.711635,0.70716,0.751434,"RidgeCV(alphas=array([ 0.1, 1. , 10. ]))"
3,BayesianRidge,0.711934,0.706491,0.752029,BayesianRidge()
36,Ridge,0.71194,0.706436,0.752037,Ridge()
20,LassoCV,0.71193,0.706363,0.752195,LassoCV()


### 3.4 TBD: calibrando melhores estimadores usando GridSearchCV

In [None]:
## Usar GridSearchCV para calibrar os melhores estimadores

### 3.5 (Opcional) Combinando os melhores estimadores usando stacking

In [21]:
from sklearn.ensemble import StackingRegressor

top_3_regs = relatorio[['nome', 'estimador']].values[:3]

reg = StackingRegressor(
    estimators = top_3_regs
)

reg.fit(X_train, y_train)

train_score = reg.score(X_train, y_train)
cv_scores = cross_val_score(reg, X_train, y_train)
test_score = reg.score(X_test, y_test)

print(f"R² treino: {train_score}")
print(f"R² validação: {np.mean(cv_scores):.2f} +- {np.std(cv_scores):.2f}")
print(f"R² teste: {test_score}")
print('-'*70)

R² treino: 0.7842888711315084
R² validação: 0.75 +- 0.08
R² teste: 0.7855565962983578
----------------------------------------------------------------------


In [22]:
reg

StackingRegressor(estimators=array([['SVR', SVR()],
       ['NuSVR', NuSVR()],
       ['GradientBoostingRegressor', GradientBoostingRegressor()]],
      dtype=object))

## 4. Salvando o modelo

In [23]:
import pickle

pickle.dump(reg, open('modelo.pkl', 'wb'), protocol=4)

In [24]:
ls

 Volume in drive C has no label.
 Volume Serial Number is 225D-4E02

 Directory of C:\Users\C ssia\Desktop\calculadora

15/09/2020  16:28    <DIR>          .
15/09/2020  16:28    <DIR>          ..
15/09/2020  16:19    <DIR>          .ipynb_checkpoints
15/09/2020  15:28           493.260 2_eda_preprocessamento.ipynb
15/09/2020  16:19           374.901 aed_e_preprocessamento_de_dados.ipynb
15/09/2020  16:28           364.273 modelo.pkl
15/09/2020  16:27            43.181 selecionando_modelos.ipynb
15/09/2020  16:19            16.165 teste_preprocessado.csv
15/09/2020  16:19            48.429 treino_preprocessado.csv
               6 File(s)      1.340.209 bytes
               3 Dir(s)  170.824.335.360 bytes free


In [25]:
%reset -f

In [27]:
import pickle

reg = pickle.load(open('modelo.pkl', 'rb'))

In [28]:
reg

StackingRegressor(estimators=array([['SVR', SVR()],
       ['NuSVR', NuSVR()],
       ['GradientBoostingRegressor', GradientBoostingRegressor()]],
      dtype=object))

In [29]:
import numpy as np

dados_novos = [0, 0, 0, 1, np.log1p(2), np.log1p(120)]

np.expm1(reg.predict([dados_novos]))

array([3171.85977268])