### Modelos baseados em árvores

<br>

Ao longo do módulo, discutimos bastante as árvores de decisão, bem como ensemble de árvores, como Random Forest e algoritmos do tipo boosting.

Esses __ensembles acabam tendo muitos hiperparâmetros;__ escolhe-los de forma manual acaba sendo muito custoso e tedioso. 

Neste exercício, vamos discutir a respeito da metolodia __grid-search__, que otimiza essa busca de hiperparâmetros.

Considere o dataset abaixo (basta executar as células):

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split

In [3]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler

In [4]:
#problema de regressão

X, y = load_diabetes().data, load_diabetes().target
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size = 0.25, random_state = 42)
print(Xtrain.shape, Xtest.shape, ytrain.shape, ytest.shape)

(331, 10) (111, 10) (331,) (111,)


Imagine que queremos testar - usando cross-validation - várias instâncias de Random Forests: com 10 árvores, com 100 árvores, com 1000 árvores, com profundidade máxima 1, 5, 10. 

Como podemos proceder? O código abaixo exemplifica um jeito:

In [5]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score

for n_est in [10,100,100]:
    for prof in [1,5,10]:
        rf = RandomForestRegressor(n_estimators=n_est, max_depth=prof)
        cvres = cross_val_score(estimator=rf, X = Xtrain, y = ytrain, cv = 3, scoring='r2')
        print("estimators: ", n_est, " prof: ", prof, " | R2 mean / std: ", cvres.mean(), ' / ', cvres.std())

estimators:  10  prof:  1  | R2 mean / std:  0.3065260686185277  /  0.047432638075041014
estimators:  10  prof:  5  | R2 mean / std:  0.3894911558205883  /  0.017009352331209118
estimators:  10  prof:  10  | R2 mean / std:  0.41275641015207976  /  0.05326472533191616
estimators:  100  prof:  1  | R2 mean / std:  0.3351518067983174  /  0.03698351054318546
estimators:  100  prof:  5  | R2 mean / std:  0.42153846019488456  /  0.04622636605880841
estimators:  100  prof:  10  | R2 mean / std:  0.408611070353005  /  0.033787453966355116
estimators:  100  prof:  1  | R2 mean / std:  0.33636147607061667  /  0.03858541810464386
estimators:  100  prof:  5  | R2 mean / std:  0.43368755822778926  /  0.03216206588322898
estimators:  100  prof:  10  | R2 mean / std:  0.4180318212495903  /  0.03719318843712644


Podemos, com algum trabalho, escolher o melhor modelo.

Se quisermos testar mais parâmetros, podemos aumentar nosso loop... mais isso vai ficando cada vez mais complicado.

A proposta do __grid-search__ é justamente fazer isso de forma mais automática!

Podemos importar a função GridSearchCV do módulo model_selection do sklearn e usá-la para isso. 
Na prática, precisamos definir um __estimador base__ para o grid. Além disso, precisamos definir um __dicionário de parâmetros__ a ser testado. Ainda, definiremos a quantidade de folds para cross-validation e qual a métrica de performance que queremos otimizar:

In [6]:
#importando a função
from sklearn.model_selection import GridSearchCV

In [7]:
#definindo o estimador base
estimador_base = RandomForestRegressor()

#definindo o dicionario de parâmetros do modelo
params_RF = {"n_estimators":[10,1000], "max_depth":[2,10]}

In [8]:
grid = GridSearchCV(estimator = estimador_base, 
                    param_grid = params_RF, 
                    scoring = 'r2', 
                    cv = 3)

grid

GridSearchCV(cv=3, estimator=RandomForestRegressor(),
             param_grid={'max_depth': [2, 10], 'n_estimators': [10, 1000]},
             scoring='r2')

In [9]:
#treinando os modelos no grid
grid.fit(Xtrain, ytrain)

GridSearchCV(cv=3, estimator=RandomForestRegressor(),
             param_grid={'max_depth': [2, 10], 'n_estimators': [10, 1000]},
             scoring='r2')

O objeto "grid", após o treinamento acima, conterá várias informações muito relevantes. 

__1- "best_params_":__ retorna os melhores parâmetros, de acordo com a métrica de performance avaliada na cross-validation;

__1- "best_score_":__ retorna o melhor score - métrica de performance - nos dados de validação;

__1- "best_estimator_":__ retorna o melhor modelo, já treinado;

__1- "cv_results_":__ retorna uma visão geral dos resultados.

In [10]:
grid.best_params_

{'max_depth': 10, 'n_estimators': 1000}

In [11]:
grid.best_score_

0.4238218876484816

In [12]:
grid.best_estimator_

RandomForestRegressor(max_depth=10, n_estimators=1000)

In [13]:
grid.cv_results_

{'mean_fit_time': array([0.00739185, 0.68580206, 0.01016148, 0.98941414]),
 'std_fit_time': array([5.91074018e-05, 3.62613228e-03, 1.90439923e-05, 6.47147587e-03]),
 'mean_score_time': array([0.00081841, 0.04340275, 0.0007809 , 0.05010883]),
 'std_score_time': array([4.33748569e-05, 9.82370059e-05, 1.40273537e-05, 3.83730850e-04]),
 'param_max_depth': masked_array(data=[2, 2, 10, 10],
              mask=[False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_n_estimators': masked_array(data=[10, 1000, 10, 1000],
              mask=[False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'max_depth': 2, 'n_estimators': 10},
  {'max_depth': 2, 'n_estimators': 1000},
  {'max_depth': 10, 'n_estimators': 10},
  {'max_depth': 10, 'n_estimators': 1000}],
 'split0_test_score': array([0.37064057, 0.34761485, 0.36915434, 0.37248792]),
 'split1_test_score': array([0.44181758, 0.44775055, 0.41610439, 0.45121385]),
 'split2_tes

__Exercício 1:__ Utilizando o dataset abaixo, faça um grid_search com KNN's, Random Forests e GradientBoostings e retorne o melhor modelo de cada tipo.

__Obs.:__ Lembre-se de fazer um pré-processamento nos dados!

In [14]:
#preco_mediano_das_casas é a variável target
df = pd.read_csv("preco_casas.csv")
print(df.shape)
df.head()

FileNotFoundError: [Errno 2] No such file or directory: 'preco_casas.csv'

__Exercício 2:__ Crie uma classe para comparar o grid_search dentre vários modelos distintos.
    
    
Essa classe, gridSearchAll(), já está pré-desenvolvida no código abaixo. O exercício consiste de __completar essa classe.__ Para isso, crie o métodos fit_all, que irá treinar, usando grid_search, todos os grids que tenham sido pré-construídos e inseridos na classe.
Ainda, a quantidade de folds para a validação cruzada no grid_search deve ser implementada no método construtor da classe, bem como qual a métrica de performance a ser avaliada. 
Finalmente, salve o melhor modelo de cada grid e tenha um método best_all_grid_models que retorna o melhor modelo dentre todos os grids.

In [None]:
df.shape

In [None]:
df.isnull().sum()

In [None]:
#Calculando em porcentagem
((df.isnull().sum() / df.shape[0]) * 100).round(2)

In [None]:
#preenchendo os valores faltantes com a média
df_num = df.copy()

media_total_quartos = df.total_quartos.mean()
df_num.total_quartos = df.total_quartos.fillna(media_total_quartos)

In [None]:
#Variaveis categoricas
df.proximidade_ao_mar.value_counts()

In [None]:
ohe = OneHotEncoder()
variavel_ohe = df_num.proximidade_ao_mar.values.reshape(-1,1)
ohe.fit(variavel_ohe)
dataFrameOHE = pd.DataFrame(ohe.transform(variavel_ohe).toarray(), columns=ohe.categories_[0].tolist())

dataFrameOHE.shape

In [None]:
df_num.drop('proximidade_ao_mar', axis=1, inplace=True)
df_limpa = pd.concat([df_num, dataFrameOHE], axis=1)
df_limpa

In [None]:
# Normalizaçãod dos dados
df_limpa.describe()

In [None]:
ss_scaller = StandardScaler()


In [None]:
class gridSearchAll():
    
    def __init__(self):
        self.grid_models = []
        #scoring...
        #num_folds...
    
    def insert_model(self, estimator_base, param_grid):
        self.grid_models.append([estimator_base, param_grid])
        
    #def fit_all(...)
    #    ...
    
    #def best_all_grid_models(...)
    #    ...

In [None]:
gd = gridSearchAll()

In [None]:
gd.grid_models

In [None]:
params_RF

In [None]:
gd.insert_model(estimator_base = RandomForestRegressor(), param_grid = params_RF)

In [None]:
gd.grid_models

In [None]:
from sklearn.neighbors import KNeighborsRegressor

In [None]:
gd.insert_model(estimator_base = KNeighborsRegressor(), param_grid = {"n_neighbors":[1,2,10]})

In [None]:
gd.grid_models

__Exercício 3:__ Usando a classe criada, analise novamente os modelos criados no exercício 1.