# <font color='blue'>Data Science Academy - Machine Learning</font>

# <font color='blue'>Capítulo 9 - Otimização dos Parâmetros com Randomized Search</font>

Todo modelo de Machine Learning possui parâmetros que permitem a customização do modelo. Esses parâmetros também são chamados de hiperparâmetros.

Em programação os algoritmos de Machine Learning são representados por funções e cada função possui os parâmetros de customização, exatamente o que chamamos de hiperparâmetros.

É comum ainda que as pessoas se refiram aos coeficientes do modelo (encontrados ao final do treinamento) como parâmetros.

Parte do nosso trabalho como Cientistas de Dados é encontrar a melhor combinação de hiperparâmetros para cada modelo.

Em Métodos Ensemble esse trabalho é ainda mais complexo, pois temos os hiperparâmetros do estimador base e os hiperparâmetros do modelo ensemble, conforme este exemplo abaixo:

* Estimador base:

estim_base = KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski', metric_params=None, n_jobs=None, n_neighbors=5, p=2, weights='uniform')

* Modelo Ensemble:

BaggingClassifier(base_estimator=estim_base,
                  bootstrap=True, bootstrap_features=False, max_features=0.5,
                  max_samples=0.5, n_estimators=10, n_jobs=None,
                  oob_score=False, random_state=None, verbose=0,
                  warm_start=False)

## Extremely Randomized Forest

Modelo padrão, com hiperparâmetros escolhidos manualmente.

In [1]:
# Imports
import pandas as pd
import numpy as np
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import scale
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

In [2]:
# Carrega o dataset
data = pd.read_excel('dados/credit.xls', skiprows = 1)

In [3]:
print(data)

          ID  LIMIT_BAL  SEX  EDUCATION  MARRIAGE  AGE  PAY_0  PAY_2  PAY_3  \
0          1      20000    2          2         1   24      2      2     -1   
1          2     120000    2          2         2   26     -1      2      0   
2          3      90000    2          2         2   34      0      0      0   
3          4      50000    2          2         1   37      0      0      0   
4          5      50000    1          2         1   57     -1      0     -1   
...      ...        ...  ...        ...       ...  ...    ...    ...    ...   
29995  29996     220000    1          3         1   39      0      0      0   
29996  29997     150000    1          3         2   43     -1     -1     -1   
29997  29998      30000    1          2         2   37      4      3      2   
29998  29999      80000    1          3         1   41      1     -1      0   
29999  30000      50000    1          2         1   46      0      0      0   

       PAY_4  ...  BILL_AMT4  BILL_AMT5  BILL_AMT6 

In [4]:
# Variável target
target = 'default payment next month'
y = np.asarray(data[target])

In [5]:
# Variáveis preditoras
features = data.columns.drop(['ID', target])
X = np.asarray(data[features])

In [6]:
# Divisão de dados de treino e de teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.30, random_state = 99)

In [7]:
# Classificador
clf = ExtraTreesClassifier(n_estimators = 500, random_state = 99)

In [8]:
# Treinamento do Modelo
clf.fit(X_train, y_train)

ExtraTreesClassifier(n_estimators=500, random_state=99)

In [9]:
# Score
scores = cross_val_score(clf, X_train, y_train, cv = 3, scoring = 'accuracy', n_jobs = -1)

In [10]:
# Imprimindo o resultado
print ("ExtraTreesClassifier -> Acurácia em Treino: Média = %0.3f Desvio Padrão = %0.3f" % (np.mean(scores), np.std(scores)))

ExtraTreesClassifier -> Acurácia em Treino: Média = 0.812 Desvio Padrão = 0.002


In [11]:
# Fazendo previsões
y_pred = clf.predict(X_test)

In [12]:
# Confusion Matrix
confusionMatrix = confusion_matrix(y_test, y_pred)
print (confusionMatrix)

[[6532  446]
 [1273  749]]


In [13]:
# Acurácia
print("Acurácia em Teste:", accuracy_score(y_test, y_pred))

Acurácia em Teste: 0.809


## Otimização dos Hiperparâmetros com Randomized Search

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html

O Randomized Search gera amostras dos parâmetros dos algoritmos a partir de uma distribuição randômica uniforme para um número fixo de interações. Um modelo é construído e testado para cada combinação de parâmetros. 

In [14]:
# Import
from sklearn.model_selection import RandomizedSearchCV

In [15]:
# Definição dos parâmetros
param_dist = {"max_depth": [1, 3, 7, 8, 12, None],
              "max_features": [8, 9, 10, 11, 16, 22],
              "min_samples_split": [8, 10, 11, 14, 16, 19],
              "min_samples_leaf": [1, 2, 3, 4, 5, 6, 7],
              "bootstrap": [True, False]}

# Para o classificador criado com ExtraTrees, testamos diferentes combinações de parâmetros
rsearch = RandomizedSearchCV(clf, param_distributions = param_dist, n_iter = 25, return_train_score = True)  

# Aplicando o resultado ao conjunto de dados de treino e obtendo o score
rsearch.fit(X_train, y_train)

# Resultados 
rsearch.cv_results_

# Imprimindo o melhor estimador
bestclf = rsearch.best_estimator_
print (bestclf)

# Aplicando o melhor estimador para realizar as previsões
y_pred = bestclf.predict(X_test)

# Confusion Matrix
confusionMatrix = confusion_matrix(y_test, y_pred)
print(confusionMatrix)

# Acurácia
accuracy = accuracy_score(y_test, y_pred)
print(accuracy)

ExtraTreesClassifier(max_depth=7, max_features=22, min_samples_leaf=3,
                     min_samples_split=8, n_estimators=500, random_state=99)
[[6651  327]
 [1292  730]]
0.8201111111111111


In [16]:
# Obtendo o grid com todas as combinações de parâmetros
rsearch.cv_results_

{'mean_fit_time': array([ 5.99961066,  7.00940289,  1.48024507,  1.74151711,  4.53961024,
         3.35956602,  3.1908278 ,  3.95089831,  6.39659266,  2.07234855,
         2.22142835,  7.20804744,  5.43943577,  3.13257332, 13.93577685,
         4.18867211,  1.70689802,  1.13056631,  2.93658543,  9.10589862,
         1.51723428,  3.21643291,  3.25295601,  1.30037313,  3.1159008 ]),
 'std_fit_time': array([0.05831951, 0.07753917, 0.03577783, 0.06737338, 0.02789676,
        0.02396873, 0.02820418, 0.06530597, 0.05855405, 0.0246554 ,
        0.20129542, 0.9956146 , 0.01973508, 0.38321742, 0.12477224,
        0.35608109, 0.17398231, 0.12562321, 0.40975263, 0.749972  ,
        0.03103799, 0.03523869, 0.03889912, 0.06241993, 0.16106291]),
 'mean_score_time': array([0.21138368, 0.18204331, 0.11262822, 0.1068047 , 0.1933301 ,
        0.17408719, 0.1758832 , 0.25997562, 0.37751732, 0.12603297,
        0.094626  , 0.3527781 , 0.25717368, 0.20075188, 0.41521235,
        0.20651121, 0.10999656, 0.0

## Grid Search x Randomized Search para Estimação dos Hiperparâmetros

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html

O Grid Search realiza metodicamente combinações entre todos os parâmetros do algoritmo, criando um grid. 

In [17]:
import numpy as np
from time import time
from scipy.stats import randint as sp_randint
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV
from sklearn.datasets import load_digits

# Obtém o dataset
digits = load_digits()
X, y = digits.data, digits.target

# Construindo o classificador
clf = RandomForestClassifier(n_estimators = 20)

In [18]:
# Randomized Search

# Valores dos parâmetros que serão testados
param_dist = {"max_depth": [3, None],
              "max_features": sp_randint(1, 11),
              "min_samples_leaf": sp_randint(1, 11),
              "bootstrap": [True, False],
              "criterion": ["gini", "entropy"]}

# Executando o Randomized Search
n_iter_search = 20
random_search = RandomizedSearchCV(clf, 
                                   param_distributions = param_dist, 
                                   n_iter = n_iter_search,
                                   return_train_score=True)

start = time()
random_search.fit(X, y)
print("RandomizedSearchCV executou em %.2f segundos para %d candidatos a parâmetros do modelo." 
      % ((time() - start), n_iter_search))

# Imprime as combinações dos parâmetros e suas respectivas médias de acurácia
random_search.cv_results_

RandomizedSearchCV executou em 4.83 segundos para 20 candidatos a parâmetros do modelo.


{'mean_fit_time': array([0.02194386, 0.02506332, 0.06411285, 0.04017544, 0.03396392,
        0.05553622, 0.02833815, 0.04644928, 0.04691529, 0.07089138,
        0.02981353, 0.02313957, 0.03040481, 0.02772121, 0.0314887 ,
        0.02719007, 0.06537294, 0.03096924, 0.02548413, 0.05172367]),
 'std_fit_time': array([0.00155575, 0.00109695, 0.00080522, 0.0011762 , 0.00267299,
        0.00135901, 0.00019828, 0.00036726, 0.00119187, 0.00222905,
        0.00145376, 0.00057589, 0.00065549, 0.00181874, 0.00072809,
        0.00062349, 0.00094321, 0.00140002, 0.00024338, 0.00087451]),
 'mean_score_time': array([0.00306678, 0.00278602, 0.00327797, 0.00333252, 0.00304651,
        0.00346951, 0.00281701, 0.00338192, 0.00333648, 0.00344644,
        0.00318146, 0.00293717, 0.00299382, 0.00339522, 0.00308166,
        0.00283866, 0.00374389, 0.00332003, 0.00297346, 0.00369692]),
 'std_score_time': array([2.17164908e-04, 5.70703763e-05, 1.55064658e-04, 1.55450420e-04,
        2.55535338e-04, 3.81923150e-

In [19]:
# Grid Search

# Usando um grid completo de todos os parâmetros
param_grid = {"max_depth": [3, None],
              "max_features": [1, 3, 10],
              "min_samples_leaf": [1, 3, 10],
              "bootstrap": [True, False],
              "criterion": ["gini", "entropy"]}

# Executando o Grid Search
grid_search = GridSearchCV(clf, param_grid = param_grid, return_train_score = True)
start = time()
grid_search.fit(X, y)

print("GridSearchCV executou em %.2f segundos para todas as combinações de candidatos a parâmetros do modelo."
      % (time() - start))
grid_search.cv_results_

GridSearchCV executou em 16.98 segundos para todas as combinações de candidatos a parâmetros do modelo.


{'mean_fit_time': array([0.02988167, 0.02553115, 0.02604246, 0.03011184, 0.02935839,
        0.03022699, 0.04530182, 0.03320646, 0.03273821, 0.03316402,
        0.03008761, 0.02800584, 0.04283948, 0.03845935, 0.04018569,
        0.06469436, 0.05651526, 0.05257697, 0.02663169, 0.02657161,
        0.02565961, 0.02984757, 0.03021512, 0.03157172, 0.04119077,
        0.04021354, 0.03895664, 0.04460626, 0.03080382, 0.02485538,
        0.04337039, 0.03931246, 0.03575711, 0.07846346, 0.07184138,
        0.05766158, 0.01942177, 0.02040553, 0.01904116, 0.02723074,
        0.02517123, 0.02330475, 0.03318338, 0.03344421, 0.03326974,
        0.0334166 , 0.02578478, 0.02350216, 0.04104576, 0.03867116,
        0.03242874, 0.07159033, 0.06714478, 0.05777473, 0.01896572,
        0.01978636, 0.02006278, 0.02370496, 0.02282748, 0.02441626,
        0.03749175, 0.03547511, 0.03637934, 0.04166765, 0.028653  ,
        0.02254238, 0.049298  , 0.04320202, 0.03523808, 0.08375854,
        0.07845278, 0.06570282]

### Fim

### Obrigado - Data Science Academy - <a href="http://facebook.com/dsacademybr">facebook.com/dsacademybr</a>