<a href="https://colab.research.google.com/github/Juniorexz/Codigo/blob/master/Revis%C3%A3olembrar.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd

uri = "https://gist.githubusercontent.com/guilhermesilveira/e99a526b2e7ccc6c3b70f53db43a87d2/raw/1605fc74aa778066bf2e6695e24d53cf65f2f447/machine-learning-carros-simulacao.csv"

dados = pd.read_csv(uri).drop(columns=["Unnamed: 0"], axis=1)

dados.head()


Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano
0,30941.02,1,18,35085.22134
1,40557.96,1,20,12622.05362
2,89627.5,0,12,11440.79806
3,95276.14,0,3,43167.32682
4,117384.68,1,4,12770.1129


In [2]:
# situação horrível de "azar" onde as classes estão ordenadas por padrão

dados_azar = dados.sort_values("vendido", ascending=True)
x_azar = dados_azar[["preco", "idade_do_modelo","km_por_ano"]]
y_azar = dados_azar["vendido"]
dados_azar.head()

Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano
4999,74023.29,0,12,24812.80412
5322,84843.49,0,13,23095.63834
5319,83100.27,0,19,36240.72746
5316,87932.13,0,16,32249.56426
5315,77937.01,0,15,28414.50704


In [3]:
from sklearn.model_selection import cross_validate
from sklearn.dummy import DummyClassifier
import numpy as np

SEED = 301
np.random.seed(SEED)

modelo = DummyClassifier()
results = cross_validate(modelo, x_azar, y_azar, cv = 10, return_train_score=False)
media = results['test_score'].mean()
desvio_padrao = results['test_score'].std()
print("Accuracy com dummy stratified, 10 = [%.2f, %.2f]" % ((media - 2 * desvio_padrao)*100, (media + 2 * desvio_padrao) * 100))

Accuracy com dummy stratified, 10 = [58.00, 58.00]


In [4]:
from sklearn.model_selection import cross_validate
from sklearn.tree import DecisionTreeClassifier

SEED = 301
np.random.seed(SEED)

modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x_azar, y_azar, cv = 10, return_train_score=False)
media = results['test_score'].mean()
desvio_padrao = results['test_score'].std()
print("Accuracy com cross validation, 10 = [%.2f, %.2f]" % ((media - 2 * desvio_padrao)*100, (media + 2 * desvio_padrao) * 100))

Accuracy com cross validation, 10 = [73.83, 77.73]


In [5]:
# gerando dados aleatórios de modelo de carro para simulação de agrupamento ao usar nosso estimador

np.random.seed(SEED)
dados['modelo'] = dados.idade_do_modelo + np.random.randint(-2, 3, size=10000)
dados.modelo = dados.modelo + abs(dados.modelo.min()) + 1
dados.head()

Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano,modelo
0,30941.02,1,18,35085.22134,18
1,40557.96,1,20,12622.05362,24
2,89627.5,0,12,11440.79806,14
3,95276.14,0,3,43167.32682,6
4,117384.68,1,4,12770.1129,5


In [6]:
def imprime_resultados(results):
  media = results['test_score'].mean() * 100
  desvio = results['test_score'].std() * 100
  print("Accuracy médio %.2f" % media)
  print("Intervalo [%.2f, %.2f]" % (media - 2 * desvio, media + 2 * desvio))

In [7]:
# GroupKFold para analisar como o modelo se comporta com novos grupos

from sklearn.model_selection import GroupKFold

SEED = 301
np.random.seed(SEED)

cv = GroupKFold(n_splits = 10)
modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=False)
imprime_resultados(results)

Accuracy médio 75.78
Intervalo [73.67, 77.90]


In [8]:
# GroupKFold em um pipeline com StandardScaler e SVC

from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline

SEED = 301
np.random.seed(SEED)

scaler = StandardScaler()
modelo = SVC()

pipeline = Pipeline([('transformacao',scaler), ('estimador',modelo)])

cv = GroupKFold(n_splits = 10)
results = cross_validate(pipeline, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=False)
imprime_resultados(results)

Accuracy médio 76.68
Intervalo [74.28, 79.08]


In [13]:
# GroupKFold em um pipeline com StandardScaler e SVC

from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline

SEED = 301
np.random.seed(SEED)

scaler = StandardScaler()
modelo = SVC()

pipeline = Pipeline([('transformacao',scaler), ('estimador',modelo)])

cv = GroupKFold(n_splits = 10)
results = cross_validate(pipeline, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=False)
imprime_resultados(results)

Accuracy médio 76.68
Intervalo [74.28, 79.08]


In [12]:
modelo

SVC()

O projeto que utilizaremos neste curso é uma continuação do projeto no qual trabalhos no curso de validação cruzada (Cross-validation). Mesmo que você tenha feito o curso, é recomendável utilizar o projeto disponibilizado pelo instrutor, pois foram feitos alguns ajustes para simplificá-lo de acordo com o que será necessário.

Se você ainda não fez o curso de validação cruzada, não deixe de verificar se já conhece o conteúdo que, afinal trata-se de um pré-requisito para este curso.

Para escrevermos os códigos, usaremos o Google Colab, mas você também pode usar o Jupyter localmente. Na aba "Upload", subiremos o arquivo Introdução_a_Machine_Learning_Otimização.ipynb, o mesmo no qual estávamos trabalhando nos cursos anteriores.

Então, rodaremos o trecho do código que tenta ler o csv da internet para carregar os dados.

import pandas as pd

uri = "https://gist.githubusercontent.com/guilhermesilveira/e99a526b2e7ccc6c3b70f53db43a87d2/raw/1605fc74aa778066bf2e6695e24d53cf65f2f447/machine-learning-carros-simulacao.csv"
dados = pd.read_csv(uri).drop(columns=["Unnamed: 0"], axis=1)
dados.head()COPIAR CÓDIGO
Isso fará com que o seguinte trecho de tabela seja exibido:

preco	vendido	idade_do_modelo	km_por_ano
0	30941.02	1	18	35085.22134
1	40557.96	1	20	12622.05362
2	89627.50	0	12	11440.79806
3	95276.14	0	3	43167.32682
4	117384.68	1	4	12770.11290
Cada linha dos dados representa um veículo à venda em um site fictício de vendas de automóveis. A primeira coluna representa o preço de cada veículo; a segunda, se ele foi vendido ou não; a terceira, quantos anos esse modelo tem; e a última, a média de KM esse carro rodou por ano.

Temos 3 colunas de informação (nossas features) e 1 coluna de classificação entre sim e não, que é a coluna relativa à venda do carro. Imagine que essa tabela foi gerada baseando-se no status de venda dos carros em um período de 6 meses após entrarem na plataforma, e queremos verificar se um modelo treinado é capaz de aprender isso.

Antes de treinarmos o modelo, nós tentamos, de propósito, ordenar os dados de uma maneira que não ajuda nesse treinamento. Nesse caso, eles foram ordenados de acordo com a coluna vendido - primeiro os veículos que não foram vendidos, e depois os que foram vendidos.

Isso instigou a necessidade de utilizarmos a validação cruzada.

# situação horrível de "azar" onde as classes estão ordenadas por padrão

dados_azar = dados.sort_values("vendido", ascending=True)
x_azar = dados_azar[["preco", "idade_do_modelo","km_por_ano"]]
y_azar = dados_azar["vendido"]
dados_azar.head()COPIAR CÓDIGO
preco	vendido	idade_do_modelo	km_por_ano
4999	74023.29	0	12	24812.80412
5322	84843.49	0	13	23095.63834
5319	83100.27	0	19	36240.72746
5316	87932.13	0	16	32249.56426
5315	77937.01	0	15	28414.50704
Com esses dados ordenados, utilizamos o DummyClassifier() para obtermos uma linha de base - ou seja, quão bom bom um modelo é capaz de ser sem que precisássemos fazer muita coisa. O DummyClassifier() é uma boa alternativa nesses casos, principalmente pois, por padrão, ele já é estratificado, utilizando a proporção de 0 e 1 que aparecem nos dados para tentar fazer um julgamento - se aparecem muitos 0, ele vai tentar muitos 0; se aparecem muitos 1, tentará muitos 1.

Esse código já foi atualizado para usar cross_validate() (validação cruzada).

from sklearn.model_selection import cross_validate
from sklearn.dummy import DummyClassifier
import numpy as np

SEED = 301
np.random.seed(SEED)

modelo = DummyClassifier()
results = cross_validate(modelo, x_azar, y_azar, cv = 10, return_train_score=False)
media = results['test_score'].mean()
desvio_padrao = results['test_score'].std()
print("Accuracy com dummy stratified, 10 = [%.2f, %.2f]" % ((media - 2 * desvio_padrao)*100, (media + 2 * desvio_padrao) * 100))COPIAR CÓDIGO
Não se esqueça de adicionar a linha import numpy as np, do contrário o código retornará um erro!

Rodando o código, o console retornará "Accuracy com dummy stratified, 10 = [49.79, 53.45]" - ou seja, tivemos um intervalo entre aproximadamente 49 e 53.

Em seguida, rodamos os mesmos dados (com x_azar, y_azar e cross_validate()) no DecisionTreeClassifier(). Na prática, às vezes utilizamos um DummyClassifier() como linha de base, e às vezes escolhemos um algoritimo simples para essa mesma função. Pode ser preferível rodar os dois, tanto um dummy quanto um algoritmo mais inteligente, pois existem situações em que o algoritmo mais inteligente realmente não se encaixa com aquele modelo.

from sklearn.model_selection import cross_validate
from sklearn.tree import DecisionTreeClassifier

SEED = 301
np.random.seed(SEED)

modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x_azar, y_azar, cv = 10, return_train_score=False)
media = results['test_score'].mean()
desvio_padrao = results['test_score'].std()
print("Accuracy com cross validation, 10 = [%.2f, %.2f]" % ((media - 2 * desvio_padrao)*100, (media + 2 * desvio_padrao) * 100))COPIAR CÓDIGO
Rodando esse código, retornamos uma taxa bem melhor, entre 73 e 77.

Accuracy com cross validation, 10 = [73.83, 77.73]

No segundo curso de Machine Learning, uma das formas que trabalhamos foi agrupando os carros por modelos. Como os dados são fictícios, nós criamos juntos o modelo do carro. Utilizamos um código para geração aleatória de informações (mas de maneira replicável) para definirmos a coluna "modelo".

# gerando dados aleatórios de modelo de carro para simulação de agrupamento ao usar nosso estimador

np.random.seed(SEED)
dados['modelo'] = dados.idade_do_modelo + np.random.randint(-2, 3, size=10000)
dados.modelo = dados.modelo + abs(dados.modelo.min()) + 1
dados.head()COPIAR CÓDIGO
preco	vendido	idade_do_modelo	km_por_ano	modelo
0	30941.02	1	18	35085.22134	18
1	40557.96	1	20	12622.05362	24
2	89627.50	0	12	11440.79806	14
3	95276.14	0	3	43167.32682	6
4	117384.68	1	4	12770.11290	5
A coluna "modelo" indica qual é o modelo de cada carro - uma variável categoria, na qual os elementos da amostra não possuem relação entre si. O modelo não foi utilizado para tentarmos prever o valor do carro, mas sim para verificar, dado que treinamos o algoritmo em diversos modelos de carro, quão bom ele seria em prever novos modelos de carros.

Ou seja, a coluna "modelo" não é utilizada como uma feature (no nosso x, que continua sendo x_azar), mas para agrupar os nossos dados.

Criamos uma função de resultados:

def imprime_resultados(results):
  media = results['test_score'].mean() * 100
  desvio = results['test_score'].std() * 100
  print("Accuracy médio %.2f" % media)
  print("Intervalo [%.2f, %.2f]" % (media - 2 * desvio, media + 2 * desvio))COPIAR CÓDIGO
E rodamos uma validação cruzada que agrupa pelo modelo do carro. Em seguida, rodamos o DecisionTreeClassifier().

# GroupKFold para analisar como o modelo se comporta com novos grupos

from sklearn.model_selection import GroupKFold

SEED = 301
np.random.seed(SEED)

cv = GroupKFold(n_splits = 10)
modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=False)
imprime_resultados(results)COPIAR CÓDIGO
Como resultado, obtemos Accuracy médio 75.78 e Intervalo [73.67, 77.90], o que quer dizer que o algoritmo generalizou bem, assim como se não fosse um modelo novo.

Mais tarde, também fizemos classificação com base no SVC (Support Vector Machine).

# GroupKFold em um pipeline com StandardScaler e SVC

from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline

SEED = 301
np.random.seed(SEED)

scaler = StandardScaler()
modelo = SVC()

pipeline = Pipeline([('transformacao',scaler), ('estimador',modelo)])

cv = GroupKFold(n_splits = 10)
results = cross_validate(pipeline, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=False)
imprime_resultados(results)COPIAR CÓDIGO
Nós utilizamos duas vezes o desvio padrão da nossa validação de 10 folds. Como resultado, tivemos:

Accuracy médio 76.68

Intervalo [74.28, 79.08]

No próximo passo, vamos utilizar o DecisionTreeClassifier(). Vamos jogar a célula referente a esse código para baixo e rodá-lo novamente, obtendo a variável modelo, que é justamente o nosso DecisionTreeClassifier().

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=2,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')COPIAR CÓDIGO
Agora queremos visualizar essa árvore. Para isso, utilizaremos o Graphviz (import graphviz), uma biblioteca que já utilizamos no passado. Também importaremos o export_graphviz de sklearn.tree.

Chamaremos o export_graphviz() para o nosso modelo, definindo que não queremos jogar nenhum arquivo (out_file=None), queremos preencher os retângulos de visualização da árvore de decisão (filled=True), queremos arredondá-los (rounded=True), queremos que os nomes das classes sejam "não" e "sim" (class_names=["não","sim"], de "não foi vendido" e "sim, foi vendido") e queremos que os nomes das features sejam os nomes das colunas de x na nossa tabela (feature names = features e features = x_azar.columns).

Exportar a visualização devolve dados chamados de dot_data. Finalmente, queremos que o Graphviz utilize dot_data como fonte (graphviz.Source()) e imprima esse gráfico, o que é feito chamando o atributo graph.

from sklearn.tree import export_graphviz
import graphviz

features = x_azar.columns
dot_data = export_graphviz(modelo, out_file=None, filled=True, rounded=True, 
                class_names=["não", "sim"], 
                feature_names =  features)

graph = graphviz.Source(dot_data)
graphCOPIAR CÓDIGO
Para utilizarmos o Graphviz, precisamos primeiro instalá-lo no início do nosso código. Para isso, usaremos !pip install graphviz=0.9. Também usaremos !pip install pydot. Por fim, o Graphviz também precisa ser instalado com !apt-get install graphviz.

!pip install graphviz==0.9
!pip install pydot

!apt-get install grapvizCOPIAR CÓDIGO
Da primeira vez que rodarmos esse código, será necessário baixar e instalar tanto os pacotes do Python quanto os pacotes nativos do apt-get, portanto isso levará algum tempo.

Agora, quando rodarmos o código para imprimir a visualização da nossa árvore de decisão... teremos um erro dizendo que nossa árvore de decisão ainda não foi treinada.

NotFittedError: This DecisionTreeClassifier instance is not fitted yet. Call 'fit' with appropriate arguments before using this method.

Porém, nós fizemos a validação cruzada desse modelo, certo? Na verdade, quando fazemos 10 vezes a validação cruzada, resultamos em 10 modelos diferentes. E qual desses 10 modelos queremos usar? Essa é uma pergunta delicada, e a resposta é que não queremos utilizar nenhum deles. Na validação cruzada, nós treinamos o algoritmo 10 vezes para termos uma estimativa de quão bem esse modelo funcionaria no mundo real. Agora queremos o modelo propriamente dito para utilizarmos na vida real.

Portanto, vamos pegar nosso modelo e treiná-lo com x_azar e y_azar.

from sklearn.tree import export_graphviz
import graphviz

modelo.fit(x_azar, y_azar)
features = x_azar.columns
dot_data = export_graphviz(modelo, out_file=None, filled=True, rounded=True, 
                class_names=["não", "sim"], 
                feature_names =  features)

graph = graphviz.Source(dot_data)
graphCOPIAR CÓDIGO
Assim, finalmente teremos a visualização da nossa árvore de decisão.

visualização da árvore de decisão com profundidade 2

Mas repare que essa árvore não é muito profunda, já que possui apenas duas decisões. E se colocássemos três níveis de profundidade? A profundidade máxima é justamente um dos parâmetros que um classifier, como DecisionTreeClassifier(), pode receber. Para testarmos isso, vamos rodar novamente nosso classifier, dessa vez com max_depth=3.

from sklearn.model_selection import GroupKFold

SEED = 301
np.random.seed(SEED)

cv = GroupKFold(n_splits = 10)
modelo = DecisionTreeClassifier(max_depth=3)
results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=False)
imprime_resultados(results)COPIAR CÓDIGO
Dessa vez, nosso resultado será:

Accuracy médio 78.67

Intervalo [76.40, 80.94]

Exportando novamente a visualização, teremos uma árvore com até 3 níveis de comparações e a decisão final. Além disso, nosso resultado foi ainda melhor.

visualização da árvore de decisão com profundidade 3

Será então que, quanto maior o max_depth, melhores serão os resultados? Para testar isso, vamos repetir o processo, dessa vez com max_depth=10.

Nosso resultado dessa vez será:

Accuracy médio 77.19

Intervalo [75.26, 79.13]

Ou seja, obtemos valores piores do que os que tínhamos conseguido anteriormente, e a visualização gerada é tão grande que mal cabe na tela do computador.

O ponto é: na documentação do SkLearn DecisionTreeClassifier encontramos a informação de que ele tem um parâmetro, chamado max_depth, que pode ser setado para o número que quisermos. Mas como escolhemos esse número, que influencia em quão bem o nosso algorítimo irá rodar?

Outros classificadores, como o SVC, também possuem parâmetros que interferem nos resultados do algorítimo. O nosso objetivo nesse curso é entendermos como escolher esses parâmetros para otimizar o nosso estimador. 

In [14]:
from sklearn.model_selection import GroupKFold

def roda_arvore_de_decisao(max_depth):
  SEED = 301
  np.random.seed(SEED)

  cv = GroupKFold(n_splits = 10)
  modelo = DecisionTreeClassifier(max_depth=max_depth)
  results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=False)
  print("max_depth = %d, media =%.2f" % (max_depth, results['test_score'].mean() * 100))



for i in range (1, 33):
      roda_arvore_de_decisao(i)

max_depth = 1, media =75.78
max_depth = 2, media =75.78
max_depth = 3, media =78.67
max_depth = 4, media =78.63
max_depth = 5, media =78.56
max_depth = 6, media =78.12
max_depth = 7, media =77.96
max_depth = 8, media =77.86
max_depth = 9, media =77.38
max_depth = 10, media =77.19
max_depth = 11, media =76.97
max_depth = 12, media =76.49
max_depth = 13, media =75.81
max_depth = 14, media =75.66
max_depth = 15, media =75.16
max_depth = 16, media =75.11
max_depth = 17, media =74.74
max_depth = 18, media =74.33
max_depth = 19, media =74.34
max_depth = 20, media =74.22
max_depth = 21, media =73.80
max_depth = 22, media =73.81
max_depth = 23, media =73.38
max_depth = 24, media =73.43
max_depth = 25, media =73.14
max_depth = 26, media =73.04
max_depth = 27, media =72.91
max_depth = 28, media =72.66
max_depth = 29, media =72.73
max_depth = 30, media =72.81
max_depth = 31, media =72.86
max_depth = 32, media =72.52


Anteriormente, aprendemos que podemos fornecer parâmetros para nossos estimadores/classificadores (como max_depth) antes de eles serem treinados. Parâmetros que são definidos antes do treino são chamados de hiperparâmetros, e são diferentes de valores internos do modelo que vão sendo alterados de acordo com o que o modelo está aprendendo.

Em nosso exemplo, utilizamos a profundidade máxima de uma árvore de decisão padrão do SkLearn. E qual valor escolheremos para ela? Antes de decidirmos, vamos testar diversos valores e prestar atenção no que acontece. Para isso, rodaremos o DecisionTreeClassifier() várias vezes, de 1 até 32.

Criaremos uma função roda_arvore_de_decisao() que roda a árvore de decisão para uma profundidade específica. Essa função será usada como parâmetro de max_depth.

Com isso, se chamarmos a árvore de decisão com 10, essa árvore será chamada até o máximo 10, e assim sucessivamente. Portanto, podemos fazer um for i in range() passando o intervalo 1,33 - ou seja, de 1 até 32, excluindo 33, e passar i como max_depth da função.

Também precisaremos mudar a função que exibe os resultados, pois imprime_resultados() não trará uma resposta facilmente legível e que ainda contém informações desnecessárias.

Nesse instante, vamos imprimir somente o tamanho do max_depth e a média do test_score:

from sklearn.model_selection import GroupKFold

def roda_arvore_de_decisao(max_depth):
  SEED = 301
  np.random.seed(SEED)

  cv = GroupKFold(n_splits = 10)
  modelo = DecisionTreeClassifier(max_depth=max_depth)
  results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=False)
  print("max_depth = %d, media =%.2f" % (max_depth, results['test_score'].mean() * 100))



for i in range (1, 33):
      roda_arvore_de_decisao(i)COPIAR CÓDIGO
Como resultado, teremos:

max_depth = 1, media =75.78

max_depth = 2, media =75.78

max_depth = 3, media =78.67

max_depth = 4, media =78.63

max_depth = 5, media =78.56

max_depth = 6, media =78.12

max_depth = 7, media =77.96 max_depth = 8, media =77.86

max_depth = 9, media =77.38

max_depth = 10, media =77.19

max_depth = 11, media =76.97

max_depth = 12, media =76.49

max_depth = 13, media =75.81

(...)

O que esperaríamos é que, quanto maior fosse a profundidade da árvore, mais decisões ela precisaria tomar e mais perfeito seria o seu treinamento em relação aos nossos testes. Porém, a partir de max_depth=3, que possui uma média 78.67, temos uma queda constante até max_depth = 32, que possui a média mais baixa, 72.52.

Isso acontece porque, quando treinamos a nossa árvore, ela aprende e cria as suas ramificações. Com profundidades muito grandes, a árvore se torna tão perfeita para os dados de treino que falha nos dados de teste - quase como se ela tivesse memorizado o teste.

Vamos verificar se é isso mesmo que está acontecendo?


Pause
Unmute
Current Time 10:13
/
Duration 10:22
1.25xPlayback Rate
Open quality selector menuPicture-in-Picture
Open Theater Mode
Fullscreen
Transcrição
Além de imprimirmos o valor do teste, queremos imprimir também o valor do treino. Para isso, atribuiremos True para return_train_score, e passaremos "Arvore max_depth = %d, treino = %.2f, teste = %.2f," % (max_depth, results['train_score'].mean() * 100, results['test_score'].mean() * 100) para o método print().

from sklearn.model_selection import GroupKFold

def roda_arvore_de_decisao(max_depth):
  SEED = 301
  np.random.seed(SEED)

  cv = GroupKFold(n_splits = 10)
  modelo = DecisionTreeClassifier(max_depth=max_depth)
  results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=True)
  print("Arvore max_depth = %d, treino = %.2f, teste = %.2f," % (max_depth, results['train_score'].mean() * 100, results['test_score'].mean() * 100))



for i in range (1, 33):
      roda_arvore_de_decisao(i)COPIAR CÓDIGO
Assim como esperávamos, os treinos serão cada vez melhores, mas rapidamente cairão com os dados de teste.

Arvore max_depth = 1, treino = 75.79, teste = 75.78,

Arvore max_depth = 2, treino = 75.79, teste = 75.78,

Arvore max_depth = 3, treino = 78.75, teste = 78.67,

Arvore max_depth = 4, treino = 78.79, teste = 78.63,

Arvore max_depth = 5, treino = 78.94, teste = 78.56,

(...)

Arvore max_depth = 28, treino = 96.75, teste = 72.66,

Arvore max_depth = 29, treino = 97.10, teste = 72.73,

Arvore max_depth = 30, treino = 97.43, teste = 72.81,

Arvore max_depth = 31, treino = 97.80, teste = 72.86,

Arvore max_depth = 32, treino = 98.10, teste = 72.52

Qqueremos visualizar esses resultados de maneira mais inteligível. Para isso, começaremos extraindo as variável train_score e test_score:

train_score = results['train_score'].mean() * 100
test_score = results['test_score'].mean() * 100COPIAR CÓDIGO
Em seguida, criaremos uma variável tabela recebendo um array de três valores: max_depth, train_score e test_score, e retornaremos essa tabela:

tabela = [max_depth, train_score, test_score]
return tabelaCOPIAR CÓDIGO
Assim, a função roda_arvoce_de_decisao() está nos devolvendo uma tabela. Existem várias maneiras de agruparmos esses dados. Nesse caso, usaremos uma feature do Python chamada list comprehension.

Queremos rodar o código de roda_arvore_de_decisao() para cada um dos i, nos devolvendo uma lista que contémtabela e atribuindo-a a uma variável resultados. Para conseguirmos trabalhar melhor com esses dados, vamos transformá-la em um dataframe do Pandas com pd.DataFrame(), passando resultados e os nomes das colunas max_depth, train e test, e vamos imprimir resultados com .head().

from sklearn.model_selection import GroupKFold

def roda_arvore_de_decisao(max_depth):
  SEED = 301
  np.random.seed(SEED)

  cv = GroupKFold(n_splits = 10)
  modelo = DecisionTreeClassifier(max_depth=max_depth)
  results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=True)
  train_score = results['train_score'].mean() * 100
  test_score = results['test_score'].mean() * 100
  print("Arvore max_depth = %d, treino = %.2f, teste = %.2f" % (max_depth, results['train_score'].mean() * 100, results['test_score'].mean() * 100))
  tabela = [max_depth, train_score, test_score]
  return tabela

resultados = [roda_arvore_de_decisao(i) for i in range (1, 33)]
resultados = pd.DataFrame(resultados, columns = ["max_depth", "train", "test"])
resultados.head()
COPIAR CÓDIGO
Como resultado, o console nos retornará a tabela abaixo:

max_depth	train	test
0	1	75.791169	75.784219
1	2	75.791169	75.784219
2	3	78.750993	78.672633
3	4	78.787628	78.632803
4	5	78.941007	78.555912
Agora que temos uma tabela do Pandas, podemos transformá-la em um gráfico. Para isso, importaremos a biblioteca searbon como sns, e escreveremos um plot de linha (lineplot()) cujos dados são os resultados (data = resultados).

No eixo x, queremos a profundidade (x = "max_depth"), e no eixo y queremos as médias do treino (y = "train"). Repetindo esse processo, dessa vez mudando o eixo y para as médias do teste (y = "test"), teremos os dois gráficos sendo plotados um sobre o outro, o que nos permitirá enxergar bem esses dados.

import seaborn as sns

sns.lineplot(x = "max_depth", y = "train", data = resultados)
sns.lineplot(x = "max_depth", y = "test", data = resultados)COPIAR CÓDIGO
Como a versão padrão do seaborn no Google Colab é antiga e não possui o lineplot(), será necessário, no início da execução, instalarmos a versão 0.9.0, que contém essa função.

!pip install seaborn==0.9.0COPIAR CÓDIGO
Ao fazermos isso, também será necessário reiniciar a máquina virtual ("Runtime > Restart Runtime") para que a versão correta seja carregada. Executando nosso código, o gráfico será gerado na tela.



Nele, podemos analisar que conforme aumentamos o max_depth, a média do treino vai ficando cada vez melhor, chegando a quase 100%. Porém, em determinado momento, o algoritmo começa a ficar tão exato para o modelo que deixa de ser adequado para os testes, com a média sendo cada vez menor.

Esse tipo de cenário é chamado de overfitting.

Antes de prosseguirmos, vamos adicionar legendas no gráfico para que ele fique ainda mais legível. Para isso, importaremos matplotlib.pyplot as plt e usaremos plt.legend() para passar nossas legendas Treino e Teste.

import matplotlib.pyplot as plt

sns.lineplot(x = "max_depth", y = "train", data = resultados)
sns.lineplot(x = "max_depth", y = "test", data = resultados)
plt.legend(["Treino", "Teste"])COPIAR CÓDIGO
Agora que varremos todo esse espaço de possibilidades, podemos ordenar os resultados a partir da qualidade do teste (resultados.sort_values("test")) de maneira decrescente (ascending=False), utilizando .head() para mostrar somente os cinco primeiros.

resultados.sort_values("test", ascending=False).head()COPIAR CÓDIGO
Podemos perceber as melhores árvores tiveram max_depth = 3, max_depth = 4 ou max_depth = 5. Portanto, usaríamos, por exemplo, max_depth = 3.

max_depth	train	test
3	78.750993	78.672633
4	78.787628	78.632803
5	78.941007	78.555912
6	79.170115	78.123266
7	79.496806	77.963185
Veremos mais variações de parâmetros e como tomar essa decisão nas próximas aulas. Até o momento, devemos entender max_depth é um exemplo de parâmetro de um algoritmo como a árvore decisão. Além disso, é perigoso varrermos demais os dados do treino e, consequentemente, prejudicarmos os resultados do teste.Recapitulando: nós estudamos um parâmetro da árvore de decisão, chamado "profundidade máxima", testando-o com diversos valores dentro de um intervalo discreto. Com isso, descobrimos que a média da accuracy do nosso algoritmo teve uma fase de crescimento, mas rapidamente caiu conforme os valores foram aumentando.

É impossível dizer que essa média sempre aumentaria ou diminuiria de acordo com os valores atribuídos aos parâmetros, já que isso depende muito do tipo de parâmetro e dos dados que estamos utilizando. De maneira a contornar isso, nossa alternativa foi realizar os testes com uma grande quantidade de valores.

Apesar da quantidade de dados, nosso algoritmo foi razoavelmente rápido. Porém, o processo de treinar com validação cruzada utilizando grupos pode demorar mais tempo - por exemplo, 5 minutos para treinar e testar 1 valor de um parâmetro. Nesse caso, rodar o código 64 vezes levaria 5 horas e meia, e só então saberíamos qual desses valores foi melhor. E se esse processo levasse meia hora por cada valor?

Existem opções, como distribuir os processos, rodá-los em paralelo ou na nuvem, mas o que queremos no momento é entender o que é o espaço de parâmetro e como otimizar esses espaços - não só o algoritmo, como também o tempo de busca dos melhores parâmetros nesse espaço.

Uma das estratégias possíveis é pegar um parâmetro e varrer os dados com ele. Essa técnica tem suas vantagens e desvantagens, e é com ela que trabalharemos agora.
Definir sobre max_depth;
Definir sobre a árvore de decisão ( DecisionTreeClassifier);
Mostrar gráficos com o seaborn;
Mostrar gráficos com matplotlib;
Definir hiperparâmetros.


Anteriormente, aprendemos que é possível explorar o espaço de um parâmetro do nosso classificador, como o max_depth. Se testássemos, por exemplo, 64 valores para esse parâmetro, teríamos alguns problemas e necessidades. Felizmente, esse não é o nosso objetivo nesse instante, e quando for nós encontraremos outras estratégias mais simples.

O importante agora é notar que, como consta na documentação do DecisionTreeClassifier, esse algorítimo possui diversos outros parâmetros - dentre os quais nem todos são hiperparâmetros.

Um hiperparãmetro é um parâmetro que é setado previamente e que define a regra de criação da nossa árvore de decisão, como o próprio max_depth. Outro exemplo seria min_samples_leaf, que é número mínimo de elementos (samples) em uma folha.

As folhas são os últimos nós de uma árvore de decisão, a partir dos quais não ocorrem mais decisões. Um exemplo de uma árvore "perfeita" seria aquela em que todas as suas folhas contivessem somente um elemento - ou seja, na qual cada elemento tivesse uma classificação específica.

Mas não queremos que o número de samples seja muito baixo, pois isso faria com que o nosso algoritmo ficasse muito específico para o treino, não conseguindo generalizar tão bem para os testes. É para isso que serve o hiperparâmetro min_samples_leaf.

Nosso objetivo agora é explorarmos ambos os espaços de parâmetros, max_depth e min_samples_leaf, com diversos valores discretos.

Poderíamos começar testando max_depth = 1 e min_samples_leaf = 1, depois max_depth = 1 e min_samples_leaf = 2, e assim sucessivamente até termos explorado todas as combinações de parâmetros. Isso resulta em 4096 testes (64 possibilidades do primeiro parâmetro multiplicadas por 64 possibilidades do segundo). Se cada um desses testes levasse 5 minutos, levaríamos 341 horas - aproximadamente 14 dias rodando o algoritmo. Complicado, não? E se tivéssemos ainda mais parâmetros - por exemplo, 10?

Aprenderemos mais sobre isso nas próximas lições.
Dessa vez, ao invés de rodarmos nossa árvore de decisão para um único parâmetro, a rodaremos para dois. Para isso, criaremos uma cópia do código de roda_arvore_de_decisao(), dessa vez passando max_depth e min_samples_leaf.

Em DecisionTreeClassifier(), adicionaremos o trecho min_samples_leaf = min_samples_leaf para passarmos o parâmetro para nosso modelo. Também precisamos incluir min_samples_leaf = %d na função print(), e min_samples_leaf na tabela e no resultado das nossas colunas.

Como queremos rodar dois valores por vez, não usaremos list comprehension, pois os resultados não seriam tão facilmente legíveis. Vamos começar passando resultados = [] e, depois, criaremos um for max_depth in range(1,33) que culmina em for min_samples_leaf in range(1,33).

Em seguida, tabela deve receber a função roda_arvore_de_decisao com max_depth e min_samples_leaf. Essa tabela será adicionada nos resultados com resultados.append(tabela).

Como esse código está muito solto, vamos agrupá-lo em uma função busca() que devolve resultados. Por mim, definiremos resultados = busca() e chamaremos busca.head() para imprimir os cinco primeiro elementos desses resultados.

def roda_arvore_de_decisao(max_depth, min_samples_leaf):
  SEED = 301
  np.random.seed(SEED)

  cv = GroupKFold(n_splits = 10)
  modelo = DecisionTreeClassifier(max_depth=max_depth, min_samples_leaf = min_samples_leaf)
  results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=True)
  train_score = results['train_score'].mean() * 100
  test_score = results['test_score'].mean() * 100
  print("Arvore max_depth = %d, min_samples_leaf = %d, treino = %.2f, teste = %.2f" % (max_depth, min_samples_leaf, train_score, test_score))
  tabela = [max_depth, min_samples_leaf, train_score, test_score]
  return tabela

def busca():
  resultados = []
  for max_depth in range(1,33):
    for min_samples_leaf in range(1,33):
        tabela = roda_arvore_de_decisao(max_depth, min_samples_leaf)
        resultados.append(tabela)
  resultados = pd.DataFrame(resultados, columns= ["max_depth","min_samples_leaf","train","test"])
  return resultados

resultados = busca()
resultados.head()COPIAR CÓDIGO
Rodar esse código todo vai levar muito tempo. Como não queremos isso, ao invés de testarmos todo o espaço do parâmetro min_samples_leaf, rodaremos apenas uma lista com alguns valores:

def busca():
  resultados = []
  for max_depth in range(1,33):
    for min_samples_leaf in [32, 64, 128, 256]:COPIAR CÓDIGO
Dessa forma, teremos apenas 128 pares de hiperparâmetros testados. Para analisarmos os resultados, vamos imprimir na tela a tabela dos melhores resultados:

resultados.sort_values("test", ascending=False).head()COPIAR CÓDIGO
Pelo que podemos perceber, os cinco melhores atingiram aproximadamente 78% no teste, todos com max_depth = 4. Já o min_samples_leaf parece não ter influenciado o resultado quando max_depth = 4.

max_depth	min_samples_leaf	train	test
4	256	78.750993	78.672633
4	32	78.750993	78.672633
4	128	78.750993	78.672633
4	64	78.750993	78.672633
3	32	78.750993	78.672633
Agora que temos dois hiperparâmetros e estamos em um espaço de duas dimensões, vamos explorar ainda mais esses dados.

Neste momento, temos uma tabela que indica a situação de dois parâmetros e quão bem um modelo foi no treino e no teste. Nossa dúvida é: como estão se comportando os resultados de treino e de teste em função dos valores de cada parâmetro?

max_depth	min_samples_leaf	train	test
4	256	78.750993	78.672633
4	32	78.750993	78.672633
4	128	78.750993	78.672633
4	64	78.750993	78.672633
3	32	78.750993	78.672633
Existe uma dificuldade de apreendermos exatamente o que está acontecendo nesses dados: primeiro, porque a tabela é enorme e estamos mostrando apenas os cinco melhores resultados; e também porque estamos omitindo diversos valores possíveis do nosso teste. Será que o resultado seria melhor se tivéssemos escolhido, por exemplo, min_samples_leaf = 57? E min_samples_leaf = 300?

Testar todas as possibilidades consome muito processamento. Uma das abordagens possíveis - claramente a mais complexa -, seria paralelizar esse processamento, distribuindo-o em várias máquinas.

Outra maneira de tentarmos visualizar se existem espaços de parâmetros melhores para o nosso algoritmo é procurarmos uma relação entre o resultado de teste e esses parâmetros por meio de uma análise de correlação. O próprio Pandas nos disponibiliza esse tipo de análise estatística tradicional, bastando escrevermos resultados.corr().

max_depth	min_samples_leaf	train	test
max_depth	1.000000	0.000000	0.681408	-0.522835
min_samples_leaf	0.000000	1.000000	-0.453825	0.528330
train	0.681408	-0.453825	1.000000	-0.762534
test	-0.522835	0.528330	-0.762534	1.000000
Quanto mais alto o valor, mais correlacionados estão os elementos na comparação. Por exemplo, quanto maior o max_depth, maior será o max_depth. Essa é uma conclusão bastante óbvia, afinal o max_depth é ele mesmo, mas que nos ajuda a entender o que está acontecendo. Além disso, repare resultados positivos (maiores que 0) representam uma correlação positiva, e negativos uma correlação negativa.

Outras conclusões que podemos tirar a partir desses resultados:

quando max_depth cresce, o treino parece crescer também
quando min_samples_leaf cresce, o treino cai
quando max_depth sobe, o teste cai
quando min_samples_leaf sobe, o teste sobe
Note que essa não é uma prova de causalidade, mas um teste de correlação.

Uma técnica comum para visualizarmos essa correlação é plotar esses resultados em um gráfico. Primeiramente, atribuiremos essa correlação a uma variável corr. Em seguida, com o seaborn, impriremos a correlação em um mapa de calor (sns.heatmap(corr)).

mapa de calor correlacionando `max_depth`, `min_samples_leaf`, `train` e `test` 

No nosso exemplo, os espaços mais próximos da cor vinho têm uma correlação muito alta, como fica claro nos quadrados da diagonal. Em contrapartida, quanto mais próximos do azul marinho, menor é essa correlação.

Existem outras maneiras de visualizarmos essa correlação. Dessa vez, usaremos outro tipo de comparação desses valores: uma matriz que mostra os pontos soltos (scatter_matrix()).

Nela, passaremos os resultados, acompanhados de figsize = (14, 8) (para que os gráficos fiquem um pouco maiores e mais fáceis de serem analisados) e alpha = 0.3 (para ajustarmos a transparência dos pontos plotados).

pd.scatter_matrix(resultados, figsize = (14, 8), alpha = 0.3)COPIAR CÓDIGO
Dessa forma, serão gerados os seguintes gráficos:



Na diagonal, são exibidos os histogramas dos valores. Por exemplo, para train, tivemos diversos resultados na faixa de 79%, e no test tivemos diversos valores na faixa de 78%.

Já os gráficos que não compõem a diagonal são equivalentes à nossa correlação - à medida em que max_depth aumenta, o resultado de test cai e o resultado de train sobe, entre outras correlações.

Outra visualização possível no Seaborn é o pairplot(), que plota os resultados pareados, de maneira muito parecida com nossa scatter_matrix.

sns.pairplot(resultados)COPIAR CÓDIGO
Na diagonal, teremos novamente os histogramas dos valores. Os outros gráficos fazem os relacionamentos de um parâmetro em função do outro, e novamente podemos analisar que, enquanto max_depth aumenta, o test cai.



No gráfico do canto inferior esquerdo, temos 4 linhas que provavelmente representam cada valor de min_samples_leaf. Entretanto, ao menos nesse gráfico, é impossível visualizarmos qual valor cada linha representa.

Por último, geraremos outro gráfico que consta na própria documentação do seaborn correlations, a matriz de correlação diagonal (diagonal correlation matrix). Para isso, copiaremos o código que consta nessa documentação, apenas removendo os trechos em que os dados são gerados e atribuídos à uma variável corr.

from string import ascii_letters
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

sns.set(style="white")

# Generate a mask for the upper triangle
mask = np.zeros_like(corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True

# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(220, 10, as_cmap=True)

# Draw the heatmap with the mask and correct aspect ratio
sns.heatmap(corr, mask=mask, cmap=cmap, vmax=.3, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})COPIAR CÓDIGO
Nosso resultado é o seguinte gráfico:



Repare que somente os dados que nos interessam (ou seja, aqueles que não são equivalentes) são plotados com cores na matriz. Nela, percebemos que parece existir uma correlação muito forte entre test e min_samples_leaf - quanto maior o min_samples_leaf, maior a qualidade do test.

Com esses dados em mãos, podemos então testar outros valores. Como obtivemos resultados melhores com 128 e 256, vamos mantê-los, adicionando 192 e 512.

def busca():
  resultados = []
  for max_depth in range(1,33):
    for min_samples_leaf in [128, 192, 256, 512]:
        tabela = roda_arvore_de_decisao(max_depth, min_samples_leaf)
        resultados.append(tabela)
  resultados = pd.DataFrame(resultados, columns= ["max_depth","min_samples_leaf","train","test"])
  return resultados

resultados = busca()
resultados.head()COPIAR CÓDIGO
Isso não garante que iremos encontrar o melhor valor possível para o nosso parâmetro, mas é uma maneira de explorarmos as possibilidades e resultados.

Após executarmos esse código, vamos rodar novamente corr = resultados.corr() e o código que gera a nossa matriz.



Dessa vez, o resultado é uma correlação negativa entre min_samples_leaf e test.

Com resultados.sort_values("test", ascending=False).head(), analisaremos outra vez quais foram os cinco melhores resultados desse teste:

max_depth	min_samples_leaf	train	test
4	192	78.750993	78.672633
3	128	78.750993	78.672633
3	192	78.750993	78.672633
3	256	78.750993	78.672633
4	256	78.750993	78.672633
Essa é uma maneira de tentarmos encontrar os valores que mais otimizam o nosso estimador, com o menor índice de erro e o maior nível de qualidade. Fizemos isso com dois parâmetros, mas é possível trabalhar com um número ainda maior!
Definir os elementos mínimos em uma árvore de decisão;
Utilizar o min_samples_leaf para treino;
O que é corr do pandas;Nas aulas anteriores, exploramos um espaço de 2 dimensões, atrelado a 2 parâmetros. Mesmo assim, não exploramos todo o espaço de parâmetros, e mesmo que tenhamos encontrado valores que parecem razoáveis, não temos garantia de que são os melhores possíveis.

Na documentação do DecisionTreeClassifier, encontramos diversos outros parâmetros - e vários deles são hiperparâmetros.

Dessa vez, vamos trabalharemos com min_samples_split. Antes, estávamos explorando o mínimo de samples em um nó final (a nossa "folha"), e agora exploraremos o mínimo de "quebras" (splits) que podemos ter no meio da árvore.

Para isso, na nossa função busca(), precisaremos criar mais um for, novamente com valores fixos - nesse caso, 32, 64, 128 e 256. Além disso, min_samples_split deve ser adicionado:

como parâmetro da função roda_arvore_de_decisao()
como parâmetro de DecisionTreeClassifier().
como um dos valores de tabela
como uma das colunas de DataFrame()
def roda_arvore_de_decisao(max_depth, min_samples_leaf, min_samples_split):
  SEED = 301
  np.random.seed(SEED)

  cv = GroupKFold(n_splits = 10)
  modelo = DecisionTreeClassifier(max_depth=max_depth, min_samples_leaf = min_samples_leaf, min_samples_split = min_samples_split)
  results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=True)
  train_score = results['train_score'].mean() * 100
  test_score = results['test_score'].mean() * 100

  tabela = [max_depth, min_samples_leaf, min_samples_split, train_score, test_score]
  return tabela

def busca():
  resultados = []
  for max_depth in range(1,33):
    for min_samples_leaf in [32, 64, 128, 256]:
        for min_samples_split in [32, 64, 128, 256]:
          tabela = roda_arvore_de_decisao(max_depth, min_samples_leaf, min_samples_split)
          resultados.append(tabela)
  resultados = pd.DataFrame(resultados, columns= ["max_depth","min_samples_leaf", "min_samples_split", "train","test"])
  return resultados

resultados = busca()
resultados.head()COPIAR CÓDIGO
Repare que removemos o trecho no qual os resultados eram imprimidos na tela. Isso porque, além de aumentar o tempo de execução do nosso código - que já é 4 vezes maior que quando tínhamos apenas 2 parâmetros -, a lista de resultados não nos trazia nenhuma informação relevante, já que era praticamente ilegível, servindo apenas para acompanharmos o debug.

O resultado na tela é a seguinte tabela:

max_depth	min_samples_leaf	min_samples_split	train	test
1	32	32	75.791169	75.784219
1	32	64	75.791169	75.784219
1	32	128	75.791169	75.784219
1	32	256	75.791169	75.784219
1	64	32	75.791169	75.784219
Em seguida, assim como fizemos anteriormente, vamos analisar a correlação e imprimir o gráfico de matriz de correlação diagonal.



Com base nesse gráfico e na análise dos 5 melhores resultados do teste, poderíamos tomar uma decisão entre continuar explorando esse espaço de parâmetros ou não.

Outro fator que pode ser analisado é o tempo que a máquina virtual leva para treinar o algoritmo. O próprio cross_validate() tem, entre os seus resultados, a cronometragem do tempo. Portanto, basta extrairmos as variáveis referentes ao tempo e imprimirmos na tabela.

Usaremos fit_time = results['fit_time'].mean() e score_time = results['score_time'].mean() para extrairmos a média de tempo do treino e do teste. Também precisaremos passar fit_time e score_time como parâmetros de tabela e como colunas de DataFrame().

def roda_arvore_de_decisao(max_depth, min_samples_leaf, min_samples_split):
  SEED = 301
  np.random.seed(SEED)

  cv = GroupKFold(n_splits = 10)
  modelo = DecisionTreeClassifier(max_depth=max_depth, min_samples_leaf = min_samples_leaf, min_samples_split = min_samples_split)
  results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=True)
  fit_time = results['fit_time'].mean()
  score_time = results['score_time'].mean()
  train_score = results['train_score'].mean() * 100
  test_score = results['test_score'].mean() * 100

  tabela = [max_depth, min_samples_leaf, min_samples_split, train_score, test_score, fit_time, score_time]
  return tabela

def busca():
  resultados = []
  for max_depth in range(1,33):
    for min_samples_leaf in [32, 64, 128, 256]:
        for min_samples_split in [32, 64, 128, 256]:
          tabela = roda_arvore_de_decisao(max_depth, min_samples_leaf, min_samples_split)
          resultados.append(tabela)
  resultados = pd.DataFrame(resultados, columns= ["max_depth","min_samples_leaf", "min_samples_split", "train","test", "fit_time", "score_time"])
  return resultados

resultados = busca()
resultados.head()COPIAR CÓDIGO
Rodando esse código, iremos testar 512 combinações diferentes de hiperparâmetros no nosso cross_validate(), que são 10 tentativas de treino e teste. Portanto, são 5120 splits de treino/teste no nosso modelo, e por isso a execução demora algum tempo.

Após a execução, geraremos novamente a tabela com os 5 melhores resultados e o gráfico plotando a correlação dos dados:

max_depth	min_samples_leaf	min_samples_split	train	test	fit_time	score_time
4	256	256	78.750993	78.672633	0.012417	0.001120
4	32	32	78.750993	78.672633	0.012679	0.001225
3	32	128	78.750993	78.672633	0.010398	0.000980
3	32	256	78.750993	78.672633	0.011309	0.001135
3	64	32	78.750993	78.672633	0.010484	0.001216


Repare que existe uma pequena diferença entre os tempos de treino e os treinos de teste. Nesse caso, nosso treino é tão rápido que essas diferenças são insignificantes. Porém, se tivéssemos um algoritmo que demora 30 minutos para fazer o treinamento e no qual o tempo de teste fosse muito alto, talvez valesse a pena escolhermos os valores com base nesses resultados.

Além dos 3 parâmetros que analisamos até agora, o DecisionTreeClassifier possui vários outros, a exemplo do critério de análise da árvore (como e/ou quando quebrar). Esse parâmetro pode receber dois diferentes valores, como gini ou entropy.

Os parâmetros de um algoritmo estimador não precisam ser discretos como os que estudados até o momento. Por exemplo, existem casos em que trabalhamos com escala logarítmica ou exponencial, e é mais interessante explorar valores mais altos ou mais baixos. Ou seja, existem vários tipos de espaços de parâmetros que podem ser explorados.

Agora que aprendemos a trabalhar com 3 parâmetros, lembre-se que é possível utilizar 4, 5 ou dezenas de parâmetros diferentes. Na prática, não há como explorar todas as possibilidades, portanto a ideia é explorarmos somente uma seleção delas - assim como estamos fazendo nesse curso. Com todo o esforço que isso demanda, seria ideal se tivéssemos uma biblioteca que já fizesse esse processo de otimização do nosso modelo.

Felizmente, o SKLearn tem uma maneira de buscar a otimização de parâmetros em um grid., e aprenderemos mais sobre ela a seguir.Agora que já aprendemos a importância de uma busca em grid pelos parâmetros que maximizam a métrica que estamos utilizando no nosso sistema, queremos utilizar uma ferramenta que nos ajude nesse processo.

O próprio SKLearn possui o GridSearchCV (grid search cross validation), que faz justamente essa busca de hiperparâmetros com validação cruzada.

Para isso, importaremos o GridSearchCV do sklearn.model_selection. Em seguida, determinaremos o SEED como 301 (mantendo o mesmo seed padrão) e definiremos o nosso espaco_de_parametros.

Ele deve conter diversas dimensões:

max_depth com os valores 3 e 5
min_samples_split com os valores 32, 64 e 128
min_samples_leaf também com os valores 32, 64 e 128
criterion com os valores gini e entropy (que são strings)
Ou seja, estaremos explorando 4 dimensões diferentes que resultam em 36 combinações. Nossa busca será um GridSearchCV(), passando DecisionTreeClassifier(), espaco_de_parametros e o cross validation com 10 splits (cv = GroupKFold(n_split = 10)).

O GridSearchCV() vai funcionar como um modelo. Portanto, podemos fazer busca.fit(), que irá rodar o cross validation dentro dele. Portanto, passaremos os parâmetros x_azar e y_azar, e os grupos (groups = dados.modelo).

Depois da busca, passaremos para o nosso pd.DataFrame() o cv_results_, um dicionário do GridSearchCV que pode ser importado em dataframe do Pandas. Por mim, escreveremos resultados.head() para recebermos os 5 melhores resultados.

from sklearn.model_selection import GridSearchCV

SEED=301
np.random.seed(SEED)

espaco_de_parametros = {
    "max_depth" : [3, 5],
    "min_samples_split": [32, 64, 128],
    "min_samples_leaf": [32, 64, 128],
    "criterion": ["gini", "entropy"]

}

busca = GridSearchCV(DecisionTreeClassifier(),
                    espaco_de_parametros,
                    cv = GroupKFold(n_splits = 10))

busca.fit(x_azar, y_azar,groups = dados.modelo)
resultados = pd.DataFrame(busca.cv_results_)
resultados.head()COPIAR CÓDIGO
Executando esse código, o resultado é a tabela abaixo:

mean_fit_time	mean_score_time	mean_test_score	mean_train_score	param_criterion	param_max_depth	param_min_samples_leaf	param_min_samples_split	params	rank_test_score	...	split7_test_score	split7_train_score	split8_test_score	split8_train_score	split9_test_score	split9_train_score	std_fit_time	std_score_time	std_test_score	std_train_score
0.011356	0.001306	0.7868	0.78751	gini	3	32	32	{'criterion': 'gini', 'max_depth': 3, 'min_sam...	1	...	0.781818	0.788124	0.77551	0.788803	0.790262	0.786834	0.002153	0.000076	0.011338	0.001303
0.010387	0.001217	0.7868	0.78751	gini	3	32	64	{'criterion': 'gini', 'max_depth': 3, 'min_sam...	1	...	0.781818	0.788124	0.77551	0.788803	0.790262	0.786834	0.000241	0.000075	0.011338	0.001303
0.010206	0.001158	0.7868	0.78751	gini	3	32	128	{'criterion': 'gini', 'max_depth': 3, 'min_sam...	1	...	0.781818	0.788124	0.77551	0.788803	0.790262	0.786834	0.000115	0.000055	0.011338	0.001303
0.010272	0.001195	0.7868	0.78751	gini	3	64	32	{'criterion': 'gini', 'max_depth': 3, 'min_sam...	1	...	0.781818	0.788124	0.77551	0.788803	0.790262	0.786834	0.000179	0.000057	0.011338	0.001303
0.010216	0.001215	0.7868	0.78751	gini	3	64	64	{'criterion': 'gini', 'max_depth': 3, 'min_sam...	1	...	0.781818	0.788124	0.77551	0.788803	0.790262	0.786834	0.000217	0.000111	0.011338	0.001303
Essa tabela nos mostra diversas informações, como a média do tempo de treino, a média do tempo de teste, a acurácia do teste e do treino e o ranking delas, quais foram cada um dos parâmetros utilizados, entre outras.

Com busca.best_params_, podemos imprimir na tela os melhores parâmetros; e com busca.best_score_ * 100, o melhor resultado em porcentagem:

print(busca.best_params_)
print(busca.best_score_ * 100)COPIAR CÓDIGO
{'criterion': 'gini', 'max_depth': 3, 'min_samples_leaf': 32, 'min_samples_split': 32}

78.68%

Se quisermos o melhor estimador em si, podemos pegá-lo com busca.best_estimator_:

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=3,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=32, min_samples_split=32,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')COPIAR CÓDIGO
Se quiséssemos, também poderíamos rodar a correlação e montar um gráfico em cima desses dados.

Dado esse resultado, quão bem ele se sairia no mundo real? No curso anterior, aprendemos que, depois que treinamos o estimador com cross validation, podemos rodar um fit para obtermos o modelo que utilizaremos no mundo real. Como já temos esse modelo, podemos tentar predizer a sua acurácia com melhor.predict(x_azar), que atribuiremos a uma variável predicoes.

Em seguida, criaremos uma variável accuracy recebendo accuracy_score(predicoes, y_azar) * 100. Lembre-se de importar essa função de sklearn.metrics, do contrário ela não funcionará.

from sklearn.metrics import accuracy_score 

predicoes = melhor.predict(x_azar) 
accuracy = accuracy_score(predicoes, y_azar) * 100

print("Accuracy para os dados foi %.2f%%" % accuracy)COPIAR CÓDIGO
O console nos retornará:

Accuracy para os dados foi 78.75%.Utilizamos o GridSearchCV do SKLearn para encontrarmos o melhor conjunto de hiperparâmetros em um espaço definido, de modo a otimizar a nossa métrica (accuracy). Quando tentamos analisar quão bem nosso algoritmo se sairia no mundo real, pegamos o melhor conjunto (representado por melhor) e utilizamos um predict() em cima de x_azar - ou seja, com todos os dados e uma única vez. Porém, durante o nosso processo de aprendizado, utilizamos o cross validation, e existem alguns cuidados que devemos tomar a esse respeito.

Na documentação do SKLearn, encontramos uma seção sobre nested versus non-nested cross-validation. O texto afirma que quando estamos utilizando hiperparâmetros, fazendo, por exemplo, o GridSearchCV junto com o cross_validation_score, não devemos descobrir a nossa métrica por meio do predict(), mas sim com outro cross_valiation_score.

Utilizar o predict() acaba sendo muito otimista, pois acabamos incorrendo em um vício sobre os dados que já tínhamos visto. Portanto, essa abordagem deve ser evitada.

No nosso novo teste, importaremos cross_val_score de sklearn.model_selection. Em seguida, chamaremos cross_val_score(), passando busca, x_azar e y_azar. O cross validation será o mesmo que estávamos utilizando anteriormente (GroupKFold(n_splits=10), e os grupos serão dados.modelo.

Esse código nos retornará vários scores.

from sklearn.model_selection import cross_val_score

scores = cross_val_score(busca, x_azar, y_azar, cv = GroupKFold(n_splits=10), groups = dados.modelo)COPIAR CÓDIGO
Tentando rodar esse código, receberemos um erro afirmando que o valor de groups não deve ser none, como se não tivéssemos passado nenhum valor para os grupos. Ou seja, de alguma forma groups não está chegando em GroupKFold() - e é exatamente isso que está acontecendo.

Na verdade, isso ocorre por conta de um bug - o GroupKFold falha na validação cruzada aninhada, e existe até um tópico no GitHub do scikit sobre esse problema. É um bug antigo (o tópico foi criado em 2016), mas continua em aberto, pois é razoavelmente complicado implementar a correção dele.

Como o Pandas não suporta nested validation com o GroupKFold, não conseguiremos prever o resultado para novos grupos. Como alternativa, usaremos o KFold comum, que precisa ser importado de sklearn.model_selection.

Além disso, mudaremos o número de splits para 5, adicionaremos o parâmetro shuffle=True e removeremos o parâmetro groups de busca.fit().

Como estamos rodando com KFold normal, essa estimativa é feita sem saber se o grupo é novo ou não.

from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import KFold

SEED=301
np.random.seed(SEED)

espaco_de_parametros = {
    "max_depth" : [3, 5],
    "min_samples_split": [32, 64, 128],
    "min_samples_leaf": [32, 64, 128],
    "criterion": ["gini", "entropy"]

}

busca = GridSearchCV(DecisionTreeClassifier(),
                    espaco_de_parametros,
                    cv = KFold(n_splits = 5, shuffle=True))

busca.fit(x_azar, y_azar)
resultados = pd.DataFrame(busca.cv_results_)
resultados.head()COPIAR CÓDIGO
Rodando esse código, teremos a seguinte tabela:

mean_fit_time	mean_score_time	mean_test_score	mean_train_score	param_criterion	param_max_depth	param_min_samples_leaf	param_min_samples_split	params	rank_test_score	...	split2_test_score	split2_train_score	split3_test_score	split3_train_score	split4_test_score	split4_train_score	std_fit_time	std_score_time	std_test_score	std_train_score
0.010685	0.001431	0.787	0.787525	gini	3	32	32	{'criterion': 'gini', 'max_depth': 3, 'min_sam...	1	...	0.8025	0.783625	0.793	0.786	0.7795	0.7895	0.001801	0.000104	0.009618	0.002405
0.010393	0.001562	0.787	0.787525	gini	3	32	64	{'criterion': 'gini', 'max_depth': 3, 'min_sam...	1	...	0.8025	0.783625	0.793	0.786	0.7795	0.7895	0.000547	0.000144	0.009618	0.002405
0.010549	0.001502	0.787	0.787525	gini	3	32	128	{'criterion': 'gini', 'max_depth': 3, 'min_sam...	1	...	0.8025	0.783625	0.793	0.786	0.7795	0.7895	0.000525	0.000116	0.009618	0.002405
0.010042	0.001392	0.787	0.787525	gini	3	64	32	{'criterion': 'gini', 'max_depth': 3, 'min_sam...	1	...	0.8025	0.783625	0.793	0.786	0.7795	0.7895	0.000671	0.000181	0.009618	0.002405
0.010203	0.001338	0.787	0.787525	gini	3	64	64	{'criterion': 'gini', 'max_depth': 3, 'min_sam...	1	...	0.8025	0.783625	0.793	0.786	0.7795	0.7895	0.000668	0.000098	0.009618	0.002405
Agora podemos rodar o cross_val_score() como gostaríamos, passando KFold(n_splits=5, shuffle=True) no cross validation.

from sklearn.model_selection import cross_val_score

scores = cross_val_score(busca, x_azar, y_azar, cv = KFold(n_splits=5, shuffle=True))
scoresCOPIAR CÓDIGO
Nossos resultados serão esses cinco valores:

array([0.782 , 0.791 , 0.8075, 0.777 , 0.777 ])

Com eles, é possível reconstruir a média e o intervalo. Para isso, criaremos uma função imprime_scores() que recebe scores. Na media, usaremos scores.mean() * 100, e no desvio scores.std() * 100.Já aprendemos que, quando temos um espaço de parâmetros com duas dimensões, podemos explorá-lo ponto a ponto. Isto é, transformamos espaços contínuos em espaços discretos e exploramos, nesses pontos, o nosso algorítimo.

Por exemplo, se estamos trabalhando com um algorítimo de DecisionTreeClassifier que tem os parâmetros max_depth e min_samples_leaf, podemos testar cada um desses parâmetros com um valor específico. Depois de medirmos o resultado, repetimos o processo para o próximo parâmetro.

Dessa forma, exploramos o espaço até completarmos o grid todo. Por exemplo, se temos 15 condições para cada parâmetro, rodamos o algorítimo 225 vezes para explorar esse espaço por completo.

Mas e quando temos 3 parâmetros, cada um com uma determinada quantidade de condições? Nesse caso, ainda poderíamos plotar esses dados em um gráfico 3D... mas e se tivéssemos 4 parâmetros ou mais?

Supondo que tivéssemos 3 parâmetros com 64 condições cada um, e um parâmetro com apenas 2 condições. Nessa situação, teríamos que explorar 524.288 possibilidades de parâmetros. Se cada uma dessas explorações levasse 5 minutos (o que é um exemplo razoável), seriam necessários 1820 dias para testar todas essas possibilidades. Se estivéssemos rodando esse algorítimo em 5 máquinas, ainda assim levaríamos 1 ano para terminar o processo.

Vamos analisar o grid de duas dimensões abaixo:

grid com dois eixos de 15 pontos cada, gerando 225 elementos

Mesmo que não haja garantia disso, esperamos que os valores representados no grid tenham resultados próximos aos seus vizinhos. Ou seja, pode não existir uma mudança brusca entre pontos muito próximos do nosso espaço discretizado de parâmetros.

Com isso em mente, ao invés de tentarmos explorar todo o grid (o que é feito no grid search), poderíamos buscar pontos aleatoriamente (random search). E é exatamente isso que faremos agora.

Começaremos essa busca aleatória ao final do projeto no qual trabalhamos no curso anterior. Se você não fez o curso, pode fazer o download do projeto neste link ou visualizar os arquivos no GitHub.

Para organizarmos nosso trabalho, adicionaremos uma célula de texto indicando onde se inicia o RandomSearch. Esse processo de busca é bastante parecido com tudo o que fizemos anteriormente, e também se inicia definindo um espaço de parâmetros a ser explorado.

Portanto, começaremos copiando o código que criamos para GridSearchCV:

from sklearn.model_selection import GridSearchCV, KFold

SEED=301
np.random.seed(SEED)

espaco_de_parametros = {
    "max_depth" : [3, 5],
    "min_samples_split": [32, 64, 128],
    "min_samples_leaf": [32, 64, 128],
    "criterion": ["gini", "entropy"]

}

busca = GridSearchCV(DecisionTreeClassifier(),
                    espaco_de_parametros,
                    cv = KFold(n_splits = 5, shuffle=True))

busca.fit(x_azar, y_azar)
resultados = pd.DataFraframe(busca.cv_results_)
resultados.head()COPIAR CÓDIGO
Em seguida, alteraremos os campos em que GridSearchCV aparece para RandomizedSearchCV. Manteremos a mesma SEED e o mesmo espaço de parâmetros (com 36 possibilidades). Quando trabalhos com processos aleatórios, é muito comum que o modelo contenha um parâmetro random_state para manter a consistência entre todas as execuções. No caso, esse parâmetro receberá nosso SEED como valor.

Dentre essas 36 possibilidades de combinações de parâmetros, quantas queremos rodar? Se executarmos todas, estaremos fazendo exatamente a mesma busca que com o GridSearchCV, alterando apenas a ordem. Ou seja, devemos executar somente algumas.

Um dos parâmetros que RandomizedSearchCV pode receber é o número de iterações - n_iter. A ideia é, nesse momento, rodarmos apenas 16 dessas possibilidades:

from sklearn.model_selection import RandomizedSearchCV

SEED=301
np.random.seed(SEED)

espaco_de_parametros = {
    "max_depth" : [3, 5],
    "min_samples_split": [32, 64, 128],
    "min_samples_leaf": [32, 64, 128],
    "criterion": ["gini", "entropy"]

}

busca = RandomizedSearchCV(DecisionTreeClassifier(),
                    espaco_de_parametros, 
                    n_iter = 16,
                    cv = KFold(n_splits = 5),
                          random_state = SEED)


busca.fit(x_azar, y_azar,groups = dados.modelo)
resultados = pd.DataFrame(busca.cv_results_)
resultados.head()COPIAR CÓDIGO
Após a execução desse código, queremos saber quão bem se saiu o melhor classificador. Da mesma forma que no GridSearchCV, encontraremos uma resposta com cross_val_score() (nested cross validation).

from sklearn.model_selection import cross_val_score

scores = cross_val_score(busca, x_azar, y_azar, cv = KFold(n_splits=5, shuffle=True))
scoresCOPIAR CÓDIGO
O resultado na tela será um array de cinco valores:

array([0.7755, 0.78 , 0.8055, 0.7855, 0.774 ])

Também iremos imprimir a acurácia média dessas cinco amostras e o intervalo que obtivemos:

from sklearn.model_selection import cross_val_score

scores = cross_val_score(busca, x_azar, y_azar, cv = KFold(n_splits=5, shuffle=True))
imprime_score(scores)COPIAR CÓDIGO
Accuracy médio 78.69

Intervalo [76.70, 80.68]

Em seguida, para encontrarmos o melhor estimador, atribuiremos a função busca.best_estimator_ à uma variável melhor e imprimiremos essa variável na tela.

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=5,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=128, min_samples_split=128,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')COPIAR CÓDIGO
Isso significa que o melhor estimador teve o critério gini, a profundidade máxima 5, o mínimo de elementos na folha 128 e, e 128 como o mínimo de splits antes de tomar uma decisão. Tivemos uma acurácia média de 78.69%, em um intervalo entre 76.70% e 80.68%.

Repare que executando menos da metade das buscas, obtivemos uma acurácia média e um intervalo muito parecidos com aqueles do GridSearchCV (que tinha a média 78.68% e o intervalo 76.85% a 80.55).

Nesse ponto, também podemos gerar a árvore de decisões:

features = x_azar.columns
dot_data = export_graphviz(melhor, out_file=None, filled=True, rounded=True,
                        class_names=["não", "sim"],
                        feature_names = features)

graph = graphviz.Source(dot_data)
graphCOPIAR CÓDIGO
Como a árvore é bem grande, mostraremos somente parte dela nessa página:

representação visual da árvore de decisões gerada a partir da melhor combinação de parâmetros encontrada pelo randomsearchCV

Na prática, a utilização do RandomizedSearchCV nos permite encontrar valores muito próximos aos que mais otimizarão nossos estimadores, sem que seja necessário explorar todo o espaço de parâmetros (o que muitas vezes é impossível).Nós exploramos aleatoriamente o nosso espaço de parâmetros, mas fizemos isso de maneira bem restrita. Anteriormente, devido às limitações de processamento do GridSearchCV (principalmente em relação ao tempo), nós utilizamos somente 36 combinações.

Porém, seria mais interessante explorarmos ainda mais parâmetros no nosso algorítimo - por exemplo, um max_depth que recebesse 10, 20, 30 ou até que não tivesse limites (o que é possível com None, segundo a documentação do próprio GridSearchCV).

A ideia é executarmos novamente o RandomizedSearchCV, mas com diferentes customizações nesse espaço de parâmetros. Por exemplo, em max_depth, ao invés de termos somente os valores 3 e 5, teremos um conjunto discreto de números inteiros (3, 5, 10, 15, 20, 30) com a adição do valor None.

Em min_samples_split e min_samples_leaf, queremos qualquer número inteiro aleatório entre 32 e 128. Para isso, precisaremos de uma função de aleatoriedade que devolva um número aleatório a cada execução - neste caso, randint (random integer). Essa função deve ser importada do pacote scipy,stats.

Segundo a documentação do SciPy randint, ele percorre desde o número mais baixo (low, no nosso código 32) até o número anterior ao mais alto (high - 1, ou seja, 127).

Isso significa que agora temos muito mais possibilidades de combinações: são 7 elementos para max_depth, 96 para min_samples_split e min_samples_leaf, e 2 para criterion - no total, 129.024 combinações diferentes de parâmetros.

Desse número, executaremos apenas 16, a mesma quantidade que estávamos executando anteriormente, mas com um espaço de parâmetros muito maior e mais complexo:

from scipy.stats import randint

SEED=301
np.random.seed(SEED)

espaco_de_parametros = {
    "max_depth" : [3, 5, 10, 15, 20, 30, None],
    "min_samples_split" : randint(32, 128),
    "min_samples_leaf" : randint(32, 128),
    "criterion" : ["gini", "entropy"]

}

busca = RandomizedSearchCV(DecisionTreeClassifier(),
                    espaco_de_parametros, 
                    n_iter = 16,
                    cv = KFold(n_splits = 5, shuffle=True),
                          random_state = SEED)


busca.fit(x_azar, y_azar)
resultados = pd.DataFrame(busca.cv_results_)
resultados.head()COPIAR CÓDIGO
Em seguida, imprimiremos os resultados e o melhor conjunto na tela:

scores = cross_val_score(busca, x_azar, y_azar, cv = KFold(n_splits=5, shuffle=True))
imprime_score(scores)
melhor = busca.best_estimator_
print(melhor)COPIAR CÓDIGO
Como resposta, teremos algo como:

Accuracy médio 78.71

Intervalo [77.49, 79.93]

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=3,

        max_features=None, max_leaf_nodes=None,

        min_impurity_decrease=0.0, min_impurity_split=None,

        min_samples_leaf=71, min_samples_split=100,

        min_weight_fraction_leaf=0.0, presort=False, random_state=None,

        splitter='best')COPIAR CÓDIGO
Nossa acurácia foi bem próxima dos resultados anteriores, mas o ponto é que demoramos um tempo 8.000 vezes menor para explorar esse espaço de parâmetros, obtendo resultados tão bons quanto conseguiríamos com o GridSearchCV.

def imprime_score(scores):
  media = scores.mean() * 100
  desvio = scores.std() * 100
  print("Accuracy médio %.2f" % media)
  print("Intervalo [%.2f, %.2f]" % (media - 2 * desvio, media + 2 * desvio))COPIAR CÓDIGO
Em seguida, basta chamarmos a função imprime_score(scores). O resultado será:

Accuracy médio 78.69

Intervalo [76.39, 80.99]

Agora vamos imprimir a árvore de decisão que encontramos como nosso melhor estimador:

from sklearn.tree import export_graphviz
import graphviz


features = x_azar.columns
dot_data = export_graphviz(melhor, out_file=None, filled=True, rounded=True,
                          class_names=["não","sim"],
                          feature_names=features)
graph = graphviz.Source(dot_data)
graphCOPIAR CÓDIGO


Repare que a árvore tem 3 níveis de profundidade (max_depth=3, ou seja, três decisões a serem tomadas), e as folhas e os splits (min_samples_leaf e min_samples_split, respectivamente) têm um mínimo de 32 samples cada. Além disso, as decisões de quebras seguem o critério de gini ao invés de entropy.

Esse é o melhor modelo real que iremos utilizar agora que exploramos o espaço de hiperparâmetros. Esse tipo de exploração com grid, no qual cada espaço é analisado separadamente, é válido e funciona. Porém, é um processo demorado, e existem otimizações que podem ser feitas para contornar isso.Nós exploramos aleatoriamente o nosso espaço de parâmetros, mas fizemos isso de maneira bem restrita. Anteriormente, devido às limitações de processamento do GridSearchCV (principalmente em relação ao tempo), nós utilizamos somente 36 combinações.

Porém, seria mais interessante explorarmos ainda mais parâmetros no nosso algorítimo - por exemplo, um max_depth que recebesse 10, 20, 30 ou até que não tivesse limites (o que é possível com None, segundo a documentação do próprio GridSearchCV).

A ideia é executarmos novamente o RandomizedSearchCV, mas com diferentes customizações nesse espaço de parâmetros. Por exemplo, em max_depth, ao invés de termos somente os valores 3 e 5, teremos um conjunto discreto de números inteiros (3, 5, 10, 15, 20, 30) com a adição do valor None.

Em min_samples_split e min_samples_leaf, queremos qualquer número inteiro aleatório entre 32 e 128. Para isso, precisaremos de uma função de aleatoriedade que devolva um número aleatório a cada execução - neste caso, randint (random integer). Essa função deve ser importada do pacote scipy,stats.

Segundo a documentação do SciPy randint, ele percorre desde o número mais baixo (low, no nosso código 32) até o número anterior ao mais alto (high - 1, ou seja, 127).

Isso significa que agora temos muito mais possibilidades de combinações: são 7 elementos para max_depth, 96 para min_samples_split e min_samples_leaf, e 2 para criterion - no total, 129.024 combinações diferentes de parâmetros.

Desse número, executaremos apenas 16, a mesma quantidade que estávamos executando anteriormente, mas com um espaço de parâmetros muito maior e mais complexo:

from scipy.stats import randint

SEED=301
np.random.seed(SEED)

espaco_de_parametros = {
    "max_depth" : [3, 5, 10, 15, 20, 30, None],
    "min_samples_split" : randint(32, 128),
    "min_samples_leaf" : randint(32, 128),
    "criterion" : ["gini", "entropy"]

}

busca = RandomizedSearchCV(DecisionTreeClassifier(),
                    espaco_de_parametros, 
                    n_iter = 16,
                    cv = KFold(n_splits = 5, shuffle=True),
                          random_state = SEED)


busca.fit(x_azar, y_azar)
resultados = pd.DataFrame(busca.cv_results_)
resultados.head()COPIAR CÓDIGO
Em seguida, imprimiremos os resultados e o melhor conjunto na tela:

scores = cross_val_score(busca, x_azar, y_azar, cv = KFold(n_splits=5, shuffle=True))
imprime_score(scores)
melhor = busca.best_estimator_
print(melhor)COPIAR CÓDIGO
Como resposta, teremos algo como:

Accuracy médio 78.71

Intervalo [77.49, 79.93]

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=3,

        max_features=None, max_leaf_nodes=None,

        min_impurity_decrease=0.0, min_impurity_split=None,

        min_samples_leaf=71, min_samples_split=100,

        min_weight_fraction_leaf=0.0, presort=False, random_state=None,

        splitter='best')COPIAR CÓDIGO
Nossa acurácia foi bem próxima dos resultados anteriores, mas o ponto é que demoramos um tempo 8.000 vezes menor para explorar esse espaço de parâmetros, obtendo resultados tão bons quanto conseguiríamos com o GridSearchCV.Queremos ordenar os resultados da nossa busca pelo score médio (mean_test_score). Para isso, usaremos o sort_values, passando o nome dessa coluna e o argumento ascending=False (negando a ordenação crescente da função). Nesse momento, não estamos levando em consideração o intervalo de confiança (com duas vezes o desvio padrão).

resultados_ordenados_pela_media = resultados.sort_values("mean_test_score", ascending=False)COPIAR CÓDIGO
Com a função iterrows, iremos iterar por cada uma das linhas dessa tabela do pandas. O iterrows é um gerador de iteração que devolve dois elementos em cada uma das linhas: o índice e a linha. Começaremos imprimindo os índices:

resultados_ordenados_pela_media = resultados.sort_values("mean_test_score", ascending=False)
for indice, linha in resultados_ordenados_pela_media.iterrows():
  print(indice)COPIAR CÓDIGO
Como resposta, teremos algo como:

9

1

5

3

14

(...)

Esses são os índices ordenados do maior mean_test_score para o menor. Agora, imprimiremos o mean_test_score, o desvio padrão do teste (std_test_score) e os parâmetros que geraram esse resultado (params, que devolve um objeto com todos os valores parametrizados).

Multiplicando o std_test_score por 2, chegaremos a um intervalo aproximado do que seria o desvio padrão. Por fim, definiremos que mean_test_score e std_test_score terão três casas decimais de ponto flutuante:

resultados_ordenados_pela_media = resultados.sort_values("mean_test_score", ascending=False)
for indice, linha in resultados_ordenados_pela_media.iterrows():
  print("%.3f +- (%.3f) %s" % (linha.mean_test_score, linha.std_test_score*2, linha.params))COPIAR CÓDIGO
Nossos resultados serão parecidos com esses:

0.787 +- (0.019) {'criterion': 'entropy', 'max_depth': 3, 'min_samples_leaf': 71, 'min_samples_split': 100}

0.784 +- (0.024) {'criterion': 'entropy', 'max_depth': 5, 'min_samples_leaf': 73, 'min_samples_split': 72}

0.784 +- (0.024) {'criterion': 'gini', 'max_depth': 5, 'min_samples_leaf': 64, 'min_samples_split': 67}

0.781 +- (0.017) {'criterion': 'gini', 'max_depth': 10, 'min_samples_leaf': 108, 'min_samples_split': 110}

0.780 +- (0.019) {'criterion': 'gini', 'max_depth': 10, 'min_samples_leaf': 125, 'min_samples_split': 59}

(...)

Essa é uma forma resumida de imprimir os resultados que recebíamos na tabela do pandas. Com 16 combinações, é uma análise razoável. Mas e se quiséssemos explorar um número maior - por exemplo, 64? Imprimindo os resultados dessa exploração na tela, encontraremos os mesmos RandomizedSearchCV irá explorar os parâmetros da mesma maneira.

Se forçássemos a exploração com um SEED diferente (por exemplo, 564), receberíamos outros valores:

0.787 +- (0.011) {'criterion': 'entropy', 'max_depth': 3, 'min_samples_leaf': 33, 'min_samples_split': 77}

0.787 +- (0.011) {'criterion': 'gini', 'max_depth': 3, 'min_samples_leaf': 38, 'min_samples_split': 113}

0.787 +- (0.011) {'criterion': 'gini', 'max_depth': 3, 'min_samples_leaf': 53, 'min_samples_split': 60}

0.787 +- (0.011) {'criterion': 'gini', 'max_depth': 3, 'min_samples_leaf': 61, 'min_samples_split': 86}

0.787 +- (0.011) {'criterion': 'entropy', 'max_depth': 3, 'min_samples_leaf': 49, 'min_samples_split': 58}

Porém, essa exploração é aleatória, e não é uma prática comum mudarmos o SEED para encontrar valores ótimos - já que, como podemos perceber, os valores são bastante próximos entre si. Na verdade, esses resultados também poderiam ser muito distantes entre si, dependendo de várias condições.

Para encerrar, faremos a validação cruzada aninhada e imprimiremos o melhor conjunto de parâmetros encontrado para esse estimador:

scores = cross_val_score(busca, x_azar, y_azar, cv = KFold(n_splits=5, shuffle=True))
imprime_score(scores)
melhor = busca.best_estimator_
print(melhor)COPIAR CÓDIGO
Na tela, teremos:

Accuracy médio 78.69

Intervalo [77.64, 79.74]

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=3,

max_features=None, max_leaf_nodes=None,

min_impurity_decrease=0.0, min_impurity_split=None,

min_samples_leaf=53, min_samples_split=60,

min_weight_fraction_leaf=0.0, presort=False, random_state=None,

splitter='best')

Esse é o resultado do nosso treino com uma busca aleatória contendo 64 tentativas. Repare que ainda conseguimos executar o código rapidamente, e com um computador mais potente conseguiríamos rodar ainda mais valores para o nosso estimador.

Mas será que o RandomizedSearchCV é mesmo melhor que o GridSearchCV?Fazer um espaçamento de parâmetros que contém números aleatórios entre 32 a 128;
Utilizar o randint do scipy.stats;
Explorar espaços.É hora de compararmos os resultados do GridSearchCV com os do RandomizedSearchCV.

Logicamente, estamos utilizando um exemplo de cada um desses algorítimos. É possível encontrar, na literatura e na prática, outros exemplos mostrando que buscar por completo um espaço discretizado com GridSearchCV trará a certeza de que os valores encontrados são os mais otimizados dentro desse espaço. Porém, o RandomizedSearchCV permite um controle maior sobre o tempo e o custo computacional/financeiro de otimização do modelo.

Além disso, se o grid tiver valores infinitos entre 0 e 1, será impossível explorar todo esse espaço, sendo necessário pegar exemplares aleatórios ou discretizar a seleção de alguma forma.

Começaremos nossa comparação pegando o código que criamos para GridSearchCV

SEED=301
np.random.seed(SEED)

espaco_de_parametros = {
    "max_depth" : [3, 5],
    "min_samples_split": [32, 64, 128],
    "min_samples_leaf": [32, 64, 128],
    "criterion": ["gini", "entropy"]

}

busca = GridSearchCV(DecisionTreeClassifier(),
                    espaco_de_parametros,
                    cv = KFold(n_splits = 5, shuffle=True))

busca.fit(x_azar, y_azar)
resultados = pd.DataFrame(busca.cv_results_)
resultados.head()COPIAR CÓDIGO
Até o momento, vínhamos utilizando o DecisionTreeClassifier, um dos diversos classificadores baseados em árvores de decisão. Existem outros classificadores que, ao invés de tentarem uma única árvore, tentam diversas árvores. Um desses, bem famoso, é o ensemble RandomForestClassifier.

O sklearn ensemble RandomForestClassifier é um conjunto de classificadores que atuam de forma uníssona para chegar a uma conclusão. Além de possuir os diversos hiperparâmetros que já conhecemos antes, esse classificador possui alguns novos, como max_features (o número máximo de colunas de X utilizado para chegar a uma decisão), e o n_estimators (a quantidade de estimadores que serão treinados), para o qual atribuiremos os valores 10 e 100.

Mais detalhes sobre esse algorítimo podem ser encontrados na documentação do RandomForestClassifier.

from sklearn.ensemble import RandomForestClassifier

SEED=301
np.random.seed(SEED)

espaco_de_parametros = {
    "n_estimators" : [10, 100]
    "max_depth" : [3, 5],
    "min_samples_split": [32, 64, 128],
    "min_samples_leaf": [32, 64, 128],
    "criterion": ["gini", "entropy"]

}

busca = GridSearchCV(RandomForestClassifier(),
                    espaco_de_parametros,
                    cv = KFold(n_splits = 5, shuffle=True))

busca.fit(x_azar, y_azar)
resultados = pd.DataFrame(busca.cv_results_)
resultados.head()COPIAR CÓDIGO
Com essas atribuições, já temos 72 combinações a serem exploradas. Porém, usaremos mais um último parâmetro, chamado bootstrap.

Ao invés do algorítimo tentar treinar os classificadores para todos os dados que estamos passando, correndo o risco de um overfitting, cada árvore é treinada com uma amostra desses dados. O bootstrap permite definir se um mesmo elemento pode fazer parte de diferentes amostras. Passando os valores True e False, dobraremos o nosso espaço de parâmetros, terminando com 144 combinações.

Antes de rodarmos a busca, não iremos medir somente a acurácia, mas também o tempo gasto computacionalmente para chegarmos aos nossos modelos. Para isso, importaremos time e passaremos dois momentos: tic, quando o treino começa; e tac, quando ele termina.

O tempo_que_passou será tac - tic, e será impresso na tela com print("Tempo %.2f segundos" % tempo_que_passou):

from sklearn.ensemble import RandomForestClassifier
import time 

SEED=301
np.random.seed(SEED)

espaco_de_parametros = {
    "n_estimators" : [10, 100],
    "max_depth" : [3, 5],
    "min_samples_split": [32, 64, 128],
    "min_samples_leaf": [32, 64, 128],
    "bootstrap" : [True, False],
    "criterion": ["gini", "entropy"]

}

tic = time.time()
busca = GridSearchCV(RandomForestClassifier(),
                    espaco_de_parametros,
                    cv = KFold(n_splits = 5, shuffle=True))
busca.fit(x_azar, y_azar)
tac = time.time()
tempo_que_passou = tac - tic
print("Tempo %.2f segundos" % tempo_que_passou)



resultados = pd.DataFrame(busca.cv_results_)
resultados.head()COPIAR CÓDIGO
Na tela serão impressos o dataframe com os nossos resultados e o tempo total dessa execução - no nosso caso, 255 segundos, que é cerca de 4,5 minutos. Vamos imprimir os 5 melhores resultados:

resultados_ordenados_pela_media = resultados.sort_values("mean_test_score", ascending=False)
for indice, linha in resultados_ordenados_pela_media[:5].iterrows():
  print("%.3f +-(%.3f) %s" % (linha.mean_test_score, linha.std_test_score*2, linha.params))COPIAR CÓDIGO
0.780 +-(0.020) {'bootstrap': False, 'criterion': 'gini', 'max_depth': 5, 'min_samples_leaf': 32, 'min_samples_split': 64, 'n_estimators': 10}

0.778 +-(0.020) {'bootstrap': True, 'criterion': 'gini', 'max_depth': 5, 'min_samples_leaf': 32, 'min_samples_split': 128, 'n_estimators': 10}

0.778 +-(0.030) {'bootstrap': False, 'criterion': 'entropy', 'max_depth': 5, 'min_samples_leaf': 64, 'min_samples_split': 64, 'n_estimators': 10}

0.778 +-(0.027) {'bootstrap': False, 'criterion': 'gini', 'max_depth': 5, 'min_samples_leaf': 64, 'min_samples_split': 64, 'n_estimators': 10}

0.778 +-(0.033) {'bootstrap': False, 'criterion': 'entropy', 'max_depth': 5, 'min_samples_leaf': 64, 'min_samples_split': 64, 'n_estimators': 100}

Conseguimos uma média de 0.78 e um desvio padrão bem controlado, de apenas 0.02. Agora rodaremos o código do cross_validation_score, também medindo o tempo dessa execução:

tic = time.time()
scores = cross_val_score(busca, x_azar, y_azar, cv = KFold(n_splits=5, shuffle=True))
tac = time.time()
tempo_passado = tac - tic
print("Tempo %.2f segundos" % tempo_passado)

imprime_score(scores)
melhor = busca.best_estimator_
print(melhor)COPIAR CÓDIGO
Esse processo irá demorar tanto que o próprio Google Colab encerrará a conexão com a máquina virtual do Python. Ou seja, seria necessário rodarmos o código na nossa própria máquina para que a execução chegasse ao seu fim.Comparar o grid search com random search;
Utilizar o bootstrap para pegar um elemento ou não pegar;
Utilizar o RandomizedSearchCV para árvore de decisão.Para começarmos a comparação com o RandomizedSearchCV, copiaremos o código criado na aula anterior:

from sklearn.ensemble import RandomForestClassifier
import time 

SEED=301
np.random.seed(SEED)

espaco_de_parametros = {
    "n_estimators" : [10, 100],
    "max_depth" : [3, 5],
    "min_samples_split": [32, 64, 128],
    "min_samples_leaf": [32, 64, 128],
    "bootstrap" : [True, False],
    "criterion": ["gini", "entropy"]

}

tic = time.time()
busca = GridSearchCV(RandomForestClassifier(),
                    espaco_de_parametros,
                    cv = KFold(n_splits = 5, shuffle=True))
busca.fit(x_azar, y_azar)
tac = time.time()
tempo_que_passou = tac - tic
print("Tempo %.2f segundos" % tempo_que_passou)



resultados = pd.DataFrame(busca.cv_results_)
resultados.head()COPIAR CÓDIGO
Substituiremos o campo GridSearchCV() por RandomizedSearchCV(), mantendo exatamente os mesmos parâmetros, com a exceção de n_iter = 20 - ou seja, buscaremos 20 iterações nesse espaço de parâmetros.

tic = time.time()
busca = RandomizedSearchCV(RandomForestClassifier(),
                    espaco_de_parametros,
                    n_iter = 20,
                    cv = KFold(n_splits = 5, shuffle=True))
busca.fit(x_azar, y_azar)
tac = time.time()
tempo_que_passou = tac - tic
print("Tempo %.2f segundos" % tempo_que_passou)COPIAR CÓDIGO
No nosso caso, essa execução levou cerca de 37 segundos. Vamos imprimir os 5 melhores resultados:

resultados_ordenados_pela_media = resultados.sort_values("mean_test_score", ascending=False)
for indice, linha in resultados_ordenados_pela_media[:5].iterrows():
  print("%.3f +-(%.3f) %s" % (linha.mean_test_score, linha.std_test_score*2, linha.params))COPIAR CÓDIGO
0.776 +-(0.025) {'n_estimators': 100, 'min_samples_split': 32, 'min_samples_leaf': 32, 'max_depth': 5, 'criterion': 'gini', 'bootstrap': False}

0.776 +-(0.023) {'n_estimators': 100, 'min_samples_split': 32, 'min_samples_leaf': 128, 'max_depth': 3, 'criterion': 'gini', 'bootstrap': False}

0.776 +-(0.024) {'n_estimators': 100, 'min_samples_split': 64, 'min_samples_leaf': 32, 'max_depth': 5, 'criterion': 'entropy', 'bootstrap': True}

0.775 +-(0.032) {'n_estimators': 10, 'min_samples_split': 32, 'min_samples_leaf': 64, 'max_depth': 3, 'criterion': 'entropy', 'bootstrap': False}

0.775 +-(0.035) {'n_estimators': 10, 'min_samples_split': 32, 'min_samples_leaf': 32, 'max_depth': 5, 'criterion': 'gini', 'bootstrap': True}

Quando exploramos as 144 combinações do nosso grid, tínhamos chegado à média 0.780 com +- 0.020 de desvio padrão - ou seja, valores muito próximos dos que encontramos com o RandomSearchCV. Lembrando que esses valores são relativamente próximos - ou seja, essa interpretação depende muito da situação em que nosso algorítimo é aplicado. Em casos de vida ou morte, por exemplo, uma diferença de 0.004 pode ser significante.

Dessa vez, é até viável executarmos a exploração do cross_validation_score():

tic = time.time()
scores = cross_val_score(busca, x_azar, y_azar, cv = KFold(n_splits=5, shuffle=True))
tac = time.time()
tempo_passado = tac - tic
print("Tempo %.2f segundos" % tempo_passado)

imprime_score(scores)
melhor = busca.best_estimator_
print(melhor)COPIAR CÓDIGO
Tempo 154.63 segundos

Accuracy médio 77.59

Intervalo [76.47, 78.71]

RandomForestClassifier(bootstrap=False, class_weight=None, criterion='gini',

max_depth=5, max_features='auto', max_leaf_nodes=None,

min_impurity_decrease=0.0, min_impurity_split=None,

min_samples_leaf=32, min_samples_split=32,

min_weight_fraction_leaf=0.0, n_estimators=100, n_jobs=None,

oob_score=False, random_state=None, verbose=0,

warm_start=False)

Em cerca de 2 minutos e meio obtivemos os resultados do cross_validation_score() com o RandomizedSearchCV. Enquanto isso, somente com 144 possibilidades, não conseguimos rodar a mesma função com do GridSearchCV remotamente. Imagine então se, para min_samples_split e min_samples_leaf, utilizássemos o parâmetro randint para iterar entre qualquer número entre 32 e 129? Ou mesmo para iterar entre 10 e 101 em n_estimators e entre 3 e 6 em max_depth?

Nesse caso, teríamos 10.274.628 combinações (91*3*97*97*2*2). Parece inviável, não é? Já com o RandomSearchCV, poderíamos até mesmo controlar o tempo (e o custo computacional) dispensado a essa tarefa. Por exemplo, se levamos cerca de meio minuto para iterar por 20 possibilidades randômicas, podemos estimar que iterar por 80 possibilidades levará cerca de 2 minutos. Vamos testar?

SEED=301
np.random.seed(SEED)

espaco_de_parametros = {
    "n_estimators" : randint(10, 101),
    "max_depth" : randint(3, 6),
    "min_samples_split": randint(32, 129),
    "min_samples_leaf": randint(32, 129),
    "bootstrap" : [True, False],
    "criterion": ["gini", "entropy"]

}

tic = time.time()
busca = RandomizedSearchCV(RandomForestClassifier(),
                    espaco_de_parametros,
                    n_iter = 80,
                    cv = KFold(n_splits = 5, shuffle=True))
busca.fit(x_azar, y_azar)
tac = time.time()
tempo_que_passou = tac - tic
print("Tempo %.2f segundos" % tempo_que_passou)



resultados = pd.DataFrame(busca.cv_results_)
resultados.head()COPIAR CÓDIGO
Nesse caso, levamos cerca de 125 segundos (2 minutos) para rodar o código - ou seja, nossa estimativa deu certo. Lembre-se que esse tipo de cálculo vai depender do algorítimo e de suas especificidades.

Dentro desse espaço de parâmetros, vamos imprimir as 5 melhores combinações:

resultados_ordenados_pela_media = resultados.sort_values("mean_test_score", ascending=False)
for indice, linha in resultados_ordenados_pela_media[:5].iterrows():
  print("%.3f +-(%.3f) %s" % (linha.mean_test_score, linha.std_test_score*2, linha.params))COPIAR CÓDIGO
0.779 +-(0.025) {'bootstrap': False, 'criterion': 'entropy', 'max_depth': 5, 'min_samples_leaf': 84, 'min_samples_split': 89, 'n_estimators': 48}

0.778 +-(0.031) {'bootstrap': False, 'criterion': 'entropy', 'max_depth': 5, 'min_samples_leaf': 32, 'min_samples_split': 96, 'n_estimators': 18}

0.778 +-(0.032) {'bootstrap': False, 'criterion': 'entropy', 'max_depth': 4, 'min_samples_leaf': 121, 'min_samples_split': 47, 'n_estimators': 27}

0.777 +-(0.024) {'bootstrap': False, 'criterion': 'gini', 'max_depth': 4, 'min_samples_leaf': 96, 'min_samples_split': 98, 'n_estimators': 11}

0.777 +-(0.029) {'bootstrap': True, 'criterion': 'gini', 'max_depth': 5, 'min_samples_leaf': 63, 'min_samples_split': 88, 'n_estimators': 69}

O melhor resultado que encontramos foi 0.79 de média com +- 0.025 de desvio padrão, muito próximo dos anteriores. Lembrando que, com o GridSearchCV, levamos cerca de 4 minutos e meio para chegar aos resultados explorando um espaço muito menor.

Repare que, mesmo nesse espaço enorme de mais de 10 milhões de combinações, não tivemos uma variabilidade muito grande de resultados. Mesmo os últimos 5 elementos dessa lista, que têm uma qualidade menor, não são tão discrepantes:

0.770 +-(0.024) {'bootstrap': True, 'criterion': 'gini', 'max_depth': 4, 'min_samples_leaf': 81, 'min_samples_split': 59, 'n_estimators': 16}

0.768 +-(0.018) {'bootstrap': False, 'criterion': 'gini', 'max_depth': 3, 'min_samples_leaf': 43, 'min_samples_split': 33, 'n_estimators': 50}

0.767 +-(0.037) {'bootstrap': False, 'criterion': 'entropy', 'max_depth': 3, 'min_samples_leaf': 54, 'min_samples_split': 86, 'n_estimators': 13}

0.766 +-(0.043) {'bootstrap': True, 'criterion': 'gini', 'max_depth': 3, 'min_samples_leaf': 67, 'min_samples_split': 76, 'n_estimators': 32}

0.758 +-(0.033) {'bootstrap': True, 'criterion': 'entropy', 'max_depth': 3, 'min_samples_leaf': 56, 'min_samples_split': 71, 'n_estimators': 14}

Dependendo do algorítimo e dos dados, pode ser que a escolha de um hiperparâmetro faça uma diferença muito grande no sistema como um todo. Como exemplo, você pode consultar o artigo Hyperparameters Matter, que analisa a importância dos hiperparâmetros no contexto de recomendações com Word2vec.

Ainda falta explorarmos um espaço que não seja baseado em árvores de decisão, como o SVC. A seguir, iremos estudar como explorar dois tipos de algorítimos ao mesmo tempo dentro do SVC.Agora que fizemos algumas comparações entre o GridSearchCV e o RandomizedSearchCV, vamos analisar alguns casos diferentes.

Por exemplo, pode ser que não seja possível, computacionalmente, rodar um cross validation, independentemente do fold. Nesse caso, como faríamos uma otimização de hiperparâmetros sem cross validation? Teríamos que, mesmo assim, tentar separar os dados entre treino e teste.

Até o momento, estávamos trabalhando com duas fases: a fase de treino e teste, e a fase de validação com cross_val_score() (nested cross validation). Na prática, agora teremos três fases: uma fase de treino do modelo (ou de vários modelos) na busca de otimizar os hiperparâmetros; uma fase de teste, comparando os modelos para encontrar os melhores resultados; e uma fase de validação, tentando alcançar uma estimativa real desse algorítimo.

Ou seja, teremos que separar três conjuntos de dados, e não mais dois, como vínhamos fazendo com a função train_test_split().

No sklearn.model_selection, precisaremos encontrar um algorítimo de separação que não seja um KFold (que só separa uma única vez, sem validação cruzada). Existem algorítimos que fazem isso, como o ShuffleSplit, que irá aleatorizar os dados e quebrá-los uma única vez; ou o StratifiedShuffleSplit, que irá aleatorizar a ordem dos dados e quebrá-los de acordo com a estratificação dos dados que passarmos para ele. É esse algorítimo que utilizaremos agora, independentemente de trabalharmos com o GridSearchCV ou com o RandomizedSearchCV.

Para começar, copiaremos o último código que escrevemos para RandomizedSearchCV. Nele, faremos a importação do StratifiedShuffleSplit e criaremos uma variável split recebendo a parametrização desse algorítimo - no nosso caso, n_splits = 1 e test_size = 0.2 (reservando apenas 20% dos nossos dados para o teste).

Ao invés de 80 iterações, faremos apenas 5, acelerando a execução do código:

from sklearn.model_selection import StratifiedShuffleSplit



SEED=301
np.random.seed(SEED)

espaco_de_parametros = {
    "n_estimators" : randint(10, 101),
    "max_depth" : randint(3, 6),
    "min_samples_split": randint(32, 129),
    "min_samples_leaf": randint(32, 129),
    "bootstrap" : [True, False],
    "criterion": ["gini", "entropy"]

}

split = StratifiedShuffleSplit(n_splits = 1, test_size = 0.2)

tic = time.time()
busca = RandomizedSearchCV(RandomForestClassifier(),
                    espaco_de_parametros,
                    n_iter = 5,
                    cv = split)
busca.fit(x_azar, y_azar)
tac = time.time()
tempo_que_passou = tac - tic
print("Tempo %.2f segundos" % tempo_que_passou)



resultados = pd.DataFrame(busca.cv_results_)
resultados.head()COPIAR CÓDIGO
Quando fazemos um cross validation com 2 folds, ele executa duas vezes o algorítimo com 50% dos dados em cada uma das vezes. Diferentemente disso, dessa vez separamos 80% dos dados para o teste, e 20% para o treino, rodando o algorítimo uma única vez.

Sem a cross validation, teremos que encontrar outra forma de obter os resultados finais desse algorítimo. Precisaremos, então, de um conjunto de dados inédito para executar a validação do nosso modelo. Mas como faremos isso se todos os dados foram utilizados no treino e no teste?

A resposta na verdade é bem simples: a separação desses dados deve ser feita de antemão. Portanto, antes de treinarmos o modelo com x_azar e y_azar, separaremos uma amostra dos dados para a fase que chamaremos de validação.

Vamos supor que queremos 60% para treino, 20% para teste (também chamado de "dev teste") e 20% para a validação final. Faremos isso utilizando o train_test_split(), que deverá ser importado do sklearn.model_selection.

Para essa função, passaremos os dados x_zar, y_azar, e os parâmetros test_size:0,2, shuffle=True, stratify=y_azar. Nesse caso, estamos separando os 20% dos dados para validação, mesmo que o parâmetro do algorítimo se chame test_size.

Essa funçã nos devolve x_train, x_test, y_train e y_test. Vamos nomear cada um desses objetos como x_treino_teste, x_validacao, y_treino_teste, y_validacao.

Também precisaremos passar o SEED que nosso código seguirá. Para garantirmos que as dimensões dos dados estão separadas corretamente, imprimiremos todas aquelas variáveis na tela:

from sklearn.model_selection import train_test_split

SEED=301
np.random.seed(SEED)

x_treino_teste, x_validacao, y_treino_teste, y_validacao = train_test_split(x_azar, y_azar, test_size=0.2, shuffle=True, stratify=y_azar)

print(x_treino_teste.shape)
print(x_validacao.shape)
print(y_treino_teste.shape)
print(y_validacao.shape)COPIAR CÓDIGO
Como retorno, teremos:

(8000, 3) (2000, 3) (8000,) (2000,)

Ou seja, temos:

8.000 elementos e 3 colunas para treino do algorítimo
2.000 elementos para teste
1 coluna para verificar as features e a classe do algorítimo
Agora, na função busca.fit(), deveremos passar as variáveis atualizadas (x_treino_teste e y_treino_teste). Também devemos nos atentar ao StratifiedShuffleSplit(): estamos passando test_size=0.2, mas 20% de 80% são 16%. Na verdade, precisamos atribuir test_size=0.25, ou seja, 25%.

espaco_de_parametros = {
    "n_estimators" : randint(10, 101),
    "max_depth" : randint(3, 6),
    "min_samples_split": randint(32, 129),
    "min_samples_leaf": randint(32, 129),
    "bootstrap" : [True, False],
    "criterion": ["gini", "entropy"]

}

split = StratifiedShuffleSplit(n_splits = 1, test_size = 0.25)

tic = time.time()
busca = RandomizedSearchCV(RandomForestClassifier(),
                    espaco_de_parametros,
                    n_iter = 5,
                    cv = split)
busca.fit(x_treino_teste, y_treino_teste)
tac = time.time()
tempo_que_passou = tac - tic
print("Tempo %.2f segundos" % tempo_que_passou)



resultados = pd.DataFrame(busca.cv_results_)
resultados.head()COPIAR CÓDIGO
Agora podemos validar nossos estimadores com os dados que encontramos. A maneira mais simples de fazer isso é com o cross_val_score(), utilizando split ao invés de KFold. Além disso, passaremos x_validacao e y_validacao ao invés de x_azar e y_azar:

tic = time.time()
scores = cross_val_score(busca, x_validacao, y_validacao, cv = split)
tac = time.time()
tempo_passado = tac - tic
print("Tempo %.2f segundos" % tempo_passado)

scoresCOPIAR CÓDIGO
Tempo 0.57 segundos

array([0.774])

O resultado é um único 0.074 - como só tivemos um teste e uma validação, removemos a impressão da média e do intervalo.

O cross validation é um processo bastante interessante e prático, e inclusive poderíamos criar um pipeline que o fizesse de uma só vez. Porém, quando existem motivos para não utilizarmos o cross validation, devemos nos atentar a alguns detalhes importantes - por exemplo, à perda do intervalo de resultados.

Existem alternativas para fazer a separação dos dados em três grupos, como utilizar o Numpy ou fazer a estratificação manualmente. Na prática, preferimos utilizar o train_test_split() do próprio SKLearn para separar os dados de validação.

Nós ainda poderíamos rodar o algorítimo StratifiedShuffleSplit() mais de uma vez (n_splits=5, por exemplo), obtendo resultados mais parecidos com um processo de cross validation - inclusive com diversos scores para analisarmos. Porém, as proporções podem ser diferentes, o que exigiria alguns cuidados.Agora que fizemos algumas comparações entre o GridSearchCV e o RandomizedSearchCV, vamos analisar alguns casos diferentes.

Por exemplo, pode ser que não seja possível, computacionalmente, rodar um cross validation, independentemente do fold. Nesse caso, como faríamos uma otimização de hiperparâmetros sem cross validation? Teríamos que, mesmo assim, tentar separar os dados entre treino e teste.

Até o momento, estávamos trabalhando com duas fases: a fase de treino e teste, e a fase de validação com cross_val_score() (nested cross validation). Na prática, agora teremos três fases: uma fase de treino do modelo (ou de vários modelos) na busca de otimizar os hiperparâmetros; uma fase de teste, comparando os modelos para encontrar os melhores resultados; e uma fase de validação, tentando alcançar uma estimativa real desse algorítimo.

Ou seja, teremos que separar três conjuntos de dados, e não mais dois, como vínhamos fazendo com a função train_test_split().

No sklearn.model_selection, precisaremos encontrar um algorítimo de separação que não seja um KFold (que só separa uma única vez, sem validação cruzada). Existem algorítimos que fazem isso, como o ShuffleSplit, que irá aleatorizar os dados e quebrá-los uma única vez; ou o StratifiedShuffleSplit, que irá aleatorizar a ordem dos dados e quebrá-los de acordo com a estratificação dos dados que passarmos para ele. É esse algorítimo que utilizaremos agora, independentemente de trabalharmos com o GridSearchCV ou com o RandomizedSearchCV.

Para começar, copiaremos o último código que escrevemos para RandomizedSearchCV. Nele, faremos a importação do StratifiedShuffleSplit e criaremos uma variável split recebendo a parametrização desse algorítimo - no nosso caso, n_splits = 1 e test_size = 0.2 (reservando apenas 20% dos nossos dados para o teste).

Ao invés de 80 iterações, faremos apenas 5, acelerando a execução do código:

from sklearn.model_selection import StratifiedShuffleSplit



SEED=301
np.random.seed(SEED)

espaco_de_parametros = {
    "n_estimators" : randint(10, 101),
    "max_depth" : randint(3, 6),
    "min_samples_split": randint(32, 129),
    "min_samples_leaf": randint(32, 129),
    "bootstrap" : [True, False],
    "criterion": ["gini", "entropy"]

}

split = StratifiedShuffleSplit(n_splits = 1, test_size = 0.2)

tic = time.time()
busca = RandomizedSearchCV(RandomForestClassifier(),
                    espaco_de_parametros,
                    n_iter = 5,
                    cv = split)
busca.fit(x_azar, y_azar)
tac = time.time()
tempo_que_passou = tac - tic
print("Tempo %.2f segundos" % tempo_que_passou)



resultados = pd.DataFrame(busca.cv_results_)
resultados.head()COPIAR CÓDIGO
Quando fazemos um cross validation com 2 folds, ele executa duas vezes o algorítimo com 50% dos dados em cada uma das vezes. Diferentemente disso, dessa vez separamos 80% dos dados para o teste, e 20% para o treino, rodando o algorítimo uma única vez.

Sem a cross validation, teremos que encontrar outra forma de obter os resultados finais desse algorítimo. Precisaremos, então, de um conjunto de dados inédito para executar a validação do nosso modelo. Mas como faremos isso se todos os dados foram utilizados no treino e no teste?

A resposta na verdade é bem simples: a separação desses dados deve ser feita de antemão. Portanto, antes de treinarmos o modelo com x_azar e y_azar, separaremos uma amostra dos dados para a fase que chamaremos de validação.

Vamos supor que queremos 60% para treino, 20% para teste (também chamado de "dev teste") e 20% para a validação final. Faremos isso utilizando o train_test_split(), que deverá ser importado do sklearn.model_selection.

Para essa função, passaremos os dados x_zar, y_azar, e os parâmetros test_size:0,2, shuffle=True, stratify=y_azar. Nesse caso, estamos separando os 20% dos dados para validação, mesmo que o parâmetro do algorítimo se chame test_size.

Essa funçã nos devolve x_train, x_test, y_train e y_test. Vamos nomear cada um desses objetos como x_treino_teste, x_validacao, y_treino_teste, y_validacao.

Também precisaremos passar o SEED que nosso código seguirá. Para garantirmos que as dimensões dos dados estão separadas corretamente, imprimiremos todas aquelas variáveis na tela:

from sklearn.model_selection import train_test_split

SEED=301
np.random.seed(SEED)

x_treino_teste, x_validacao, y_treino_teste, y_validacao = train_test_split(x_azar, y_azar, test_size=0.2, shuffle=True, stratify=y_azar)

print(x_treino_teste.shape)
print(x_validacao.shape)
print(y_treino_teste.shape)
print(y_validacao.shape)COPIAR CÓDIGO
Como retorno, teremos:

(8000, 3) (2000, 3) (8000,) (2000,)

Ou seja, temos:

8.000 elementos e 3 colunas para treino do algorítimo
2.000 elementos para teste
1 coluna para verificar as features e a classe do algorítimo
Agora, na função busca.fit(), deveremos passar as variáveis atualizadas (x_treino_teste e y_treino_teste). Também devemos nos atentar ao StratifiedShuffleSplit(): estamos passando test_size=0.2, mas 20% de 80% são 16%. Na verdade, precisamos atribuir test_size=0.25, ou seja, 25%.

espaco_de_parametros = {
    "n_estimators" : randint(10, 101),
    "max_depth" : randint(3, 6),
    "min_samples_split": randint(32, 129),
    "min_samples_leaf": randint(32, 129),
    "bootstrap" : [True, False],
    "criterion": ["gini", "entropy"]

}

split = StratifiedShuffleSplit(n_splits = 1, test_size = 0.25)

tic = time.time()
busca = RandomizedSearchCV(RandomForestClassifier(),
                    espaco_de_parametros,
                    n_iter = 5,
                    cv = split)
busca.fit(x_treino_teste, y_treino_teste)
tac = time.time()
tempo_que_passou = tac - tic
print("Tempo %.2f segundos" % tempo_que_passou)



resultados = pd.DataFrame(busca.cv_results_)
resultados.head()COPIAR CÓDIGO
Agora podemos validar nossos estimadores com os dados que encontramos. A maneira mais simples de fazer isso é com o cross_val_score(), utilizando split ao invés de KFold. Além disso, passaremos x_validacao e y_validacao ao invés de x_azar e y_azar:

tic = time.time()
scores = cross_val_score(busca, x_validacao, y_validacao, cv = split)
tac = time.time()
tempo_passado = tac - tic
print("Tempo %.2f segundos" % tempo_passado)

scoresCOPIAR CÓDIGO
Tempo 0.57 segundos

array([0.774])

O resultado é um único 0.074 - como só tivemos um teste e uma validação, removemos a impressão da média e do intervalo.

O cross validation é um processo bastante interessante e prático, e inclusive poderíamos criar um pipeline que o fizesse de uma só vez. Porém, quando existem motivos para não utilizarmos o cross validation, devemos nos atentar a alguns detalhes importantes - por exemplo, à perda do intervalo de resultados.

Existem alternativas para fazer a separação dos dados em três grupos, como utilizar o Numpy ou fazer a estratificação manualmente. Na prática, preferimos utilizar o train_test_split() do próprio SKLearn para separar os dados de validação.

Nós ainda poderíamos rodar o algorítimo StratifiedShuffleSplit() mais de uma vez (n_splits=5, por exemplo), obtendo resultados mais parecidos com um processo de cross validation - inclusive com diversos scores para analisarmos. Porém, as proporções podem ser diferentes, o que exigiria alguns cuidados.