## Otimização dos nossos Modelos

### Dois conceitos que sabemos, Machine Learning Classificação e Validação Cruzada que utlizaremos nesse curso.

In [1]:
!pip install graphviz-==0.9
!pip install pydot


[notice] A new release of pip available: 22.2.1 -> 22.2.2
[notice] To update, run: python.exe -m pip install --upgrade pip


ERROR: Invalid requirement: 'graphviz-==0.9'








[notice] A new release of pip available: 22.2.1 -> 22.2.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import pandas as pd
import numpy as np
uri = "https://gist.githubusercontent.com/guilhermesilveira/e99a526b2e7ccc6c3b70f53db43a87d2/raw/1605fc74aa778066bf2e6695e24d53cf65f2f447/machine-learning-carros-simulacao.csv"
dados = pd.read_csv(uri).drop(columns=["Unnamed: 0"], axis=1)
dados.head()

Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano
0,30941.02,1,18,35085.22134
1,40557.96,1,20,12622.05362
2,89627.5,0,12,11440.79806
3,95276.14,0,3,43167.32682
4,117384.68,1,4,12770.1129


In [3]:
# situação horrível de "azar" onde as classes estão ordenadas por padrão
dados_azar = dados.sort_values("vendido", ascending=True)
x_azar = dados_azar[["preco", "idade_do_modelo","km_por_ano"]]
y_azar = dados_azar["vendido"]
dados_azar.head()

Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano
4999,74023.29,0,12,24812.80412
5322,84843.49,0,13,23095.63834
5319,83100.27,0,19,36240.72746
5316,87932.13,0,16,32249.56426
5315,77937.01,0,15,28414.50704


In [4]:
from sklearn.model_selection import cross_validate
from sklearn.dummy import DummyClassifier

SEED = 301
np.random.seed(SEED)

modelo = DummyClassifier()
results = cross_validate(modelo, x_azar, y_azar, cv = 10, return_train_score=False)
media = results['test_score'].mean()
desvio_padrao = results['test_score'].std()
print("Accuracy com dummy stratified, 10 = [%.2f, %.2f]" % ((media - 2 * desvio_padrao)*100, (media + 2 * desvio_padrao) * 100))

Accuracy com dummy stratified, 10 = [58.00, 58.00]


In [5]:
from sklearn.model_selection import cross_validate
from sklearn.tree import DecisionTreeClassifier

SEED = 301
np.random.seed(SEED)

modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x_azar, y_azar, cv = 10, return_train_score=False)
media = results['test_score'].mean()
desvio_padrao = results['test_score'].std()
print("Accuracy com cross validation, 10 = [%.2f, %.2f]" % ((media - 2 * desvio_padrao)*100, (media + 2 * desvio_padrao) * 100))

Accuracy com cross validation, 10 = [73.83, 77.73]


In [6]:
# gerando dados elatorios de modelo de carro para simulacao de agrupamento ao usar nosso estimador

np.random.seed(SEED)
dados['modelo'] = dados.idade_do_modelo + np.random.randint(-2, 3, size=10000)
dados.modelo = dados.modelo + abs(dados.modelo.min()) + 1
dados.head()

Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano,modelo
0,30941.02,1,18,35085.22134,18
1,40557.96,1,20,12622.05362,24
2,89627.5,0,12,11440.79806,14
3,95276.14,0,3,43167.32682,6
4,117384.68,1,4,12770.1129,5


In [7]:
def imprime_resultados(results):
  media = results['test_score'].mean() * 100
  desvio = results['test_score'].std() * 100
  print("Accuracy médio %.2f" % media)
  print("Intervalo [%.2f, %.2f]" % (media - 2 * desvio, media + 2 * desvio))

In [8]:
# GroupKFold para analisar como o modelo se comporta com novos grupos

from sklearn.model_selection import GroupKFold

SEED = 301
np.random.seed(SEED)

cv = GroupKFold(n_splits = 10)
modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=False)
imprime_resultados(results)

Accuracy médio 75.78
Intervalo [73.67, 77.90]


In [None]:
# GroupKFold em um pipeline com StandardScaler e SVC

from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline

SEED = 301
np.random.seed(SEED)

scaler = StandardScaler()
modelo = SVC()

pipeline = Pipeline([('transformacao',scaler), ('estimador',modelo)])

cv = GroupKFold(n_splits = 10)
results = cross_validate(pipeline, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=False)
imprime_resultados(results)

## Todos algorítimos acima foram utilizados no curso anterior.

In [None]:
## Próximo passo utilizar o algoritimo DecisionTreeClassifier.

### Pegaremos a variável modelo e iremos imprimir a árvore que foi treinada.

In [None]:
from sklearn.model_selection import GroupKFold

SEED = 301
np.random.seed(SEED)

cv = GroupKFold(n_splits = 10)
modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=False)
imprime_resultados(results)

In [None]:
# importando as bibliotecas e plotando a arvore de decisão
from sklearn.tree import export_graphviz
import graphviz 

#treinando para valer. Unico modelos com todos os dados.
modelo.fit(x_azar, y_azar)
features = x_azar.columns
dot_data = export_graphviz(modelo, out_file=None, filled=True, rounded=True, 
                           class_names=["não", "sim"],
                           feature_names = features)
graph = graphviz.Source(dot_data)
graph

In [None]:
# Profundidade alterada para 3

from sklearn.model_selection import GroupKFold

SEED = 301
np.random.seed(SEED)

cv = GroupKFold(n_splits = 10)
modelo = DecisionTreeClassifier(max_depth=3)
results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=False)
imprime_resultados(results)

In [None]:
# Agora temos uma árvore com 3 níveis de decisões a serem tomadas 
from sklearn.tree import export_graphviz
import graphviz 

#treinando para valer. Unico modelos com todos os dados.
modelo.fit(x_azar, y_azar)
features = x_azar.columns
dot_data = export_graphviz(modelo, out_file=None, filled=True, rounded=True, 
                           class_names=["não", "sim"],
                           feature_names = features)
graph = graphviz.Source(dot_data)
graph

In [None]:
# Profundidade alterada para 10

from sklearn.model_selection import GroupKFold

SEED = 301
np.random.seed(SEED)

cv = GroupKFold(n_splits = 10)
modelo = DecisionTreeClassifier(max_depth=10)
results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=False)
imprime_resultados(results)

In [None]:
# Agora temos uma árvore com 10 níveis de decisões a serem tomadas 
from sklearn.tree import export_graphviz
import graphviz 

#treinando para valer. Unico modelos com todos os dados.
modelo.fit(x_azar, y_azar)
features = x_azar.columns
dot_data = export_graphviz(modelo, out_file=None, filled=True, rounded=True, 
                           class_names=["não", "sim"],
                           feature_names = features)
graph = graphviz.Source(dot_data)
# graph

### Tendo uma profundidade muito extensa não garante precisão, podemos notar que 3 níveis de decisão é melhor do que 10.

# Todos modelos possuem parâmetros, como escolher eles para otimizar o nosso estimador/algorítmo?

In [None]:
# testando os parâmetros, criando um for para testar vários parâmetros de profundidade, 32 decisões para tomar.
from sklearn.model_selection import GroupKFold

def roda_arvove_de_decisao(max_depth):
    SEED = 301
    np.random.seed(SEED)

    cv = GroupKFold(n_splits = 10)
    modelo = DecisionTreeClassifier(max_depth=max_depth)
    results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=False)
    print ("Arvore max_depth = %d, media = %.2f" % (max_depth, results['test_score'].mean() *100))

    
for i in range(1,33):
    roda_arvove_de_decisao(i)

In [None]:
# testando os parâmetros, criando um for para testar vários parâmetros de profundidade, 32 decisões para tomar.
# imprimindo os dados de treino e teste
from sklearn.model_selection import GroupKFold

def roda_arvove_de_decisao(max_depth):
    SEED = 301
    np.random.seed(SEED)

    cv = GroupKFold(n_splits = 10)
    modelo = DecisionTreeClassifier(max_depth=max_depth)
    results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=True)
    print ("Arvore max_depth = %d, treino = %.2f, teste = %.2f" % (max_depth, results['train_score'].mean() *100, results['test_score'].mean() *100))

    
for i in range(1,33):
    roda_arvove_de_decisao(i)

## Concluimos que para os dados de treino a árvore fica cada vez melhor a cada profundidade de decisão, mas para os dados de teste, tanta profundidade fica cada vez pior.  

In [None]:
#jogando os resultados em uma tabela
from sklearn.model_selection import GroupKFold

def roda_arvove_de_decisao(max_depth):
    SEED = 301
    np.random.seed(SEED)

    cv = GroupKFold(n_splits = 10)
    modelo = DecisionTreeClassifier(max_depth=max_depth)
    results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=True)
    train_score = results['train_score'].mean() *100
    test_score = results['test_score'].mean() *100
    print ("Arvore max_depth = %d, treino = %.2f, teste = %.2f" % (max_depth, train_score, test_score))
    tabela = [max_depth, train_score, test_score]
    return tabela
    
resutados = [roda_arvove_de_decisao(i) for i in range(1,33)]
resutados = pd.DataFrame(resutados, columns=["max_depth", "train", "test"])
resutados.head()

In [None]:
# Trabalhando a tabela de resultados, plotando as em gráfico
import seaborn as sns

sns.lineplot(x = "max_depth", y = "train", data= resutados)

In [None]:
#plotando os dados no mesmo gráfico
sns.lineplot(x = "max_depth", y = "train", data= resutados)
sns.lineplot(x = "max_depth", y = "test", data= resutados)

## O treino ficou tão bom que o ocorreu OVERFIT, ou seja, exato demais, quase perfeito.

## Quase perfeito para os dados de treino significa que, não necessariamente ficará bom para os dados de teste.

# OVERFIT : ficou "perfeito" para o treino, mas ruim para o teste 

In [None]:
# Adicionando as legendas
import matplotlib.pyplot as plt
%matplotlib inline

sns.lineplot(x = "max_depth", y = "train", data= resutados)
sns.lineplot(x = "max_depth", y = "test", data= resutados)
plt.legend(["Treino", "Teste"])

In [None]:
# ordenando os melhores resultados para teste
resutados.sort_values("test", ascending=False).head()

# Explorando hiper parâmetros 

## Exploraremos a combinação de 2 hiper parêmetros, max_depth e min_samples_leaf

#### min_samples_leaf, que é número mínimo de elementos (samples) em uma folha.

In [None]:
# realizando a comparação de hiper parâmetro, precisamos encontrar o melhor conjunto que vai otimizar o nosso estimador.
def roda_arvore_de_decisao(max_depth, min_samples_leaf):
  SEED = 301
  np.random.seed(SEED)

  cv = GroupKFold(n_splits = 10)
  modelo = DecisionTreeClassifier(max_depth=max_depth, min_samples_leaf = min_samples_leaf)
  results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=True)
  train_score = results['train_score'].mean() * 100
  test_score = results['test_score'].mean() * 100
  print("Arvore max_depth = %d, min_samples_leaf = %d, treino = %.2f, teste = %.2f" % (max_depth, min_samples_leaf, train_score, test_score))
  tabela = [max_depth, min_samples_leaf, train_score, test_score]
  return tabela

def busca():
  resultados = []
  for max_depth in range(1,33):
    for min_samples_leaf in [32, 64, 128, 256]:
      tabela = roda_arvore_de_decisao(max_depth, min_samples_leaf)
      resultados.append(tabela)
  resultados = pd.DataFrame(resultados, columns= ["max_depth","min_samples_leaf","train","test"])
  return resultados

resultados = busca()
resultados.head()

In [None]:
#imprimindo os 5 melhores
resultados.sort_values("test", ascending=False).head()

## Diversos valores não foram testados, pois testar todas combinações consome muito processamento

In [None]:
# Utilizaremos a correlação entre os parãmentros, para tentar analisar se dentro dos testes existe um grupo de hiper parâmetro é melhor.
# Não é 100%, pois não testamos todos os conjutos devido alto consumo de processamento

corr = resultados.corr()
corr

In [None]:
#plotando no gráfico, mapa de calor

sns.heatmap(corr)

In [None]:
#comparando os 4 valores através do pandas
import pandas as pd
from pandas.plotting import scatter_matrix

pd.plotting.scatter_matrix(resultados, figsize = (14, 8), alpha = 0.3)

In [None]:
#plotando no seaborn

sns.pairplot(resultados)

In [None]:
# plotagem abaixo é a correlação entre os dados, grafico muito bonito no seaborn
sns.set(style="white")

# Generate a mask for the upper triangle
mask = np.zeros_like(corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True

# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(220, 10, as_cmap=True)

# Draw the heatmap with the mask and correct aspect ratio
sns.heatmap(corr, mask=mask, cmap=cmap, vmax=.3, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})

In [None]:
# Podemos verificar que o min_samples_leaf tem uma correlação com os dados de teste

In [None]:
#testaremos outras faixas de valores para o min_samples_leaf.
#começamos a explorar os valores. Testamos pedaços do grid e vamos aprofundando tentando encontrar os melhores valores/combinações
def busca():
  resultados = []
  for max_depth in range(1,33):
    for min_samples_leaf in [128, 192, 256, 512]:
      tabela = roda_arvore_de_decisao(max_depth, min_samples_leaf)
      resultados.append(tabela)
  resultados = pd.DataFrame(resultados, columns= ["max_depth","min_samples_leaf","train","test"])
  return resultados

resultados = busca()
resultados.head()

In [None]:
corr = resultados.corr()

In [None]:
sns.set(style="white")

# Generate a mask for the upper triangle
mask = np.zeros_like(corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True

# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(220, 10, as_cmap=True)

# Draw the heatmap with the mask and correct aspect ratio
sns.heatmap(corr, mask=mask, cmap=cmap, vmax=.3, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})

In [None]:
#encontrando os 5 melhores
resultados.sort_values("test", ascending=False).head()

# Conclusão : Correlação é uma maneira de tentarmos encontrar os valores que mais otimizam o nosso estimador, com o menor índice de erro e o maior nível de qualidade.

## Procuramos as melhores correlações ao invés de gastar muito processamento até encontrar a melhor combinação.

# -----------------------------------------------------------------------------------

# Utilizaremos um terceiro hiper parâmetro do DecisionTreeClassifier

In [None]:
# min_samples_split ajusta os parâmetros de descisão nos "NÓS" da arvóre

In [None]:
# Explorando 3 dimensões de hiper parâmetros
def roda_arvore_de_decisao(max_depth, min_samples_leaf, min_samples_split):
  SEED = 301
  np.random.seed(SEED)

  cv = GroupKFold(n_splits = 10)
  modelo = DecisionTreeClassifier(max_depth=max_depth, min_samples_leaf = min_samples_leaf, min_samples_split = min_samples_split)
  results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.modelo, return_train_score=True)
  fit_time = results['fit_time'].mean()
  score_time = results['score_time'].mean()
  train_score = results['train_score'].mean() * 100
  test_score = results['test_score'].mean() * 100

  tabela = [max_depth, min_samples_leaf, min_samples_split, train_score, test_score, fit_time, score_time]
  return tabela

def busca():
  resultados = []
  for max_depth in range(1,33):
    for min_samples_leaf in [32, 64, 128, 256]:
        for min_samples_split in [32, 64, 128, 256]:
          tabela = roda_arvore_de_decisao(max_depth, min_samples_leaf, min_samples_split)
          resultados.append(tabela)
  resultados = pd.DataFrame(resultados, columns= ["max_depth","min_samples_leaf", "min_samples_split", "train","test", "fit_time", "score_time"])
  return resultados

resultados = busca()
resultados.head()

In [None]:
corr = resultados.corr()

In [None]:
sns.set(style="white")

# Generate a mask for the upper triangle
mask = np.zeros_like(corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True

# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(220, 10, as_cmap=True)

# Draw the heatmap with the mask and correct aspect ratio
sns.heatmap(corr, mask=mask, cmap=cmap, vmax=.3, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})

In [None]:
#encontrando os 5 melhores
resultados.sort_values("test", ascending=False).head()

# Temos um algoritmo muito morozo para realizar diversas combinações, porém explorando o máximo dos hiperparâmetro conseguimos extrair o que há de melhor do nosso algoritmo.

# ----------------------------------------------------------------------------------------

# O próprio SKLearn possui o GridSearchCV (grid search cross validation), que faz justamente essa busca de hiperparâmetros com validação cruzada.

In [None]:
# Explorando espaço de hiper parâmetros com GridSearchCV
from sklearn.model_selection import GridSearchCV

SEED=301
np.random.seed(SEED)

# montando a lista de parâmetros para repassar ao GridSearchCV, 4 hiper parâmetros
espaco_de_parametros = {
    "max_depth" : [3, 5],
    "min_samples_split": [32, 64, 128],
    "min_samples_leaf": [32, 64, 128],
    "criterion": ["gini", "entropy"]

}
# instanciando a função, passando os parâmetros e atribuindo a uma variável
busca = GridSearchCV(DecisionTreeClassifier(),
                    espaco_de_parametros,
                    cv = GroupKFold(n_splits = 10))
# treinando o grid com os dados
busca.fit(x_azar, y_azar,groups = dados.modelo)
resultados = pd.DataFrame(busca.cv_results_)
resultados.head()

In [None]:
# os melhores parãmetros
busca.best_params_

In [None]:
#melhor pontuação
busca.best_score_ * 100

In [None]:
#melhor estimador
melhor = busca.best_estimator_
melhor

In [None]:
# Utilzando o melhor modelo na base de dados x_azar
from sklearn.metrics import accuracy_score 

predicoes = melhor.predict(x_azar) 
accuracy = accuracy_score(predicoes, y_azar) * 100

print("Accuracy para os dados foi %.2f%%" % accuracy)

### Utilizamos o GridSearchCV do SKLearn para encontrarmos o melhor conjunto de hiperparâmetros em um espaço definido, de modo a otimizar a nossa métrica (accuracy).

# ----------------------------------------------------------------------------

# Como ter uma estimativa sem o vício nos dados?

### Evitaremos a última abordagem pois utilizamos o predict uma unica vez, sendo que estamos utilizando o Cross validation.

### No caso de Cross Validation com busca de Hiper parâmetros, fazemos uma nova validação cruzada. Chama-se NESTED Cross Validation

In [None]:
# Realizamos o cross validation para a busca inteira e teremos vários scores
from sklearn.model_selection import cross_val_score

scores = cross_val_score(busca, x_azar, y_azar, cv = GroupKFold(n_splits=10), groups = dados.modelo)

# Infelizmente como o pandas não suporte nested validation com group K fold não conseguimos prever o resultado para novos grupos

In [None]:
# Utilizamos o K fold normal sem grupos

from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import KFold

SEED=301
np.random.seed(SEED)

espaco_de_parametros = {
    "max_depth" : [3, 5],
    "min_samples_split": [32, 64, 128],
    "min_samples_leaf": [32, 64, 128],
    "criterion": ["gini", "entropy"]

}

busca = GridSearchCV(DecisionTreeClassifier(),
                    espaco_de_parametros,
                    cv = KFold(n_splits = 5, shuffle=True))

busca.fit(x_azar, y_azar)
resultados = pd.DataFrame(busca.cv_results_)
resultados.head()

In [None]:
# Realizamos o cross validation para a busca inteira e teremos vários scores para o kfold
from sklearn.model_selection import cross_val_score

scores = cross_val_score(busca, x_azar, y_azar, cv = KFold(n_splits=5, shuffle=True))
scores

In [None]:
# imprimindo os resultados
def imprime_score(scores):
  media = scores.mean() * 100
  desvio = scores.std() * 100
  print("Accuracy médio %.2f" % media)
  print("Intervalo [%.2f, %.2f]" % (media - 2 * desvio, media + 2 * desvio))

In [None]:
imprime_score(scores)

In [None]:
#melhor estimador
melhor = busca.best_estimator_
print(melhor)

In [None]:
# imprimindo a árvore de decisão com os melhores parâmetros
from sklearn.tree import export_graphviz
import graphviz


features = x_azar.columns
dot_data = export_graphviz(melhor, out_file=None, filled=True, rounded=True,
                          class_names=["não","sim"],
                          feature_names=features)
graph = graphviz.Source(dot_data)
graph

# Temos 3 linhas de decisões a serem tomadas/comparações a serem feitas max_depth.

# Mínimo de 32 samples cada, leaf e split. 

# As decisões de quebras seguem o critério de gini.

### Esse é o melhor modelo real que utilizamos para explorar os hiperparâmetros. Esse tipo de exploração com grid, no qual cada espaço é analisado separadamente, é válido e funciona. Porém, é um processo demorado, e existem otimizações que podem ser feitas para contornar isso.


In [None]:
# OTIMIZAÇÃO DE MODELO PARTE 2