## NERD DOS DADOS - Diferenças entre GridSearchCV, RandonSearchCV e Baysian Search

In [20]:
pip install scikit-learn




[notice] A new release of pip is available: 24.0 -> 24.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip





In [21]:
# A primeira coisa que temos que fazer é importar os pacotes que iremos utilizar.

import pandas as pd
import numpy as np
import time

import warnings
warnings.filterwarnings("ignore") 


from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV 
from sklearn.metrics import r2_score
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split

#Comando para exibir todas colunas do arquivo
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('max_colwidth', 50)

## Importação dos dados, Analise Exploratória e Tratamento de Dados

In [22]:
pip install openpyxl

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 24.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [23]:
#Comando utilizado para carregar o arquivo e armazena-lo como um DataFrame do Pandas
#Um DataFrame do Pandas é como se fosse uma planilha do Excel, onde podemos tratar linhas e colunas.
df_dados = pd.read_excel("C:/Users/menez/OneDrive - Faculdade Impacta Tecnologia/IMPACTA 2024/ANO LETIVO 2024/MATÉRIAS/REAL DATA - DRIVEN BUSINESS PROJECT (HANDS-ON)/SEGMENTACAO CLIENTE/dados.xlsx")

In [24]:
#Comando utilizado para verificar a quantidade de linhas e colunas do arquivo
#Colunas também são chamadas de variáveis.
df_dados.shape

(2000, 11)

In [25]:
#Comando utilizado para verificar informações sobre os dados(Tipo de variáveis, Variáveis, Quantidade de registros, etc)
df_dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 11 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   UF                          2000 non-null   object 
 1   IDADE                       2000 non-null   int64  
 2   ESCOLARIDADE                2000 non-null   object 
 3   ESTADO_CIVIL                2000 non-null   object 
 4   QT_FILHOS                   2000 non-null   int64  
 5   VL_IMOVEIS                  2000 non-null   int64  
 6   TEMPO_ULTIMO_EMPREGO_MESES  2000 non-null   int64  
 7   ULTIMO_SALARIO              2000 non-null   int64  
 8   VALOR_TABELA_CARROS         2000 non-null   int64  
 9   SCORE_CREDITO               2000 non-null   float64
 10  EMPRESTIMO                  2000 non-null   object 
dtypes: float64(1), int64(6), object(4)
memory usage: 172.0+ KB


In [26]:
# Comando utilizado para avaliar se alguma variável possui valor nulo ou chamado de valores missing ou NAN (Not Available)
df_dados.isnull().sum()

UF                            0
IDADE                         0
ESCOLARIDADE                  0
ESTADO_CIVIL                  0
QT_FILHOS                     0
VL_IMOVEIS                    0
TEMPO_ULTIMO_EMPREGO_MESES    0
ULTIMO_SALARIO                0
VALOR_TABELA_CARROS           0
SCORE_CREDITO                 0
EMPRESTIMO                    0
dtype: int64

## Pré Processamento dos Dados

In [27]:
# Cria o encoder
lb = LabelEncoder()

# Aplica o encoder nas variáveis que estão com string
df_dados['ESTADO_CIVIL'] = lb.fit_transform(df_dados['ESTADO_CIVIL'])
df_dados['ESCOLARIDADE'] = lb.fit_transform(df_dados['ESCOLARIDADE'])
df_dados['UF'] = lb.fit_transform(df_dados['UF'])

In [28]:
df_dados.head(200)

Unnamed: 0,UF,IDADE,ESCOLARIDADE,ESTADO_CIVIL,QT_FILHOS,VL_IMOVEIS,TEMPO_ULTIMO_EMPREGO_MESES,ULTIMO_SALARIO,VALOR_TABELA_CARROS,SCORE_CREDITO,EMPRESTIMO
0,4,19,2,2,0,0,8,1800,0,56.0,SIM
1,0,23,1,2,1,0,9,4800,50000,18.0,NAO
2,3,25,0,0,0,220000,18,2200,30000,45.0,SIM
3,1,27,2,0,1,0,22,3900,0,28.666667,NAO
4,4,30,0,1,0,0,14,3100,40000,39.666667,SIM
5,0,32,2,2,1,185000,19,6800,0,45.166667,NAO
6,3,35,1,2,1,450000,25,22000,150000,50.666667,SIM
7,1,42,0,0,0,0,48,4500,28000,56.166667,NAO
8,2,45,2,0,0,0,120,9800,0,61.666667,SIM
9,4,48,1,1,2,600000,15,15000,70000,67.166667,NAO


In [29]:
# Separando a variavel alvo
target = df_dados.iloc[:,10]

In [30]:
target.head()

0    SIM
1    NAO
2    SIM
3    NAO
4    SIM
Name: EMPRESTIMO, dtype: object

In [31]:
# Separando as variaveis preditoras

preditoras = df_dados.copy() #Fazendo uma cópia do dataframe

del preditoras['EMPRESTIMO'] #Excluindo a variavel target, pois já separamos ela na etapa anterior

preditoras.head()#Visualizando as variaveis preditoras

Unnamed: 0,UF,IDADE,ESCOLARIDADE,ESTADO_CIVIL,QT_FILHOS,VL_IMOVEIS,TEMPO_ULTIMO_EMPREGO_MESES,ULTIMO_SALARIO,VALOR_TABELA_CARROS,SCORE_CREDITO
0,4,19,2,2,0,0,8,1800,0,56.0
1,0,23,1,2,1,0,9,4800,50000,18.0
2,3,25,0,0,0,220000,18,2200,30000,45.0
3,1,27,2,0,1,0,22,3900,0,28.666667
4,4,30,0,1,0,0,14,3100,40000,39.666667


In [32]:
# Divisão em Dados de Treino e Teste.
X_treino, X_teste, y_treino, y_teste = train_test_split(preditoras, target, test_size = 0.3, random_state = 40)

In [33]:
# Vamos aplicar a normalização em treino e teste
# Padronização
sc = MinMaxScaler()
X_treino_normalizados = sc.fit_transform(X_treino)
X_teste_normalizados = sc.transform(X_teste)

## Usando o GridSearchCV

In [34]:
# Construtor do Modelo
randomForest = RandomForestClassifier()

In [35]:
# Valores para o grid de hiperparametros
n_estimators = np.array([100,150,300])
max_depth = np.array([10,20])
criterion = np.array(["gini", "entropy"])
max_features = np.array(["sqrt", "log2"])
min_samples_split = np.array([1,2])
min_samples_leaf = np.array([1,2])
bootstrap = np.array(["True","False"])

# Grid de hiperparâmetros
grid_parametros = dict(n_estimators = n_estimators,
                       max_depth = max_depth,
                       criterion = criterion,
                       max_features = max_features,
                       min_samples_split = min_samples_split,
                       min_samples_leaf = min_samples_leaf,
                       bootstrap = bootstrap)

# Criando o modelo com o Grid de Hiperparametros
randomForest = GridSearchCV(randomForest, grid_parametros, cv = 3, n_jobs = 8)

# Treinando os modelos
inicio = time.time()
randomForest.fit(X_treino_normalizados, y_treino)
fim = time.time()

# Obtendo e visualizando os parametros treinados
treinos_rf = pd.DataFrame(randomForest.cv_results_)

# Acurácia em Treino
print(f"Acurácia em Treinamento: {randomForest.best_score_ :.2%}")
print("")
print(f"Hiperparâmetros Ideais: {randomForest.best_params_}")
print("")
print("Tempo de Treinamento do Modelo: ", round(fim - inicio,2))
print("")
print("Numero de treinamentos realizados: ", treinos_rf.shape[0])

ValueError: 
All the 576 fits failed.
It is very likely that your model is misconfigured.
You can try to debug the error by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
288 fits failed with the following error:
Traceback (most recent call last):
  File "c:\Users\menez\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\model_selection\_validation.py", line 888, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "c:\Users\menez\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\base.py", line 1466, in wrapper
    estimator._validate_params()
  File "c:\Users\menez\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\base.py", line 666, in _validate_params
    validate_parameter_constraints(
  File "c:\Users\menez\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\utils\_param_validation.py", line 95, in validate_parameter_constraints
    raise InvalidParameterError(
sklearn.utils._param_validation.InvalidParameterError: The 'bootstrap' parameter of RandomForestClassifier must be an instance of 'bool' or an instance of 'numpy.bool'. Got np.str_('True') instead.

--------------------------------------------------------------------------------
288 fits failed with the following error:
Traceback (most recent call last):
  File "c:\Users\menez\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\model_selection\_validation.py", line 888, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "c:\Users\menez\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\base.py", line 1466, in wrapper
    estimator._validate_params()
  File "c:\Users\menez\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\base.py", line 666, in _validate_params
    validate_parameter_constraints(
  File "c:\Users\menez\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\utils\_param_validation.py", line 95, in validate_parameter_constraints
    raise InvalidParameterError(
sklearn.utils._param_validation.InvalidParameterError: The 'bootstrap' parameter of RandomForestClassifier must be an instance of 'bool' or an instance of 'numpy.bool'. Got np.str_('False') instead.


## Usando o RandomizedSearchCV

In [None]:
# Construtor do Modelo
randomForest = RandomForestClassifier()

In [None]:
# Valores para o grid de hiperparametros
n_estimators = np.array([100,150,300])
max_depth = np.array([10,20])
criterion = np.array(["gini", "entropy"])
max_features = np.array(["sqrt", "log2"])
min_samples_split = np.array([1,2])
min_samples_leaf = np.array([1,2])
bootstrap = np.array(["True","False"])

# Numero de iterações do RandonSearch
iteracoes = 50

# Grid de hiperparâmetros
grid_parametros = dict(n_estimators = n_estimators,
                       max_depth = max_depth,
                       criterion = criterion,
                       max_features = max_features,
                       min_samples_split = min_samples_split,
                       min_samples_leaf = min_samples_leaf,
                       bootstrap = bootstrap)

# Criando o modelo com o Grid de Hiperparametros
randomForest = RandomizedSearchCV(randomForest, grid_parametros, cv = 3, n_jobs = 8, n_iter = iteracoes)

# Treinando os modelos
inicio = time.time()
randomForest.fit(X_treino_normalizados, y_treino)
fim = time.time()

# Obtendo e visualizando os parametros treinados
treinos_rf = pd.DataFrame(randomForest.cv_results_)

# Acurácia em Treino
print(f"Acurácia em Treinamento: {randomForest.best_score_ :.2%}")
print("")
print(f"Hiperparâmetros Ideais: {randomForest.best_params_}")
print("")
print("Tempo de Treinamento do Modelo: ", round(fim - inicio,2))
print("")
print("Numero de treinamentos realizados: ", treinos_rf.shape[0])

Acurácia em Treinamento: 77.78%

Hiperparâmetros Ideais: {'n_estimators': 100, 'min_samples_split': 2, 'min_samples_leaf': 1, 'max_features': 'sqrt', 'max_depth': 10, 'criterion': 'entropy', 'bootstrap': 'True'}

Tempo de Treinamento do Modelo:  11.92

Numero de treinamentos realizados:  50


## Utilizando o Baysian Search

In [None]:
# Instalação do Baysian_opt
# !pip install bayesian-optimization

In [None]:
from sklearn.svm import SVC 
from sklearn.metrics import roc_auc_score 
from bayes_opt import BayesianOptimization, UtilityFunction 


# Defina a função de caixa preta para otimizar. 
def black_box_function(C): 
    # C: hiperparâmetro SVC para otimizar. 
    model = SVC(C = C) 
    model.fit(X_treino_normalizados, y_treino) 
    y_score = model.decision_function(X_teste_normalizados) 
    f = roc_auc_score(y_teste, y_score) 
    return f

# Defina o intervalo de C para otimizar. 
# bayes_opt requer que seja um dicionário. 
pbounds = {"C": [0.1, 10]}

# Cria o otimizados e otimiza a função da caixa preta
optimizer = BayesianOptimization(f = black_box_function,
                                 pbounds = pbounds, verbose = 2,
                                 random_state = 4)
optimizer.maximize(init_points = 5, n_iter = 20)
print("Melhor Resultado: {}; f(x) = {}.".format(optimizer.max["params"], optimizer.max["target"]))

|   iter    |  target   |     C     |
-------------------------------------
| [0m1        [0m | [0m0.8789   [0m | [0m9.674    [0m |
| [0m2        [0m | [0m0.878    [0m | [0m5.518    [0m |
| [0m3        [0m | [0m0.8772   [0m | [0m9.73     [0m |
| [0m4        [0m | [0m0.8779   [0m | [0m7.177    [0m |
| [95m5        [0m | [95m0.8802   [0m | [95m7.008    [0m |
| [95m6        [0m | [95m0.8802   [0m | [95m9.75     [0m |
| [0m7        [0m | [0m0.8307   [0m | [0m0.94     [0m |
| [0m8        [0m | [0m0.879    [0m | [0m9.913    [0m |
| [0m9        [0m | [0m0.8772   [0m | [0m7.078    [0m |
| [95m10       [0m | [95m0.8809   [0m | [95m7.177    [0m |
| [0m11       [0m | [0m0.8797   [0m | [0m7.175    [0m |
| [0m12       [0m | [0m0.8802   [0m | [0m7.009    [0m |
| [0m13       [0m | [0m0.8785   [0m | [0m9.748    [0m |
| [0m14       [0m | [0m0.8764   [0m | [0m9.751    [0m |
| [0m15       [0m | [0m0.8774   [0m | [0m9