<a href="https://colab.research.google.com/github/LKSfiuza/Machine-Learning-projects/blob/main/KFlod_e_Cross_val_Score_DS_e_ML_com_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Tuning dos parâmetros

# Preparação dos dados

In [7]:
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

In [8]:
## Importando os dados de crédito
import pickle
with open('credit.pkl', 'rb') as f:
  X_credit_treinamento, y_credit_treinamento, X_credit_teste, y_credit_teste = pickle.load(f)

In [9]:
X_credit_treinamento.shape, y_credit_treinamento.shape

((1500, 3), (1500,))

In [10]:
X_credit_teste.shape, y_credit_teste.shape

((500, 3), (500,))

In [11]:
## Concatenar as bases de dado para realização do gridsearchCV, é necessario já quando usamos o GridSearchCV(ou qualquer técnica de Cross Validation),
## o objetivo é deixar que o próprio procedimento de k-folds faça as divisões de treino e validação dentro de um mesmo conjunto de dados

import numpy as np

X_credit = np.concatenate((X_credit_treinamento, X_credit_teste), axis = 0)
X_credit.shape

(2000, 3)

In [12]:
y_credit = np.concatenate((y_credit_treinamento, y_credit_teste), axis = 0)
y_credit.shape

(2000,)

# Árvore de decisão

In [13]:
parametros = {'criterion': ['gini', 'entropy'],
              'splitter': ['best', 'random'],
              'min_samples_split': [2, 5, 10],
              'min_samples_leaf' : [1, 5, 10]}

In [15]:
grid_search = GridSearchCV(estimator=DecisionTreeClassifier(), param_grid = parametros)
grid_search.fit(X_credit, y_credit)
melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_
print('Melhores parametros: ', melhores_parametros)
print('Melhor resultado: ', melhor_resultado)



Melhores parametros:  {'criterion': 'entropy', 'min_samples_leaf': 1, 'min_samples_split': 5, 'splitter': 'best'}
Melhor resultado:  0.983


# Random Forest

In [16]:
parametros_rf = {'criterion': ['gini', 'entropy'],
              'n_estimators': [10, 40, 100, 150],
              'min_samples_split': [2, 5, 10],
              'min_samples_leaf' : [1, 5, 10]}

In [17]:
grid_search = GridSearchCV(estimator=RandomForestClassifier(), param_grid = parametros_rf)
grid_search.fit(X_credit, y_credit)
melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_
print('Melhores parametros: ', melhores_parametros)
print('Melhor resultado: ', melhor_resultado)

Melhores parametros:  {'criterion': 'entropy', 'min_samples_leaf': 1, 'min_samples_split': 5, 'n_estimators': 100}
Melhor resultado:  0.9870000000000001


# KNN

In [19]:
parametros_knn = {'n_neighbors': [3, 5, 10, 20], 'p': [1, 2]}

In [20]:
grid_search = GridSearchCV(estimator=KNeighborsClassifier(), param_grid = parametros_knn)
grid_search.fit(X_credit, y_credit)
melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_
print('Melhores parametros: ', melhores_parametros)
print('Melhor resultado: ', melhor_resultado)

Melhores parametros:  {'n_neighbors': 20, 'p': 1}
Melhor resultado:  0.9800000000000001


# Regressão logística

In [21]:
LogisticRegression().get_params()

{'C': 1.0,
 'class_weight': None,
 'dual': False,
 'fit_intercept': True,
 'intercept_scaling': 1,
 'l1_ratio': None,
 'max_iter': 100,
 'multi_class': 'deprecated',
 'n_jobs': None,
 'penalty': 'l2',
 'random_state': None,
 'solver': 'lbfgs',
 'tol': 0.0001,
 'verbose': 0,
 'warm_start': False}

In [22]:
parametros_lr = {'C': [1.0, 1.5, 2.0],
                 'tol': [000.1, 0000.1, 00000.1],
                 'solver' : ['lbfgs', 'sag', 'saga']}


In [23]:
grid_search = GridSearchCV(estimator=LogisticRegression(), param_grid = parametros_lr)
grid_search.fit(X_credit, y_credit)
melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_
print('Melhores parametros: ', melhores_parametros)
print('Melhor resultado: ', melhor_resultado)

Melhores parametros:  {'C': 1.5, 'solver': 'saga', 'tol': 0.1}
Melhor resultado:  0.9475


# SVM

In [24]:
parametros_svm = {'C': [1.0, 1.5, 2.0],
                 'tol': [000.1, 0000.1, 00000.1],
                 'kernel' : ['rbf', 'linear', 'poly', 'sigmoid']}

In [25]:
grid_search = GridSearchCV(estimator=SVC(), param_grid = parametros_svm)
grid_search.fit(X_credit, y_credit)
melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_
print('Melhores parametros: ', melhores_parametros)
print('Melhor resultado: ', melhor_resultado)

Melhores parametros:  {'C': 2.0, 'kernel': 'rbf', 'tol': 0.1}
Melhor resultado:  0.983


# RNA

In [26]:
MLPClassifier().get_params()

{'activation': 'relu',
 'alpha': 0.0001,
 'batch_size': 'auto',
 'beta_1': 0.9,
 'beta_2': 0.999,
 'early_stopping': False,
 'epsilon': 1e-08,
 'hidden_layer_sizes': (100,),
 'learning_rate': 'constant',
 'learning_rate_init': 0.001,
 'max_fun': 15000,
 'max_iter': 200,
 'momentum': 0.9,
 'n_iter_no_change': 10,
 'nesterovs_momentum': True,
 'power_t': 0.5,
 'random_state': None,
 'shuffle': True,
 'solver': 'adam',
 'tol': 0.0001,
 'validation_fraction': 0.1,
 'verbose': False,
 'warm_start': False}

In [29]:
parametros_rna = {'activation': ['relu', 'logistic', 'tahn'],
                  'batch_size': [10, 56],
                  'solver': ['adam', 'sgd']}

In [30]:
grid_search = GridSearchCV(estimator=MLPClassifier(), param_grid = parametros_rna)
grid_search.fit(X_credit, y_credit)
melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_
print('Melhores parametros: ', melhores_parametros)
print('Melhor resultado: ', melhor_resultado)

20 fits failed out of a total of 60.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
20 fits failed with the following error:
Traceback (most recent call last):
  File "/usr/local/lib/python3.11/dist-packages/sklearn/model_selection/_validation.py", line 866, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/usr/local/lib/python3.11/dist-packages/sklearn/base.py", line 1382, in wrapper
    estimator._validate_params()
  File "/usr/local/lib/python3.11/dist-packages/sklearn/base.py", line 436, in _validate_params
    validate_parameter_constraints(
  File "/usr/local/lib/python3.11/dist-packages/sklearn/utils/_param_validation.py", line 98, in validate_parameter_constraints
    raise InvalidParameterError(
sklea

Melhores parametros:  {'activation': 'relu', 'batch_size': 56, 'solver': 'adam'}
Melhor resultado:  0.9970000000000001




# Validação cruzada

In [31]:
from sklearn.model_selection import cross_val_score, KFold

In [35]:
resultados_arvore = []
resultados_rf = []
resultados_knn = []
resultados_lr = []
resultados_svm = []
resultados_rna = []

for i in range(30):

  # Decision Tree
  kfold = KFold(n_splits=10, shuffle=True, random_state=i)
  arvore = DecisionTreeClassifier(criterion='entropy', min_samples_leaf=1, min_samples_split=5, splitter='best')
  resultados_arvore.append(cross_val_score(arvore, X_credit, y_credit, cv=kfold).mean())

  # Random Forest
  random_forest = RandomForestClassifier(criterion='entropy', min_samples_leaf=1, min_samples_split=5, n_estimators=10)
  resultados_rf.append(cross_val_score(random_forest, X_credit, y_credit, cv=kfold).mean())

  # KNN
  knn = KNeighborsClassifier(n_neighbors=5, p=2)
  resultados_knn.append(cross_val_score(knn, X_credit, y_credit, cv=kfold).mean())

  # Logistic Regression
  lr = LogisticRegression(C=2.0, tol=0.0001, solver='lbfgs')
  resultados_lr.append(cross_val_score(lr, X_credit, y_credit, cv=kfold).mean())

  # SVM
  svm = SVC(C=2.0, tol=0.1, kernel='rbf')
  resultados_svm.append(cross_val_score(svm, X_credit, y_credit, cv=kfold).mean())

  # RNA
  rna = MLPClassifier(activation='relu', batch_size=56, solver='adam')
  resultados_rna.append(cross_val_score(rna, X_credit, y_credit, cv=kfold).mean())


