## <center>Avaliação dos algoritmos: Análise risco de crédito<center>

#### - Árvores de decisão: 98.20
#### - Random forest: 98.40
#### - Knn: 98.60
#### - SVM: 98.80
#### - Redes neurais: 99.60

### Turning dos parâmetros com GridSearch

In [2]:
#Preparação dos dados
from sklearn.model_selection import GridSearchCV #Vai escolher os melhores paramentros para cada um dos algoritmos, pesquisando em grade. CV = Cross validation (Aplicação da validação cruzada)
from sklearn.tree import DecisionTreeClassifier #Árvore de decisão
from sklearn.ensemble import RandomForestClassifier #Random forest
from sklearn.neighbors import KNeighborsClassifier #KNN
from sklearn.svm import SVC #SVM
from sklearn.neural_network import MLPClassifier #Redes neurais

In [3]:
import pickle
with open("base.pkl", "rb") as df:
    X_base_treinamento, y_base_treinamento, X_base_teste, y_base_teste = pickle.load(df)

In [5]:
X_base_treinamento.shape, y_base_treinamento.shape

((1500, 3), (1500,))

In [6]:
X_base_teste.shape, y_base_teste.shape

((500, 3), (500,))

In [4]:
import numpy as np
X_base = np.concatenate((X_base_treinamento, X_base_teste), axis = 0) #Concatenação das linhas do X
y_base = np.concatenate((y_base_treinamento, y_base_teste), axis = 0) #Concatenação das linhas do y

In [10]:
# Árvore de decisão ------> 98.20
paramentros = {"criterion": ["gini", "entropy"],
               "splitter": ["best", "random"],
               "min_samples_split": [2,5,10],
               "min_samples_leaf": [1,5,10]}

grid_search = GridSearchCV(estimator = DecisionTreeClassifier(), param_grid=paramentros)
grid_search.fit(X_base, y_base)
arv_melhores_paramentros = grid_search.best_params_
arv_melhores_resultados = grid_search.best_score_

In [13]:
print(f"Os melhores parâmetros foram {arv_melhores_paramentros}. Os melhores resultados foram {arv_melhores_resultados * 100}%")

Os melhores parâmetros foram {'criterion': 'entropy', 'min_samples_leaf': 1, 'min_samples_split': 5, 'splitter': 'best'}. Os melhores resultados foram 98.3%


#### 98.3% | AUMENTO DA PRECISÃO de 0,10%

In [15]:
# - Random forest ---------> 98.40
paramentros = {"criterion": ["gini", "entropy"],
               "n_estimators": [10,40,100,150,200],
               "min_samples_split": [2,5,10,15,20],
               "min_samples_leaf": [1,5,10,15,20]}

grid_search = GridSearchCV(estimator = RandomForestClassifier(), param_grid=paramentros)
grid_search.fit(X_base, y_base)
rf_melhores_paramentros = grid_search.best_params_
rf_melhores_resultados = grid_search.best_score_

In [16]:
print(f"Os melhores parâmetros foram {rf_melhores_paramentros}. Os melhores resultados foram {rf_melhores_resultados * 100}%")

Os melhores parâmetros foram {'criterion': 'gini', 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 40}. Os melhores resultados foram 98.80000000000001%


#### 98.8% | AUMENTO DA PRECISÃO de 0,40%

In [17]:
# - Knn -------------> 98.60
paramentros = {"n_neighbors": [3,5,10,20,25,50,100],
              "p": [1,2]}

grid_search = GridSearchCV(estimator = KNeighborsClassifier(), param_grid=paramentros)
grid_search.fit(X_base, y_base)
knn_melhores_paramentros = grid_search.best_params_
knn_melhores_resultados = grid_search.best_score_

In [18]:
print(f"Os melhores parâmetros foram {knn_melhores_paramentros}. Os melhores resultados foram {knn_melhores_resultados * 100}%")

Os melhores parâmetros foram {'n_neighbors': 25, 'p': 1}. Os melhores resultados foram 98.05%


#### 98.05% | DIMINUIÇÃO DA PRECISÃO em 0,55%

In [5]:
# - SVM ---------------> 98.80
paramentros = {"tol": [0.001, 0.0001, 0.00001, 0.000001, 0.0000001],
            "C": [1.0, 1.5, 2.0, 2.5, 3.0, 5.0],
            "kernel": ["rbf", "linear", "poly", "sigmoid"]}

grid_search = GridSearchCV(estimator = SVC(), param_grid=paramentros)
grid_search.fit(X_base, y_base)
svm_melhores_paramentros = grid_search.best_params_
svm_melhores_resultados = grid_search.best_score_

In [6]:
print(f"Os melhores parâmetros foram {svm_melhores_paramentros}. Os melhores resultados foram {svm_melhores_resultados * 100}%")

Os melhores parâmetros foram {'C': 5.0, 'kernel': 'rbf', 'tol': 0.001}. Os melhores resultados foram 98.50000000000001%


#### 98.50% | DIMINUIÇÃO DA PRECISÃO em 0,30%

In [None]:
# - Redes neurais ----------> 99.60
paramentros = {"activation": ["relu", "logistic", "tahn"],
               "solver": ["adam", "sgd"],
               "batch_size": [10, 56, 100, 200, 350]}

grid_search = GridSearchCV(estimator = MLPClassifier(), param_grid=paramentros)
grid_search.fit(X_base, y_base)
rn_melhores_paramentros = grid_search.best_params_
rn_melhores_resultados = grid_search.best_score_

In [9]:
print(f"Os melhores parâmetros foram {rn_melhores_paramentros}. Os melhores resultados foram {rn_melhores_resultados * 100}%")

Os melhores parâmetros foram {'activation': 'relu', 'batch_size': 56, 'solver': 'adam'}. Os melhores resultados foram 99.70000000000002%


#### 99.70% | AUMENTO EM PRECISÃO de 0,10%

# FIM 