In [None]:
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.neural_network import MLPClassifier
from sklearn import model_selection
from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score, ConfusionMatrixDisplay

In [None]:
X=np.load("Cred_features.npy")
y=np.load("Cred_labels.npy")
print(X.shape)
print(y.shape)

### K-nearest neighbors algorithm

- <b>Parâmetros KNN</b> 
    - N_neighbors: nº de vizinhos considerados próximos da amostra 
    - Weights: uniform ( All points in each neighborhood are weighted equally) 
    - Weights: distance (in this case, closer neighbors of a query point will have a greater influence than neighbors which are further away)
    - p: [1,2] (When p = 1, this is equivalent to using manhattan_distance (l1), and euclidean_distance (l2) for p = 2)
---
- <b>Validação</b>: ele fará de maneira sistemática diversas combinações dos parâmetros e depois de avaliá-los os armazenará num único objeto. Nesse sentido, será feito uma análise combinatória a partir da quantidade de elementos em cada matriz com outros
    - Arrays: X, y (Allowed inputs are lists, numpy arrays, scipy-sparse matrices or pandas dataframes)
    - test_size + train_size = 1.0 (should be between 0.0 and 1.0 and represent the proportion of the dataset to include in the test split)
    - Random_state: 42 (Pass an int for reproducible output across multiple function calls)
    - Stratify: y (Data is split in a stratified fashion, using this as the class labels)  
---
- <b>GridSearchCV</b>
    - Estimator: clf (o classificador ou regressor que estamos utilizando)
    - Param_grid: parameters (é aquele dicionário com valores para serem testados)
    - scoring: 'accuracy' ()
    - cv: 5 (cv é um número inteiro o GridSearchCV executa um StratifiedKFolds, isso quer dizer que o dataset foi divido em 5 partes (ou folds))

In [None]:
from sklearn.model_selection import train_test_split, GridSearchCV

parameters=[{'n_neighbors':[1,3,5,7,9,11], 'weights': ['uniform', 'distance'], 'p':[1,2]}]

# Separando uma parte dos dados para validação (usaremos no GridSearchCV)
X,X_val,y,y_val=train_test_split(X,y,test_size=0.2,random_state=42, stratify=y)

clf = KNeighborsClassifier()

# Execução do GridSearch
gs=GridSearchCV(clf, parameters, scoring='accuracy', cv=5, n_jobs=-1)

gs.fit(X_val, y_val)
# Mostrando a tabela de resultados do GridSearch (opcional)
#from tabulate import tabulate
import pandas as pd
df=gs.cv_results_
df = pd.DataFrame(gs.cv_results_)
#print(tabulate(df, headers='keys', tablefmt='psql'))
#print("Melhores parâmetros encontrados: ", gs.best_params_)

# Recuperando os melhores resultados
#clf=gs.best_estimator_
df

### Naive Bayes classifier

In [None]:
X=np.load("Cred_features.npy")
y=np.load("Cred_labels.npy")
print(X.shape)
print(y.shape)

# Validação cruzada
from sklearn.model_selection import train_test_split, GridSearchCV

# Separando da base original uma parte para validação
X,x_val,y,y_val=train_test_split(X,y,test_size=0.2,random_state=42, stratify=y)

# Declara o modelo
clf=GaussianNB()

# parâmetros que o GridSearch utilizará em sua busca (KNN)

# parâmetros Naive Bayes
parameters=[{'var_smoothing':[1e-09,1e-03, 1e-06]}]

# Execução do GridSearch
gs=GridSearchCV(clf, parameters, scoring='accuracy', cv=3, n_jobs=-1)
gs.fit(x_val, y_val)

# Mostrando a tabela de resultados do GrifSearch (opcional)
#from tabulate import tabulate
import pandas as pd
df=gs.cv_results_
df = pd.DataFrame(gs.cv_results_)
#print(tabulate(df, headers='keys', tablefmt='psql'))
print("Melhores parâmetros encontrados: ", gs.best_params_)

# Recuperando os melhores resultados
clf=gs.best_estimator_
df

### Decision Tree Algorithm

- Parâmetros DecisionTree
    - criterion: ['gini', 'entropy', 'log_loss'] (The function to measure the quality of a split.)
    - max_depth: [None, 5, 10] (The maximum depth of the tree)
    - min_samples_split:[2, 5] (The minimum number of samples required to split an internal node)
    - splitter:['random', 'best'] (The strategy used to choose the split at each node)

In [None]:
X=np.load("Cred_features.npy")
y=np.load("Cred_labels.npy")
print(X.shape)
print(y.shape)

# Validação cruzada
from sklearn.model_selection import train_test_split, GridSearchCV

# Separando da base original uma parte para validação
X,x_val,y,y_val=train_test_split(X,y,test_size=0.2,random_state=42, stratify=y)

# Declara o modelo
clf=DecisionTreeClassifier()

# parâmetros para árvore de classificação (DecisionTree)
parameters=[{'criterion':['gini', 'entropy', 'log_loss'],
             'max_depth': [None, 5, 10],
             'min_samples_split':[2, 5],
             'splitter':['random', 'best']}]


# Execução do GridSearch
gs=GridSearchCV(clf, parameters, scoring='accuracy', cv=3, n_jobs=-1)
gs.fit(x_val, y_val)

# Mostrando a tabela de resultados do GrifSearch (opcional)
#from tabulate import tabulate
import pandas as pd
df=gs.cv_results_
df = pd.DataFrame(gs.cv_results_)
#print(tabulate(df, headers='keys', tablefmt='psql'))
print("Melhores parâmetros encontrados: ", gs.best_params_)

# Recuperando os melhores resultados
clf=gs.best_estimator_
df

### Multilayer Perceptron (MLP)

In [None]:
X=np.load("Cred_features.npy")
y=np.load("Cred_labels.npy")
print(X.shape)
print(y.shape)

# Validação cruzada
from sklearn.model_selection import train_test_split, GridSearchCV

# Separando da base original uma parte para validação
X,x_val,y,y_val=train_test_split(X,y,test_size=0.2,random_state=42, stratify=y)

# Declara o modelo
clf=MLPClassifier(max_iter=300, early_stopping=False, solver='adam')

# parâmetros para MLP (Rede Neural Artificial - MultiLayer Perceptron)
parameters=[{'hidden_layer_sizes':[16, (16, 8), (16, 8, 4)],
             'learning_rate': ['constant', 'invscaling'],
             'learning_rate_init':[0.01, 0.001, 0.0001],
             'activation':['relu', 'logistic', 'tanh'],
             'random_state':[10, 46, 37]}]

# Execução do GridSearch
gs=GridSearchCV(clf, parameters, scoring='accuracy', cv=3, n_jobs=-1)
gs.fit(x_val, y_val)

# Mostrando a tabela de resultados do GrifSearch (opcional)
#from tabulate import tabulate
import pandas as pd
#df=gs.cv_results_
#df = pd.DataFrame(gs.cv_results_)
#print(tabulate(df, headers='keys', tablefmt='psql'))
print("Melhores parâmetros encontrados: ", gs.best_params_)

# Recuperando os melhores resultados
clf=gs.best_estimator_
#df

### Metrics to Evaluate your model

In [None]:
#Métricas de avaliação

# Usando validação cruzada com T=5 folds
result=model_selection.cross_val_score(clf, X, y, cv=5)
print("Acurácia média: %.3f" % result.mean())
print("Desvio padrão: %.3f" % result.std())

# Calculando a predição para cada exempolo de teste
y_pred=model_selection.cross_val_predict(clf, X, y, cv=5)

# Calculando a predição para cada exemplo de teste
#y_pred_proba=model_selection.cross_val_predict(clf, X, y, cv=5, method='predict_proba')

# Calcular precisão
precision=precision_score(y, y_pred, average='macro')

# Calcular revocação
recall=recall_score(y, y_pred, average='macro')

# Calcular revocação
f1=f1_score(y, y_pred, average='macro')

print("Precision: %.3f" % precision)
print("Recall: %.3f" % recall)
print("f1: %.3f" % f1)

matrix=ConfusionMatrixDisplay(y, y_pred)
cm = confusion_matrix(y, y_pred, labels=clf.classes_)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['benigno', 'maligno'])
disp.plot()