# Naive Bayes Classifier
Neste notebook vamos testar a qualidade do algoritmo Naive Bayes para a classificação de nódulos

Vamos usar o <i><b>Bernoulli Naive Bayes</b></i> pois já tratamos os dados para estarem em formato binário e a classificação também é binária

In [1]:
from sklearn.naive_bayes import BernoulliNB
import pandas as pd
import matplotlib.pyplot as plt

data = pd.read_csv('final_features.csv')

y = data["malignancy"]
X = data.drop(columns=['malignancy','case_id'])

## Hiperparâmetros

Vamos aplicar GridSearch com 10-fold cross-validation para testar o nosso modelo com diferentes hiperparâmetros.

No caso do Bernoulli Naive Bayes temos apenas a <i>suavização de Laplace</i> (atributo 'alpha') para variar, tendo em conta que é um algoritmo com poucos hiperparâmetros.

In [None]:
from sklearn.model_selection import GridSearchCV, StratifiedKFold


# binarize = None pois os nossos dados ja estao em binario
# fit_prior = True vai permitir o algoritmo aprender as probabilidades de cada classe a priori
model = BernoulliNB(binarize=None, fit_prior=True)

# cross-validation para testar os hiperparametros
cv = StratifiedKFold(n_splits=10, shuffle=True, random_state=405)


print("Objetivo do teste com vários ranges: saber qual o melhor")
# hiperparametros a testar
param_grid = {
    'alpha': [0.01, 0.05, 0.1, 0.5, 1.0, 5.0],
}


# definir o GridSearchCV
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=cv, scoring='accuracy')

# treinar o modelo
grid_search.fit(X, y)

# resultado
print(f"Best Hyperparameters: {grid_search.best_params_}")
print(f"Best CV Score: {grid_search.best_score_}")

Objetivo do teste com vários ranges: saber qual o melhor
Best Hyperparameters: {'alpha': 0.01}
Best CV Score: 0.8088456227561448


## Avaliação do Modelo

Após encontrar o melhor valor para os hiperparâmetros, vamos avaliar o modelo usando 10-fold cross-validation.

In [None]:
# métricas a utilizar para a avaliação do modelo
from sklearn.model_selection import cross_val_score
import numpy as np

# modelo
model = BernoulliNB(alpha=0.01, binarize=None, fit_prior=True)

# avaliação usando 10-fold cross validation
scores = [0,0,0,0] 
# [0] -> precision
# [1] -> f1
# [2] -> roc_auc
# [3] -> accuracy

scores[0] = np.mean(cross_val_score(model, X, y, cv=10, scoring = "precision"))
scores[1] = np.mean(cross_val_score(model, X, y, cv=10, scoring = "f1"))
scores[2] = np.mean(cross_val_score(model, X, y, cv=10, scoring = "roc_auc"))
scores[3] = np.mean(cross_val_score(model, X, y, cv=10, scoring = "accuracy"))


print(f'Precision Score: {scores[0]:.2f}')
print(f'F1 Score: {scores[1]:.2f}')
print(f'ROC_AUC: {scores[2]:.2f}')
print(f'Accuracy Score: {scores[3]:.2f}')

Precision Score: 0.73
F1 Score: 0.77
ROC_AUC: 0.88
Accuracy Score: 0.81
