# **Classificador Naive Bayes**

## Disciplina: Inteligência Artificial e Aplicações
## FATEC Ferraz de Vasconcelos
### Professora: Ana Rosa C. Tonão
#### Data: 23/06/2025



---


### **Adaptado de:**

ARTASANCHEZ, A; JOSHI, P. **Artificial Intelligence with Python: Your complete guide to building intelligent apps using Python 3.x.** Packt Publishing, 2017.


---








### Preparando o ambiente de execução

In [None]:
import os
os.chdir('C:\\Code\\ML\\Dados')
os.getcwd()

### Importando as bibliotecas necessárias


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.metrics import roc_curve, roc_auc_score

### Vamos usar o arquivo data_multivar_nb.txt como dados de origem:

In [None]:
dados = np.loadtxt("data_multivar_nb.txt", delimiter=",")

In [None]:
dados

In [None]:
X, y = dados[:, :-1], dados[:, -1]

In [None]:
true_labels = y

In [None]:
X

In [None]:
y

## **Construindo um Classificador Naïve Bayes**

In [None]:
# Criando o classificador Naive Bayes
# Crie uma instância do classificador Naïve Bayes. 
classifier = GaussianNB()

In [None]:
# Treinando o classificador
# Treine o classificador usando os dados de treinamento:
classifier.fit(X, y)

In [None]:
# Predict the values for training data
# Execute o classificador nos dados de treinamento para realizar a previsão das saídas:
y_pred = classifier.predict(X)

## **Avaliando o desempenho do classificador**

Vamos calcular a precisão do classificador comparando os valores previstos com os rótulos verdadeiros e, em seguida, visualizar o desempenho:

In [None]:
# Calculando a acurácia
accuracy = 100.0 * (y == y_pred).sum() / X.shape[0]
print("Accuracy of Naive Bayes classifier =", round(accuracy, 2), "%")

In [None]:
# Criar a matriz de confusão
confusion_mat = confusion_matrix(true_labels, y_pred)

In [None]:
# Classification report
targets = ['Class-0', 'Class-1', 'Class-2', 'Class-3']
print('\n', classification_report(true_labels, y_pred, target_names=targets))

In [None]:
# Adicionar após a criação da confusion_mat
sns.heatmap(confusion_mat, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Previsto:0', 'Previsto:1', 'Previsto:2', 'Previsto:3'],
            yticklabels=['Real: 0', 'Real: 1', 'Real:2', 'Real:3'])
plt.ylabel('Valor Real')
plt.xlabel('Valor Previsto')
plt.title('Matriz de Confusão')
plt.show()


## **Utilizando Validação Cruzada**

### *Vamos aplicar  a validação cruzada, para não usarmos os mesmos dados de treinamento quando os testarmos.*

Divida os dados em subconjuntos de treinamento e teste. 

Conforme especificado pelo parâmetro test_size na linha a seguir, alocaremos 80% para treinamento e os 20% restantes para teste. 

In [None]:
# Separando os dados em dados de treino e dados de teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=3)
classifier_new = GaussianNB()
classifier_new.fit(X_train, y_train)
y_test_pred = classifier_new.predict(X_test)

In [None]:
# Calculando a acurácia do classificador
accuracy = 100.0 * (y_test == y_test_pred).sum() / X_test.shape[0]
print("Accuracy of the new classifier =", round(accuracy, 2), "%")

## **Verificando a performance dos classificadores**

Vamos usar as funções *inbuilt* para calcular os valores de acurácia, precisão e recall com base na validação cruzada tripla:


In [None]:
# Scoring functions
num_folds = 3

In [None]:
accuracy_values = cross_val_score(classifier,
        X, y, scoring='accuracy', cv=num_folds)
print("Accuracy: " + str(round(100*accuracy_values.mean(), 2)) + "%")

In [None]:
precision_values = cross_val_score(classifier,
        X, y, scoring='precision_weighted', cv=num_folds)
print("Precision: " + str(round(100*precision_values.mean(), 2)) + "%")

In [None]:
recall_values = cross_val_score(classifier,
        X, y, scoring='recall_weighted', cv=num_folds)
print("Recall: " + str(round(100*recall_values.mean(), 2)) + "%")

In [None]:
f1_values = cross_val_score(classifier,
        X, y, scoring='f1_weighted', cv=num_folds)
print("F1: " + str(round(100*f1_values.mean(), 2)) + "%")

## *FIM*