##**Atividade 4** - **Regra de Bayes** & **Naive Bayes** (15/10/2023)

**Discente:** Vinícius Venceslau Venancio da Penha

**Docente:** José Alfredo Ferreira Costa

**ELE0606** - Tópicos Especiais em IA

1. Base de Dados - **WINE**:

In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from scipy.stats import multivariate_normal
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

#Carregar o conjunto de dados Wine:
wine_data = load_wine()
wine_df = pd.DataFrame(wine_data['data'], columns=wine_data['feature_names'])
wine_df['classe'] = wine_data['target']  # Adicionar a coluna de classe

#Preparar os dados:
X = wine_df.drop('classe', axis=1).to_numpy()
y = wine_df['classe'].to_numpy()

#Normalizar os dados:
scaler = StandardScaler()
X = scaler.fit_transform(X)

#Dividir os dados em conjuntos de treinamento e teste:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#Inicializar a matriz de probabilidades:
num_classes = len(np.unique(y))
probabilidadeDaClasse = np.zeros(num_classes)

for i in range(num_classes):
    indiceDaClasse = np.where(y_train == i)
    probabilidadeDaClasse[i] = len(indiceDaClasse[0]) / len(y_train)

#Matriz para armazenar as probabilidades de classe para cada observação de teste:
matrizProbabilidade = np.zeros((X_test.shape[0], num_classes))

#Calcular as probabilidades de classe para as observações de teste:
for i in range(num_classes):
    indiceDaClasse = np.where(y_train == i)
    dadosDeTreino = X_train[indiceDaClasse]
    media = np.mean(dadosDeTreino, axis=0)
    covariancia = np.cov(dadosDeTreino, rowvar=False)

    for j in range(X_test.shape[0]):
        observation = X_test[j]
        matrizProbabilidade[j, i] = multivariate_normal.pdf(observation, mean=media, cov=covariancia, allow_singular=True) * probabilidadeDaClasse[i]

#Prever as classes com base nas probabilidades:
y_pred = np.argmax(matrizProbabilidade, axis=1)

#Calcular a acurácia das previsões:
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia: {accuracy:.4f}')

#Gerar Matriz Confusao
confusion = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred, target_names=['Classe 0', 'Classe 1', 'Classe 2'])

print("\nMatriz de Confusao:\n", confusion)
print("\nRelatorio de Classificacao:\n", report)

Acurácia: 0.9722

Matriz de Confusao:
 [[14  0  0]
 [ 0 14  0]
 [ 0  1  7]]

Relatorio de Classificacao:
               precision    recall  f1-score   support

    Classe 0       1.00      1.00      1.00        14
    Classe 1       0.93      1.00      0.97        14
    Classe 2       1.00      0.88      0.93         8

    accuracy                           0.97        36
   macro avg       0.98      0.96      0.97        36
weighted avg       0.97      0.97      0.97        36



2. Base de Dados - **Heart Disease**:

In [2]:
#Permitir o google colab acessar os arquivos do Drive:
from google.colab import drive
drive.mount('/content/drive')

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from scipy.stats import multivariate_normal
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

#Carregamento da base de dados a partir do Google Drive:
caminho_arquivo = "/content/drive/My Drive/heart.csv"
banco_de_dados = pd.read_csv(caminho_arquivo)

#Criar um Dataframe:
heart_df = banco_de_dados

#Preparar os dados:
X = heart_df.drop('target', axis=1).to_numpy()
y = heart_df['target'].to_numpy()

#Normalizar os dados:
scaler = StandardScaler()
X = scaler.fit_transform(X)

#Dividir os dados em conjuntos de treinamento e teste:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

#Inicializar a matriz de probabilidades:
num_classes = len(np.unique(y))
probabilidadeDaClasse = np.zeros(num_classes)

for i in range(num_classes):
    indiceDaClasse = np.where(y_train == i)
    probabilidadeDaClasse[i] = len(indiceDaClasse[0]) / len(y_train)

#Matriz para armazenar as probabilidades de classe para cada observação de teste:
matrizProbabilidade = np.zeros((X_test.shape[0], num_classes))

#Calcular as probabilidades de classe para as observações de teste:
for i in range(num_classes):
    indiceDaClasse = np.where(y_train == i)
    dadosDeTreino = X_train[indiceDaClasse]
    media = np.mean(dadosDeTreino, axis=0)
    covariancia = np.cov(dadosDeTreino, rowvar=False)

    for j in range(X_test.shape[0]):
        observation = X_test[j]
        matrizProbabilidade[j, i] = multivariate_normal.pdf(observation, mean=media, cov=covariancia, allow_singular=True) * probabilidadeDaClasse[i]

#Prever as classes com base nas probabilidades:
y_pred = np.argmax(matrizProbabilidade, axis=1)

#Calcular a acurácia das previsões:
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia: {accuracy:.4f}')

#Gerar Matriz Confusão:
confusion = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred, target_names=['Classe 0', 'Classe 1'])

print("\nMatriz de Confusao:\n", confusion)
print("\nRelatorio de Classificacao:\n", report)

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Acurácia: 0.8537

Matriz de Confusao:
 [[ 72  21]
 [  9 103]]

Relatorio de Classificacao:
               precision    recall  f1-score   support

    Classe 0       0.89      0.77      0.83        93
    Classe 1       0.83      0.92      0.87       112

    accuracy                           0.85       205
   macro avg       0.86      0.85      0.85       205
weighted avg       0.86      0.85      0.85       205



Neste instante, serão desenvolvidos os códigos associados à fundamentação teórica **"Naive Bayes"**.

Nesse viés, a biblioteca scikitlearn já dispobilizava determinadas funções, as quais facilitaram o processo de desenvolvimento do projeto.

1. Base de Dados - **WINE**:

In [3]:
# Importar bibliotecas necessárias
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Carregar a base de dados Wine
wine = load_wine()
X = wine.data
y = wine.target

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=13)

# Criar um classificador Naive Bayes Gaussiano
nb_classifier = GaussianNB()

# Treinar o classificador
nb_classifier.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = nb_classifier.predict(X_test)

# Avaliar o desempenho do classificador
accuracy = accuracy_score(y_test, y_pred)
confusion = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred, target_names=wine.target_names)

print("Acurácia:", accuracy)
print("\nMatriz de Confusão:\n", confusion)
print("\nRelatório de Classificação:\n", report)

Acurácia: 0.9861111111111112

Matriz de Confusão:
 [[24  0  0]
 [ 0 30  1]
 [ 0  0 17]]

Relatório de Classificação:
               precision    recall  f1-score   support

     class_0       1.00      1.00      1.00        24
     class_1       1.00      0.97      0.98        31
     class_2       0.94      1.00      0.97        17

    accuracy                           0.99        72
   macro avg       0.98      0.99      0.99        72
weighted avg       0.99      0.99      0.99        72



2. Base de Dados - **Heart Disease**:

In [4]:
#Permitir o google colab acessar os arquivos do Drive:
from google.colab import drive
drive.mount('/content/drive')

#Importar bibliotecas:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

#Carregamento da base de dados de doença cardíaca a partir do Google Drive:
caminho_arquivo = "/content/drive/My Drive/heart.csv"  #Caminho correto para o arquivo no Google Drive.
banco_de_dados = pd.read_csv(caminho_arquivo)

#Criar um Dataframe:
heart_df = banco_de_dados

#Armazenamento dos rótulos de classe em uma variável:
heart_classe = heart_df['target']

#Remoção da coluna 'target' do DataFrame, porque ela representa a variável de resposta ou saída do sistema e não deve ser usada como atributo de entrada para o modelo.
heart_df.drop(['target'], axis=1, inplace=True)

#Divisão dos dados em conjuntos de treinamento e teste:
X_train, X_test, y_train, y_test = train_test_split(heart_df, heart_classe, test_size=0.3, random_state=13)

#Criar um classificador Naive Bayes Gaussiano
nb_classifier = GaussianNB()

#Treinar o classificador
nb_classifier.fit(X_train, y_train)

#Fazer previsões no conjunto de teste
y_pred = nb_classifier.predict(X_test)

#Avaliar o desempenho do classificador
accuracy = accuracy_score(y_test, y_pred)
confusion = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred, target_names=['Classe 0', 'Classe 1'])

print("Acurácia:", accuracy)
print("\nMatriz de Confusão:\n", confusion)
print("\nRelatório de Classificação:\n", report)

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Acurácia: 0.814935064935065

Matriz de Confusão:
 [[113  39]
 [ 18 138]]

Relatório de Classificação:
               precision    recall  f1-score   support

    Classe 0       0.86      0.74      0.80       152
    Classe 1       0.78      0.88      0.83       156

    accuracy                           0.81       308
   macro avg       0.82      0.81      0.81       308
weighted avg       0.82      0.81      0.81       308



##**Referências:**
LUIZ, E.; OLIVEIRA. **Reconhecimento de Padrões Teoria da Decisão Bayesiana**. [s.l: s.n.]. Disponível em: https://www.inf.ufpr.br/lesoliveira/padroes/
decisaobayesiana.pdf. Acesso em: 5 de outubro de 2023.

**Ciência de Dados: Teoria da Decisão Bayesiana na classificação de dados**.
Disponível em: https://www.youtube.com/watch?v=8zAKWEOdGsg. Acesso em: 5 de
outubro de 2023.

**Data Mining Classification: Alternative Techniques**. Disponível em: https://
www-users.cs.umn.edu/~kumar001/dmbook/slides/chap4_naive_bayes.pptx. Acesso
em: 5 de outubro de 2023.

OLIVEIRA, L. **Teorema de Bayes e Probabilidade**. Disponível em: https://
medium.com/data-hackers/teorema-de-bayes-probabilidade-d5ead2df1379. Acesso
em: 14 de outubro de 2023.

OPENAI. **ChatGPT**. 2023. Disponível em: https://openai.com/ Acesso
em: 15 de outubro de 2023.
