In [4]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

# --- 1. Preparação dos Dados ---
# Para este exemplo, vamos criar um conjunto de dados sintético.
# Em um cenário real, você carregaria seus dados (por exemplo, de um CSV, banco de dados, etc.).
# Vamos criar duas classes e duas características para visualização fácil.

# Gerando dados para a Classe 0
np.random.seed(42) # Para reprodutibilidade
X_class0 = np.random.randn(100, 2) * 1.5 - np.array([2, 2]) # 100 amostras, 2 características, centralizadas em [-2, -2]
y_class0 = np.zeros(100) # Rótulo da classe 0

# Gerando dados para a Classe 1
X_class1 = np.random.randn(100, 2) * 1.5 + np.array([2, 2]) # 100 amostras, 2 características, centralizadas em [2, 2]
y_class1 = np.ones(100) # Rótulo da classe 1

# Concatenando os dados das duas classes
X = np.vstack((X_class0, X_class1)) # Features (características)
y = np.hstack((y_class0, y_class1)) # Labels (rótulos das classes)

print("Shape das características (X):", X.shape) # Ex: (200, 2) -> 200 amostras, 2 características
print("Shape dos rótulos (y):", y.shape)     # Ex: (200,)   -> 200 rótulos

# O próximo passo é crucial: dividir os dados em conjuntos de treino e teste.
# Isso garante que avaliaremos o modelo em dados que ele "nunca viu" durante o treinamento.
# test_size=0.3 significa que 30% dos dados serão para teste e 70% para treino.
# random_state garante que a divisão seja a mesma cada vez que você executar o código.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print("\n--- Dados Após Divisão ---")
print("Shape de X_train:", X_train.shape)
print("Shape de X_test:", X_test.shape)
print("Shape de y_train:", y_train.shape)
print("Shape de y_test:", y_test.shape)


# 2. Treinamento do Modelo (Fase de Aprendizado)
# Agora, vamos inicializar e treinar o algoritmo Naive Bayes.
# Utilizaremos o Gaussian Naive Bayes, que assume que as características
# seguem uma distribuição Gaussiana (normal) dentro de cada classe.
# É adequado para dados numéricos contínuos.

# Inicializando o classificador Gaussian Naive Bayes
gnb = GaussianNB()

# Treinando o modelo usando os dados de treinamento (X_train e y_train).
# Neste passo, o algoritmo calcula:
# 1. As probabilidades a priori de cada classe (P(C)).
#    Ex: Qual a porcentagem de amostras da classe 0 e da classe 1 no treino?
# 2. As probabilidades condicionais (P(X|C)) para cada característica dentro de cada classe.
#    Para Gaussian Naive Bayes, isso significa calcular a média e o desvio padrão
#    de cada característica para cada classe.
print("\n--- Treinando o Modelo Gaussian Naive Bayes ---")
gnb.fit(X_train, y_train)
print("Modelo treinado com sucesso!")

# --- 3. Classificação de Novos Dados (Fase de Predição) ---
# Com o modelo treinado, podemos agora usá-lo para fazer previsões
# em dados que ele não viu durante o treinamento (nossos dados de teste).

print("\n--- Realizando Previsões ---")
# Fazendo previsões nos dados de teste.
# O método 'predict' retorna a classe prevista para cada amostra no X_test.
y_pred = gnb.predict(X_test)

# Opcional: Obtendo as probabilidades de cada classe para cada previsão.
# O método 'predict_proba' retorna as probabilidades de uma amostra pertencer a cada classe.
# Por exemplo, [[0.1, 0.9], [0.8, 0.2]] significa que a primeira amostra tem 10% de chance
# de ser da classe 0 e 90% da classe 1, e a segunda o oposto.
y_proba = gnb.predict_proba(X_test)
print("Exemplo de Previsões (primeiras 5):", y_pred[:5])
print("Exemplo de Probabilidades (primeiras 5):", y_proba[:5])


# 4. Avaliação do Modelo
# Após fazer as previsões, é crucial avaliar o desempenho do nosso modelo.
# Usamos métricas de avaliação comparando as previsões (y_pred) com os rótulos reais (y_test).

print("\n--- Avaliação do Modelo ---")

# Acurácia: Proporção de previsões corretas em relação ao total de previsões.
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do Modelo: {accuracy:.4f}")

# Relatório de Classificação: Fornece métricas detalhadas para cada classe,
# como Precisão (Precision), Recall e F1-Score.
# - Precisão: Das amostras classificadas como positivas, quantas são realmente positivas?
# - Recall: Das amostras realmente positivas, quantas foram corretamente identificadas?
# - F1-Score: Média harmônica de precisão e recall.
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred))

# Matriz de Confusão: Uma tabela que mostra a contagem de previsões corretas e incorretas.
# Ajuda a visualizar onde o modelo está errando.
# Linhas: Classes Reais (True Labels)
# Colunas: Classes Previstas (Predicted Labels)
conf_matrix = confusion_matrix(y_test, y_pred)
print("\nMatriz de Confusão:")
print(conf_matrix)

# Visualizando a Matriz de Confusão (opcional, mas recomendado)
plt.figure(figsize=(6, 5))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', cbar=False,
            xticklabels=['Previsto 0', 'Previsto 1'],
            yticklabels=['Real 0', 'Real 1'])
plt.xlabel('Rótulo Previsto')
plt.ylabel('Rótulo Verdadeiro')
plt.title('Matriz de Confusão do Gaussian Naive Bayes')
plt.show()

# --- 5. Visualização dos Dados e Limite de Decisão (Opcional) ---
# Para modelos com 2 ou 3 características, podemos visualizar os dados e
# como o algoritmo separa as classes.

plt.figure(figsize=(10, 7))

# Plotando os pontos de dados de treino
plt.scatter(X_train[y_train == 0, 0], X_train[y_train == 0, 1], color='blue', label='Treino - Classe 0', alpha=0.7)
plt.scatter(X_train[y_train == 1, 0], X_train[y_train == 1, 1], color='red', label='Treino - Classe 1', alpha=0.7)

# Plotando os pontos de dados de teste (com as previsões)
plt.scatter(X_test[y_pred == 0, 0], X_test[y_pred == 0, 1], color='lightblue', marker='X', s=100, label='Teste - Previsto 0', alpha=0.8)
plt.scatter(X_test[y_pred == 1, 0], X_test[y_pred == 1, 1], color='salmon', marker='X', s=100, label='Teste - Previsto 1', alpha=0.8)

# Criando a grade para plotar o limite de decisão
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1),
                     np.arange(y_min, y_max, 0.1))

# Prevendo as classes para cada ponto na grade
Z = gnb.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

# Plotando o limite de decisão (contornos)
plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.RdBu)

plt.xlabel('Característica 1')
plt.ylabel('Característica 2')
plt.title('Separação de Classes com Gaussian Naive Bayes')
plt.legend()
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

ModuleNotFoundError: No module named 'sklearn'