# **MÓDULO 20 - Projeto de Credit Score - Naive Bayes**


No módulo 17 vocês realizaram a primeira etapa do projeto de crédito de vocês.
Então fizeram o tratamendo dos dados, balancearam as classes, transformaram as variáveis categóricas e separam base de treino e teste.
Nessa aula aplicaremos o algoritmo de naive bayes a base de vocês afim de tentarmos trazer previsões do score de crédito.

**IMPORTANTE:** Não se esqueçam de ao enviar o código de vocês para os tutores, enviarem as bases, pois como cada um de vocês realizou as alterações de tratamento indidualmente o tutor precisa ter acesso aos seus dados individuais.

In [4]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score

Durante a aula nossa variável a ser prevista (churn) continha apenas 2 categorias, a base de vocês contém mais. O Naive Bayes pode ser aplicado para problemas de classificação com múltiplas classes da mesma forma que para problemas de classificação binária. O Naive Bayes é um algoritmo de classificação probabilístico que calcula a probabilidade de uma amostra pertencer a cada classe e seleciona a classe com a maior probabilidade como a previsão final.
Em resumo, o Naive Bayes pode ser aplicado da mesma maneira para problemas de classificação com múltiplas classes, e os mesmos princípios se aplicam em termos de treinamento, avaliação e aplicação do modelo.

# 1) Comece carregando as bases de treino (X e y) e teste (X e y).
Verifique se o número de linhas condiz, se as variáveis estão corretas sendo apenas a de score para y e as demais nas bases de X e por último, se Y está balanceada no teste.

In [5]:
# Carregar bases geradas no M17
import pandas as pd
X_train = pd.read_csv('X_train.csv')
X_test  = pd.read_csv('X_test.csv')
y_train = pd.read_csv('y_train.csv')['Credit Score']
y_test  = pd.read_csv('y_test.csv')['Credit Score']
print('Shapes:', X_train.shape, X_test.shape, y_train.shape, y_test.shape)

Shapes: (123, 10) (41, 10) (123,) (41,)


# 2) Aplique o algoritmo de Naive Bayes aos dados de treinamento.

In [6]:
# Treinar Naive Bayes (GaussianNB) na base de treino
from sklearn.naive_bayes import GaussianNB
nb = GaussianNB()
nb.fit(X_train, y_train)
nb

# 3) Faça a avaliação do modelo com os dados de treinamento.
Traga a acurácia, recall e plote a matriz de confusão. Não se esqueça de avaliar com suas palavras o desempenho do modelo, interpretando as métricas.

Dica: Para calcularmos o recall em classificação multi classe precisamos usar o atributo macro:
recall = recall_score(y_train, y_pred_train, average='macro')

In [7]:
# Avaliar desempenho no conjunto de treino
import numpy as np
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
y_pred_train = nb.predict(X_train)
acc_tr  = accuracy_score(y_train, y_pred_train)
prec_tr = precision_score(y_train, y_pred_train, average='weighted', zero_division=0)
rec_tr  = recall_score(y_train, y_pred_train, average='weighted', zero_division=0)
f1_tr   = f1_score(y_train, y_pred_train, average='weighted')
print(f"Acurácia (treino): {acc_tr:.4f}")
print(f"Precisão (treino): {prec_tr:.4f}")
print(f"Recall   (treino): {rec_tr:.4f}")
print(f"F1-Score (treino): {f1_tr:.4f}")
cm_tr = confusion_matrix(y_train, y_pred_train)
cm_tr

Acurácia (treino): 0.9187
Precisão (treino): 0.9210
Recall   (treino): 0.9187
F1-Score (treino): 0.9195


array([[26,  4,  0],
       [ 6, 78,  0],
       [ 0,  0,  9]])

# 4) Aplique o modelo aos dados de teste e realize a avaliação dos resultados, da mesma forma que fez acima. Não se esqueça de avaliar com as suas palavras e comparar o desempenho da base treino com a teste.

In [8]:
# Avaliar desempenho no conjunto de teste
import numpy as np
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
y_pred = nb.predict(X_test)
acc  = accuracy_score(y_test, y_pred)
prec = precision_score(y_test, y_pred, average='weighted', zero_division=0)
rec  = recall_score(y_test, y_pred, average='weighted', zero_division=0)
f1   = f1_score(y_test, y_pred, average='weighted')
print(f"Acurácia (teste): {acc:.4f}")
print(f"Precisão (teste): {prec:.4f}")
print(f"Recall   (teste): {rec:.4f}")
print(f"F1-Score (teste): {f1:.4f}")
cm = confusion_matrix(y_test, y_pred)
cm

Acurácia (teste): 0.9512
Precisão (teste): 0.9634
Recall   (teste): 0.9512
F1-Score (teste): 0.9538


array([[ 6,  0,  0],
       [ 2, 27,  0],
       [ 0,  0,  6]])

# 5) Descreva com suas palavras o projeto desenvolvido nessa atividade e qual o nosso objetivo principal ao aplicarmos o algoritmo de naive bayes a base de crédito.
Utilize pelo menos 4 linhas.

Dica: Caso você ainda esteja tendo dificuldade em visualizar a aplicação dos projetos e objetivo, consulte seus tutores!

Montamos um pipeline de score de crédito: tratamos os dados, separamos treino/teste e treinamos Naive Bayes.
O objetivo é classificar rapidamente o risco do cliente com um modelo leve que estima probabilidades por classe.
Como baseline, ele é simples de explicar e já traz métricas (acurácia, precisão, recall, F1) pra medir desempenho.
Na prática, ajuda a reduzir inadimplência e orientar decisões ajustando o limiar conforme a política de risco.