# **MÓDULO 20 - Projeto de Credit Score - Naive Bayes**


No módulo 17 vocês realizaram a primeira etapa do projeto de crédito de vocês.
Então fizeram o tratamendo dos dados, balancearam as classes, transformaram as variáveis categóricas e separam base de treino e teste.
Nessa aula aplicaremos o algoritmo de naive bayes a base de vocês afim de tentarmos trazer previsões do score de crédito.

**IMPORTANTE:** Não se esqueçam de ao enviar o código de vocês para os tutores, enviarem as bases, pois como cada um de vocês realizou as alterações de tratamento indidualmente o tutor precisa ter acesso aos seus dados individuais.

In [20]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.figure_factory as ff
from sklearn.metrics import confusion_matrix
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score

Durante a aula nossa variável a ser prevista (churn) continha apenas 2 categorias, a base de vocês contém mais. O Naive Bayes pode ser aplicado para problemas de classificação com múltiplas classes da mesma forma que para problemas de classificação binária. O Naive Bayes é um algoritmo de classificação probabilístico que calcula a probabilidade de uma amostra pertencer a cada classe e seleciona a classe com a maior probabilidade como a previsão final.
Em resumo, o Naive Bayes pode ser aplicado da mesma maneira para problemas de classificação com múltiplas classes, e os mesmos princípios se aplicam em termos de treinamento, avaliação e aplicação do modelo.

# 1) Comece carregando as bases de treino (X e y) e teste (X e y).
Verifique se o número de linhas condiz, se as variáveis estão corretas sendo apenas a de score para y e as demais nas bases de X e por último, se Y está balanceada no teste.

In [10]:
# Importando as bases
X_test = pd.read_csv("X_test.csv", delimiter=',')
X_train = pd.read_csv("X_train_balanced.csv", delimiter=',')
y_test = pd.read_csv("y_test.csv", delimiter=',')
y_train = pd.read_csv("y_train_balanced.csv", delimiter=',')

# Verificando se as bases foram importadas corretamente
print("Tamanho de X_train:", X_train.shape)
print("Tamanho de X_test:", X_test.shape)
print("Tamanho de y_train:", y_train.shape)
print("Tamanho de y_test:", y_test.shape)

Tamanho de X_train: (252, 9)
Tamanho de X_test: (41, 9)
Tamanho de y_train: (252, 1)
Tamanho de y_test: (41, 1)


In [11]:
# Veriicando a separação das bases 
X_test.head(5)

Unnamed: 0,Age,Income,Number of Children,Marital Status_encoded,Home Ownership_encoded,Education_Bachelor's Degree,Education_Doctorate,Education_High School Diploma,Education_Master's Degree
0,25.0,55000,0,1,1,1,0,0,0
1,48.0,87500,1,0,0,0,1,0,0
2,26.0,55000,1,0,0,1,0,0,0
3,39.0,62500,2,0,0,1,0,0,0
4,35.0,90000,1,0,0,0,1,0,0


In [12]:
X_train.head(5)

Unnamed: 0,Age,Income,Number of Children,Marital Status_encoded,Home Ownership_encoded,Education_Bachelor's Degree,Education_Doctorate,Education_High School Diploma,Education_Master's Degree
0,26.0,45000,0,1,1,0,0,0,0
1,29.0,27500,0,1,1,0,0,1,0
2,25.0,62500,0,1,1,1,0,0,0
3,29.0,68000,2,0,0,0,1,0,0
4,31.0,65000,0,1,1,1,0,0,0


In [14]:
y_test.head(5)

Unnamed: 0,Credit Score
0,0
1,1
2,0
3,1
4,1


In [15]:
y_train.head(5)

Unnamed: 0,Credit Score
0,0
1,2
2,0
3,0
4,0


In [16]:
# Verificando o balanceamento

# Contar o número de exemplos de cada classe em y_train
train_balance = y_train.value_counts()
print(f"Balancemaneto em y_train:{train_balance}")
print()
# Contar o número de exemplos de cada classe em y_test
train_balance = y_test.value_counts()
print(f"Balancemaneto em y_test:{train_balance}")
print()

Balancemaneto em y_train:Credit Score
0               84
1               84
2               84
Name: count, dtype: int64

Balancemaneto em y_test:Credit Score
1               29
0                6
2                6
Name: count, dtype: int64



Base de teste e treino seprada corretamente, y_train está balanceado, enquanto o X_train não está. As dimensões estão nos tamanhos esperados.

# 2) Aplique o algoritmo de Naive Bayes aos dados de treinamento.

In [17]:
# Criação de uma instância do classificador Naive Bayers Gaussiano
naive_score = GaussianNB()

# Treinamento do classificador usando os dados de treinamento
naive_score.fit(X_train, y_train)

  y = column_or_1d(y, warn=True)


# 3) Faça a avaliação do modelo com os dados de treinamento.
Traga a acurácia, recall e plote a matriz de confusão. Não se esqueça de avaliar com suas palavras o desempenho do modelo, interpretando as métricas.

Dica: Para calcularmos o recall em classificação multi classe precisamos usar o atributo macro:
recall = recall_score(y_train, y_pred_train, average='macro')

In [18]:
# Fazendo as previsões para os dados de treino
y_pred_train = naive_score.predict(X_train)

# Calculando a acurácia
accuracy = accuracy_score(y_train, y_pred_train)
print(f"Acurácia: {accuracy}")

# Calculando o recall
recall = recall_score(y_train, y_pred_train, average='macro')
print(f"Recall: {recall}")

Acurácia: 0.9801587301587301
Recall: 0.9801587301587302


In [21]:
conf_matrix = confusion_matrix(y_train, y_pred_train)

# Definindo  nomes de classes
class_names = ['Low', 'Average', 'High']

# Plotando a matriz de confusão com Plotly
fig = ff.create_annotated_heatmap(
    z=conf_matrix,
    x=class_names,
    y=class_names,
    colorscale='Blues',
    showscale=True
)
fig.update_layout(
    title='Matriz de Confusão',
    xaxis_title='Predicted labels',
    yaxis_title='True labels',
    font=dict(
        family='Arial',
        size=12,
        color='black'
    )
)

# 4) Aplique o modelo aos dados de teste e realize a avaliação dos resultados, da mesma forma que fez acima. Não se esqueça de avaliar com as suas palavras e comparar o desempenho da base treino com a teste.

In [22]:
# Fazendo as previsões para os dados de teste
y_pred_test = naive_score.predict(X_test)

# Calcular a acurácia
accuracy = accuracy_score(y_test, y_pred_test)
print(f"Acurácia: {accuracy}")
print()
# Calcular o recall
recall = recall_score(y_test, y_pred_test, average='macro')
print(f"Recall: {recall}")

Acurácia: 0.975609756097561

Recall: 0.9444444444444445


In [23]:
conf_matrix = confusion_matrix(y_test, y_pred_test)

# Definindo  nomes de classes
class_names = ['Low', 'Average', 'High']

# Plotando a matriz de confusão com Plotly
fig = ff.create_annotated_heatmap(
    z=conf_matrix,
    x=class_names,
    y=class_names,
    colorscale='Blues',
    showscale=True
)
fig.update_layout(
    title='Matriz de Confusão',
    xaxis_title='Predicted labels',
    yaxis_title='True labels',
    font=dict(
        family='Arial',
        size=12,
        color='black'
    )
)

Com base nos resultados das métricas, eu diria que o modelo está excelente. Ele apresenta uma acurácia de 97% na base de teste e um recall também de 94% (aqui usamos o parâmetro "macro", o que significa que estamos calculando a média das métricas de recall para cada classe). Além disso, pela matriz de confusão, é notável que o modelo teve um desempenho excelente na classificação dos clientes, embora tenha cometido mais erros na classe Average e High durante o treinamento. A base de teste, no entanto, possui menos clientes dessa classe, o que possivelmente contribuiu para a melhoria da performance em comparação com a base de treino.

# 5) Descreva com suas palavras o projeto desenvolvido nessa atividade e qual o nosso objetivo principal ao aplicarmos o algoritmo de naive bayes a base de crédito.
Utilize pelo menos 4 linhas.

Dica: Caso você ainda esteja tendo dificuldade em visualizar a aplicação dos projetos e objetivo, consulte seus tutores!

Ao meu ver, o projeto desenvolvido tem o objetivo de reproduzir, de forma controlada e em uma escala bem menor, o processo de criação de um modelo para um objetivo específico, que neste caso é a classificação do score de crédito de clientes. Posso presumir que bancos e seguradoras utilizam sistemas bem semelhantes para conceder empréstimos, aumento de limite e financiamento, mas em uma escala muito maior.