# **MÓDULO 20 - Projeto de Credit Score - Naive Bayes**


No módulo 17 vocês realizaram a primeira etapa do projeto de crédito de vocês.
Então fizeram o tratamendo dos dados, balancearam as classes, transformaram as variáveis categóricas e separam base de treino e teste.
Nessa aula aplicaremos o algoritmo de naive bayes a base de vocês afim de tentarmos trazer previsões do score de crédito.

**IMPORTANTE:** Não se esqueçam de ao enviar o código de vocês para os tutores, enviarem as bases, pois como cada um de vocês realizou as alterações de tratamento indidualmente o tutor precisa ter acesso aos seus dados individuais.

In [3]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score

Durante a aula nossa variável a ser prevista (churn) continha apenas 2 categorias, a base de vocês contém mais. O Naive Bayes pode ser aplicado para problemas de classificação com múltiplas classes da mesma forma que para problemas de classificação binária. O Naive Bayes é um algoritmo de classificação probabilístico que calcula a probabilidade de uma amostra pertencer a cada classe e seleciona a classe com a maior probabilidade como a previsão final.
Em resumo, o Naive Bayes pode ser aplicado da mesma maneira para problemas de classificação com múltiplas classes, e os mesmos princípios se aplicam em termos de treinamento, avaliação e aplicação do modelo.

# 1) Comece carregando as bases de treino (X e y) e teste (X e y).
Verifique se o número de linhas condiz, se as variáveis estão corretas sendo apenas a de score para y e as demais nas bases de X e por último, se Y está balanceada no teste.

In [4]:
X_test = pd.read_csv("X_test.csv", delimiter=',')
X_train = pd.read_csv("X_train_balanced.csv", delimiter=',')
y_test = pd.read_csv("y_test.csv", delimiter=',')
y_train = pd.read_csv("y_train_balanced.csv", delimiter=',')

In [5]:
print(f"Shape da base de treino: {X_train.shape}")
print(f"Shape da base de teste: {X_test.shape}")

Shape da base de treino: (252, 6)
Shape da base de teste: (41, 6)


In [6]:
print(f"Shape da coluna de treino: {y_train.shape}")
print(f"Shape da coluna de teste: {y_test.shape}")

Shape da coluna de treino: (252, 1)
Shape da coluna de teste: (41, 1)


In [7]:
X_train.head()

Unnamed: 0,Age,Income,Number of Children,Gender,Home Ownership,Education
0,26,45000.0,0,0,0,1
1,29,27500.0,0,0,0,0
2,25,62500.0,0,0,0,2
3,29,68000.0,2,0,1,4
4,31,65000.0,0,1,0,2


In [8]:
X_test.head()

Unnamed: 0,Age,Income,Number of Children,Gender,Home Ownership,Education
0,25,55000.0,0,0,0,2
1,48,87500.0,1,0,1,4
2,26,55000.0,1,0,1,2
3,39,62500.0,2,0,1,2
4,35,90000.0,1,0,1,4


In [9]:
y_train.head()

Unnamed: 0,Credit Score
0,1
1,0
2,1
3,1
4,1


In [10]:
y_test.head()

Unnamed: 0,Credit Score
0,1
1,2
2,1
3,2
4,2


In [11]:
y_test.value_counts()

Unnamed: 0_level_0,count
Credit Score,Unnamed: 1_level_1
2,29
0,6
1,6


Y não está balanceado no teste, mas isso não é o recomendado, pois, para o teste, se espera dados desbalanceados a fim de simular um cenário real.

Mas vou verificar também se os dados de Y treino estão balanceados. Esses, sim, são importantes que estejam para reduzir vieses do modelo.

In [12]:
y_train.value_counts()

Unnamed: 0_level_0,count
Credit Score,Unnamed: 1_level_1
0,84
1,84
2,84


# 2) Aplique o algoritmo de Naive Bayes aos dados de treinamento.

In [13]:
naive_credit_score = GaussianNB()
naive_credit_score.fit(X_train, y_train)

  y = column_or_1d(y, warn=True)


# 3) Faça a avaliação do modelo com os dados de treinamento.
Traga a acurácia, recall e plote a matriz de confusão. Não se esqueça de avaliar com suas palavras o desempenho do modelo, interpretando as métricas.

Dica: Para calcularmos o recall em classificação multi classe precisamos usar o atributo macro:
recall = recall_score(y_train, y_pred_train, average='macro')

In [14]:
y_pred_train = naive_credit_score.predict(X_train)

In [15]:
accuracy = accuracy_score(y_train, y_pred_train)
print("Acurácia:", accuracy)

Acurácia: 0.9761904761904762


In [16]:
recall = recall_score(y_train, y_pred_train, average='macro')
print("Recall:", recall)

Recall: 0.9761904761904762


In [17]:
conf_matrix = confusion_matrix(y_train, y_pred_train)
print("Matriz de Confusão:")
conf_matrix

Matriz de Confusão:


array([[82,  2,  0],
       [ 1, 82,  1],
       [ 0,  2, 82]])

De acordo com as métricas obtidas, o modelo apresenta excelentes resultados. Com relação à acurácia, o modelo conseguiu acertar 97,62% das previsões feitas. Coincidentemente, ele obtém o mesmo resultado em recall, nos permitindo afirmar que ele foi capaz de identificar 97,62% das instâncias conrretamente conforme às classes que de fato pertenciam.

Além disso, ao observar a matriz de confusão, verificamos que o modelo é consistente na identificação das três classes, apresentando quantidade de falsos positivos igual para todas. E o erro mais comum é classificar riscos baixo ou alto como médio. Não são observados erros mais impactantes ao negócio, como a classificação de um risco alto como baixo ou baixo como alto.

# 4) Aplique o modelo aos dados de teste e realize a avaliação dos resultados, da mesma forma que fez acima. Não se esqueça de avaliar com as suas palavras e comparar o desempenho da base treino com a teste.

In [18]:
naive_credit_score.fit(X_test, y_test)

  y = column_or_1d(y, warn=True)


In [19]:
y_pred_test = naive_credit_score.predict(X_test)

In [20]:
accuracy = accuracy_score(y_test, y_pred_test)
print("Acurácia:", accuracy)

Acurácia: 1.0


In [21]:
recall = recall_score(y_test, y_pred_test, average='macro')
print("Recall:", recall)

Recall: 1.0


In [22]:
conf_matrix = confusion_matrix(y_test, y_pred_test)
print("Matriz de Confusão:")
conf_matrix

Matriz de Confusão:


array([[ 6,  0,  0],
       [ 0,  6,  0],
       [ 0,  0, 29]])

Com a base de teste alcançamos um resultado perfeito do nosso modelo, que foi capaz de identificar corretamente todas as previsões realizadas. Há que se ponderar que a base de teste possui um volume pequeno de dados, mas ainda é um resultado ótimo.

# 5) Descreva com suas palavras o projeto desenvolvido nessa atividade e qual o nosso objetivo principal ao aplicarmos o algoritmo de naive bayes a base de crédito.
Utilize pelo menos 4 linhas.

Dica: Caso você ainda esteja tendo dificuldade em visualizar a aplicação dos projetos e objetivo, consulte seus tutores!

O atual projeto tinha por objetivo criar um modelo que fosse capaz de classificar clientes em relação ao nível de risco de crédito, ou credit score, como risco baixo, médio ou alto.

A base de dados fornecida possuia inicialmente 164 instâncias. Os dados foram pré-processados e  analisados, com posterior separação em bases de treino e teste. As bases de treino foram balanceadas visando melhorar o desempenho do modelo.

Tendo em vista a natureza do problema em questão e a evolução dos estudos do curso, o algoritmo de naive bayes foi o escolhido pois este é uma das ferramentas possíveis para lidar com problemas de classificação. Por ser a de mais fácil entendimento, foi o primeiro tipo de algoritmo de classificação apresentado no curso, apesar de ter sido informado que é um modelo menos robusto e menos utilizado no mercado do que outros que serão ensinados em aulas mais adiante.

Apesar dessas ponderações, o modelo ainda apresentou um ótimo resultado com nossas bases.
