# **MÓDULO 20 - Projeto de Credit Score - Naive Bayes**


No módulo 17 vocês realizaram a primeira etapa do projeto de crédito de vocês.
Então fizeram o tratamendo dos dados, balancearam as classes, transformaram as variáveis categóricas e separam base de treino e teste.
Nessa aula aplicaremos o algoritmo de naive bayes a base de vocês afim de tentarmos trazer previsões do score de crédito.

**IMPORTANTE:** Não se esqueçam de ao enviar o código de vocês para os tutores, enviarem as bases, pois como cada um de vocês realizou as alterações de tratamento indidualmente o tutor precisa ter acesso aos seus dados individuais.

In [3]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score

Durante a aula nossa variável a ser prevista (churn) continha apenas 2 categorias, a base de vocês contém mais. O Naive Bayes pode ser aplicado para problemas de classificação com múltiplas classes da mesma forma que para problemas de classificação binária. O Naive Bayes é um algoritmo de classificação probabilístico que calcula a probabilidade de uma amostra pertencer a cada classe e seleciona a classe com a maior probabilidade como a previsão final.
Em resumo, o Naive Bayes pode ser aplicado da mesma maneira para problemas de classificação com múltiplas classes, e os mesmos princípios se aplicam em termos de treinamento, avaliação e aplicação do modelo.

# 1) Comece carregando as bases de treino (X e y) e teste (X e y).
Verifique se o número de linhas condiz, se as variáveis estão corretas sendo apenas a de score para y e as demais nas bases de X e por último, se Y está balanceada no teste.

In [4]:
x_train = pd.read_csv('x_train_balanced')
y_train = pd.read_csv('y_train_balanced')
x_test = pd.read_csv('x_test')
y_test = pd.read_csv('y_test')

In [5]:
x_train

Unnamed: 0,Age,Income,Number of Children,gender_encoded,marital_status_encoded,home_ownership_encoded,bachelor_degree,doctorate,high_school,master_degree
0,26.000000,45000.000000,0,0,1,1,0,0,0,0
1,29.000000,27500.000000,0,0,1,1,0,0,1,0
2,25.000000,62500.000000,0,0,1,1,1,0,0,0
3,29.000000,68000.000000,2,0,0,0,0,1,0,0
4,31.000000,65000.000000,0,1,1,1,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...
247,29.950365,43703.466973,0,0,1,1,0,0,0,0
248,34.000000,47500.000000,0,1,1,1,0,0,0,0
249,30.347552,57500.000000,0,0,1,1,0,0,0,0
250,25.000000,60063.547817,0,0,1,1,1,0,0,0


In [6]:
y_train

Unnamed: 0,credit_score_encoded
0,1
1,0
2,1
3,1
4,1
...,...
247,1
248,1
249,1
250,1


In [7]:
train_balance = y_train.value_counts()
train_balance

Unnamed: 0_level_0,count
credit_score_encoded,Unnamed: 1_level_1
0,84
1,84
2,84


In [8]:
test_balance = y_test.value_counts()
test_balance

Unnamed: 0_level_0,count
credit_score_encoded,Unnamed: 1_level_1
2,29
0,6
1,6


# 2) Aplique o algoritmo de Naive Bayes aos dados de treinamento.

In [9]:
naive_score = GaussianNB()
naive_score.fit(x_train, y_train)

  y = column_or_1d(y, warn=True)


# 3) Faça a avaliação do modelo com os dados de treinamento.
Traga a acurácia, recall e plote a matriz de confusão. Não se esqueça de avaliar com suas palavras o desempenho do modelo, interpretando as métricas.

Dica: Para calcularmos o recall em classificação multi classe precisamos usar o atributo macro:
recall = recall_score(y_train, y_pred_train, average='macro')

In [10]:
y_pred_train = naive_score.predict(x_train)
accuracy = accuracy_score(y_train, y_pred_train)
print('Accurácia:', accuracy)

Accurácia: 0.9841269841269841


A aplicação do algoritmo de Naive Bayes nesta base de dados de treino apresentou uma acurácia muito boa. Isto é, temos 98% das previsões estão corretas.

In [11]:
recall = recall_score(y_train, y_pred_train, average='macro')
recall

0.9841269841269842

Esse indice de recall de 0.98 nos diz que nosso modelo está classificando corretamente 98% do score dos clientes. Ou seja, o modelo previu corretamente qual seria a classe de score de cada cliente em 98% dos casos.

In [12]:
conf_matrix = confusion_matrix(y_train, y_pred_train)
conf_matrix

array([[82,  2,  0],
       [ 1, 83,  0],
       [ 0,  1, 83]])

In [21]:
import plotly.figure_factory as ff
class_names = ['Low', 'Medium', 'High']
fig = ff.create_annotated_heatmap(z = conf_matrix, x = class_names, y = class_names, colorscale='Viridis', showscale = True)
fig.update_layout(title_text='Matriz de confusão', xaxis_title='Valores previstos', yaxis_title='Valores reais')
fig.show()


A matriz confusão traz as informações de onde aconteceram os erros, nos quais doi Lows foram classificados como Medium, apenas um Medium foi classificado como Low e um único High foi classificado como Medium.

# 4) Aplique o modelo aos dados de teste e realize a avaliação dos resultados, da mesma forma que fez acima. Não se esqueça de avaliar com as suas palavras e comparar o desempenho da base treino com a teste.

In [14]:
y_pred_test = naive_score.predict(x_test)
accuracy_test = accuracy_score(y_test, y_pred_test)
recall_test = recall_score(y_test, y_pred_test, average='macro')
print('Accurácia:', accuracy_test)
print('Recall:', recall_test)

Accurácia: 0.975609756097561
Recall: 0.9444444444444445


Neste momento onde aplicamos o algoritmo na base de testes, observamos que quase 98% dos clientes foram classificados de acordo com seu score e 94% dos exemplos positivos foram identificados pelo modelo.

In [15]:
conf_matrix = confusion_matrix(y_test, y_pred_test)
class_names = ['Low', 'Medium', 'High']
fig = ff.create_annotated_heatmap(z = conf_matrix, x = class_names, y = class_names, colorscale='Viridis', showscale = True)
fig.update_layout(title_text='Matriz de confusão', xaxis_title='Valores previstos', yaxis_title='Valores reais')
fig.show()


Apenas um único Low foi classificado como Medium.

# 5) Descreva com suas palavras o projeto desenvolvido nessa atividade e qual o nosso objetivo principal ao aplicarmos o algoritmo de naive bayes a base de crédito.
Utilize pelo menos 4 linhas.

Nesse projeto, temos uma base de dados sobre clientes de um banco que trás informaçôes de idade, salário anual, gênero, número de filhos, status civil, tipo de moradia, nível de formação e score de crédito. Nosso objetivo é utilizar esses dados para tentar prever qual o score de crédito de crédito de um cliente a partil do seu perfil.

Deste modo, como é uma análise preditiva de dados categóricos, fizemos o uso do algoritmo de Naive Bayes.
Dado que os dados ja estão tratados, separados e balanceados, fizemos a aplicação do algoritmo, avaliamos através das métricas de Accuracy, Recall e Matriz de confusão, nos quais tivemos 98% de acurácia e 94% de Recall.

Deste modo, concluímos que o modelo foi bastante eficiente e atingiu nossas expectativas.