### Base Risco de Crédito - Naive Bayes

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB  # Algoritmo Naive Bayes - menos complexo
import pickle

In [None]:
jtplot.style(context='talk', fscal=1.4, spines=False, gridlines='--')

In [None]:
base_risco_credito = pd.read_csv('../Arquivos/risco_credito.csv')
display(base_risco_credito)

##### Variáveis de classe e variáveis previsoras

In [None]:
x_risco_credito = base_risco_credito.iloc[:, 0:4].values  # Atributos previsores
x_risco_credito

In [None]:
y_risco_credito = base_risco_credito.iloc[:, 4].values  # Atributos de classe
y_risco_credito  

##### Conversão de atributos categóricos para númericos

In [None]:
label_encoder_historia = LabelEncoder()
label_encoder_divida = LabelEncoder()
label_encoder_garantia = LabelEncoder()
label_encoder_renda = LabelEncoder()

In [None]:
x_risco_credito[:, 0] = label_encoder_historia.fit_transform(x_risco_credito[: ,0])
x_risco_credito[:, 1] = label_encoder_divida.fit_transform(x_risco_credito[: ,1])
x_risco_credito[:, 2] = label_encoder_garantia.fit_transform(x_risco_credito[: ,2])
x_risco_credito[:, 3] = label_encoder_renda.fit_transform(x_risco_credito[: ,3])

x_risco_credito
# Por ser pequena, não precisamos usar o OneHotEncoder
# Para fins de teste

In [None]:
# Transformando a base de dados ja tratada em arquivo pkl

with open('risco_credito.pkl', 'wb') as f:
    pickle.dump([x_risco_credito, y_risco_credito], f)

##### Usando o algoritmo

In [None]:
naive_risco_credito = GaussianNB()
naive_risco_credito.fit(x_risco_credito, y_risco_credito)  # Encaixando o algoritmo na base de dados - Gerando a tabela de dados aprendida anteriormente (treinando)
# parametros: (atributos_previsores, classes)

##### Previsão

In [None]:
# OBS: A correção laplaciana é feita automaticamente pela biblioteca

# Dados dos "cliente" que iremos prever:
# história boa (0), dívida alta (0), garantias nenhuma (1), renda > 35 (2)
# história ruim (2), divida alta (0), garant ias adequada (0), renda < 15 (0)

previsao = naive_risco_credito.predict([[0, 0, 1, 2], [2, 0, 0, 0]])

In [None]:
display(previsao)  # Resultado de acordo com o atributo classe (baixo, alto, moderado)

In [None]:
naive_risco_credito.classes_  # Variáveis do atributo classe

In [None]:
naive_risco_credito.class_count_  # Quantidade de ocorrencia de cada variável classe

### Base Credit Data - Naive Bayes

##### Importando os dados já tratados do último modulo da base de dados credit

In [None]:
with open('../01_Pré Processamento dos dados/credit.pkl', 'rb') as f:  # 'rb' para abrir o arquivo, 'wb' para criar
    x_credit_treinamento, y_credit_treinamento, x_credit_teste, y_credit_teste = pickle.load(f)

In [None]:
x_credit_treinamento.shape, y_credit_treinamento.shape  # Os _treinamentos são os dados que iremos usar para treinar o algoritmo naive bayes
# Atributos previsores, atributos classe

In [None]:
x_credit_teste.shape, y_credit_teste.shape  # _teste dados que iremos testar o algoritmo

##### Treinamento com o algoritmo

In [None]:
naive_credit_data = GaussianNB()
naive_credit_data.fit(x_credit_treinamento, y_credit_treinamento)  # Gerando a tabela de probabilidade (treinando)

In [None]:
previsoes = naive_credit_data.predict(x_credit_teste)  # Gerou os resultados classe a partir do treinamento feito acima
display(previsoes)

# cada 0 e cada 1 são a resposta do algoritmo de acordo com cada dado do dataframe de treinamento

##### Comparando com os dados reais

In [None]:
from sklearn.metrics import accuracy_score  # Função para verificar se X matriz é igual a Y matriz
from sklearn.metrics import confusion_matrix  

accuracy_score(y_credit_teste, previsoes)  # Vendo se a previsão feita pelo algoritmo bate com os reais resultados  ->  93% de acerto
confusion_matrix(y_credit_teste, previsoes)  # Demonstrar em números os clientes que pagariam o emprestimo e se está certo (erros)

In [None]:
# pip install yellowbrick
from yellowbrick.classifier import ConfusionMatrix  

In [None]:
# Treinando e interpretando os erros e acertos do algoritmo

cm = ConfusionMatrix(naive_credit_data)
cm.fit(x_credit_treinamento, y_credit_treinamento)
cm.score(x_credit_teste, y_credit_teste)

# Analisar as intersecções: sendo 0: clientes  pagam, e 1: clientes que não pagam
# temos: 428 acertos desses clientes que pagam pelo algoritmo, 8 clientes que pagam errado pelo algoritmo (falou que 8 pagam, mas não pagam)
# 41 que não pagam acertado pelo algoritmo e 23 que não pagam errado pelo algoritmo (falou que 23 não pagam, mas pagam)

In [None]:
from sklearn.metrics import classification_report  # Algumas métricas a mais

print(classification_report(y_credit_teste, previsoes))

### Census - Naive Baye

In [None]:
# importando já tratado:

with open('../01_Pré Processamento dos dados/census.pkl', 'rb') as f:
    x_census_treinamento, y_census_treinamento, x_census_teste, y_census_teste = pickle.load(f)

In [None]:
x_census_treinamento.shape, y_census_treinamento.shape
# x -> previsores  y -> atributos classe

In [None]:
x_census_teste.shape, y_census_teste.shape

In [None]:
naive_census = GaussianNB()
naive_census.fit(x_census_treinamento, y_census_treinamento)

In [None]:
previsoes = naive_census.predict(x_census_teste)
previsoes

##### Comparando o teste do algoritmo com o resultado do algoritmo:

In [None]:
accuracy_score(y_census_teste, previsoes)  # 47%

In [None]:
# Fazendo o accurate

cm = ConfusionMatrix(naive_census)
cm.fit(x_census_treinamento, y_census_treinamento)
cm.score(x_census_teste, y_census_teste)

# Vemos aqui que:
# De acordo com o algoritmo 2521 clientes (dados) ganham <= 50k, mas não ganham
# E que 35 clientes ganham <= 50k, mas não ganham

In [None]:
print(classification_report(y_census_teste, previsoes))

# O algorimo a chou 97% das pessoas que ganham mais de 50k
# Mas achou apenas 32% das pessoas que ganham menos de 50k