# Utilizando Aprendizado de Máquina pelo algoritmo de Naive Bayes para saber se um novo cliente possui um risco de pagamento de um empréstimo Alto, Moderado ou baixo. Com Base no historico de dados de clientes passados, o algoritmo irá fazer as devidas análises e retornar qual a classe de risco será.


In [4]:
# Importando a biblioteca pandas para a análise e tratamento de dados
import pandas as pd
# Importando a biblioteca sklearn.naive_bayes para pegar a funçaõ do algoritmo naive bayes "GaussianNB"
from sklearn.naive_bayes import GaussianNB

In [5]:
#Importando a base de dados risco_credito no formato .csv para a leitura
base_risco_credito = pd.read_csv("risco_credito.csv")

In [6]:
# Lendo os dados da base de dados que foi importada
base_risco_credito

Unnamed: 0,historia,divida,garantias,renda,risco
0,ruim,alta,nenhuma,0_15,alto
1,desconhecida,alta,nenhuma,15_35,alto
2,desconhecida,baixa,nenhuma,15_35,moderado
3,desconhecida,baixa,nenhuma,acima_35,alto
4,desconhecida,baixa,nenhuma,acima_35,baixo
5,desconhecida,baixa,adequada,acima_35,baixo
6,ruim,baixa,nenhuma,0_15,alto
7,ruim,baixa,adequada,acima_35,moderado
8,boa,baixa,nenhuma,acima_35,baixo
9,boa,alta,adequada,acima_35,baixo


In [7]:
#Criando uma váriavel para receber apenas os atributo previsores pegando todas
#as linhas da base de dados junto com as colunas:"historia" até "renda"
X_risco_credito = base_risco_credito.iloc[:,0:4].values
X_risco_credito


array([['ruim', 'alta', 'nenhuma', '0_15'],
       ['desconhecida', 'alta', 'nenhuma', '15_35'],
       ['desconhecida', 'baixa', 'nenhuma', '15_35'],
       ['desconhecida', 'baixa', 'nenhuma', 'acima_35'],
       ['desconhecida', 'baixa', 'nenhuma', 'acima_35'],
       ['desconhecida', 'baixa', 'adequada', 'acima_35'],
       ['ruim', 'baixa', 'nenhuma', '0_15'],
       ['ruim', 'baixa', 'adequada', 'acima_35'],
       ['boa', 'baixa', 'nenhuma', 'acima_35'],
       ['boa', 'alta', 'adequada', 'acima_35'],
       ['boa', 'alta', 'nenhuma', '0_15'],
       ['boa', 'alta', 'nenhuma', '15_35'],
       ['boa', 'alta', 'nenhuma', 'acima_35'],
       ['ruim', 'alta', 'nenhuma', '15_35']], dtype=object)

In [8]:
# Criando uma variável para receber apenas a classe "risco"
y_risco_credito = base_risco_credito.iloc[:,4].values
y_risco_credito

array(['alto', 'alto', 'moderado', 'alto', 'baixo', 'baixo', 'alto',
       'moderado', 'baixo', 'baixo', 'alto', 'moderado', 'baixo', 'alto'],
      dtype=object)

In [9]:
# Importando o Label Enconder para transformar as strings de cada coluna em número
from sklearn.preprocessing import LabelEncoder
label_encoder_historia = LabelEncoder()
label_encoder_divida = LabelEncoder()
label_encoder_garantias = LabelEncoder()
label_encoder_renda = LabelEncoder()


In [10]:
# Transformando cada linha de cada coluna dos atributos previsores(historia até renda) no formato numérico
X_risco_credito[:,0] = label_encoder_historia.fit_transform(X_risco_credito[:,0])
X_risco_credito[:,1] = label_encoder_divida.fit_transform(X_risco_credito[:,1])
X_risco_credito[:,2] = label_encoder_garantias.fit_transform(X_risco_credito[:,2])
X_risco_credito[:,3] = label_encoder_renda.fit_transform(X_risco_credito[:,3])


In [11]:
# lendo a base feita pelo Label Encoder, transformando as strings em números
X_risco_credito

array([[2, 0, 1, 0],
       [1, 0, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 2],
       [1, 1, 1, 2],
       [1, 1, 0, 2],
       [2, 1, 1, 0],
       [2, 1, 0, 2],
       [0, 1, 1, 2],
       [0, 0, 0, 2],
       [0, 0, 1, 0],
       [0, 0, 1, 1],
       [0, 0, 1, 2],
       [2, 0, 1, 1]], dtype=object)

In [12]:
# Salvando os dados para não precisar fazer o processo novamente
import pickle
with open ("risco_credito.pkl","wb") as f:
  pickle.dump([X_risco_credito, y_risco_credito], f)

In [14]:
# Criando uma variavel que vai
naive_risco_credito = GaussianNB()
naive_risco_credito.fit(X_risco_credito, y_risco_credito)

In [15]:
# Agora vamos analisar o risco credito de dois novos clientes clientes
# Primeiro cliente:
    # Historia: boa ---> Label enconder boa(0)
    # Divida: alta ---> Label enconder divida(0)
    # Garantia: nenhuma ---> Label enconder garantia(1)
    # Renda:  > 35  ---> Label enconder renda(2)

# Segundo cliente:
    # Historia: ruim   ---> Label enconder boa(2)
    # Divida: alta    ---> Label enconder divida(0)
    # Garantia: adequada   ---> Label enconder garantia(0)
    # Renda: < 15   ---> Label enconder renda(0)

In [16]:
# Fazendo o registro de novos clientes
novo_cliente_1= [0,0,1,2]
novo_cliente_2 = [2,0,0,0]

In [17]:
# Criando uma variável para fazer a previsão do cliente 1 e o cliente 2
previsao = naive_risco_credito.predict([novo_cliente_1,novo_cliente_2])

In [18]:
# Mostra a previsão do risco de crédito do cliente 1 e cliente 2, respectivamente
previsao

array(['baixo', 'moderado'], dtype='<U8')

In [19]:
# Vai mostrar as classe
naive_risco_credito.classes_

array(['alto', 'baixo', 'moderado'], dtype='<U8')

In [20]:
# Quantidade de alto, baixo e moderado. Respectivamente
naive_risco_credito.class_count_

array([6., 5., 3.])

In [21]:
# Ver as a porcentagem da base de dados de cada classe: alto, baixo e moderado.
naive_risco_credito.class_prior_

array([0.42857143, 0.35714286, 0.21428571])