# Importando e manipulando base de dados

In [1]:
!pip -q install yellowbrick

Importando a biblioteca panda, que permite a leitura de arquivos de vários tipos

In [2]:
import pandas as pd

Carregando a base de dados a partir do arquivo 

In [3]:
database = pd.read_excel('/content/ArquivoExemplo.xlsx')

Exibindo as primeiras linhas da base de dados

In [4]:
print(database)

   História do crédito Dívida Garantias        Renda Anual     Risco
0                 Ruim   Alta   Nenhuma             <15000      Alto
1         Desconhecida   Alta   Nenhuma  >=15000 a <=35000      Alto
2         Desconhecida  Baixa   Nenhuma  >=15000 a <=35000  Moderado
3         Desconhecida  Baixa   Nenhuma             >35000      Alto
4         Desconhecida  Baixa   Nenhuma             >35000     Baixo
5         Desconhecida  Baixa  Adequada             >35000     Baixo
6                 Ruim  Baixa   Nenhuma             <15000      Alto
7                 Ruim  Baixa  Adequada             >35000  Moderado
8                  Boa  Baixa   Nenhuma             >35000     Baixo
9                  Boa   Alta  Adequada             >35000     Baixo
10                 Boa   Alta   Nenhuma             <15000      Alto
11                 Boa   Alta   Nenhuma  >=15000 a <=35000  Moderado
12                 Boa   Alta   Nenhuma             >35000     Baixo
13                Ruim   Alta   Ne

Armazenando os atributos previsores em X

In [7]:
X_risco = database.iloc[:, 0:4].values # iloc busca registro, : inclui todas as linhas, 0:4 do atributo 0 ao 4, .values converte para o formato do numpyarray
X_risco 

array([['Ruim', 'Alta', 'Nenhuma', '<15000'],
       ['Desconhecida', 'Alta', 'Nenhuma', '>=15000 a <=35000'],
       ['Desconhecida', 'Baixa', 'Nenhuma', '>=15000 a <=35000'],
       ['Desconhecida', 'Baixa', 'Nenhuma', '>35000'],
       ['Desconhecida', 'Baixa', 'Nenhuma', '>35000'],
       ['Desconhecida', 'Baixa', 'Adequada', '>35000'],
       ['Ruim', 'Baixa', 'Nenhuma', '<15000'],
       ['Ruim', 'Baixa', 'Adequada', '>35000'],
       ['Boa', 'Baixa', 'Nenhuma', '>35000'],
       ['Boa', 'Alta', 'Adequada', '>35000'],
       ['Boa', 'Alta', 'Nenhuma', '<15000'],
       ['Boa', 'Alta', 'Nenhuma', '>=15000 a <=35000'],
       ['Boa', 'Alta', 'Nenhuma', '>35000'],
       ['Ruim', 'Alta', 'Nenhuma', '>=15000 a <=35000']], dtype=object)

Armazenando as classes em Y

In [8]:
Y_risco = database.iloc[:, 4].values
Y_risco # Y armazena as classes

array(['Alto', 'Alto', 'Moderado', 'Alto', 'Baixo', 'Baixo', 'Alto',
       'Moderado', 'Baixo', 'Baixo', 'Alto', 'Moderado', 'Baixo', 'Alto'],
      dtype=object)

Convertendo os atributos categóricos(String) em atributos numéricos aplicando labelEncoder


In [11]:
from sklearn.preprocessing import LabelEncoder
label_historia = LabelEncoder()
label_divida = LabelEncoder()
label_garantia = LabelEncoder()
label_renda = LabelEncoder()

Aplicando os processamentos

In [14]:
X_risco[:,0] = label_historia.fit_transform(X_risco[:,0])
X_risco[:,1] = label_divida.fit_transform(X_risco[:,1])
X_risco[:,2] = label_garantia.fit_transform(X_risco[:,2])
X_risco[:,3] = label_renda.fit_transform(X_risco[:,3])

In [15]:
X_risco

array([[0, 0, 1, 0],
       [2, 0, 1, 2],
       [2, 1, 1, 2],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 0, 1],
       [0, 1, 1, 0],
       [1, 1, 0, 1],
       [1, 1, 1, 1],
       [1, 0, 0, 1],
       [0, 0, 1, 0],
       [2, 0, 1, 2],
       [1, 0, 1, 1],
       [2, 0, 1, 2]], dtype=object)

Salvando os dados manipulados no arquivo risco_credito.pkl

In [17]:
import pickle 
with open('risco_credito.pkl', 'wb') as f: # wb para escrever arquivo
  pickle.dump([X_risco, Y_risco], f)

# Aplicando o algoritmo de Naive-Bayes

Importando a distribuição estatística

In [18]:
from sklearn.naive_bayes import GaussianNB

Aplicando a distribuição estatística de Gaussian

In [19]:
naive_risco = GaussianNB();
naive_risco.fit(X_risco, Y_risco) # gera tabela de probabilidades, treina o algoritmo

GaussianNB()

Gerando a previsão do algoritmo:
- História do crédito boa = (0), Dívida alta = (0), Garantias nenhuma = (1), Renda Anual > 35 = (2)
- História do crédito ruim = (2), Dívida alta = (0), Garantias adequada = (0), Renda Anual < 15 = (0)

In [21]:
previsao = naive_risco.predict([[0,0,1,2], [2,0,0,0]])

In [22]:
previsao

array(['Alto', 'Moderado'], dtype='<U8')