# Naive Bayes

In [4]:
import pandas as pd
import pickle
from sklearn.naive_bayes import GaussianNB

In [5]:
#carregando base
base_risco_credito = pd.read_csv('../datasets/risco_credito.csv')

In [6]:
base_risco_credito

Unnamed: 0,historia,divida,garantias,renda,risco
0,ruim,alta,nenhuma,0_15,alto
1,desconhecida,alta,nenhuma,15_35,alto
2,desconhecida,baixa,nenhuma,15_35,moderado
3,desconhecida,baixa,nenhuma,acima_35,alto
4,desconhecida,baixa,nenhuma,acima_35,baixo
5,desconhecida,baixa,adequada,acima_35,baixo
6,ruim,baixa,nenhuma,0_15,alto
7,ruim,baixa,adequada,acima_35,moderado
8,boa,baixa,nenhuma,acima_35,baixo
9,boa,alta,adequada,acima_35,baixo


# separação entre previsores e classe

In [7]:
# previsores 
X_risco_credito = base_risco_credito.iloc[:, 0:4].values
X_risco_credito

array([['ruim', 'alta', 'nenhuma', '0_15'],
       ['desconhecida', 'alta', 'nenhuma', '15_35'],
       ['desconhecida', 'baixa', 'nenhuma', '15_35'],
       ['desconhecida', 'baixa', 'nenhuma', 'acima_35'],
       ['desconhecida', 'baixa', 'nenhuma', 'acima_35'],
       ['desconhecida', 'baixa', 'adequada', 'acima_35'],
       ['ruim', 'baixa', 'nenhuma', '0_15'],
       ['ruim', 'baixa', 'adequada', 'acima_35'],
       ['boa', 'baixa', 'nenhuma', 'acima_35'],
       ['boa', 'alta', 'adequada', 'acima_35'],
       ['boa', 'alta', 'nenhuma', '0_15'],
       ['boa', 'alta', 'nenhuma', '15_35'],
       ['boa', 'alta', 'nenhuma', 'acima_35'],
       ['ruim', 'alta', 'nenhuma', '15_35']], dtype=object)

In [8]:
# classe
Y_risco_credito = base_risco_credito.iloc[:, -1]
Y_risco_credito

0         alto
1         alto
2     moderado
3         alto
4        baixo
5        baixo
6         alto
7     moderado
8        baixo
9        baixo
10        alto
11    moderado
12       baixo
13        alto
Name: risco, dtype: object

In [9]:
# aplicando label encoder para transformar os categóricos em numéricos
# é necessário um labelencoder para cada atributo categórico
from sklearn.preprocessing import LabelEncoder
label_enconder_historia = LabelEncoder()
label_enconder_divida = LabelEncoder()
label_enconder_garantia = LabelEncoder()
label_enconder_renda = LabelEncoder()

In [10]:
X_risco_credito[:, 0] = label_enconder_historia.fit_transform(X_risco_credito[:, 0])
X_risco_credito[:, 1] = label_enconder_divida.fit_transform(X_risco_credito[:, 1])
X_risco_credito[:, 2] = label_enconder_garantia.fit_transform(X_risco_credito[:, 2])
X_risco_credito[:, 3] = label_enconder_renda.fit_transform(X_risco_credito[:, 3])

In [11]:
# verificando resultado
X_risco_credito

array([[2, 0, 1, 0],
       [1, 0, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 2],
       [1, 1, 1, 2],
       [1, 1, 0, 2],
       [2, 1, 1, 0],
       [2, 1, 0, 2],
       [0, 1, 1, 2],
       [0, 0, 0, 2],
       [0, 0, 1, 0],
       [0, 0, 1, 1],
       [0, 0, 1, 2],
       [2, 0, 1, 1]], dtype=object)

In [12]:
with open('../datasets/processed/risco_credito.pkl', mode='wb') as f:
    pickle.dump([X_risco_credito, Y_risco_credito], f)

In [13]:
#criando algoritmo e gerando tabela de probabilidade
naive_risco_credito = GaussianNB()
naive_risco_credito.fit(X_risco_credito, Y_risco_credito)

0,1,2
,priors,
,var_smoothing,1e-09


In [None]:
# gerando previsão 
# história boa (0), dívida alta (0), garantias nenhuma (1), renda > 35 (2) : resultado correto : baixo
# história ruim (2), dívida alta (0), garantias adequada (0), renda < 15 (0) : resultado correto : moderado
previsao = naive_risco_credito.predict([[0,0,1,2], [2,0,0,0]])

In [15]:
previsao

array(['baixo', 'moderado'], dtype='<U8')

In [None]:
# checando classes do algoritmo
naive_risco_credito.classes_

array(['alto', 'baixo', 'moderado'], dtype='<U8')

In [None]:
# contando os registros de cada classe
naive_risco_credito.class_count_

array([6., 5., 3.])

In [20]:
# observando as probabilidades a priori
naive_risco_credito.class_prior_

array([0.42857143, 0.35714286, 0.21428571])