# Naive Bayes com Python: Base de Risco de Crédito
### Utilizando as ideias do algoritmo naive bayes para fazer a classificação de riscos financeiros em empréstimos.

Anteriormete, foi visto como o algoritmo naive bayes é modelado. Nesse arquivo, será feita a parte prática com a linguagem de programação Python, em que todo o processo será feito com a base da base de dados "Risco_credito.csv".

#### Usando o Python para avaliar risco de créditos em clientes

In [1]:
# importando a biblioteca Pandas do Python
import pandas as pd

In [2]:
# atribuindo ao "dataframe" os registros da base de dados "Risco_credito.csv"
dataframe = pd.read_csv("Risco_credito.csv", encoding = "utf-8", sep = ",")

In [6]:
# visualizando os registros do dataframe
dataframe

Unnamed: 0,historia,divida,garantias,renda,risco
0,ruim,alta,nenhuma,0_15,alto
1,desconhecida,alta,nenhuma,15_35,alto
2,desconhecida,baixa,nenhuma,15_35,moderado
3,desconhecida,baixa,nenhuma,acima_35,alto
4,desconhecida,baixa,nenhuma,acima_35,baixo
5,desconhecida,baixa,adequada,acima_35,baixo
6,ruim,baixa,nenhuma,0_15,alto
7,ruim,baixa,adequada,acima_35,moderado
8,boa,baixa,nenhuma,acima_35,baixo
9,boa,alta,adequada,acima_35,baixo


In [7]:
# visualizando as dimensões do dataframe
dataframe.shape

(14, 5)

In [10]:
# separando os atributos previsores do meta_classe
previsores = dataframe.iloc[:,0:4].values
meta_classe = dataframe.iloc[:, 4].values

In [13]:
# visualizando os atributos previsores
print(previsores)

[['ruim' 'alta' 'nenhuma' '0_15']
 ['desconhecida' 'alta' 'nenhuma' '15_35']
 ['desconhecida' 'baixa' 'nenhuma' '15_35']
 ['desconhecida' 'baixa' 'nenhuma' 'acima_35']
 ['desconhecida' 'baixa' 'nenhuma' 'acima_35']
 ['desconhecida' 'baixa' 'adequada' 'acima_35']
 ['ruim' 'baixa' 'nenhuma' '0_15']
 ['ruim' 'baixa' 'adequada' 'acima_35']
 ['boa' 'baixa' 'nenhuma' 'acima_35']
 ['boa' 'alta' 'adequada' 'acima_35']
 ['boa' 'alta' 'nenhuma' '0_15']
 ['boa' 'alta' 'nenhuma' '15_35']
 ['boa ' 'alta' 'nenhuma' 'acima_35']
 ['ruim' 'alta' 'nenhuma' '15_35']]


In [14]:
# visualizando os atributos meta classe
print(meta_classe)

['alto' 'alto' 'moderado' 'alto' 'baixo' 'baixo' 'alto' 'moderado' 'baixo'
 'baixo' 'alto' 'moderado' 'baixo' 'alto']


Observe que a base de dados é pequena. Portanto, não será necessário convertê-la em variáveis "dummy". Entretanto, é necessário transformar as variáveis categóricas em numéricas, pois o algoritmo naive bayes só considera números em seus cálculos.

##### Pré-processamento da base de dados

In [8]:
from sklearn.preprocessing import LabelEncoder

In [9]:
# criando o nosso objeto labelencoder
labelencoder = LabelEncoder()

In [15]:
# realizando a transformação dos registros categóricos em números, esses que fazem parte do atributo previsor. Não será necessário fazer esse
# pré-processamento no atributo meta_classe, pois como se está trabalhando com um algoritmo de classificação, uma saída com registros 
# categóricos é aceita
previsores[:, 0] = labelencoder.fit_transform(previsores[:, 0])
previsores[:, 1] = labelencoder.fit_transform(previsores[:, 1])
previsores[:, 2] = labelencoder.fit_transform(previsores[:, 2])
previsores[:, 3] = labelencoder.fit_transform(previsores[:, 3])

In [16]:
# observando os atributos previsores após a transformação em seus registros de categóricos para numéricos
print(previsores)

[[3 0 1 0]
 [2 0 1 1]
 [2 1 1 1]
 [2 1 1 2]
 [2 1 1 2]
 [2 1 0 2]
 [3 1 1 0]
 [3 1 0 2]
 [0 1 1 2]
 [0 0 0 2]
 [0 0 1 0]
 [0 0 1 1]
 [1 0 1 2]
 [3 0 1 1]]


#### Naive Bayes com Python (Biblioteca scikit-learn)

In [17]:
# importando a biblioteca sklearn do Python
from sklearn.naive_bayes import GaussianNB

In [18]:
# criando o objeto "classificador"
classificador = GaussianNB()

In [19]:
# configurando o nosso objeto "classificador"
# o atributo "fit" é responsável por realizar o treinamento do algoritmo com a base de dados
classificador.fit(previsores, meta_classe)

GaussianNB(priors=None, var_smoothing=1e-09)

#### Avaliando o algoritmo

Será utilizado os registros do primeiro cliente para fazer a avaliação do nosso algoritmo. Lembrando que devemos sempre considerar valores numéricos.

|**Entrada de Novo Cliente no Sistema**|
|:-------------------------------------|
|História de Crédito: **Boa** (0)|
|Dívida: **Alta** (0)|
|Garantias: **Nenhuma** (1)|
|Renda: **>35** (2)|

In [20]:
# avaliando o noss algoritmo para um cliente com as características acima
# o atributo "predict" usa como parâmetros novos registros para responder conforme o treinamento recebido
resultado = classificador.predict([[0,0,1,2]])

Do mesmo modo será feito com os dados do segundo cliente.

|**Entrada de Novo Cliente no Sistema**|
|:-------------------------------------|
|História de Crédito: **Ruim** (3)|
|Dívida: **Alta** (0)|
|Garantias: **Adequada** (0)|
|Renda: **<15** (0)|

In [22]:
# avaliando o noss algoritmo para os dois cliente com os registros acima
resultado = classificador.predict([[0,0,1,2], [3,0,0,0]])

In [24]:
# observando so resultados para os dois cliente acima
print(resultado)

['baixo' 'moderado']


Desse modo, o risco de financiamento de empréstimo para o primeiro cliente é baixo e para o segundo cliente é moderado.

#### Observando algumas propriedades do objeto "classificador"

In [26]:
# observando as classes do objeto "classificador"
print(classificador.classes_)

['alto' 'baixo' 'moderado']


In [28]:
# observando os valores numéricos das classes do objeto "classificador"
print(classificador.class_count_)

[6. 5. 3.]


In [30]:
# observando valores estatísticos (método a priori) para as classes do objeto "classificador"
print(classificador.class_prior_)

[0.42857143 0.35714286 0.21428571]


### Alguma dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alyssonmachado388@gmail.com);