### Algoritmo Naive Bayes
***

### Importando as bibliotecas

In [4]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import GaussianNB
import warnings

warnings.simplefilter('ignore')

In [5]:
# Coletando dados de risco.
df_risco = pd.read_csv('./dataset/base_risco.csv',
            sep=';',
            encoding='latin1')

# Visualizando base de dados.
df_risco

Unnamed: 0,renda,tipo_divida,fiador,historico_credito,risco
0,Acima de 40.000,Baixa,Possui,Ruim,Alto
1,Entre 13.500 a 40.000,Alta,Possui,Ruim,Moderado
2,Menor de 13.000,Baixa,Nao possui,Ruim,Baixo
3,Menor de 13.000,Alta,Nao possui,Ruim,Baixo
4,Acima de 40.000,Baixa,Possui,Nao possui,Moderado
5,Entre 13.500 a 40.000,Baixa,Nao possui,Bom,Moderado
6,Acima de 40.000,Baixa,Nao possui,Ruim,Alto
7,Menor de 13.000,Alta,Nao possui,Nao possui,Baixo
8,Menor de 13.000,Baixa,Nao possui,Nao possui,Baixo
9,Acima de 40.000,Baixa,Possui,Bom,Alto


In [7]:
# Selecionando as colunas que vamos utilizar para criar o indicador
colunas_selecionadas = ['renda', 'tipo_divida', 'fiador', 'historico_credito']

### Preparação dos dados

In [8]:
# Criando um identificador para cada uma das variáveis categoricas.
LE = LabelEncoder()

# Criando uma nova coluna baseada no encoder criado.
for coluna in colunas_selecionadas:
    df_risco[f'id_{coluna}'] = LE.fit_transform(df_risco[coluna])

In [9]:
# Organizando as colunas no dataframe
df_risco= df_risco[['id_renda', 'renda', 
                    'id_tipo_divida', 'tipo_divida', 
                    'id_fiador', 'fiador',
                    'id_historico_credito', 'historico_credito',
                    'risco']]

In [10]:
df_risco.head()

Unnamed: 0,id_renda,renda,id_tipo_divida,tipo_divida,id_fiador,fiador,id_historico_credito,historico_credito,risco
0,0,Acima de 40.000,1,Baixa,1,Possui,2,Ruim,Alto
1,1,Entre 13.500 a 40.000,0,Alta,1,Possui,2,Ruim,Moderado
2,2,Menor de 13.000,1,Baixa,0,Nao possui,2,Ruim,Baixo
3,2,Menor de 13.000,0,Alta,0,Nao possui,2,Ruim,Baixo
4,0,Acima de 40.000,1,Baixa,1,Possui,1,Nao possui,Moderado


In [11]:
# Selecionando apenas as colunas que vamos utilizar no modelo
colunas_modelo = [
    'id_renda', 'id_tipo_divida', 'id_fiador', 'id_historico_credito'
]

df_risco[colunas_modelo]

Unnamed: 0,id_renda,id_tipo_divida,id_fiador,id_historico_credito
0,0,1,1,2
1,1,0,1,2
2,2,1,0,2
3,2,0,0,2
4,0,1,1,1
5,1,1,0,0
6,0,1,0,2
7,2,0,0,1
8,2,1,0,1
9,0,1,1,0


In [12]:
# Separando features do target
X_dados = df_risco[colunas_modelo]
y_dados = df_risco['risco']

In [13]:
X_dados.values

array([[0, 1, 1, 2],
       [1, 0, 1, 2],
       [2, 1, 0, 2],
       [2, 0, 0, 2],
       [0, 1, 1, 1],
       [1, 1, 0, 0],
       [0, 1, 0, 2],
       [2, 0, 0, 1],
       [2, 1, 0, 1],
       [0, 1, 1, 0]])

In [14]:
y_dados

0        Alto
1    Moderado
2       Baixo
3       Baixo
4    Moderado
5    Moderado
6        Alto
7       Baixo
8       Baixo
9        Alto
Name: risco, dtype: object

In [15]:
# Criação do modelo 
model = GaussianNB()

In [16]:
model.fit(X_dados.values, y_dados.values)

In [18]:
# Visualizando dados do modelo

# Quantidade de classes
model.classes_

array(['Alto', 'Baixo', 'Moderado'], dtype='<U8')

In [34]:
# Contando a quantidade por cada classe
model.class_count_

array([3., 4., 3.])

In [19]:
# Porcentagem da quantidade por classe
model.class_prior_

array([0.3, 0.4, 0.3])

In [20]:
model.score(X_dados.values, y_dados.values)

0.9

In [21]:
model.predict(X=X_dados.values)

array(['Alto', 'Moderado', 'Baixo', 'Baixo', 'Alto', 'Moderado', 'Alto',
       'Baixo', 'Baixo', 'Alto'], dtype='<U8')

In [22]:
# Criando coluna com as previsões que o modelo fez para os mesmos dados usados no treinamento.
df_risco['classe_predita'] = model.predict(X=X_dados.values)

In [23]:
df_risco

Unnamed: 0,id_renda,renda,id_tipo_divida,tipo_divida,id_fiador,fiador,id_historico_credito,historico_credito,risco,classe_predita
0,0,Acima de 40.000,1,Baixa,1,Possui,2,Ruim,Alto,Alto
1,1,Entre 13.500 a 40.000,0,Alta,1,Possui,2,Ruim,Moderado,Moderado
2,2,Menor de 13.000,1,Baixa,0,Nao possui,2,Ruim,Baixo,Baixo
3,2,Menor de 13.000,0,Alta,0,Nao possui,2,Ruim,Baixo,Baixo
4,0,Acima de 40.000,1,Baixa,1,Possui,1,Nao possui,Moderado,Alto
5,1,Entre 13.500 a 40.000,1,Baixa,0,Nao possui,0,Bom,Moderado,Moderado
6,0,Acima de 40.000,1,Baixa,0,Nao possui,2,Ruim,Alto,Alto
7,2,Menor de 13.000,0,Alta,0,Nao possui,1,Nao possui,Baixo,Baixo
8,2,Menor de 13.000,1,Baixa,0,Nao possui,1,Nao possui,Baixo,Baixo
9,0,Acima de 40.000,1,Baixa,1,Possui,0,Bom,Alto,Alto


### Avaliando novo Registro
- Renda acima de R$ 40.000
- Tipo de dívida Baixa
- Possui fiador
- Histórico de crédito Ruim

In [25]:
dados_cliente = [[0, 1, 1, 2]]

In [26]:
model.predict(dados_cliente)


array(['Alto'], dtype='<U8')

### Criando novos registros para classificação do algoritmo
***

In [31]:
novos_registros = [
    [1, 0, 1, 0], # Entre 13 e 40 , Divida alta, Possui fiador, Crédito bom
    [2, 1, 0, 0],
    [0, 0, 0 ,0],
    [1, 1, 1, 1],
    [0, 1, 1, 2]
]

In [33]:
df_predicao = pd.DataFrame(novos_registros, columns=[colunas_modelo])
df_predicao

Unnamed: 0,id_renda,id_tipo_divida,id_fiador,id_historico_credito
0,1,0,1,0
1,2,1,0,0
2,0,0,0,0
3,1,1,1,1


### Aplicação do algortimo para um novo conjunto de dados
***

In [34]:
df_predicao['classe_predita'] = model.predict(df_predicao.values)
df_predicao

Unnamed: 0,id_renda,id_tipo_divida,id_fiador,id_historico_credito,classe_predita
0,1,0,1,0,Moderado
1,2,1,0,0,Baixo
2,0,0,0,0,Moderado
3,1,1,1,1,Moderado
