# Naïve Bayes Algorithm Studies

**Autoria:**  
Projeto desenvolvido em dupla por Julia Andreatta e Larissa Zózimo Antunes.

**Contexto:**  
Estudo acadêmico desenvolvido como parte da formação em Ciência da Computação.

## Descrição do projeto

Este notebook apresenta a aplicação do algoritmo de Naïve Bayes em uma base de dados de risco de crédito, fazendo as importações das bibliotecas necessárias.


In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

In [None]:
# importe a base de dados de risco de crédito e nomeie com: dataset_risco_credito
dataset_risco_credito = pd.read_csv('dataset_risco_credito.csv')

In [None]:
# imprima a base de dados para uma primeira avaliação dos dados
print(dataset_risco_credito)

        historia divida garantias     renda     risco
0           ruim   alta   nenhuma      0_15      alto
1   desconhecida   alta   nenhuma     15_35      alto
2   desconhecida  baixa   nenhuma     15_35  moderado
3   desconhecida  baixa   nenhuma  acima_35      alto
4   desconhecida  baixa   nenhuma  acima_35     baixo
5   desconhecida  baixa  adequada  acima_35     baixo
6           ruim  baixa   nenhuma      0_15      alto
7           ruim  baixa  adequada  acima_35  moderado
8            boa  baixa   nenhuma  acima_35     baixo
9            boa   alta  adequada  acima_35     baixo
10           boa   alta   nenhuma      0_15      alto
11           boa   alta   nenhuma     15_35  moderado
12           boa   alta   nenhuma  acima_35     baixo
13          ruim   alta   nenhuma     15_35      alto


## 1 - Pré-Processamento dos dados

a) DIVISÃO DA BASE DE DADOS

Separe a base de dados dataset_risco_credito em:
 - variável x, com nome: X_risco_credito
 - classe y, com nome: y_risco_credito

DICA: você pode utilizar .iloc para selecionar as colunas da matriz e .values para converter para o numpy array.

b) APLICAR LABEL ENCODER

Perceba que seus dados possuem atributos categóricos (string). Porém, para aplicar esses dados em um algoritmo de aprendizado você precisa transformá-lo em atributo numérico.

Como você pode resolver isso?

DICA: Veja o que é e como aplicar o Label Enconder em: https://youtu.be/nLKEkBAbpQo

In [None]:
# Apresente o resultado do label enconder
#separando o dataset
X_risco_credito = dataset_risco_credito.iloc[:, 0:4].values #todos os dados das 4 primeiras colunas
y_risco_credito = dataset_risco_credito.iloc[:, 4].values #classe

from sklearn.preprocessing import LabelEncoder #importando a bilbioteca

label_encoder_historia = LabelEncoder()
X_risco_credito[:,0] = label_encoder_historia.fit_transform(X_risco_credito[:,0])

label_encoder_divida = LabelEncoder()
X_risco_credito[:,1] = label_encoder_divida.fit_transform(X_risco_credito[:,1])

label_encoder_garantia = LabelEncoder()
X_risco_credito[:,2] = label_encoder_garantia.fit_transform(X_risco_credito[:,2])

label_encoder_renda = LabelEncoder()
X_risco_credito[:,3] = label_encoder_renda.fit_transform(X_risco_credito[:,3])

# visualizando
X_risco_credito

array([[2, 0, 1, 0],
       [1, 0, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 2],
       [1, 1, 1, 2],
       [1, 1, 0, 2],
       [2, 1, 1, 0],
       [2, 1, 0, 2],
       [0, 1, 1, 2],
       [0, 0, 0, 2],
       [0, 0, 1, 0],
       [0, 0, 1, 1],
       [0, 0, 1, 2],
       [2, 0, 1, 1]], dtype=object)

c) SALVAR O ARQUIVO PRÉ-PROCESSADO

In [None]:
# como salvar o arquivo:
import pickle
with open('risco_credito.pkl', 'wb') as f:
  pickle.dump([X_risco_credito, y_risco_credito], f)

## 2 - Algoritmo Naïve Bayes

In [None]:
# importar da biblioteca sklearn o pacote Nayve Bayes
# utilizamos a distribuição estatística Gaussiana (classe GaussianNB) ou distribuição normal pois é mais usado para problemas genéricos
from sklearn.naive_bayes import GaussianNB

In [None]:
# Criar o objeto Nayve Bayes
naiveb_risco_credito = GaussianNB()

a) TREINAR O ALGORITMO

Para treinar o algoritmo, você deve gerar a tabela de probabilidades. Para isso, você pode utilizar **.fit** para gerar a tabela.

DICA: O 1º parametro são os atributos/características (x) e o 2º parametro é a classe (y).

OBS: Não se preocupe, o algoritmo faz a correção laplaciana automaticamente :) .

b) FAZER A PREVISÃO

Utilize **.predict** para fazer a previsão realizada no exemplo em sala.

i) história boa, dívida alta, garantia nenhuma, renda > 35

ii) história ruim, dívida alta, garantia adequada, renda < 15

Verifique nos slides se seu resultado está correto!

In [None]:
tabela_probabilidades = naiveb_risco_credito.fit(X_risco_credito, y_risco_credito)

In [None]:
# utilize o atributo .classes_ para mostrar as classes utilizadas pelo algoritmo
tabela_probabilidades.classes_

array(['alto', 'baixo', 'moderado'], dtype='<U8')

In [None]:
# utilize .class_count_ para contar quantos registros tem em cada classe
tabela_probabilidades.class_count_

array([6., 5., 3.])

In [None]:
tabela_probabilidades.predict([[0,0,1,2]])

array(['baixo'], dtype='<U8')

In [None]:
tabela_probabilidades.predict([[2,0,0,0]])

array(['moderado'], dtype='<U8')