# Algoritmo de Naive Bayes

## Introdução

Este notebook versará sobre o algoritmo de Naive Bayes, um classificador, de maneira relativamente sucinta pois a ideia por trás do algoritmo em si envolve um conhecimento em estatística que não possuo no momento. Uma explicação mais detalhada se encontra em https://en.wikipedia.org/wiki/Naive_Bayes_classifier.



## Dados iniciais

Usando o que já foi visto de codificação de categorias e particionamento, temos

In [1]:
from pandas import read_csv
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split


df = read_csv('Credit.csv')

#-----------------------------------------------------------------------------

previsores = df.iloc[:,0:20].values
classe = df.iloc[:,20].values

#-----------------------------------------------------------------------------
# Transformando as colunas de strings em colunas numéricas (CODIFICAÇÃO DE CATEGORIAS)

labelencoder1 = LabelEncoder()
previsores[:,0] = labelencoder1.fit_transform(previsores[:,0])

labelencoder2 = LabelEncoder()
previsores[:,2] = labelencoder2.fit_transform(previsores[:,2])

labelencoder3 = LabelEncoder()
previsores[:, 3] = labelencoder3.fit_transform(previsores[:, 3])

labelencoder4 = LabelEncoder()
previsores[:, 5] = labelencoder4.fit_transform(previsores[:, 5])

labelencoder5 = LabelEncoder()
previsores[:, 6] = labelencoder5.fit_transform(previsores[:, 6])

labelencoder6 = LabelEncoder()
previsores[:, 8] = labelencoder6.fit_transform(previsores[:, 8])

labelencoder7 = LabelEncoder()
previsores[:, 9] = labelencoder7.fit_transform(previsores[:, 9])

labelencoder8 = LabelEncoder()
previsores[:, 11] = labelencoder8.fit_transform(previsores[:, 11])

labelencoder9 = LabelEncoder()
previsores[:, 13] = labelencoder9.fit_transform(previsores[:, 13])

labelencoder10 = LabelEncoder()
previsores[:, 14] = labelencoder10.fit_transform(previsores[:, 14])

labelencoder11 = LabelEncoder()
previsores[:, 16] = labelencoder11.fit_transform(previsores[:, 16])

labelencoder12 = LabelEncoder()
previsores[:, 18] = labelencoder12.fit_transform(previsores[:, 18])

labelencoder13 = LabelEncoder()
previsores[:, 19] = labelencoder13.fit_transform(previsores[:, 19])

#--------------------------------------------------------------------------------------------------------------------------
# PARTICIONAMENTO

X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores, classe, test_size = 0.3, random_state = 0)

## ```GaussianNB```

Uma vez carregaodos os dados iniciais e transformado colunas de string em colunas numéricas, vamos usar o algoritmo de naive Bayes. Para chamar, basta digitar

In [2]:
from sklearn.naive_bayes import GaussianNB

Assim, ```GaussianNB``` é uma classe dotada de variáveis e métodos, e detre esses objetos destacamos os métodos ```fit``` e ```predict```.

O método ```fit``` precisa de dois parâmetros e os usa para treinamento,

* ```X```: são as colunas contendo as características de cada "linha". No nosso caso, ```X``` contém as características de cada pessoa relacionadas à concessão de crédito, como renda mensal e faixa etária.

* ```y```: é uma coluna com as "respostas" que servem para treinar. No nosso exemplo, cada elemento dessa coluna pode ser "good" quando um perfil, de uma determinada linha de X, é considerado como bom pagador e "bad" quando é considerado um mau pagador.

Como resultado, esse método retorna a própria instância, só que com os atributos atualizados.


Já o método ```predict``` possui como entrada um conjunto de dados ```X```, que serve para testar o algoritmo, e devolve uma coluna ```y``` de resultados em função de ```X``` e no treino previamente feito. Com isso, a ideia é comparar o retorno desse método com os resultados ```y``` "reais", e assim verificar se a metodologia empregada possui uma boa performance.

Criando a instância e aplicando esses métodos,

In [4]:
naive_bayes = GaussianNB()

naive_bayes.fit(X_treinamento, y_treinamento)

previsoes = naive_bayes.predict(X_teste)

previsoes

array(['bad', 'good', 'good', 'good', 'bad', 'good', 'good', 'good',
       'good', 'bad', 'bad', 'bad', 'good', 'bad', 'good', 'good', 'good',
       'good', 'bad', 'good', 'bad', 'good', 'bad', 'good', 'good', 'bad',
       'good', 'good', 'good', 'bad', 'good', 'good', 'good', 'good',
       'good', 'bad', 'good', 'good', 'good', 'good', 'good', 'bad',
       'good', 'good', 'good', 'bad', 'bad', 'bad', 'bad', 'bad', 'good',
       'bad', 'good', 'good', 'good', 'good', 'bad', 'good', 'good',
       'good', 'bad', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'bad', 'good', 'good', 'good', 'good', 'good', 'bad',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'bad', 'good', 'good', 'bad', 'bad', 'good', 'bad', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'bad', 'good', 'good', 'bad', 'bad',
       'good', 'good', 'good', 'bad', 'good', 'good', 'bad', 'good',
      

Uma vez que tenhamos esse conjunto de previsões, a ideia no nosso exemplo é comparar as variáveis ```previsoes``` com ```y_teste``` para ver se o algoritmo usado teve uma boa acurácia com respeito a determinadas métricas frequentemente usadas.

Como isso é um outro assunto, ele ficará em outro notebok.