## Implementação de Naive Bayes

O algoritmo de Naive Bayes é baseado em probabilidade condicional. Este é um dos mais simples algoritmos de classificação. Inicialmente, deve-se separar todas as classes, e então para cada _feature_, é necessário encontrar a probabilidade para seus valores.
### Definir as configurações

In [21]:
import numpy as np
import pandas as pd
import math


''' Escolher o dataset que será utilizado '''
df = pd.read_csv("./diabetes.csv")
#df = pd.read_csv("./wine.csv", index_col = False)

''' Escolher a coluna de classe do dataset '''
target = 'Outcome'
#target = 'Alcohol'

''' Obtém as colunas de atributos '''
features = df.columns[df.columns != target]

''' Obtém as classes '''
classes = df[target].unique()

''' Obtém o tamanho do Dataset '''
data_length = len(df.index)

''' Configurações do k-fold
    k: Quantidade de subsets
    num_examples: quantidade, calculada, de exemplos por subset '''
k = 10 
num_examples = math.floor(data_length/k)    

### Construir os Dataset

In [22]:
train = []
test = []

''' Constrói os subsets utilizados para cada iteração do k-fold '''
for i in range(0,k):
    test.append(df[i*num_examples : (i+1)*num_examples])
    train.append(df.drop(test[i].index))

### Cálculo das Probabilidades

Aqui será caluclada as probabilidades de cada classe, e serão armazenadas em uma estrutura de dicionário 

```
dict: 
  keys: classe
  values: dict: 
        keys: atributo
        values: dict:
              keys: valor
              values: probabilidade do valor
```

Deste modo, a probabilidade de cada classe poderá ser facilmente acessada.

In [23]:
probs = []
probcl = []

''' Calcula a probabilidade de cada classe, para cada iteração do k-fold'''
for i in range(0,k):
    
    ''' Cria os dicionarios de dados'''
    probabilities.append({})
    probabilitesPerClass.append({})
    
    ''' Itera entre as classes '''
    for x in classes:
        
        ''' Obtém os exemplos somente daquela classe '''
        df_classes = df[df[target]==x][features]
        
        ''' Total de amostras da classe'''
        samplesPerClass = len(df_classes)
        
        ''' Vetor de probabilidades (que conterá cada atributo) '''
        cols_prob = {}
        
        ''' Itera entre os atributos '''
        for col in dfcl.columns:
            ''' Vetor de probabilidades por'''
            cols_prob = {}
            
            ''' Itera entre os valores unicos de cada classe '''
            for val, count in dfcl[col].value_counts().iteritems():
                
                ''' Calcula a probabilidade de um item pertencer àquela classe'''
                prob = count/samplesPerClass
                
                ''' Salva a probabildiade daquela classe '''
                col_prob[val] = prob
                
            ''' Salva a probabilidade de um atributo no vetor de probabilidades'''
            cols_prob[col] = col_prob
        
        ''' Salva a quantidade de valores únicos para cada atributo para aquela classe '''
        probabilities[i][x] = cols_prob
        
        ''' Salva a probabilidade de um elemento pertencer àquela classe '''
        probabilitesPerClass[i][x] = len(df_classes)/len(df)

        
''' 
Calcula a probabilidade dos elementos de um dataset (de testes)
i -> Iteração do k_Fold
x -> Pandas.Series
 
'''    
def probabs(i, x):    
    
    ''' Argumento deve ser do tipo Serie'''
    if not isinstance(x,pd.Series):
        raise IOError("Argumento deve ser do tipo Pandas.Series")
    
    
    prob = {}
    for cl in classes:
        pr = probcl[i][cl]
        for col,val in x.iteritems():
            try:
                pr *= probs[i][cl][col][val]
            except KeyError:
                pr = 0
        prob[cl] = pr
    return prob

def classify(i, x):
    # i - Iteração K-Fold
    # x - DataFrame Pandas com índices
    
    probab = probabs(i, x)
    mx = 0
    mxcl = ''
    for cl,pr in probab.items():
        if pr > mx:
            mx = pr
            mxcl = cl
            
    return mxcl

### Treinamento

In [24]:
b = []

for l in range(0,k):
    for j in train[l].index:
        # print(classify(l, train[l].loc[j,features]), train[l].loc[j])
        # print('')
        b.append([])
        b[l].append(classify(l, train[l].loc[j,features]) == train[l].loc[j,target])
    
    print(sum(b[l]),"corretos de ",len(train[l]))
    print("Precisão:", sum(b[l])/len(train[l]))
    print('')

677 corretos de  692
Precisão: 0.9783236994219653

678 corretos de  692
Precisão: 0.9797687861271677

677 corretos de  692
Precisão: 0.9783236994219653

678 corretos de  692
Precisão: 0.9797687861271677

677 corretos de  692
Precisão: 0.9783236994219653

678 corretos de  692
Precisão: 0.9797687861271677

677 corretos de  692
Precisão: 0.9783236994219653

678 corretos de  692
Precisão: 0.9797687861271677

677 corretos de  692
Precisão: 0.9783236994219653

679 corretos de  692
Precisão: 0.9812138728323699



### Teste

In [18]:
a = []

for l in range(0,k):
    for j in test[l].index:
        #print(classify(l, test[l].loc[j,features]), test[l].loc[j])
        #print('')
        a.append([])
        a[l].append(classify(l, test[l].loc[j,features]) == test[l].loc[j,target])
    
    print(sum(a[l]),"corretos de",len(test[l]))
    print("Precisão:", sum(a[l])/len(test[l]))
    print('')

17 corretos de 17
Precisão: 1.0

17 corretos de 17
Precisão: 1.0

17 corretos de 17
Precisão: 1.0

17 corretos de 17
Precisão: 1.0

17 corretos de 17
Precisão: 1.0

17 corretos de 17
Precisão: 1.0

17 corretos de 17
Precisão: 1.0

17 corretos de 17
Precisão: 1.0

17 corretos de 17
Precisão: 1.0

17 corretos de 17
Precisão: 1.0

