# Naive Bayes - Weka vs Python

Este _notebook_ tem como objetivo testar o algoritmo Naive Bayes do Weka versus uma implementação feita em Python. Para este teste, foi escolhida a base com dados de Diabetes (`diabetes.arff`) disponibilizada pelo próprio Weka, em sua pasta de instalação (no meu caso, `C:\Program Files\Weka-3.8\data\diabetes.arff`).

### Weka

A fim de testar o algoritmo no Weka:

- Primeiro foi realizado o download do software [neste link](https://www.cs.waikato.ac.nz/~ml/weka/downloading.html) e concluída sua instalação.
- Em seguida, a base em questão foi escolhida, assim como o classificador `NaiveBayes` na aba **_Classify_**
- Foi iniciada a análise, clicando-se no botão `Start`, obtendo-se o seguinte resultado:

![Resultado do Weka](weka-result.png)

Portanto, a seguinte acurácia foi obtida:

| Acurácia | Erro |
|------|-----|
| 76.3021 % | 23.6979 % |


### Python

Para implementar 

In [115]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB, MultinomialNB
from sklearn.metrics import accuracy_score
import numpy as np
import random

%matplotlib inline

In [104]:
def read_data(filename: str = ''):
    """
    Read data from file
    
    Parameters:
        - filename: file name to read data from
    
    Returns:
        - numpy array containing dataset
    """
    dataset, labels = [], []
    
    # Read file
    text = open(filename, 'r').readlines()
    
    # Iterate over lines
    for line in text:
        # Remove '\n' and split data
        fields = line.replace('\n', '').split(';')
        dataset.append([float(x) for x in fields[:-1]])
        
        # Last field is the output class
        labels.append(fields[-1])            
    
    return np.array(dataset), np.array(labels)

### Lendo os dados

Primeiro, lê-se os dados da base do Weka, removendo-se os dados indesejados e tratando-os com a função `read_data()`

In [157]:
dataset, labels = read_data('data.csv')

###  Divisão dos dados

A função `train_test_split()` do `sklearn` divide o _dataset_ em uma parte de teste e outra de treino de acordo com o parâmetro `test_size` passado.

In [158]:
data_train, data_test, labels_train, labels_test = train_test_split(dataset, labels, test_size=0.20, random_state=50)

### Treinamento do Classificador

Os passos abaixo criam um Classificador Gaussiano de Naive Bayes e o treinam com os dados de teste. Com isso, a acurácia é calculada, chamando a função `accuracy_score` do _sklearn_.

In [159]:
# Cria um classificador Gaussiano
model = GaussianNB().fit(data_train, labels_train)

# Resultado de previsão 
predicted = model.predict(dataset)

# Calcula a acurácia do modelo
accuracy_score(labels, predicted)

0.7591145833333334

### Comparativo

A acurácia do teste com o Weka se mostrou um pouco superior ao teste feito com a biblioteca *sklearn* do Python. Abaixo se encontra o demonstrativo:

| Weka | Python | Diferença |
|-----|-----|-----|
| 76.30 % | 75.91 % | 0.39% |