# Naïve Bayes


Ilustra o funcionamento do algoritmo de Naïve Bayes com atributos numéricos.

Este notebook foi desenvolvido para o ambiente GOOGLE COLAB ([colab.research.google.com](https://colab.research.google.com)).

Prof. Cristiano Carvalho

-------------------------------------------------------------------------------

### Base de dados: Iris dataset (espécies de lírios)

https://archive.ics.uci.edu/ml/datasets/Iris/

3 classes (setosa, virginica, versicolor)

50 amostras por classe

4 atributos reais positivos (comp. pétala, comp. sépala, larg. pétala, larg. sépala)

### Carga dos dados e particionamento das bases de treinamento e teste

<code>train_test_split(X, y) -- particiona a base de dados original em bases de treinamento e teste.</code>

80% da base é utilizada para treinamento e 20% para testes.



In [None]:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB  # Suporta features com valores contínuos: https://www.quora.com/What-is-the-difference-between-the-classical-Naive-Bayes-and-the-Gaussian-Naive-Bayes
                                            # https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html
                                            # um pouco mais sobre esta implementação:
                                            #    https://dataaspirant.com/gaussian-naive-bayes-classifier-implementation-python/
from sklearn.metrics import confusion_matrix, classification_report


iris = load_iris()
iris['data'][0:3]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2]])

In [None]:
# iris

In [None]:
# Precisamos do LabelEncoder?

iris['target']

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [None]:
X = iris['data']
y = iris['target']

X_train, X_test, y_train, y_test = train_test_split(
                                X, y,
                                random_state=123, test_size=0.20)

### Indução do Modelo Gaussian Naïve Bayes

O Gaussian Naïve Bayes é o algoritmo capaz de induzir um modelo a partir de dados numéricos.

Os três passos para indução de um modelo são:

1.   Instanciar o modelo: ```GaussianNB()```
2.   Treinar o modelo: ```fit()```
3.   Testar o modelo: ```predict()```



In [None]:
# ACURÁCIA NO TREINO

nb_model = GaussianNB()

nb_model = nb_model.fit(X_train, y_train)
print("Acurácia do modelo no treino:", round(nb_model.score(X_train, y_train),2)*100)

Acurácia do modelo no treino: 97.0


In [None]:
# ACURÁCIA NO TESTE

ac = nb_model.score(X_test, y_test)

print("Acurácia do modelo no teste:", round(ac,2)*100)

Acurácia do modelo no teste: 97.0


In [None]:
y_pred = nb_model.predict(X_test)

y_pred

array([1, 2, 2, 1, 0, 2, 1, 0, 0, 1, 2, 0, 1, 2, 2, 2, 0, 0, 1, 0, 0, 1,
       0, 2, 0, 0, 0, 2, 2, 0])

In [None]:
# nb_model.__dict__

In [None]:
# gabarito de teste

y_test

array([1, 2, 2, 1, 0, 2, 1, 0, 0, 1, 2, 0, 1, 2, 2, 2, 0, 0, 1, 0, 0, 2,
       0, 2, 0, 0, 0, 2, 2, 0])

In [None]:
(y_test != y_pred).sum()

1

In [None]:
print("Número de erros de classificação {0} de {1}"
      .format((y_test != y_pred).sum(), len(y_pred)))

Número de erros de classificação 1 de 30


In [None]:
print(classification_report(y_test, y_pred, target_names=iris.target_names))

cnf_matrix = confusion_matrix(y_test, y_pred)
cnf_table = pd.DataFrame(data=cnf_matrix, index=iris.target_names, columns=[x + "(prev)" for x in iris.target_names])

print(cnf_table)

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        13
  versicolor       0.86      1.00      0.92         6
   virginica       1.00      0.91      0.95        11

    accuracy                           0.97        30
   macro avg       0.95      0.97      0.96        30
weighted avg       0.97      0.97      0.97        30

            setosa(prev)  versicolor(prev)  virginica(prev)
setosa                13                 0                0
versicolor             0                 6                0
virginica              0                 1               10
