Agora vamos criar nosso classificador Naive Bayes em Python. Inicialmente, podemos definir o Naive Bayes um modelo que se baseia no Teorema de Bayes e seu principal intuíto é classificar um objeto em uma determina classe de acordo com a probabilidade deste objeto pertencer a essa classe. 

Funcionamento do Naive Bayes:

- Considere uma base de dados de treinamento contendo amostras classificadas em m classes distintas [c1, c2, c3,...cm]

- Suponha que x é uma amostra a ser classificada (não está ma base de dados de treinamento). O classificador Naive Bayes, atribui x à classe c1 se a probabilidade condicional P[c1|x] é a mais alta, ou seja, P[c1|x] > P[cj|x], para todo cj, cj != ci

    - P[ci|x] = probabilidade de um exemplo x peretencer à classe ci

- Existem 3 tipos de modelos Naive Bayes chamados Gaussian, Multinomial e Bernoulli na biblioteca sklearn. 

Vamos continuar utilizando o data set Breast Cancer Wisconsin Diagnostic para o estudo e dos modelos descristos acima, iremos utilizar o Gaussian. O primeiro passo é, portanto, importar a biblioteca sklearn e carregar o dataset. 

In [5]:
import sklearn
from sklearn.datasets import load_breast_cancer
dataset = load_breast_cancer()

Organizando os dados da seguinte forma:

In [6]:
label_names = dataset['target_names']
labels = dataset['target']
feature_names = dataset['feature_names']
features = dataset['data']

Imprimindo os rótulos das classes (maligno e benigno)

In [7]:
print(label_names)

['malignant' 'benign']


O comando abaixo mostra que a amostra está mapeada para os valores binários, onde 0 representa a classe maligna e 1 representa a classe benigna. 

In [8]:
for i in range(20):
    print("\n ",labels[i])


  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  1


No código abaixo, iremos produzir os nomes dos atributos e os valores dos atributos. Podemos perceber que para cada instância de dados, temos um total de 30 atributos e seus nomes vão de mean radius, mean texture, mean perimeter, etc.  

In [9]:
for i in range (30):
    print(feature_names[i]) 
print (features[0])

mean radius
mean texture
mean perimeter
mean area
mean smoothness
mean compactness
mean concavity
mean concave points
mean symmetry
mean fractal dimension
radius error
texture error
perimeter error
area error
smoothness error
compactness error
concavity error
concave points error
symmetry error
fractal dimension error
worst radius
worst texture
worst perimeter
worst area
worst smoothness
worst compactness
worst concavity
worst concave points
worst symmetry
worst fractal dimension
[1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
 1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02
 6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01
 1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01
 4.601e-01 1.189e-01]


Agora vamos dividir o dataset em um conjunto de treinamento e em um conjunto de teste. Isso pode ser feito a partir da função train_test_split que precisamos importar abaixo:

In [10]:
from sklearn.model_selection import train_test_split

Agora vamos dividir em 40% para conjunto de treinamento e o restante para conjunto teste com o comando abaixo:

In [11]:
train, test, train_labels, test_labels = train_test_split(features, labels, test_size = 0.40, random_state=42)

Vamos importar o modelo Gaussian do Naive Bayes e inicializar o modelo. 

In [13]:
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()

Vamos treinar o modelo ajustando os dados utilizando a função fit, onde ajusta o Gaussian Naive Bayes de acordo com uma matriz x,y, onde x são os vetores de treinamento (número de amostras e número de atributos) e y os valores correspondentes.  

In [16]:
model = gnb.fit(train, train_labels) 

Avaliar o modelo, realizando a predição nos dados de teste, ou seja, ele vai predizer valores (0 ou 1) para as classificações no conjunto de teste. 

In [17]:
preds = gnb.predict(test)
print(preds)

[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0
 1 1 1 1 1 1 0 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0
 1 1 0 0 0 1 1 1 0 0 1 1 0 1 0 0 1 1 0 0 0 1 1 1 0 1 1 0 0 1 0 1 1 0 1 0 0
 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 0
 0 1 1 0 1 0 1 1 1 1 0 1 1 0 1 1 1 0 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1
 0 0 1 1 0 1]


A série acima de 0's e 1's são os valores previstos para as classes tumorais, ou seja, malignos e benignos. Agora, vamos comparar as duas matrizes test_labels e preds para descobrir a precisão do nosso modelo utilizando a função accuracy_score. 

In [18]:
from sklearn.metrics import accuracy_score
print(accuracy_score(test_labels, preds))

0.9517543859649122


Nesse caso, obtivemos 95,17% de precisão no nosso modelo. 