O processo de classificação é importante para que o algoritmo aprenda a partir dos dados de treinamento, onde estará indicado cada ponto de dado e sua devida classificação. Supondo que queremos desenvolver um algoritmo para classificar se uma imagem é um carro ou não, nesse caso teríamos um conjunto de imagens de treinamento com a classe é carro e com a classe não é carro. Em seguida, precisamos treinar o algoritmo utilizando as amostras de treinamento. É bastante utilizado em reconhecimento facil, identificação de Spam, entre outros. Para o primeiro passo, iremos importar a nossa biblioteca de sklearn. 

In [1]:
import sklearn

A partir de agora, iremos utilizar um banco de dados com a biblioteca. O banco de dados escolhido para esse estudo foi sobre diagnóstico de câncer de mama Wisconsin, em que é composto por vários tipos de tumores e duas classificações: "maligno" ou "benigno". Para importar o conjunto de dados descrito, basta importar o dataset com sklearn.

In [2]:
from sklearn.datasets import load_breast_cancer

Agora, precisamos carregar o dataset: 

In [3]:
dataset = load_breast_cancer()

O dicionário é composto por uma lista de chaves,

Nomes dos rótulos das classificações (target_name)
Os rótulos reais (target)
Nomes de atributo/recurso (feature_names)
O atributo (feature)

Para melhor organização, iremos criar novas variáveis para cada chave acima conforme o código abaixo. 

In [5]:
label_names = dataset['target_names']
labels = dataset['target']
feature_names = dataset['feature_names']
features = dataset['data']

Vamos imprimir os rótulos de classe (maligno e benigno):

In [6]:
print(label_names)

['malignant' 'benign']


Vamos exibir o rótulo de 20 instâncias de dados, onde é possível perceber que eles estão mapeados para os valores binários 0 e 1, onde 0 representa a classificação maligno e 1 benigno, contendo majoritariamente classificação maligno e apenas uma classificação para benigno.  

In [16]:
for i in range(20):
    print("\n ",labels[i])


  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  0

  1


No código abaixo, iremos produzir os nomes dos atributos e os valores dos atributos. Podemos perceber que para cada instância de dados, temos um total de 30 atributos e seus nomes vão de mean radius, mean texture, mean perimeter, etc.  

In [17]:
for i in range (30):
    print(feature_names[i])
print (features[0])

mean radius
mean texture
mean perimeter
mean area
mean smoothness
mean compactness
mean concavity
mean concave points
mean symmetry
mean fractal dimension
radius error
texture error
perimeter error
area error
smoothness error
compactness error
concavity error
concave points error
symmetry error
fractal dimension error
worst radius
worst texture
worst perimeter
worst area
worst smoothness
worst compactness
worst concavity
worst concave points
worst symmetry
worst fractal dimension
[1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
 1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02
 6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01
 1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01
 4.601e-01 1.189e-01]


Agora iremos dividir o dataset em dois conjuntos, um para treinamento e outro para teste. Para realizar essa divisão, o sklearn fornece a função train_test_split() e para isso iremos importar ela no nosso código. 

In [18]:
from sklearn.model_selection import train_test_split

Agora vamos dividir o dataset em 40% para teste e 60% para treinamento. 

In [19]:
train, test, train_labels, test_labels = train_test_split(features, labels, test_size = 0.40, random_state=42)

Para construir o modelo de classificação, vamos utilizar os conceitos do algoritmo Naive Bayes. Nesse caso precisamos fazer a sua importação através do comando abaixo:

In [20]:
from sklearn.naive_bayes import GaussianNB

Agora utilizamos o comando para inicializar o modelo.

In [21]:
gnb = GaussianNB()

Agora, vamos ajustar os dados utilizando o comando fit. 

In [24]:
model = gnb.fit(train, train_labels)


Agora vamos executar a classificação em uma matriz de vetores de teste.

In [25]:
preds = gnb.predict(test)
print(preds)

[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0
 1 1 1 1 1 1 0 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0
 1 1 0 0 0 1 1 1 0 0 1 1 0 1 0 0 1 1 0 0 0 1 1 1 0 1 1 0 0 1 0 1 1 0 1 0 0
 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 0
 0 1 1 0 1 0 1 1 1 1 0 1 1 0 1 1 1 0 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1
 0 0 1 1 0 1]


Agora vamos realizar a comparação das duas matrizes, test_labels e preds para descobrir a precisão do modelo. Para isso vamos utilizar a função accuracy_score() para calcular a precisão, onde o conjunto de rótulos previstos para a amostra (preds) deve corresponder exatamente ao conjunto de rótulos correspondentes aos rótulos corretos. 

In [26]:
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(test_labels, preds)
print(accuracy)

0.9517543859649122


O resultado mostra que o classificados Naive Bayes teve 95,17% de precisão. 