In [None]:
#https://www.digitalocean.com/community/tutorials/como-construir-um-classificador-de-machine-learning-em-python-com-scikit-learn-pt

In [1]:
import sklearn

In [2]:
#Passo 2 — Importando o Dataset do Scikit-learn


#Breast Cancer Wisconsin Diagnostic Database. 
from sklearn.datasets import load_breast_cancer

In [3]:
data = load_breast_cancer()

In [8]:
#O dataset tem 569 instâncias, ou dados, sobre 569 tumores e inclui informações sobre 30 atributos, ou características, 
#tais como o raio do tumor, textura, suavidade, e área.


In [9]:
#As chaves importantes do dicionário a considerar são os nomes dos rótulos de classificação (target_names), 

#os rótulos reais (target)

#os nomes de atributo/característica (feature_names),

#e os atributos (data)


# Organizar nossos dados
label_names = data['target_names']
labels = data['target']
feature_names = data['feature_names']
features = data['data']


Agora temos listas para cada conjunto de informações. Para entender melhor nosso conjunto de dados, vamos dar uma olhada em nossos dados imprimindo nossos rótulos de classe

In [16]:
print(labels[0])

0


In [10]:
print(label_names)

['malignant' 'benign']


In [13]:
print(feature_names[0])

mean radius


In [14]:
print(features[0])

[1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
 1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02
 6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01
 1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01
 4.601e-01 1.189e-01]


Como mostra a imagem, nossos nomes de classes são malignant and benign (maligno e benigno), que são então mapeados para valores binários de 0 e 1, onde 0 representa tumores malignos e 1 representa tumores benignos. Portanto, nossa primeira instância de dados é um tumor maligno cujo raio médio é 1.79900000e+01.

In [None]:
##Passo 3 — Organizando Dados em Conjuntos

Para avaliar o desempenho de um classificador, você deve sempre testar o modelo em dados não visualizados. Portanto, antes da construção de um modelo, divida seus dados em duas partes: um conjunto de treinamento e um conjunto de testes.

Você usa o conjunto de testes para treinar e avaliar o modelo durante o estágio de desenvolvimento. Então você usa o modelo treinado para fazer previsões no conjunto de testes não visualizado. Essa abordagem lhe dá uma noção do desempenho e robustez do modelo.

Felizmente, o sklearn tem uma função chamada train_test_split(), que divide seus dados nesses conjuntos. Importe a função e em seguida utilize-a para dividir os dados:

In [17]:
from sklearn.model_selection import train_test_split


In [18]:
# Dividir nossos dados
train, test, train_labels, test_labels = train_test_split(features,
                                                          labels,
                                                          test_size=0.33,
                                                          random_state=42)

A função divide aleatoriamente os dados usando o parâmetro test_size. Neste exemplo, agora temos um conjunto de testes (test) que representa 33% do dataset original. Os dados restantes (train) formam então os dados de treinamento. Também temos os respectivos rótulos para ambas as variáveis train/test, ou seja, train_labels e test_labels.

Agora podemos passar para o treinamento do nosso primeiro modelo.

In [19]:
##Passo 4 — Construindo e Avaliando o Modelo

Existem muitos modelos para machine learning, e cada modelo tem seus pontos fortes e fracos. Neste tutorial, vamos nos concentrar em um algoritmo simples que geralmente funciona bem em tarefas de classificação binária, 
a saber Naive Bayes (NB).

### Treine

In [20]:
#Primeiro, importe o módulo GaussianNB. 


#Em seguida inicialize o modelo com a função GaussianNB(), 


#depois treine o modelo, ajustando-o aos dados usando gnb.fit():

In [21]:
from sklearn.naive_bayes import GaussianNB


In [22]:
# Inicializar nosso classificador
gnb = GaussianNB()

In [23]:
# Treinar nosso classificador
model = gnb.fit(train, train_labels)


### Predict

Depois de treinarmos o modelo, podemos usar o modelo treinado para fazer previsões no nosso conjunto de teste, o que fazemos utilizando a função predict(). A função predict() retorna uma matriz de previsões para cada instância de dados no conjunto de testes. Podemos então, imprimir nossas previsões para ter uma ideia do que o modelo determinou.

Utilize a função predict() com o conjunto test e imprima os resultados:

In [24]:
# Fazer previsões
preds = gnb.predict(test)
print(preds)

[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0
 1 1 1 1 1 1 0 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0
 1 1 0 0 0 1 1 1 0 0 1 1 0 1 0 0 1 1 0 0 0 1 1 1 0 1 1 0 0 1 0 1 1 0 1 0 0
 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 0 1 1 0 1 1 1 1 1 1 0 0
 0 1 1]


Como você vê na saída do Jupyter Notebook, a função predict() retornou uma matriz de 0s e 1s que representa nossos valores previstos para a classe tumor (maligno vs. benigno).

Agora que temos nossas previsões, vamos avaliar o desempenho do nosso classificador.

### Avalie

In [25]:
from sklearn.metrics import accuracy_score

In [26]:
# Avaliar a precisão
print(accuracy_score(test_labels, preds))


0.9414893617021277
