In [2]:
#importando as bibliotecas para treinamento do modelo de Classificação e os dados de um dataset sobre a incidência 
# de câncer de mama em mulhres, para saber mais sobre o conjunto de dados acesse: 
# https://cdas.cancer.gov/datasets/plco/19/#:~:text=The%20Breast%20dataset%20is%20a,cancer%20diagnosed%20in%20the%20trial.

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification

In [83]:
import pandas as pd
import numpy as np

In [54]:
ds = datasets.load_breast_cancer()

In [55]:
print(ds.feature_names)

['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']


In [125]:
#os 2 tipos alvos são dois tipos de cancer, onde 0 - representa maligno e  1- benigno
print(ds.target_names) 

['malignant' 'benign']


In [78]:
df_dados = pd.DataFrame(ds.data,columns=ds.feature_names)
df_dados['target'] = pd.Series(ds.target)
df_dados.shape

(569, 31)

In [58]:
df_dados['target'].value_counts()

1    357
0    212
Name: target, dtype: int64

In [80]:
#fazendo a seleção e separação dos dados para treinamento e validação usando a função iloc
dados = df_dados.iloc[:,:-1]
saida_alvos = df_dados.iloc[:,-1:]

In [160]:
#chamando a função do algoritmo Random Forest para poder aplicar a classificação e já passando todos os dados de entrada e
# alvos de saída. Nesta etapa o algoritmo já realiza um embaralhamento dos dados
classificacao = RandomForestClassifier()
classificacao.fit(dados,saida_alvos.values.ravel())

In [161]:
#verificando a média de classificação da importância de cada feature(recurso) dentro do df feita pelo modelo de classificação
print(classificacao.feature_importances_)

[0.03763587 0.01438912 0.02928637 0.05031222 0.00573485 0.01347155
 0.04502465 0.11493201 0.00371469 0.00379775 0.01066391 0.00437863
 0.01141627 0.02811602 0.00354751 0.00532646 0.00623323 0.00331376
 0.00341575 0.00495969 0.14551959 0.01955267 0.07062584 0.1415587
 0.01179964 0.01980819 0.05687289 0.11834514 0.01081954 0.00542751]


In [162]:
#realizando um pequeno teste com uma única entrada para verificar se os dados foram recebidos corretamente
print(classificacao.predict(dados.iloc[[50]]))

[1]


In [163]:
#criando a etapa de fatiamento dos dados para o treinamento e validação, onde irei utilizar 80% para treinamento e 20% validação
dados_treinamento_base, dados_test_a, dados_treinamento_alvo, alvo_test_b = train_test_split(dados,saida_alvos,test_size=0.2)

In [164]:
#verificando como ficou a divisão dos dados após o split e embaralhamento 
dados_treinamento_base.shape, dados_treinamento_alvo.shape

((455, 30), (455, 1))

In [165]:
dados_test_a.shape, alvo_test_b.shape

((114, 30), (114, 1))

In [171]:
#passando os dados criados após o split para a função de treinamento Random Forest e fazendo o treinamento usando o algoritmo
# a função values.ravel() converte a estrutura de dados de DataFrame para vetor sem alterar os valores
classificacao.fit(dados_treinamento_base, dados_treinamento_alvo.values.ravel())

In [172]:
#verificando agora após o treinamento a previsão para os dados de validação separados no split 
# a fim de verificar como foi o processo de treinamento, mostrando os dados que foram previstos e os atuais que vieram do DataSet

print(classificacao.predict(dados_test_a))

print("\nPara 114 casos de pacientes o algoritmo previu o resultado acima para os tipos de câncer, sendo que o resultado original era: \n")

print(alvo_test_b.values.ravel())

[0 1 1 1 0 1 1 1 0 0 0 0 1 1 0 1 1 1 0 0 1 1 1 0 1 1 1 0 1 0 1 0 0 1 1 1 0
 0 1 1 0 0 0 1 1 0 0 1 1 1 0 0 1 1 0 1 1 1 0 1 0 1 1 1 0 1 1 1 0 1 1 1 0 0
 1 1 0 1 1 1 0 0 1 1 0 1 0 1 0 0 1 0 0 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 1 1 1
 0 0 0]

Para 114 casos de pacientes o algoritmo previu o resultado acima para os tipos de câncer, sendo que o resultado original era: 

[0 1 1 1 0 1 1 1 0 0 0 0 1 1 0 1 1 1 0 0 0 1 1 0 1 1 0 0 1 0 1 0 0 1 1 1 0
 0 1 1 0 0 0 1 0 0 0 1 1 1 0 0 1 1 0 1 1 1 0 1 0 1 1 1 0 1 1 1 0 1 1 1 0 0
 1 1 0 1 1 1 0 1 1 1 0 1 0 1 0 0 1 0 0 1 1 1 1 1 1 1 0 1 1 0 1 0 1 0 1 1 1
 0 1 0]


In [177]:
#mostrando ao final do treinamento e comparação qual foi o Score(precisão) em % do algoritmo para essa execução de treinamento
classificacao.score(dados_test_a, alvo_test_b)
# LEMBRANDO que a cada execução de embaralhamento dos dados realizado anteriormente o algoritmo irá apresentar 
# um novo compartamento, pois, os dados foram embaralhados novamente gerando novas sequências de dados. 

0.9473684210526315

In [178]:
ds.target_names

array(['malignant', 'benign'], dtype='<U9')