# Implementação da Validação Cruzada na Base de Dados Breast Cancer
#### Usando validação cruzada para verificar a adaptação da rede neural artificial com os dados disponíveis.

### Importando as Bibliotecas Necessárias 

In [1]:
# importando as bibliotecas do python necessárias para construção e análise da rede neural

import pandas as pd
import numpy as np
import keras
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from sklearn.model_selection import cross_val_score

Using TensorFlow backend.


### Separando os Atributos Previsores e Meta

In [2]:
# separando os atributos previsores e meta do dataframe
previsores = pd.read_csv('entradas_breast.csv', encoding = 'utf-8', sep = ',')
classe = pd.read_csv('saidas_breast.csv', encoding = 'utf-8', sep = ',')

### Configurando a Rede Neural

In [3]:
# criando a rede neural artificial
def neural_network_config():

  # criando o objeto 'classificador'
  classificador = Sequential()
  # adicionando a primeira rede oculta
  classificador.add(Dense(units = ((30 + 1) // 2 + 1), activation = 'relu', 
                          kernel_initializer = 'random_uniform', input_dim = 30))
  # adicionando uma segunda rede oculta
  classificador.add(Dense(units = ((30 + 1) // 2 + 1), activation = 'relu', 
                          kernel_initializer = 'random_uniform'))
  # adicionando uma rede de saída
  classificador.add(Dense(units = 1, activation = 'sigmoid'))
  # configurando a função de otimização no ajuste de pesos 'adam'
  otimizador = keras.optimizers.Adam(lr = 0.001, decay = 0.0001, clipvalue = 0.5)
  # ajustando mais parâmetros da rede neural artificial
  classificador.compile(optimizer = otimizador, loss = 'binary_crossentropy', metrics = ['binary_accuracy'])

  # função retorna o classificador configurado
  return classificador

In [4]:
# configurando os parâmetros finais de treinamento da rede neural
classificador = KerasClassifier(build_fn = neural_network_config, epochs = 100, batch_size = 10)

### Validação Cruzada

In [5]:
# adicionando a lista resultados os testes usando a validação cruzada
# será particionado a base de dados 10 vezes
resultados = cross_val_score(estimator = classificador, X = previsores, y = classe, cv = 10,
                             scoring = 'accuracy')

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

In [6]:
# visualizando os resultados obtidos com a validação cruzada
print(resultados)

[0.8245614  0.89473684 0.92982456 0.78947368 0.89473684 0.89473684
 0.87719298 0.9122807  0.84210526 0.80357143]


Observe que para diferentes particionamentos da base de daods é obtido uma acurácia diferente. Desse modo, o valor médio desses valores tende a indicar uma acurácia mais real do que seria com mais e mais dados a serem usados para classificação.

In [7]:
# obtendo o resultado médio dos testes feitos usando validação cruzada
media = resultados.mean()
print(media)

0.8663220551378445


A acurácia precisa desse algoritmo é 86.63%. Esse valor é o mais real que podemos obter. Para analisar se os dados estão configurados na rede neural artificial de forma consistente, é necessário analisar o desvio padrão entre os dados.

In [8]:
# obtendo o desvio padrão dos resultados obtidos na validação cruzada
desvio = resultados.std()
print(desvio)

0.04567150227851201


Como o desvio entre os valores médios das bases de dados é baixo, descartamos a ocorrência de overfitting na base de dados.


### Alguma Dúvida? Entre em Contato Comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br);