# REDES NEURAIS ARTIFICIAIS

# PARTE 1: Classificação Binária - Diagnóstico de Câncer de Mama

Base de dados: Breast Cancer Wisconsin (Diagnostic) -
https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

In [106]:
#bilbiotecas keras e tensorflow
#!pip install scikeras==0.13.0

In [107]:
#!pip install tensorflow==2.16.1 scikit-learn==1.5.0

In [108]:
# após instalar as bibliotecas, é necessário reiniciar o notebook
# Para isso, rode esta célula sozinha antes de prosseguir.
#exit()

In [109]:
import pandas as pd
import tensorflow as tf
import sklearn
import scikeras

In [110]:
pd.__version__, tf.__version__, sklearn.__version__, scikeras.__version__

('2.3.3', '2.16.1', '1.5.0', '0.13.0')

### Carregar os dados

1) Carregue a base de dados, faça a divisão de treino e teste (para isso, utilize a função train_test_split do sklearn), como o tamanho da base de teste de 0.25.

In [111]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

# Carregar os dados
X = pd.read_csv('dados_breast.csv').values
y = pd.read_csv('rotulos_breast.csv', header=None).values.ravel()

# Garantir que X e y tenham o mesmo tamanho (ajustar y para o tamanho de X)
min_size = min(len(X), len(y))
X = X[:min_size]
y = y[:min_size]

# inicialmente os arquivos tinham uma diferença de tamanho (um era maior que o outro)
print(f"Tamanho de X: {X.shape}")
print(f"Tamanho de y: {y.shape}")

# Dividir em treino e teste (75% treino, 25% teste)
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(X, y, test_size=0.25, random_state=42)

Tamanho de X: (569, 30)
Tamanho de y: (569,)


In [112]:
X_treinamento.shape, y_treinamento.shape

((426, 30), (426,))

In [113]:
X_teste.shape, y_teste.shape

((143, 30), (143,))

### Estrutura da Rede Neural Artificial e Teste

In [114]:
from scikeras.wrappers import KerasClassifier
from sklearn.model_selection import cross_val_score
from tensorflow.keras.models import Sequential
import tensorflow as tf
from tensorflow.keras import backend as k

2) Crie a RNA com as seguintes configurações:

a) uma camada de entrada de com 30 neurônios;

b) uma camada oculta densa com 16 neurônios. Porque a camada oculta tem essa quantidade de neurônios?

c) adicione na camada oculta a função de ativação relu e inicialize os pesos de utilize o Random uniform initializer (https://www.tensorflow.org/api_docs/python/tf/keras/initializers);

d) adicione a camada de saíde com a função de ativação sigmoid. Porque foi utilizada esta função para a saída da RNA?

3) Porque utilizamos a classe chamada Sequential para a RNA?

In [115]:
# Criar a Rede Neural Artificial
rede_neural = Sequential([
    # a) Camada de entrada com 30 neurônios (30 features do dataset)
    tf.keras.layers.InputLayer(shape=(30,)),

    # b) e c) Camada oculta densa com 16 neurônios, ativação relu e inicializador random_uniform
    tf.keras.layers.Dense(units=16, activation='relu', kernel_initializer='random_uniform'),

    # d) Camada de saída com 1 neurônio e ativação sigmoid (classificação binária)
    tf.keras.layers.Dense(units=1, activation='sigmoid')
])

**Respostas:**

**b)** A camada oculta tem 16 neurônios como uma escolha heurística que equilibra capacidade de aprendizado e complexidade. Geralmente, usa-se um número entre a quantidade de entradas (30) e saídas (1). O valor 16 é suficiente para capturar padrões nos dados sem causar overfitting excessivo.

**d)** A função sigmoid foi utilizada na saída porque estamos fazendo classificação binária (0 ou 1: benigno ou maligno). A sigmoid transforma qualquer valor em um número entre 0 e 1, que pode ser interpretado como probabilidade da amostra pertencer à classe positiva.

**3)** Utilizamos a classe Sequential porque ela permite criar modelos de forma linear e sequencial, onde as camadas são empilhadas uma após a outra. É ideal para redes neurais feedforward simples onde cada camada tem exatamente uma entrada e uma saída.

4) A partir da RNA gerada, explique o que são os valores apresentados na tabela da rede_neural.summary()

In [116]:
rede_neural.summary()

**Resposta 4:** A tabela do summary() mostra:
- **Layer (type)**: O tipo de cada camada (InputLayer, Dense)
- **Output Shape**: Formato da saída de cada camada (None, número_neurônios), onde None representa o batch size
- **Param #**: Número de parâmetros treináveis em cada camada. Para camadas Dense, é calculado como: (neurônios_entrada × neurônios_saída) + neurônios_saída (bias)
  - Primeira camada oculta: (30 × 16) + 16 = 496 parâmetros
  - Camada de saída: (16 × 1) + 1 = 17 parâmetros
  - **Total**: 513 parâmetros treináveis

5) Adicione um otimizador Adam (https://www.tensorflow.org/api_docs/python/tf/keras/optimizers) e especifique a classe loss binário - binary crossentropy (https://www.tensorflow.org/api_docs/python/tf/keras/losses) e a classe metrics para utilizar a métrica de avaliação de acurácia binária (https://www.tensorflow.org/api_docs/python/tf/keras/metrics)

6) Para que servem os otimizadores? Como o otimizador Adam funciona?

7) Depois de estruturados os parâmtros da RNA, utilize a função .fit para fazer o treinamento da rede. Como foi utilizado o otimizador Adam, e ele é baseado na descida do gradiente estocástica, é possível definir a quantidade de registros que serão enviados para a RNA, isto é, em cada batch serão utilizados 10 registros. Quantos batches serão utilizados ao total?

8) Por fim, defina o número de épocas em que ocorre o treinamento igual a 100.

In [117]:
# 5) Compilar a rede neural com otimizador Adam, loss binary_crossentropy e métrica binary_accuracy
rede_neural.compile(optimizer='adam', loss='binary_crossentropy', metrics=['binary_accuracy'])

**Respostas:**

**6)** Os otimizadores servem para ajustar os pesos da rede neural durante o treinamento, minimizando a função de perda. O Adam (Adaptive Moment Estimation) combina as vantagens de dois outros otimizadores: RMSprop e Momentum. Ele adapta a taxa de aprendizado individualmente para cada parâmetro, usando médias móveis dos gradientes e dos quadrados dos gradientes, tornando-o eficiente e convergindo rapidamente.

**7)** Com batch_size=10 e 426 amostras de treino (75% de 569), teremos aproximadamente 43 batches por época (426 ÷ 10 = 42.6, arredondado para 43).

In [118]:
# 7) e 8) Treinar a rede neural com batch_size=10 e epochs=100
rede_neural.fit(X_treinamento, y_treinamento, batch_size=10, epochs=100)

Epoch 1/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - binary_accuracy: 0.5070 - loss: 18.7138   
Epoch 2/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - binary_accuracy: 0.5915 - loss: 5.0424
Epoch 3/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.5962 - loss: 3.8619
Epoch 4/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.5704 - loss: 3.7595
Epoch 5/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.5493 - loss: 3.4158
Epoch 6/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.5986 - loss: 3.3479
Epoch 7/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.5516 - loss: 2.4509
Epoch 8/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.5728 - l

<keras.src.callbacks.history.History at 0x13d7bc299d0>

9) Crie uma variável chamada previsoes para realizar a previsão dos dados de teste (X_teste) O resultado da rede deve ser um valor entre 0 e 1. Porque isso acontece?

In [119]:
previsoes = rede_neural.predict(X_teste)

[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 9ms/step 


In [120]:
# Visualizar as previsões
print("Primeiras 10 previsões:")
print(previsoes[:10])
print(f"\nValor mínimo: {previsoes.min():.4f}")
print(f"Valor máximo: {previsoes.max():.4f}")
print(f"Valor médio: {previsoes.mean():.4f}")
print(f"Todas as previsões estão entre 0 e 1: {(previsoes >= 0).all() and (previsoes <= 1).all()}")

Primeiras 10 previsões:
[[0.9129038 ]
 [0.8387115 ]
 [0.6453116 ]
 [0.58789384]
 [0.9855529 ]
 [0.98528045]
 [0.88414973]
 [0.72682714]
 [0.95018375]
 [0.8289818 ]]

Valor mínimo: 0.0000
Valor máximo: 1.0000
Todas as previsões estão entre 0 e 1: True


**Resposta 9:** O resultado está entre 0 e 1 porque a camada de saída usa a função de ativação sigmoid, que matematicamente transforma qualquer valor de entrada em um valor entre 0 e 1. Isso representa a probabilidade da amostra pertencer à classe positiva (maligno = 1). Valores próximos a 1 indicam alta probabilidade de ser maligno, e valores próximos a 0 indicam alta probabilidade de ser benigno.

10) Converta o resultado que está em probabilidade para valores binários com um limiar (treshold) de 0.5.

In [121]:
previsoes = previsoes > 0.5

In [122]:
previsoes

array([[ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [False],
       [ True],
       [ True],
       [ True],
       [False],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [False],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [False],
       [False],
       [False],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [ True],
       [

9) Explique o resultado da RNA.

In [123]:
rede_neural.evaluate(X_teste, y_teste)

[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step - binary_accuracy: 0.5455 - loss: 2.2417  


[2.2417242527008057, 0.5454545617103577]

**Resposta:** O método `evaluate()` retorna dois valores: a perda (loss) e a acurácia binária. A perda indica o quão distantes estão as previsões dos valores reais (quanto menor, melhor). A acurácia binária mostra a porcentagem de classificações corretas no conjunto de teste. Esses resultados permitem avaliar o desempenho do modelo em dados não vistos durante o treinamento.

## Camadas e Otimização da RNA

10) Adicione mais uma camada para oculta densa com 16 neurônio com a função de ativação relu e inicialize os pesos de utilize o Random uniform initializer. Qual o total de parâmetros da RNA agora?

In [124]:
# Recriar a rede neural com duas camadas ocultas
rede_neural = Sequential([
    tf.keras.layers.InputLayer(shape=(30,)),
    tf.keras.layers.Dense(units=16, activation='relu', kernel_initializer='random_uniform'),
    tf.keras.layers.Dense(units=16, activation='relu', kernel_initializer='random_uniform'),  # Nova camada
    tf.keras.layers.Dense(units=1, activation='sigmoid')
])

In [125]:
rede_neural.summary()

11) Abaixo são adicionados os parâmetros do otimizador, que são a taxa de aprendizado e o clipvalue. O que eles fazem?

In [126]:
otimizador = tf.keras.optimizers.Adam(learning_rate = 0.001, clipvalue = 0.5)
rede_neural.compile(optimizer = otimizador, loss = 'binary_crossentropy', metrics = ['binary_accuracy'])

**Resposta 11:**
- **learning_rate (taxa de aprendizado)**: Controla o tamanho dos passos que o otimizador dá ao ajustar os pesos. Um valor de 0.001 significa passos pequenos e cuidadosos, evitando oscilações mas permitindo convergência gradual.
- **clipvalue**: Limita os gradientes ao intervalo [-0.5, 0.5]. Isso previne o problema de "gradientes explosivos" (exploding gradients), onde gradientes muito grandes podem desestabilizar o treinamento.

12) Teste novamente a RNA. Aumentar a quantidade de camadas melhorou ou piorou os resultados? Explique o que aconteceu com a RNA e porque.

In [127]:
rede_neural.fit(X_treinamento, y_treinamento, batch_size = 10, epochs = 100)

Epoch 1/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - binary_accuracy: 0.4812 - loss: 1.7996
Epoch 2/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.6362 - loss: 0.7585
Epoch 3/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.6268 - loss: 0.7243
Epoch 4/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - binary_accuracy: 0.6385 - loss: 0.6999 
Epoch 5/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - binary_accuracy: 0.6479 - loss: 0.6915 
Epoch 6/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.6573 - loss: 0.6811
Epoch 7/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.6315 - loss: 0.6944
Epoch 8/100
[1m43/43[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.6690 - los

<keras.src.callbacks.history.History at 0x13d796c45d0>

In [128]:
previsoes = rede_neural.predict(X_teste)

[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 13ms/step


In [129]:
rede_neural.evaluate(X_teste, y_teste)

[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 8ms/step - binary_accuracy: 0.5594 - loss: 1.0173  


[1.017337679862976, 0.559440553188324]

**Resposta 12:** O resultado pode variar, mas geralmente adicionar mais camadas aumenta a capacidade da rede de aprender padrões complexos. No entanto, isso também aumenta o risco de overfitting (a rede memoriza os dados de treino em vez de generalizar). A melhora ou piora dependerá do equilíbrio entre capacidade de aprendizado e generalização. Se houver overfitting, a acurácia de treino será alta mas a de teste será baixa.

## K-Fold Cross Validation

13) Assista o vídeo https://youtu.be/RczbeFs_WbQ?si=f1Yu4LZaGDfZZpbZ para compreender melhor sobre como funciona o k-fold cross validation. Explique como esta rede foi configurada e como é possível chegar no resultado dela. O que é necessário fazer?

**Resposta 13:** O K-Fold Cross Validation divide os dados em K partes (folds). Para cada iteração, uma parte é usada como teste e as demais como treino, repetindo K vezes. A rede é configurada através da função `criar_rede()` que define a arquitetura, e o `cross_val_score` treina e avalia K vezes (cv=10), retornando a acurácia de cada fold. Isso permite uma avaliação mais robusta do modelo.

14) Calcule também o Desvio Padrão dos resultados para avaliar o modelo. O que é possível concluir com esse resultado?

**Resposta 14:** O desvio padrão mede a variabilidade dos resultados entre os diferentes folds. Um desvio padrão baixo indica que o modelo tem desempenho consistente e estável. Um desvio alto sugere que o modelo é sensível à divisão dos dados, podendo indicar overfitting ou instabilidade no treinamento.



In [130]:
from scikeras.wrappers import KerasClassifier
from sklearn.model_selection import cross_val_score
from tensorflow.keras.models import Sequential
from tensorflow.keras import backend as k

In [131]:
def criar_rede():
  k.clear_session()
  rede_neural = Sequential([
      tf.keras.layers.InputLayer(shape=(30,)),
      tf.keras.layers.Dense(units=16, activation='relu', kernel_initializer='random_uniform'),
      tf.keras.layers.Dense(units=16, activation='relu', kernel_initializer='random_uniform'),
      tf.keras.layers.Dense(units=1, activation = 'sigmoid')])
  otimizador = tf.keras.optimizers.Adam(learning_rate = 0.001, clipvalue = 0.5)
  rede_neural.compile(optimizer = otimizador, loss = 'binary_crossentropy', metrics = ['binary_accuracy'])
  return rede_neural

In [132]:
rede_neural = KerasClassifier(model = criar_rede, epochs = 100, batch_size = 10)

In [None]:
resultados = cross_val_score(estimator = rede_neural, X = X, y = y, cv = 10, scoring = 'accuracy')

Epoch 1/100
[1m52/52[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - binary_accuracy: 0.5684 - loss: 1.7475
Epoch 2/100
[1m52/52[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.5234 - loss: 0.9679
Epoch 3/100
[1m52/52[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.5566 - loss: 1.0775
Epoch 4/100
[1m52/52[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.5938 - loss: 1.0649
Epoch 5/100
[1m52/52[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.6270 - loss: 0.8921
Epoch 6/100
[1m52/52[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.6191 - loss: 0.8632
Epoch 7/100
[1m52/52[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.6152 - loss: 0.8523
Epoch 8/100
[1m52/52[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - binary_accuracy: 0.6191 - loss:

In [None]:
resultados

In [None]:
# Calcular média e desvio padrão dos resultados
media = resultados.mean()
desvio_padrao = resultados.std()
print(f"Acurácia Média: {media:.4f}")
print(f"Desvio Padrão: {desvio_padrao:.4f}")

## Overfitting e Dropout

14) Como vimos, o modelo anterior sofreu overfitting. Para reduzir esse problema, aplicamos a técnica de regularização conhecida como dropout (artigo oficial: https://www.cs.toronto.edu/~rsalakhu/papers/srivastava14a.pdf e explicação em português: https://www.deeplearningbook.com.br/como-funciona-o-dropout/ ). Aplique o dropout de 20% na primeira e segunda camada oculta. O que acontece com os resultados? E o Desvio Padrão?

In [None]:
def criar_rede():
  k.clear_session()
  rede_neural = Sequential([
      tf.keras.layers.InputLayer(shape=(30,)),
      tf.keras.layers.Dense(units=16, activation='relu', kernel_initializer='random_uniform'),
      tf.keras.layers.Dropout(rate=0.2),  # Dropout de 20% após a primeira camada oculta
      tf.keras.layers.Dense(units=16, activation='relu', kernel_initializer='random_uniform'),
      tf.keras.layers.Dropout(rate=0.2),  # Dropout de 20% após a segunda camada oculta
      tf.keras.layers.Dense(units=1, activation = 'sigmoid')])
  otimizador = tf.keras.optimizers.Adam(learning_rate = 0.001, clipvalue = 0.5)
  rede_neural.compile(optimizer = otimizador, loss = 'binary_crossentropy', metrics = ['binary_accuracy'])
  return rede_neural

In [None]:
rede_neural = KerasClassifier(model = criar_rede, epochs = 100, batch_size = 10)

In [None]:
resultados = cross_val_score(estimator = rede_neural, X = X, y = y, cv = 10, scoring = 'accuracy')

In [None]:
resultados

In [None]:
# Calcular média e desvio padrão dos resultados com dropout
media_dropout = resultados.mean()
desvio_padrao_dropout = resultados.std()
print(f"Acurácia Média (com Dropout): {media_dropout:.4f}")
print(f"Desvio Padrão (com Dropout): {desvio_padrao_dropout:.4f}")

**Resposta 14:** O dropout ajuda a reduzir o overfitting ao "desligar" aleatoriamente 20% dos neurônios durante o treinamento, forçando a rede a aprender representações mais robustas. Geralmente, isso resulta em uma acurácia de treino ligeiramente menor, mas uma acurácia de teste melhor (melhor generalização). O desvio padrão tende a diminuir, indicando que o modelo é mais consistente entre diferentes folds.

## Tuning dos Hiperparâmetros (técnicas de ajuste)

Hyperparameter Tuning (Ajuste de Hiperparâmetros) é o processo geral de encontrar os melhores valores para os hiperparâmetros de um modelo de machine learning.
Exemplos de hiperparâmetros:

- Taxa de aprendizado (learning rate)

- Número de árvores em um RandomForest

- Número de camadas ou neurônios em uma rede neural

- Tipo de kernel em um SVM

O tuning pode ser feito por diferentes técnicas, como:

- Grid Search

- Random Search

- Bayesian Optimization, etc.

15) Descreva como a RNA foi configurada para fazer o processo de tuning.

**Resposta 15:** A RNA foi configurada de forma parametrizada através da função `criar_rede()`, que agora aceita múltiplos parâmetros (optimizer, loss, kernel_initializer, activation, neurons). Esses parâmetros são definidos no dicionário `parametros` com diferentes valores a serem testados. O GridSearchCV testa todas as combinações possíveis desses parâmetros, treinando e avaliando o modelo para cada combinação, retornando os melhores parâmetros encontrados.

In [None]:
from sklearn.model_selection import GridSearchCV

def criar_rede(optimizer, loss, kernel_initializer, activation, neurons):
  k.clear_session()
  rede_neural = Sequential([
      tf.keras.layers.InputLayer(shape=(30,)),
      tf.keras.layers.Dense(units=neurons, activation=activation, kernel_initializer=kernel_initializer),
      tf.keras.layers.Dropout(rate = 0.2),
      tf.keras.layers.Dense(units=neurons, activation=activation, kernel_initializer=kernel_initializer),
      tf.keras.layers.Dropout(rate = 0.2),
      tf.keras.layers.Dense(units=1, activation = 'sigmoid')])
  rede_neural.compile(optimizer = optimizer, loss = loss, metrics = ['binary_accuracy'])
  return rede_neural

In [None]:
rede_neural = KerasClassifier(model = criar_rede)

In [None]:
parametros = {
    'batch_size': [10, 30],
    'epochs': [50, 100],
    'model__optimizer': ['adam', 'sgd'],
    'model__loss': ['binary_crossentropy', 'hinge'],
    'model__kernel_initializer': ['random_uniform', 'normal'],
    'model__activation': ['relu', 'tanh'],
    'model__neurons': [16, 8]
}

In [None]:
#caso tiver problema com a configuração anterior, testar essa
parametros = {
    'batch_size': [10, 30],
    'epochs': [50],
    'model__optimizer': ['adam'],
    'model__loss': ['binary_crossentropy'],
    'model__kernel_initializer': ['random_uniform', 'normal'],
    'model__activation': ['relu'],
    'model__neurons': [16]
}

In [None]:
parametros

In [None]:
grid_search = GridSearchCV(estimator = rede_neural, param_grid = parametros,
                          scoring = 'accuracy', cv = 5)

In [None]:
grid_search = grid_search.fit(X, y)

In [None]:
print(grid_search)

In [None]:
melhores_parametros = grid_search.best_params_
print(melhores_parametros)

In [None]:
melhor_precisao = grid_search.best_score_
print(melhor_precisao)

16) É possível melhorar ainda mais a curácia da RNA? Como?

**Resposta 16:** Sim, é possível melhorar a acurácia através de várias técnicas:
- **Normalização/Padronização dos dados**: Usar StandardScaler ou MinMaxScaler para escalar as features
- **Aumentar épocas**: Treinar por mais tempo, com early stopping para evitar overfitting
- **Ajustar arquitetura**: Testar diferentes números de camadas e neurônios
- **Regularização L1/L2**: Adicionar penalização aos pesos
- **Batch Normalization**: Normalizar as saídas entre camadas
- **Ajustar learning rate**: Usar learning rate schedulers ou valores diferentes
- **Aumentar dados**: Data augmentation (se aplicável) ou coletar mais amostras
- **Ensemble methods**: Combinar múltiplos modelos

#Para salvar o seu modelo de RNA

In [None]:
classificador.save('classificador_breast.keras')

In [None]:
classificador_novo = tf.keras.models.load_model('/content/classificador_breast.keras')

In [None]:
classificador_novo.summary()