Imports

In [5]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import make_classification


Dataset Creation / Normalizing

In [6]:
#Binary dataset
X, y = make_classification(n_samples=1000, n_features=5, n_classes=2, random_state=42)

# Splitting into training and testing (80% training, 20% testing)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalizing
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

Training

In [7]:
# Standard model with default parameters
mlp_default = MLPClassifier(random_state=42)
mlp_default.fit(X_train, y_train)

# Predictions and accuracy
y_pred_default = mlp_default.predict(X_test)
acc_default = accuracy_score(y_test, y_pred_default)
print(f"Accuracy of the standard model: {acc_default:.4f}")

Accuracy of the standard model: 0.8850




In [8]:
# Função de Ativação
mlp_relu = MLPClassifier(activation='relu', random_state=42)
mlp_relu.fit(X_train, y_train)
acc_relu = accuracy_score(y_test, mlp_relu.predict(X_test))
print(f"Acurácia (ReLU): {acc_relu:.4f}")

# Número de Camadas Escondidas
mlp_hidden_layers = MLPClassifier(hidden_layer_sizes=(50, 50), random_state=42)
mlp_hidden_layers.fit(X_train, y_train)
acc_hidden_layers = accuracy_score(y_test, mlp_hidden_layers.predict(X_test))
print(f"Acurácia (2 camadas de 50 neurônios): {acc_hidden_layers:.4f}")

# Número de Neurônios por Camada
mlp_neurons = MLPClassifier(hidden_layer_sizes=(100,), random_state=42)
mlp_neurons.fit(X_train, y_train)
acc_neurons = accuracy_score(y_test, mlp_neurons.predict(X_test))
print(f"Acurácia (100 neurônios): {acc_neurons:.4f}")

# Taxa de Aprendizado
mlp_lr = MLPClassifier(learning_rate_init=0.01, random_state=42)
mlp_lr.fit(X_train, y_train)
acc_lr = accuracy_score(y_test, mlp_lr.predict(X_test))
print(f"Acurácia (learning rate = 0.01): {acc_lr:.4f}")

# Tamanho do Batch
mlp_batch = MLPClassifier(batch_size=64, random_state=42)
mlp_batch.fit(X_train, y_train)
acc_batch = accuracy_score(y_test, mlp_batch.predict(X_test))
print(f"Acurácia (batch size = 64): {acc_batch:.4f}")





Acurácia (ReLU): 0.8850




Acurácia (2 camadas de 50 neurônios): 0.9450




Acurácia (100 neurônios): 0.8850




Acurácia (learning rate = 0.01): 0.9100
Acurácia (batch size = 64): 0.9300




In [9]:
# Results
resultados = {
    "Default": acc_default,
    "ReLU": acc_relu,
    "Camadas escondidas (50,50)": acc_hidden_layers,
    "100 neurônios": acc_neurons,
    "Learning rate 0.01": acc_lr,
    "Batch size 64": acc_batch
}

melhor_modelo = max(resultados, key=resultados.get)
print(f"\nMelhor modelo: {melhor_modelo} com acurácia de {resultados[melhor_modelo]:.4f}")



Melhor modelo: Camadas escondidas (50,50) com acurácia de 0.9450


Explicação: 

1. Maior Capacidade de Representação
Adicionar mais camadas ocultas permite que a rede aprenda representações mais complexas dos dados. Com apenas uma camada, a rede pode capturar relações lineares entre as features, mas, ao adicionar mais camadas, ela consegue identificar padrões não lineares e interações entre as variáveis.

2. Melhor Extração de Características
Cada camada adicional pode atuar como um "extrator de características", refinando e combinando os dados de maneiras que ajudam na tomada de decisão. Isso é especialmente útil em problemas mais complexos, onde uma única camada pode não ser suficiente para capturar todas as nuances dos dados.

3. Evita Underfitting
Redes muito simples podem sofrer de underfitting, onde o modelo não consegue capturar bem a estrutura dos dados. Ao adicionar camadas, a rede se torna mais flexível e pode aprender padrões mais detalhados, melhorando sua performance.

Conclusão: O modelo com duas camadas ocultas (50,50 neurônios) obteve o melhor resultado porque aumentou a capacidade de aprendizado sem supercomplicar a rede. Isso possibilitou uma melhor generalização sem sofrer de overfitting ou dificuldades na convergência.