In [32]:
import numpy as np

# Define activation functions
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return x * (1 - x)

def signum(x):
    return np.where(x >= 0, 1, -1)

# MLP class with one hidden layer
class MLP:
    def __init__(self, input_size, hidden_size, learning_rate):
        # Initialize weights for input-to-hidden and hidden-to-output layers
        self.learning_rate = learning_rate
        self.weights_input_hidden = np.random.uniform(-1, 1, (input_size, hidden_size))
        self.weights_hidden_output = np.random.uniform(-1, 1, (hidden_size, 1))
    
    def forward(self, inputs):
        # Forward pass through the network
        self.hidden_input = np.dot(inputs, self.weights_input_hidden)
        self.hidden_output = sigmoid(self.hidden_input)  # Sigmoid activation for hidden layer
        
        output_layer_input = np.dot(self.hidden_output, self.weights_hidden_output)
        output = signum(output_layer_input)  # Signum activation for output layer
        return output
    
    def train(self, inputs, labels, max_epochs=1000):
        for epoch in range(max_epochs):
            error_vec = np.empty(len(labels))
            for i, input_vector in enumerate(inputs):
                # Forward pass
                prediction = self.forward(input_vector)
                error_vec[i] = labels[i] - prediction

                # Backpropagation
                # Output layer error and weight update
                output_error = error_vec[i]
                output_delta = output_error  # No derivative needed for signum in output layer
                
                # Hidden layer error and weight update
                hidden_error = output_delta * self.weights_hidden_output[:, 0]
                hidden_delta = hidden_error * sigmoid_derivative(self.hidden_output)
                
                # Update weights
                self.weights_hidden_output += self.learning_rate * output_delta * self.hidden_output[:, np.newaxis]
                self.weights_input_hidden += self.learning_rate * input_vector[:, np.newaxis] * hidden_delta
            mse = np.mean(np.square(error_vec))
            # Print MSE for each epoch
            print(f'Epoch {epoch + 1}, MSE: {mse}')
            # Stop if MSE is zero
            if mse == 0:
                break

# User-provided values
learning_rate = 0.01
inputs = np.array([[1, -1, 1, 1, 0, 1], [-1, 1, 0, 1, 1, 0], [1, 1, -1, -1, -1, 0], [1, 0, -1, 0, -1, 1], [-1, 0, 0, 1, 0, -1], [-1, 0, 1, 0, 1, -1]])
labels = np.array([1, -1, 1, -1, -1, 1])

# Create the MLP
mlp = MLP(input_size=len(inputs[0]), hidden_size=2*len(inputs[0]), learning_rate=learning_rate)

# Train the MLP
mlp.train(inputs, labels)

# Final weights
print("Final weights (input to hidden):\n", mlp.weights_input_hidden)
print("Final weights (hidden to output):\n", mlp.weights_hidden_output)

Epoch 1, MSE: 2.0
Epoch 2, MSE: 2.0
Epoch 3, MSE: 2.6666666666666665
Epoch 4, MSE: 2.0
Epoch 5, MSE: 2.0
Epoch 6, MSE: 2.0
Epoch 7, MSE: 2.0
Epoch 8, MSE: 2.0
Epoch 9, MSE: 2.0
Epoch 10, MSE: 2.6666666666666665
Epoch 11, MSE: 2.0
Epoch 12, MSE: 1.3333333333333333
Epoch 13, MSE: 1.3333333333333333
Epoch 14, MSE: 2.0
Epoch 15, MSE: 1.3333333333333333
Epoch 16, MSE: 2.6666666666666665
Epoch 17, MSE: 1.3333333333333333
Epoch 18, MSE: 1.3333333333333333
Epoch 19, MSE: 1.3333333333333333
Epoch 20, MSE: 2.0
Epoch 21, MSE: 1.3333333333333333
Epoch 22, MSE: 1.3333333333333333
Epoch 23, MSE: 1.3333333333333333
Epoch 24, MSE: 1.3333333333333333
Epoch 25, MSE: 1.3333333333333333
Epoch 26, MSE: 1.3333333333333333
Epoch 27, MSE: 1.3333333333333333
Epoch 28, MSE: 1.3333333333333333
Epoch 29, MSE: 1.3333333333333333
Epoch 30, MSE: 0.0
Final weights (input to hidden):
 [[ 0.69937135  0.64156629 -0.1380775   0.23510462  0.44650026 -0.0761363
   0.26322695 -0.83983035 -0.484993   -0.88277817  1.04013615 

  error_vec[i] = labels[i] - prediction
