In [1]:
import numpy as np
from sklearn.datasets import make_gaussian_quantiles
from sklearn.model_selection import train_test_split

generate data for training & testing phase:

In [2]:
np.random.seed(42)
x, y = make_gaussian_quantiles(n_samples=300, n_features=8, n_classes=2, random_state=42)
x = np.c_[np.ones(x.shape[0]), x]
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

defining `Relu` and `Sigmoid` as activation function

In [3]:
def RELU(x):
    return np.maximum(0, x)

def SIGMOID(x):
    return 1 / (1 + np.exp(-x))

- class `ShallowNeuralNetwork`

  - `__init__` : setting *learning rate*, *epoch numbers*, *threshold* and *wide* of each layer to *initializing weights*

  - `learning_phase` : doing *forward pass* for predicting answer and doing *backward pass* to updating weights with Gradient Descent Backpropagation algorithm. 
  also reporting cost function every 10 epochs

  - `testing_phase` : after ending learning phase, we use test data to testing the model by unseen data



In [4]:
class ShallowNeuralNetwork:
    def __init__(self, epoch_num, 
                 learning_rate, 
                 threshold,
                 input_layer_neuron_num, 
                 hidden_layer_neuron_num,
                 output_layer_neuron_num):
        
        self.input_n = input_layer_neuron_num
        self.hidden_n = hidden_layer_neuron_num
        self.output_n = output_layer_neuron_num
        self.epoch_num = epoch_num
        self.learning_rate = learning_rate
        self.w1 = np.random.randn(self.hidden_n, self.input_n)*.1
        self.w2 = np.random.randn(self.output_n, self.hidden_n)*.1
        self.teta = threshold
    
    def learning_phase(self):
        for _ in range(self.epoch_num):
            y_pred, a1 = self.forward_pass()      
            self.backward_pass(y_pred, a1)
            
            y_pred = y_pred > self.teta
            error = y_train-y_pred
            cost = len(error[error!=0])
            
            if _%10==0: 
                print(f'epoch {_} - cost function = {cost/len(x_train)}')
                
                if cost == 0: return
                            
    def forward_pass(self):
        z1 = np.dot(self.w1, np.transpose(x_train))
        a1 = RELU(z1)
            
        z2 = np.dot(self.w2, a1)
        y_pred = SIGMOID(z2)
            
        return y_pred, a1
    
    def backward_pass(self, y_pred, a1):
        error = (-2/len(x_train))*(y_train-y_pred)
        temp = 1-y_pred
        delta_w2 = np.dot(np.multiply(np.multiply(error, y_pred), temp), 
                          np.transpose(a1))
        
        rounda1_z1 = a1>0
        temp_w1 = np.transpose(np.dot(np.transpose(np.multiply(np.multiply(error, y_pred), temp)), 
                                      self.w2))
        delta_w1 = np.dot(np.multiply(temp_w1, rounda1_z1), 
                          x_train)
        
        self.w1 -= self.learning_rate* delta_w1
        self.w2 -= self.learning_rate* delta_w2
    
    def testing_phase(self):
        z1 = np.dot(self.w1, np.transpose(x_test))
        a1 = RELU(z1)
                
        z2 = np.dot(self.w2, a1)
        y_pred = SIGMOID(z2)
            
        y_pred = y_pred >= self.teta
        test_error = y_test - y_pred
        
        cost = len(test_error[test_error!=0])
            
        print("cost function for testing data = ", cost/len(x_test))
                      
    def check(self):
        print("w1", np.shape(self.w1))
        print("x", np.shape(x_train))
        print("w2", np.shape(self.w2))
        print("y", np.shape(y_train))
        

**Training model for different values of hyperparameters**
1. training model (lr = .05, epoch number = 5000)

In [5]:
nnmodel = ShallowNeuralNetwork(epoch_num=5000, 
                              learning_rate=.05, 
                              threshold=.5,
                              input_layer_neuron_num=9, 
                              hidden_layer_neuron_num=1000, 
                              output_layer_neuron_num=1)

In [6]:
nnmodel.learning_phase()

epoch 0 - cost function = 0.5125
epoch 10 - cost function = 0.5041666666666667
epoch 20 - cost function = 0.44583333333333336
epoch 30 - cost function = 0.42916666666666664
epoch 40 - cost function = 0.3875
epoch 50 - cost function = 0.35
epoch 60 - cost function = 0.3458333333333333
epoch 70 - cost function = 0.30416666666666664
epoch 80 - cost function = 0.2791666666666667
epoch 90 - cost function = 0.275
epoch 100 - cost function = 0.25833333333333336
epoch 110 - cost function = 0.25833333333333336
epoch 120 - cost function = 0.23333333333333334
epoch 130 - cost function = 0.23333333333333334
epoch 140 - cost function = 0.2125
epoch 150 - cost function = 0.2125
epoch 160 - cost function = 0.20416666666666666
epoch 170 - cost function = 0.17916666666666667
epoch 180 - cost function = 0.16666666666666666
epoch 190 - cost function = 0.1625
epoch 200 - cost function = 0.15833333333333333
epoch 210 - cost function = 0.15
epoch 220 - cost function = 0.14583333333333334
epoch 230 - cost fu

In [7]:
nnmodel.testing_phase()

cost function for testing data =  0.03333333333333333


2. training model (lr = .25, epoch number = 5000)

In [8]:
nnmodel2 = ShallowNeuralNetwork(epoch_num=5000, 
                              learning_rate=.25, 
                              threshold=.5,
                              input_layer_neuron_num=9, 
                              hidden_layer_neuron_num=1000, 
                              output_layer_neuron_num=1)
nnmodel2.learning_phase()

epoch 0 - cost function = 0.4375
epoch 10 - cost function = 0.2833333333333333
epoch 20 - cost function = 0.2
epoch 30 - cost function = 0.1875
epoch 40 - cost function = 0.15416666666666667
epoch 50 - cost function = 0.11666666666666667
epoch 60 - cost function = 0.10833333333333334
epoch 70 - cost function = 0.09166666666666666
epoch 80 - cost function = 0.08333333333333333
epoch 90 - cost function = 0.0625
epoch 100 - cost function = 0.05
epoch 110 - cost function = 0.04583333333333333
epoch 120 - cost function = 0.04583333333333333
epoch 130 - cost function = 0.04583333333333333
epoch 140 - cost function = 0.0375
epoch 150 - cost function = 0.03333333333333333
epoch 160 - cost function = 0.025
epoch 170 - cost function = 0.025
epoch 180 - cost function = 0.020833333333333332
epoch 190 - cost function = 0.016666666666666666
epoch 200 - cost function = 0.0125
epoch 210 - cost function = 0.0125
epoch 220 - cost function = 0.008333333333333333
epoch 230 - cost function = 0.008333333333

In [9]:
nnmodel2.testing_phase()

cost function for testing data =  0.03333333333333333


3. training model (lr = .5, epoch number = 5000)

In [10]:
nnmodel3 = ShallowNeuralNetwork(epoch_num=5000, 
                              learning_rate=.5, 
                              threshold=.5,
                              input_layer_neuron_num=9, 
                              hidden_layer_neuron_num=1000, 
                              output_layer_neuron_num=1)
nnmodel3.learning_phase()

epoch 0 - cost function = 0.5
epoch 10 - cost function = 0.275
epoch 20 - cost function = 0.15416666666666667
epoch 30 - cost function = 0.11666666666666667
epoch 40 - cost function = 0.08333333333333333
epoch 50 - cost function = 0.0625
epoch 60 - cost function = 0.041666666666666664
epoch 70 - cost function = 0.03333333333333333
epoch 80 - cost function = 0.03333333333333333
epoch 90 - cost function = 0.025
epoch 100 - cost function = 0.016666666666666666
epoch 110 - cost function = 0.016666666666666666
epoch 120 - cost function = 0.008333333333333333
epoch 130 - cost function = 0.004166666666666667
epoch 140 - cost function = 0.004166666666666667
epoch 150 - cost function = 0.004166666666666667
epoch 160 - cost function = 0.0


In [11]:
nnmodel3.testing_phase()

cost function for testing data =  0.016666666666666666


4. training model (lr = .75, epoch number = 5000)

In [12]:
nnmodel4 = ShallowNeuralNetwork(epoch_num=5000, 
                              learning_rate=.75, 
                              threshold=.5,
                              input_layer_neuron_num=9, 
                              hidden_layer_neuron_num=1000, 
                              output_layer_neuron_num=1)
nnmodel4.learning_phase()

epoch 0 - cost function = 0.5083333333333333
epoch 10 - cost function = 0.18333333333333332
epoch 20 - cost function = 0.15833333333333333
epoch 30 - cost function = 0.09583333333333334
epoch 40 - cost function = 0.05
epoch 50 - cost function = 0.03333333333333333
epoch 60 - cost function = 0.020833333333333332
epoch 70 - cost function = 0.016666666666666666
epoch 80 - cost function = 0.008333333333333333
epoch 90 - cost function = 0.008333333333333333
epoch 100 - cost function = 0.004166666666666667
epoch 110 - cost function = 0.0


In [13]:
nnmodel4.testing_phase()

cost function for testing data =  0.06666666666666667


5. training model (lr = .99, epoch number = 5000)

In [14]:
nnmodel5 = ShallowNeuralNetwork(epoch_num=5000, 
                              learning_rate=.99, 
                              threshold=.5,
                              input_layer_neuron_num=9, 
                              hidden_layer_neuron_num=1000, 
                              output_layer_neuron_num=1)
nnmodel5.learning_phase()

epoch 0 - cost function = 0.5
epoch 10 - cost function = 0.2791666666666667
epoch 20 - cost function = 0.225
epoch 30 - cost function = 0.175
epoch 40 - cost function = 0.13333333333333333
epoch 50 - cost function = 0.0875
epoch 60 - cost function = 0.04583333333333333
epoch 70 - cost function = 0.025
epoch 80 - cost function = 0.004166666666666667
epoch 90 - cost function = 0.004166666666666667
epoch 100 - cost function = 0.004166666666666667
epoch 110 - cost function = 0.0


In [15]:
nnmodel5.testing_phase()

cost function for testing data =  0.03333333333333333


**Conclusion**

<table>
    <tr>
        <td>epochs</td>
        <td>learning rate</td>
        <td>loss validation</td>
        <td>loss</td>
    </tr>
    <tr>
        <td>1750</td>
        <td>0.05</td>
        <td>0.0333</td>
        <td>0</td>
    </tr>
    <tr>
        <td>350</td>
        <td>0.25</td>
        <td>0.0333</td>
        <td>0</td>
    </tr>
    <tr>
        <td>160</td>
        <td>0.50</td>
        <td>0.0167</td>
        <td>0</td>
    </tr>
    <tr>
        <td>110</td>
        <td>0.75</td>
        <td>0.0667</td>
        <td>0</td>
    </tr>
    <tr>
        <td>110</td>
        <td>0.99</td>
        <td>0.0333</td>
        <td>0</td>
    </tr>
</table>


because learning was truncated when loss equals zero, increasing epochs won't have any effect but decreasing it could increase loss validation.

So the best model is number 3, because it has the lowest loss validation.