Lapisan paling sederhana pada Neural Network disebut juga fully connected layer. Jika terdapat input berupa array “x” satu dimensi dengan panjang in_features dan output berupa array “y” satu dimensi dengan panjang out_features, maka fungsinya berupa perkalian matriks ditambah dengan bias, diikuti fungsi non-linear yang disebut fungsi aktivasi. Linear layer menghitung fungsi berikut.

y = x . A^T + b

Keterangan:

A^T adalah matriks transpose

x adalah koefisien dari matriks transpose A^T

b adalah sebuah array yang disebut bias

x dan b disebut bobot atau weight

Linear layer tersebut disebut sebagai fully connected layer karena matriks A menghubungkan setiap elemen input (fitur) ke setiap elemen output. Input dan output  berupa array 1 dimensi. Jika input-nya berupa image, maka harus di-reshape ke bentuk array 1 dimensi.

Neural Network sering digunakan sebagai detektor. Dalam kasus ini, setiap nilai dari array output y akan sesuai dengan keluaran satu detektor dan setiap detektor mewakili 1 class.

Linear layer biasanya diikuti oleh fungsi aktivasi. Berikut adalah macam – macam fungsi aktivasi.

	Fungsi aktivasi ReLU (Rectified Linear Unit)
Fungsi aktivasi ReLU didefinisikan dengan rumus sebagai berikut.

ReLU(x)=max⁡(0, x)

Fungsi aktivasi ReLU membatasi output ke dalam rentang non-negatif. Hal ini berguna ketika output merepresentasikan sebuah detektor. Dalam hal ini nilai 1 dapat berarti “terdeteksi dengan pasti”, nilai 0 berarti “tidak terdeteksi dengan pasti”, dan nilai negatif tidak memiliki makna. Fungsi aktivasi ReLU adalah fungsi aktivasi yang paling sederhana dan paling sering digunakan. Meskipun demikian, fungsi aktivasi ReLU dapat menyebabkan masalah vanishing gradient pada nilai negatif.

	Fungsi aktivasi LeakyReLU
Fungsi aktivasi LeakyReLU didefinisikan dengan rumus sebagai berikut.

LeakyReLU = max⁡(0, x) + negativeSlope × min⁡(0, x)

Fungsi aktivasi LeakyReLU merupakan modifikasi dari fungsi aktivasi ReLU untuk menghindari masalah vanishing gradient. Fungsinya memiliki slope yang kecil untuk nilai negatif.

	Fungsi aktivasi Softmax
Fungsi aktivasi Softmax didefinisikan dengan rumus sebagai berikut.

Soft max⁡├(x_i┤) = ⍁{e_i^x}{∑_j^{ }├(e_j^x┤)}

Fungsi aktivasi softmax mengubah output dari suatu jaringan agar tampak seperti fungsi probabilitas, yaitu bernilai positif dan menjumlahkannya menjadi 1.

	Fungsi aktivasi Sigmoid
Fungsi aktivasi Sigmoid didefinisikan dengan rumus sebagai berikut.
Sigmoid(x)=1/(1+e^(-x) )

Fungsi aktivasi sigmoid diferensial di setiap titik, tetapi lebih kompleks dalam penghitungannya. Fungsi aktivasi ini adalah fungsi aktivasi klasik yang sudah digunakan dalam karya – karya awal neural network.

Python Example for a Linear Layer
Untuk linear layer, bentuk tensor input dan output adalah sebagai berikut.

	Input: (N, *, Hin) dimana * berarti sejumlah dimensi tambahan dan Hin = in_features.
	Output: (N, *, Hout) dimana semua kecuali dimensi terakhir memiliki bentuk yang sama dengan input dan Hout = out_features
Keterangan:
N adalah ukuran batch

\* biasanya adalah indeks untuk test set

Hin adalah panjang dari sinyal input

Hout adalah jumlah class (detektor) yang diinginkan

Indeks batch digunkaan untuk training set dan data target yang berbeda. Pelatihan dilakukan satu batch demi satu batch agar dapat menghemat memori karena hanya satu batch yang dimuat ke dalam memori pada satu waktu.

Indeks batch digunkaan untuk training set dan data target yang berbeda. Pelatihan dilakukan satu batch demi satu batch agar dapat menghemat memori karena hanya satu batch yang dimuat ke dalam memori pada satu waktu.

Loss function yang sederhana dan banyak digunakan adalah MSE (Mean Squared Error) loss. Selain MSE, jenis loss function lainnya adalah cross-entropy loss yang biasa digunakan untuk detektor. Jenis loss function ini mencipatakan jarak antara dua distribusi probabilitas. Distribusi probabilitas adalah distribusi target (probabilitas 1 untuk kelas true dan probabilitas 0 untuk kelas false) dan distribusi yang dihasilkan oleh neural network  (probabilitas prediksi untuk setiap kelas, dengan nilai probabilitas yang tinggi untuk kelas yang jaringan anggap ada pada inputan-nya.

Untuk mendapatkan solusi yang lebih baik dan menyertakan loss function lainnya, umumnya optimasi numerik digunakan untuk menemukan bobot koefisien yang meminimalkan loss function yang diberikan. Loss function menghasilkan satu angka atau nilai untuk training set dan bobot yang diberikan. Untuk mengurangi loss function, bobot akan diperbaharui selama proses optimasi. Optimizer yang umum adalah SGD (Stochastic Gradient Descent) dan Adam (Adaptive Moments).

Setelah bobot terbaru dihasilkan pada pelatihan terakhir, maka perlu dilihat apakah bobot tersebut dapat digeneralisasikan ke contoh lain atau hanya berfungsi baik pada training set. Oleh karena itu proses validasi perlu dilakukan untuk memodifikasi struktur neural network  hingga performanya cukup baik pada sampel yang baru. Setelah memiliki struktur neural network yang baik, kemudian struktur terssebut diterapkan pada test set untuk menguji performanya.



**Mengimport library Pytorch dan mensetting device**

In [None]:
import torch
import torch.nn as nn
device='cpu'
#device='cuda'

**Percobaan 1**

**Mendefinisikan neural network dengan linear layer dan fungsi aktivasi non-linear**

In [None]:
class LinNet(nn.Module):
    def __init__(self):
        super(LinNet, self).__init__()
        # Define the model.
        self.layer1 = nn.Sequential(nn.Linear(in_features=2, out_features=2, bias=True))
        #https://pytorch.org/docs/stable/nn.html?highlight=linear#torch.nn.Linear
        # Generate a fully connected linear neural network model, 1 layer, bias, linear activation function
        # returns: Trainable object
        #self.act = nn.LeakyReLU() #non-linear activation function
        #self.act = nn.ReLU() #non-linear activation function

    def forward(self, x):
        out = self.layer1(x)
        #out = self.act(out) #comment out if not desired
        return out

**Generate data pelatihan dan data validasi**

In [None]:
#input tensor, type torch tensor:
#Indices: batch, sample, features or signal dimension. Here: 1 batch, 3 samples, signal dimension 2:

#Training set:
X=torch.tensor([[1., 2.], [2., 1.],[1., 1.]]).view(1,3,2) #adding the first dimension for the batch
print("X.shape", X.shape)

#Target:
Y=torch.tensor([[1., 0.], [0., 1.],[0., 0.]]).view(1,3,2)
print("Y.shape", Y.shape)

#Validation set, to test generalization:
Xval=torch.tensor([[0.5, 1.0], [1., 0.5],[0.5, 0.5]]).view(1,3,2)
#Validation Target:
Yval=torch.tensor([[1., 0.], [0., 1.],[0., 0.]]).view(1,3,2)

X.shape torch.Size([1, 3, 2])
Y.shape torch.Size([1, 3, 2])


**Menginstansiasi model serta mendefinisikan loss function dan optimizer**

Terdapat dua pilihan optimizer, yaitu Adam dan SGD (Stochastic Gradient Descent), kemudian dicoba manakah yang menghasilkan performa terbaik.

In [None]:
#create network object:
model = LinNet().to(device)
loss_fn = nn.MSELoss()
print("Define loss function:", loss_fn)
#learning_rate = 1e-4
#optimizer = torch.optim.Adam(model.parameters())
optimizer = torch.optim.SGD(model.parameters(),lr=0.1)
print("Define optimizer:", optimizer)

Define loss function: MSELoss()
Define optimizer: SGD (
Parameter Group 0
    dampening: 0
    differentiable: False
    foreach: None
    lr: 0.1
    maximize: False
    momentum: 0
    nesterov: False
    weight_decay: 0
)


**Optimizer melakukan iterasi sebanyak 10000 iterasi**

In [None]:
for epoch in range(10000):
    Ypred=model(X) #the model produces prediction output
    loss=loss_fn(Ypred, Y) #prediction and target compared by loss
    if epoch%100==0:
        print(epoch, loss.item()) #print current loss value
    optimizer.zero_grad() #optimizer sets previous gradients to zero
    loss.backward() #optimizer computes new gradients
    optimizer.step() #optimizer updates weights

0 0.9978783130645752
100 0.018016429618000984
200 0.011064487509429455
300 0.006851763930171728
400 0.004243067000061274
500 0.002627587178722024
600 0.0016271768836304545
700 0.0010076550533995032
800 0.0006240036454983056
900 0.00038642328581772745
1000 0.00023929885355755687
1100 0.00014818973431829363
1200 9.176874300464988e-05
1300 5.682918708771467e-05
1400 3.5192388168070465e-05
1500 2.1793506675749086e-05
1600 1.3495777238858864e-05
1700 8.357638762390707e-06
1800 5.1754182095464785e-06
1900 3.2048885714175412e-06
2000 1.98468455891998e-06
2100 1.2290516906432458e-06
2200 7.611350270053663e-07
2300 4.713199643902044e-07
2400 2.918958728059806e-07
2500 1.8077811603234295e-07
2600 1.119428887363938e-07
2700 6.933527885166768e-08
2800 4.294554400985362e-08
2900 2.6615678550001576e-08
3000 1.6488913345824585e-08
3100 1.0216187895650819e-08
3200 6.333328972374375e-09
3300 3.923443347986222e-09
3400 2.4346178406631225e-09
3500 1.511364700057527e-09
3600 9.36699606768343e-10
3700 5.80

**Mencetak hasil pada training set, validation set, dan bobot yang dihasilkan**

In [None]:
Ypred=model(X) # Make Predictions based on the obtained weights
print("Ypred training set=", Ypred)
loss=loss_fn(Ypred, Y)
print("Loss on trainig set:", loss)
Yvalpred=model(Xval) # Make Predictions based on the obtained weights
print("Y validation set=", Yvalpred)
loss=loss_fn(Yvalpred, Yval)
print("Loss on validation set:", loss)
weights = model.state_dict() #read obtained weights
print("weights=", weights)

Ypred training set= tensor([[[ 1.0000e+00, -8.3447e-07],
         [-8.3447e-07,  1.0000e+00],
         [ 3.2187e-06,  3.2187e-06]]], grad_fn=<ViewBackward0>)
Loss on trainig set: tensor(4.4255e-12, grad_fn=<MseLossBackward0>)
Y validation set= tensor([[[ 5.2452e-06, -4.9999e-01],
         [-4.9999e-01,  5.2452e-06],
         [-4.9999e-01, -4.9999e-01]]], grad_fn=<ViewBackward0>)
Loss on validation set: tensor(0.5000, grad_fn=<MseLossBackward0>)
weights= OrderedDict([('layer1.0.weight', tensor([[-4.0662e-06,  1.0000e+00],
        [ 1.0000e+00, -4.0663e-06]])), ('layer1.0.bias', tensor([-1.0000, -1.0000]))])


**Percobaan 2**

In [None]:
class LinNet(nn.Module):
    def __init__(self):
        super(LinNet, self).__init__()
        # Define the model.
        self.layer1 = nn.Sequential(nn.Linear(in_features=2, out_features=2, bias=True))
        #https://pytorch.org/docs/stable/nn.html?highlight=linear#torch.nn.Linear
        # Generate a fully connected linear neural network model, 1 layer, bias, linear activation function
        # returns: Trainable object
        self.act = nn.LeakyReLU() #non-linear activation function
        #self.act = nn.ReLU() #non-linear activation function

    def forward(self, x):
        out = self.layer1(x)
        out = self.act(out) #comment out if not desired
        return out

In [None]:
#create network object:
model = LinNet().to(device)
loss_fn = nn.MSELoss()
print("Define loss function:", loss_fn)
#learning_rate = 1e-4
#optimizer = torch.optim.Adam(model.parameters())
optimizer = torch.optim.SGD(model.parameters(),lr=0.1)
print("Define optimizer:", optimizer)

Define loss function: MSELoss()
Define optimizer: SGD (
Parameter Group 0
    dampening: 0
    differentiable: False
    foreach: None
    lr: 0.1
    maximize: False
    momentum: 0
    nesterov: False
    weight_decay: 0
)


In [None]:
for epoch in range(10000):
    Ypred=model(X) #the model produces prediction output
    loss=loss_fn(Ypred, Y) #prediction and target compared by loss
    if epoch%1000==0:
        print(epoch, loss.item()) #print current loss value
    optimizer.zero_grad() #optimizer sets previous gradients to zero
    loss.backward() #optimizer computes new gradients
    optimizer.step() #optimizer updates weights

0 0.8680738806724548
1000 1.286183760385029e-05
2000 1.2798948773706798e-05
3000 1.2756426258420106e-05
4000 1.2714059266727418e-05
5000 1.2671794138441328e-05
6000 1.262976093130419e-05
7000 1.2587971468747128e-05
8000 1.2546258403745014e-05
9000 1.2504607184382621e-05


In [None]:
Ypred=model(X) # Make Predictions based on the obtained weights
print("Ypred training set=", Ypred)
loss=loss_fn(Ypred, Y)
print("Loss on trainig set:", loss)
Yvalpred=model(Xval) # Make Predictions based on the obtained weights
print("Y validation set=", Yvalpred)
loss=loss_fn(Yvalpred, Yval)
print("Loss on validation set:", loss)
weights = model.state_dict() #read obtained weights
print("weights=", weights)

Ypred training set= tensor([[[ 9.9996e-01, -4.1983e-03],
         [-7.5578e-03,  9.9998e-01],
         [ 1.5172e-04,  8.4698e-05]]], grad_fn=<LeakyReluBackward0>)
Loss on trainig set: tensor(1.2463e-05, grad_fn=<MseLossBackward0>)
Y validation set= tensor([[[ 0.3781, -0.0050],
         [-0.0050,  0.2100],
         [-0.0012, -0.0029]]], grad_fn=<LeakyReluBackward0>)
Loss on validation set: tensor(0.1685, grad_fn=<MseLossBackward0>)
weights= OrderedDict([('layer1.0.weight', tensor([[-0.7559,  0.9998],
        [ 0.9999, -0.4199]])), ('layer1.0.bias', tensor([-0.2437, -0.5799]))])


**Percobaan 3**

In [None]:
class LinNet(nn.Module):
    def __init__(self):
        super(LinNet, self).__init__()
        # Define the model.
        self.layer1 = nn.Sequential(nn.Linear(in_features=2, out_features=2, bias=True))
        #https://pytorch.org/docs/stable/nn.html?highlight=linear#torch.nn.Linear
        # Generate a fully connected linear neural network model, 1 layer, bias, linear activation function
        # returns: Trainable object
        #self.act = nn.LeakyReLU() #non-linear activation function
        self.act = nn.ReLU() #non-linear activation function

    def forward(self, x):
        out = self.layer1(x)
        out = self.act(out) #comment out if not desired
        return out

In [None]:
#create network object:
model = LinNet().to(device)
loss_fn = nn.MSELoss()
print("Define loss function:", loss_fn)
#learning_rate = 1e-4
#optimizer = torch.optim.Adam(model.parameters())
optimizer = torch.optim.SGD(model.parameters(),lr=0.1)
print("Define optimizer:", optimizer)

Define loss function: MSELoss()
Define optimizer: SGD (
Parameter Group 0
    dampening: 0
    differentiable: False
    foreach: None
    lr: 0.1
    maximize: False
    momentum: 0
    nesterov: False
    weight_decay: 0
)


In [None]:
for epoch in range(10000):
    Ypred=model(X) #the model produces prediction output
    loss=loss_fn(Ypred, Y) #prediction and target compared by loss
    if epoch%1000==0:
        print(epoch, loss.item()) #print current loss value
    optimizer.zero_grad() #optimizer sets previous gradients to zero
    loss.backward() #optimizer computes new gradients
    optimizer.step() #optimizer updates weights

0 0.3333711326122284
1000 0.3333333432674408
2000 0.3333333432674408
3000 0.3333333432674408
4000 0.3333333432674408
5000 0.3333333432674408
6000 0.3333333432674408
7000 0.3333333432674408
8000 0.3333333432674408
9000 0.3333333432674408


In [None]:
Ypred=model(X) # Make Predictions based on the obtained weights
print("Ypred training set=", Ypred)
loss=loss_fn(Ypred, Y)
print("Loss on trainig set:", loss)
Yvalpred=model(Xval) # Make Predictions based on the obtained weights
print("Y validation set=", Yvalpred)
loss=loss_fn(Yvalpred, Yval)
print("Loss on validation set:", loss)
weights = model.state_dict() #read obtained weights
print("weights=", weights)

Ypred training set= tensor([[[0.0000e+00, 0.0000e+00],
         [0.0000e+00, 0.0000e+00],
         [8.9407e-08, 0.0000e+00]]], grad_fn=<ReluBackward0>)
Loss on trainig set: tensor(0.3333, grad_fn=<MseLossBackward0>)
Y validation set= tensor([[[0.1863, 0.0000],
         [0.0323, 0.0000],
         [0.2186, 0.0000]]], grad_fn=<ReluBackward0>)
Loss on validation set: tensor(0.2852, grad_fn=<MseLossBackward0>)
weights= OrderedDict([('layer1.0.weight', tensor([[-0.3725, -0.0646],
        [-0.4424, -0.4147]])), ('layer1.0.bias', tensor([ 0.4371, -0.6121]))])
