In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision.transforms as transforms
import torchvision.datasets as datasets
from torch.utils.data import DataLoader

In [2]:
# Menggunakan dataset MNIST
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])
train_dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True)
test_dataset = datasets.MNIST(root='./data', train=False, transform=transform, download=True)

In [3]:
# Fungsi untuk melatih model
def train_model(model, train_loader, criterion, optimizer, num_epochs=5):
    model.train()
    for epoch in range(num_epochs):
        total_loss = 0.0
        for images, labels in train_loader:
            images = images.view(-1, 28 * 28)  # Flatten the images
            optimizer.zero_grad()
            outputs = model(images)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            total_loss += loss.item()
        print(f"Epoch {epoch+1}, Loss: {total_loss / len(train_loader)}")

In [4]:
# Fungsi untuk menguji model
def test_model(model, test_loader):
    model.eval()
    correct = 0
    total = 0
    with torch.no_grad():
        for images, labels in test_loader:
            images = images.view(-1, 28 * 28)  # Flatten the images
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    accuracy = 100 * correct / total
    return accuracy

In [5]:
# Konfigurasi Fungsi Rugi 1: Cross-Entropy Loss
criterion1 = nn.CrossEntropyLoss()

In [6]:
# Konfigurasi 1: Model Dangkal
class ShallowNN(nn.Module):
    def __init__(self):
        super(ShallowNN, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# Konfigurasi 2: Model Sedang
class MediumNN(nn.Module):
    def __init__(self):
        super(MediumNN, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 256)
        self.fc2 = nn.Linear(256, 256)
        self.fc3 = nn.Linear(256, 10)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x)
        return x

# Konfigurasi 3: Model Dalam
class DeepNN(nn.Module):
    def __init__(self):
        super(DeepNN, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 512)
        self.fc2 = nn.Linear(512, 512)
        self.fc3 = nn.Linear(512, 512)
        self.fc4 = nn.Linear(512, 10)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = torch.relu(self.fc3(x))
        x = self.fc4(x)
        return x

In [7]:
# Konfigurasi Fungsi Aktivasi 1: ReLU Activation
model1 = ShallowNN()
model2 = MediumNN()
model3 = DeepNN()

In [8]:
# Batch size dan optimizer
batch_size = 64
learning_rate = 0.001
optimizer1 = optim.Adam(model1.parameters(), lr=learning_rate)
optimizer2 = optim.Adam(model2.parameters(), lr=learning_rate)
optimizer3 = optim.Adam(model3.parameters(), lr=learning_rate)

In [9]:
# Data loader
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

In [10]:
# Latih dan uji model dengan fungsi aktivasi ReLU
print("Konfigurasi 1: Model Dangkal dengan Fungsi Aktivasi ReLU")
train_model(model1, train_loader, criterion1, optimizer1)
accuracy1 = test_model(model1, test_loader)
print(f"Akurasi: {accuracy1}%")

print("\nKonfigurasi 2: Model Sedang dengan Fungsi Aktivasi ReLU")
train_model(model2, train_loader, criterion1, optimizer2)
accuracy2 = test_model(model2, test_loader)
print(f"Akurasi: {accuracy2}%")

print("\nKonfigurasi 3: Model Dalam dengan Fungsi Aktivasi ReLU ")
train_model(model3, train_loader, criterion1, optimizer3)
accuracy3 = test_model(model3, test_loader)
print(f"Akurasi: {accuracy3}%")

Konfigurasi 1: Model Dangkal dengan Fungsi Aktivasi ReLU
Epoch 1, Loss: 0.37130141707816355
Epoch 2, Loss: 0.18931218582604611
Epoch 3, Loss: 0.1382040367034802
Epoch 4, Loss: 0.11088386652415305
Epoch 5, Loss: 0.09311543940367904
Akurasi: 96.52%

Konfigurasi 2: Model Sedang dengan Fungsi Aktivasi ReLU
Epoch 1, Loss: 0.32738004041823754
Epoch 2, Loss: 0.14693075791497762
Epoch 3, Loss: 0.10916783189329543
Epoch 4, Loss: 0.08849660387840559
Epoch 5, Loss: 0.07628323723460788
Akurasi: 97.34%

Konfigurasi 3: Model Dalam dengan Fungsi Aktivasi ReLU 
Epoch 1, Loss: 0.29791508445035675
Epoch 2, Loss: 0.14638327584584068
Epoch 3, Loss: 0.1096466313645458
Epoch 4, Loss: 0.09243236990573048
Epoch 5, Loss: 0.07977462199721128
Akurasi: 97.43%


**Kesimpulan**

Penggunaan fungsi aktivasi ReLU pada lapisan-lapisan internal model adalah pilihan yang baik karena membantu menghindari masalah vanishing gradient dan memungkinkan model untuk mempelajari representasi yang lebih baik dari data. Hasil pelatihan menunjukkan bahwa model yang lebih dalam (konfigurasi 3) memiliki kinerja yang sedikit lebih baik daripada model dangkal (konfigurasi 1) dan model sedang (konfigurasi 2). Akurasi pengujian model cukup tinggi, dengan model dalam mencapai akurasi tertinggi sekitar 97.43%, yang menunjukkan bahwa model-model ini mampu mengenali digit tulisan tangan dengan baik. Selama pelatihan, loss (kerugian) yang digunakan adalah Cross-Entropy Loss. Loss berkurang seiring dengan berjalannya epoch, yang menunjukkan bahwa model-model ini berhasil belajar dari data pelatihan.

In [11]:
# Konfigurasi 1: Model Dangkal dengan Fungsi Aktivasi Sigmoid pada Lapisan Output
class ShallowNN(nn.Module):
    def __init__(self):
        super(ShallowNN, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 128)
        self.sigmoid = nn.Sigmoid()
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = self.fc1(x)
        x = self.sigmoid(x)
        x = self.fc2(x)
        return x

# Konfigurasi 2: Model Sedang dengan Fungsi Aktivasi Sigmoid pada Lapisan Output
class MediumNN(nn.Module):
    def __init__(self):
        super(MediumNN, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 256)
        self.fc2 = nn.Linear(256, 256)
        self.fc3 = nn.Linear(256, 10)
        self.sigmoid = nn.Sigmoid()  # Tambahkan lapisan aktivasi Sigmoid

    def forward(self, x):
        x = self.fc1(x)
        x = self.sigmoid(x)  # Gunakan aktivasi Sigmoid
        x = self.fc2(x)
        x = self.sigmoid(x)  # Gunakan aktivasi Sigmoid
        x = self.fc3(x)
        return x

# Konfigurasi 3: Model Dalam dengan Fungsi Aktivasi Sigmoid pada Lapisan Output
class DeepNN(nn.Module):
    def __init__(self):
        super(DeepNN, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 512)
        self.fc2 = nn.Linear(512, 512)
        self.fc3 = nn.Linear(512, 512)
        self.fc4 = nn.Linear(512, 10)
        self.sigmoid = nn.Sigmoid()  # Tambahkan lapisan aktivasi Sigmoid

    def forward(self, x):
        x = self.fc1(x)
        x = self.sigmoid(x)  # Gunakan aktivasi Sigmoid
        x = self.fc2(x)
        x = self.sigmoid(x)  # Gunakan aktivasi Sigmoid
        x = self.fc3(x)
        x = self.sigmoid(x)  # Gunakan aktivasi Sigmoid
        x = self.fc4(x)
        return x


In [12]:

# Konfigurasi Fungsi Aktivasi 2: Sigmoid Activation pada Lapisan Output
model4 = ShallowNN()
model4.fc1 = nn.Sequential(model4.fc1, nn.Sigmoid())
model5 = MediumNN()
model5.fc1 = nn.Sequential(model5.fc1, nn.Sigmoid())
model6 = DeepNN()
model6.fc1 = nn.Sequential(model6.fc1, nn.Sigmoid())

In [13]:
# Latih dan uji model dengan fungsi aktivasi Sigmoid pada lapisan output
print("Konfigurasi 1: Model Dangkal dengan Fungsi Aktivasi Sigmoid pada Lapisan Output")
train_model(model4, train_loader, criterion1, optimizer1)
accuracy1 = test_model(model4, test_loader)
print(f"Akurasi: {accuracy1}%")

print("\nKonfigurasi 2: Model Sedang dengan Fungsi Aktivasi Sigmoid pada Lapisan Output")
train_model(model5, train_loader, criterion1, optimizer2)
accuracy2 = test_model(model5, test_loader)
print(f"Akurasi: {accuracy2}%")

print("\nKonfigurasi 3: Model Dalam dengan Fungsi Aktivasi Sigmoid pada Lapisan Output")
train_model(model6, train_loader, criterion1, optimizer3)
accuracy3 = test_model(model6, test_loader)
print(f"Akurasi: {accuracy3}%")

Konfigurasi 1: Model Dangkal dengan Fungsi Aktivasi Sigmoid pada Lapisan Output
Epoch 1, Loss: 2.3564610765941105
Epoch 2, Loss: 2.3564105430391553
Epoch 3, Loss: 2.356473807078689
Epoch 4, Loss: 2.3564385127411214
Epoch 5, Loss: 2.356466654012961
Akurasi: 8.97%

Konfigurasi 2: Model Sedang dengan Fungsi Aktivasi Sigmoid pada Lapisan Output
Epoch 1, Loss: 2.3564156426041367
Epoch 2, Loss: 2.356375363081503
Epoch 3, Loss: 2.356386170966793
Epoch 4, Loss: 2.356380880006087
Epoch 5, Loss: 2.3563704350863945
Akurasi: 9.82%

Konfigurasi 3: Model Dalam dengan Fungsi Aktivasi Sigmoid pada Lapisan Output
Epoch 1, Loss: 2.375060582465963
Epoch 2, Loss: 2.3750293758123924
Epoch 3, Loss: 2.3750610570155226
Epoch 4, Loss: 2.375085322587475
Epoch 5, Loss: 2.375007926273956
Akurasi: 9.58%


**Kesimpulan**

kesimpulan utamanya adalah bahwa penggunaan fungsi aktivasi Sigmoid pada lapisan output kurang cocok untuk tugas klasifikasi gambar digit MNIST, dan ini menghasilkan performa yang sangat buruk dibandingkan dengan penggunaan aktivasi ReLU yang lebih umum digunakan dalam tugas semacam ini. Akurasi pengujian untuk ketiga konfigurasi model dengan aktivasi Sigmoid sangat rendah, dengan akurasi terbaik hanya sekitar 9.82% (konfigurasi 2). Ini menunjukkan bahwa model-model ini memiliki kesulitan yang signifikan dalam mengklasifikasikan digit tulisan tangan. Selama pelatihan, loss (kerugian) pada setiap epoch juga telah dicetak. Namun, nilai loss pada model-model ini tetap tinggi dan cenderung tidak berubah selama pelatihan. Penggunaan fungsi aktivasi Sigmoid pada lapisan output tidak cocok untuk tugas klasifikasi MNIST ini, dan ini adalah alasan utama mengapa performa model sangat buruk.

In [14]:
import torch.nn.functional as F  # Import Fungsi Aktivasi

# Konfigurasi 1: Model Dangkal dengan Fungsi Aktivasi Tanh pada Lapisan Output
class ShallowNN(nn.Module):
    def __init__(self):
        super(ShallowNN, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = self.fc1(x)
        x = torch.tanh(x)  # Gunakan aktivasi Tanh
        x = self.fc2(x)
        return x

# Konfigurasi 2: Model Sedang dengan Fungsi Aktivasi Tanh pada Lapisan Output
class MediumNN(nn.Module):
    def __init__(self):
        super(MediumNN, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 256)
        self.fc2 = nn.Linear(256, 256)
        self.fc3 = nn.Linear(256, 10)

    def forward(self, x):
        x = self.fc1(x)
        x = torch.tanh(x)  # Gunakan aktivasi Tanh
        x = self.fc2(x)
        x = torch.tanh(x)  # Gunakan aktivasi Tanh
        x = self.fc3(x)
        return x

# Konfigurasi 3: Model Dalam dengan Fungsi Aktivasi Tanh pada Lapisan Output
class DeepNN(nn.Module):
    def __init__(self):
        super(DeepNN, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 512)
        self.fc2 = nn.Linear(512, 512)
        self.fc3 = nn.Linear(512, 512)
        self.fc4 = nn.Linear(512, 10)

    def forward(self, x):
        x = self.fc1(x)
        x = torch.tanh(x)  # Gunakan aktivasi Tanh
        x = self.fc2(x)
        x = torch.tanh(x)  # Gunakan aktivasi Tanh
        x = self.fc3(x)
        x = torch.tanh(x)  # Gunakan aktivasi Tanh
        x = self.fc4(x)
        return x


In [15]:
# Konfigurasi Fungsi Aktivasi 3: Tanh Activation
model7 = ShallowNN()
model7.fc1 = nn.Sequential(model7.fc1, nn.Tanh())
model8 = MediumNN()
model8.fc1 = nn.Sequential(model8.fc1, nn.Tanh())
model9 = DeepNN()
model9.fc1 = nn.Sequential(model9.fc1, nn.Tanh())

In [16]:
# Latih dan uji model dengan fungsi aktivasi Tanh
print("Konfigurasi 1: Model Dangkal dengan Fungsi Aktivasi Tanh")
train_model(model7, train_loader, criterion1, optimizer1)
accuracy1 = test_model(model7, test_loader)
print(f"Akurasi: {accuracy1}%")

print("\nKonfigurasi 2: Model Sedang dengan Fungsi Aktivasi Tanh")
train_model(model8, train_loader, criterion1, optimizer2)
accuracy2 = test_model(model8, test_loader)
print(f"Akurasi: {accuracy2}%")

print("\nKonfigurasi 3: Model Dalam dengan Fungsi Aktivasi Tanh")
train_model(model9, train_loader, criterion1, optimizer3)
accuracy3 = test_model(model9, test_loader)
print(f"Akurasi: {accuracy3}%")

Konfigurasi 1: Model Dangkal dengan Fungsi Aktivasi Tanh
Epoch 1, Loss: 2.3454594162227247
Epoch 2, Loss: 2.3454364367893765
Epoch 3, Loss: 2.3454128239454746
Epoch 5, Loss: 2.3454474762304507
Akurasi: 9.56%

Konfigurasi 2: Model Sedang dengan Fungsi Aktivasi Tanh
Epoch 1, Loss: 2.2900415918211947
Epoch 2, Loss: 2.2900352472943792
Epoch 3, Loss: 2.2900214152041274
Epoch 4, Loss: 2.290051623193948
Epoch 5, Loss: 2.2900432284706946
Akurasi: 11.51%

Konfigurasi 3: Model Dalam dengan Fungsi Aktivasi Tanh
Epoch 1, Loss: 2.304262038995462
Epoch 2, Loss: 2.304267259294799
Epoch 3, Loss: 2.304275230558188
Epoch 4, Loss: 2.3042679437950477
Epoch 5, Loss: 2.304276392149773
Akurasi: 10.55%


**Kesimpulan**

Hasil pelatihan menunjukkan bahwa model dengan fungsi aktivasi Tanh pada lapisan output juga menghasilkan performa yang buruk, meskipun sedikit lebih baik daripada model dengan fungsi aktivasi Sigmoid. Akurasi pengujian untuk ketiga konfigurasi model dengan aktivasi Tanh masih sangat rendah, dengan akurasi terbaik sekitar 11.51% (konfigurasi 2). Ini menunjukkan bahwa model-model ini masih mengalami kesulitan yang signifikan dalam mengklasifikasikan digit tulisan tangan. Selama pelatihan, loss (kerugian) pada setiap epoch juga telah dicetak. Namun, nilai loss pada model-model ini tetap tinggi dan cenderung tidak berubah selama pelatihan. Penggunaan fungsi aktivasi Tanh pada lapisan output juga kurang cocok untuk tugas klasifikasi gambar digit MNIST ini. Fungsi aktivasi Tanh biasanya lebih cocok untuk tugas regresi, sedangkan untuk tugas klasifikasi, fungsi aktivasi ReLU atau Softmax lebih umum digunakan.