<a href="https://colab.research.google.com/github/cisnux-seed/machine-learning-course/blob/main/week_14/lenet_5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Kode yang Anda tunjukkan adalah impor modul dan pustaka yang umumnya digunakan dalam pengembangan dengan framework PyTorch untuk pembelajaran mesin dan komputasi tensor. Berikut adalah penjelasan singkat dari setiap baris kode:

1. `import torch`: Ini mengimpor modul utama dari PyTorch yang menyediakan fungsionalitas dasar seperti operasi tensor, fungsi matematika, dan komputasi GPU.

2. `import torch.nn as nn`: PyTorch menyediakan modul `torch.nn` untuk membangun dan melatih jaringan saraf (neural networks). `nn` berisi kelas-kelas yang memungkinkan pembuatan berbagai jenis layer neural network seperti layer linier, aktivasi, konvolusi, dll.

3. `import torch.optim as optim`: Modul `torch.optim` berisi berbagai algoritma optimisasi yang digunakan untuk melatih jaringan saraf. Ini termasuk SGD (Stochastic Gradient Descent), Adam, RMSProp, dan lainnya.

4. `import torchvision`: `torchvision` adalah sub-pustaka dari PyTorch yang berfokus pada komputer vision (pengolahan gambar). Ini menyediakan utilitas untuk bekerja dengan dataset gambar, transformasi, dan model-model terkenal dalam vision.

5. `import torchvision.transforms as transforms`: Modul ini berisi fungsi-fungsi yang memungkinkan transformasi pada data gambar, seperti rotasi, cropping, scaling, dan normalisasi.

6. `from torch.utils.data import DataLoader`: `DataLoader` adalah kelas dari PyTorch yang digunakan untuk memuat dataset dan mengirimkan batch-batch data ke model. Ini memfasilitasi proses pelatihan dengan membagi dataset ke dalam batch-batch yang dapat ditangani oleh model secara efisien.

Dengan menggabungkan fungsionalitas dari modul-modul yang diimpor dalam kode tersebut, pengembang dapat membangun, melatih, dan mengevaluasi model neural network untuk berbagai tugas, terutama dalam konteks pengolahan gambar menggunakan PyTorch.

In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader

Baris kode yang Anda tunjukkan adalah cara untuk menentukan perangkat (device) yang akan digunakan untuk komputasi saat menggunakan PyTorch. Lebih khusus lagi, kode tersebut bertujuan untuk memilih antara menggunakan unit pemrosesan grafis (GPU) jika tersedia atau menggunakan CPU jika tidak ada GPU yang tersedia.

Mari kita jelaskan lebih rinci:

1. `torch.cuda.is_available()`: Ini adalah fungsi yang disediakan oleh PyTorch untuk memeriksa ketersediaan GPU. Jika PyTorch mendeteksi bahwa GPU tersedia, fungsi ini akan mengembalikan nilai `True`; jika tidak, akan mengembalikan nilai `False`.

2. `"cuda" if torch.cuda.is_available() else "cpu"`: Ini adalah ekspresi kondisional Python yang menggunakan hasil dari `torch.cuda.is_available()` untuk memilih perangkat yang akan digunakan. Jika GPU tersedia, string `"cuda"` akan dipilih sebagai perangkat; jika tidak, maka string `"cpu"` akan dipilih sebagai perangkat.

3. `device = torch.device(...)`: Baris kode ini menggunakan nilai yang dipilih sebelumnya ("cuda" atau "cpu") untuk menetapkan perangkat yang akan digunakan dalam konteks komputasi PyTorch. Dalam hal ini, variabel `device` akan mewakili perangkat yang akan digunakan selama operasi PyTorch.

Jadi, keseluruhan baris kode tersebut bertujuan untuk menentukan perangkat (GPU atau CPU) yang akan digunakan dalam eksekusi operasi PyTorch selanjutnya berdasarkan ketersediaan GPU pada sistem yang menjalankan kode tersebut. Hal ini memungkinkan fleksibilitas dalam penggunaan perangkat keras yang tersedia untuk melakukan komputasi yang lebih cepat, terutama dalam kasus pelatihan model deep learning di GPU yang memiliki kemampuan komputasi yang lebih besar daripada CPU.

In [2]:
# Set device to GPU if available
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

Kode yang Anda tunjukkan adalah implementasi dari arsitektur jaringan neural LeNet-5 menggunakan modul `nn.Module` dari PyTorch. Arsitektur LeNet-5 adalah salah satu arsitektur jaringan saraf konvolusional (CNN) yang pertama kali diperkenalkan oleh Yann LeCun, Leon Bottou, Yoshua Bengio, dan Patrick Haffner pada tahun 1998 untuk mengenali digit angka tulisan tangan pada dataset MNIST.

Mari kita jelaskan kode tersebut baris per baris:

1. `class LeNet5(nn.Module):`: Ini adalah definisi kelas yang disebut `LeNet5`. Kelas ini adalah turunan dari `nn.Module` di PyTorch, yang berarti kelas ini akan menjadi model neural network.

2. `def __init__(self):`: Metode `__init__` di dalam kelas `LeNet5` ini digunakan untuk mendefinisikan struktur model.

   a. `self.conv1 = nn.Conv2d(1, 6, kernel_size=5, stride=1, padding=2)`: Ini adalah layer konvolusi pertama dengan input 1 channel (greyscale untuk MNIST), output 6 channel, filter/kernel size 5x5, dengan stride 1, dan padding 2.
   
   b. `self.relu1 = nn.ReLU()`: Activation function ReLU setelah konvolusi pertama.
   
   c. `self.pool1 = nn.MaxPool2d(kernel_size=2, stride=2)`: Layer max pooling dengan kernel size 2x2 dan stride 2 setelah ReLU pertama.

   d. `self.conv2 = nn.Conv2d(6, 16, kernel_size=5, stride=1)`: Layer konvolusi kedua dengan input 6 channel dan output 16 channel, filter/kernel size 5x5, dan stride 1.

   e. `self.relu2 = nn.ReLU()`: Activation function ReLU setelah konvolusi kedua.

   f. `self.pool2 = nn.MaxPool2d(kernel_size=2, stride=2)`: Layer max pooling kedua dengan kernel size 2x2 dan stride 2 setelah ReLU kedua.

   g. `self.fc1 = nn.Linear(16 * 5 * 5, 120)`: Layer fully connected pertama dengan 16x5x5 input features dan 120 output features.

   h. `self.relu3 = nn.ReLU()`: Activation function ReLU setelah fully connected layer pertama.

   i. `self.fc2 = nn.Linear(120, 84)`: Layer fully connected kedua dengan 120 input features dan 84 output features.

   j. `self.relu4 = nn.ReLU()`: Activation function ReLU setelah fully connected layer kedua.

   k. `self.fc3 = nn.Linear(84, 10)`: Layer fully connected ketiga dengan 84 input features (dari layer sebelumnya) dan 10 output features (sesuai dengan jumlah kelas pada dataset MNIST).

3. `def forward(self, x):`: Metode `forward` mendefinisikan aliran maju (forward pass) melalui jaringan. Operasi ini terjadi saat input data diteruskan melalui model.

   a. `x = self.pool1(self.relu1(self.conv1(x)))`: Melakukan konvolusi pertama, aktivasi ReLU, dan max pooling.

   b. `x = self.pool2(self.relu2(self.conv2(x)))`: Melakukan konvolusi kedua, aktivasi ReLU, dan max pooling lagi.

   c. `x = x.view(-1, 16 * 5 * 5)`: Mengubah bentuk tensor untuk disesuaikan dengan fully connected layer.

   d. `x = self.relu3(self.fc1(x))`: Melakukan operasi fully connected pertama dan aktivasi ReLU.

   e. `x = self.relu4(self.fc2(x))`: Melakukan operasi fully connected kedua dan aktivasi ReLU.

   f. `x = self.fc3(x)`: Melakukan operasi fully connected ketiga tanpa aktivasi untuk mendapatkan output prediksi.

4. `return x`: Mengembalikan hasil prediksi dari jaringan.

Dengan demikian, ini adalah implementasi dari arsitektur LeNet-5 dalam PyTorch, siap untuk digunakan untuk melakukan klasifikasi pada dataset MNIST atau tugas pengenalan pola serupa.

In [3]:
# Define the LeNet-5 architecture for MNIST
class LeNet5(nn.Module):
    def __init__(self):
        super(LeNet5, self).__init__()
        self.conv1 = nn.Conv2d(1, 6, kernel_size=5, stride=1, padding=2)
        self.relu1 = nn.ReLU()
        self.pool1 = nn.MaxPool2d(kernel_size=2, stride=2)

        self.conv2 = nn.Conv2d(6, 16, kernel_size=5, stride=1)
        self.relu2 = nn.ReLU()
        self.pool2 = nn.MaxPool2d(kernel_size=2, stride=2)

        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.relu3 = nn.ReLU()

        self.fc2 = nn.Linear(120, 84)
        self.relu4 = nn.ReLU()

        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool1(self.relu1(self.conv1(x)))
        x = self.pool2(self.relu2(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = self.relu3(self.fc1(x))
        x = self.relu4(self.fc2(x))
        x = self.fc3(x)
        return x

Kode yang Anda tunjukkan adalah proses untuk memuat dataset MNIST menggunakan PyTorch. Dataset MNIST merupakan dataset yang sering digunakan dalam pengembangan dan pengujian model pada bidang computer vision untuk mengenali angka tulisan tangan dari gambar berukuran 28x28 piksel.

Mari kita jelaskan baris per baris:

1. `transform = transforms.Compose([...])`: Ini adalah proses transformasi data yang akan diterapkan pada setiap sampel dari dataset MNIST sebelum dimasukkan ke dalam model. Transformasi yang dilakukan adalah:
   - `transforms.Resize((28, 28))`: Mengubah ukuran gambar menjadi 28x28 piksel.
   - `transforms.ToTensor()`: Mengubah gambar menjadi tensor PyTorch.

2. `train_dataset = torchvision.datasets.MNIST(root="./data", train=True, download=True, transform=transform)`: Ini adalah pengaturan dataset pelatihan. Fungsi `torchvision.datasets.MNIST` digunakan untuk mengunduh dataset MNIST jika belum ada, atau jika sudah ada, akan memuatnya dari direktori yang telah ditentukan (`root="./data"`). `train=True` menunjukkan bahwa dataset pelatihan akan dimuat. Transformasi yang telah ditentukan sebelumnya akan diterapkan pada dataset ini.

3. `test_dataset = torchvision.datasets.MNIST(root="./data", train=False, download=True, transform=transform)`: Ini adalah pengaturan dataset pengujian. Sama seperti sebelumnya, namun dengan `train=False`, yang berarti dataset pengujian yang akan dimuat.

4. `train_loader = DataLoader(dataset=train_dataset, batch_size=64, shuffle=True)`: `DataLoader` digunakan untuk memuat dataset dan membaginya menjadi batch-batch yang akan digunakan untuk pelatihan model. `train_loader` adalah loader untuk dataset pelatihan. Parameter `batch_size=64` menunjukkan bahwa setiap batch akan berisi 64 sampel. `shuffle=True` menyebabkan pengacakan data pada setiap epoch (perulangan) selama pelatihan.

5. `test_loader = DataLoader(dataset=test_dataset, batch_size=64, shuffle=False)`: `test_loader` adalah loader untuk dataset pengujian. Sama seperti sebelumnya, namun dengan `shuffle=False`, sehingga data pengujian tidak diacak.

Dengan menggunakan kode ini, dataset MNIST telah dimuat dan dipersiapkan dalam format yang sesuai untuk digunakan dalam pelatihan dan evaluasi model neural network pada tugas pengenalan angka tulisan tangan. DataLoader akan memudahkan penggunaan dataset ini saat melatih model, mengelola batch-batch data untuk iterasi selama proses pelatihan.

In [5]:
# Load MNIST dataset
transform = transforms.Compose([
    transforms.Resize((28, 28)),
    transforms.ToTensor(),
])

train_dataset = torchvision.datasets.MNIST(root="./data", train=True, download=True, transform=transform)
test_dataset = torchvision.datasets.MNIST(root="./data", train=False, download=True, transform=transform)
train_loader = DataLoader(dataset=train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(dataset=test_dataset, batch_size=64, shuffle=False)

Kode yang Anda tunjukkan adalah proses pelatihan (training) dari model neural network menggunakan dataset MNIST yang telah dimuat sebelumnya. Ini adalah tahap di mana model benar-benar belajar dari data untuk menyesuaikan parameter-parameter internalnya.

Mari kita jelaskan baris per baris:

1. `model = LeNet5().to(device)`: Inisialisasi model LeNet-5 yang telah didefinisikan sebelumnya. `LeNet5()` membuat instance dari kelas `LeNet5` yang merupakan model neural network untuk pengenalan angka MNIST. `.to(device)` digunakan untuk memindahkan model ke perangkat yang telah ditentukan sebelumnya (CPU atau GPU).

2. `criterion = nn.CrossEntropyLoss()`: Inisialisasi fungsi kerugian (loss function) untuk perhitungan kesalahan (error) selama pelatihan. `nn.CrossEntropyLoss()` digunakan khusus untuk masalah klasifikasi dengan banyak kelas. Loss function ini akan menghitung kesalahan antara prediksi model dan label yang sebenarnya.

3. `optimizer = optim.Adam(model.parameters(), lr=0.001)`: Inisialisasi optimizer, dalam hal ini menggunakan algoritma Adam untuk mengoptimalkan parameter-parameter dari model. `model.parameters()` memberikan parameter-parameter yang harus dioptimalkan. `lr=0.001` adalah laju pembelajaran (learning rate) yang digunakan oleh algoritma Adam untuk menyesuaikan parameter.

4. `num_epochs = 5`: Jumlah iterasi atau epoch (putaran) pelatihan yang akan dilakukan.

5. Loop `for epoch in range(num_epochs):`: Ini adalah loop yang akan melatih model selama sejumlah epoch yang telah ditentukan.

   a. `model.train()`: Mengatur model dalam mode pelatihan. Ini penting karena beberapa lapisan dalam model dapat berperilaku berbeda antara mode pelatihan dan evaluasi (mode inferensi).

   b. `total_loss = 0.0`: Inisialisasi total loss untuk setiap epoch.

   c. Loop `for inputs, labels in train_loader:`: Ini adalah loop yang mengiterasi melalui setiap batch dalam `train_loader` yang telah dibuat sebelumnya.

      - `inputs, labels = inputs.to(device), labels.to(device)`: Memindahkan data masukan (inputs) dan label ke perangkat yang telah ditentukan sebelumnya (GPU atau CPU).

      - `optimizer.zero_grad()`: Mengatur gradien parameter ke nol sebelum melakukan perhitungan gradien dalam setiap iterasi. Hal ini penting karena PyTorch akan mengakumulasi gradien pada setiap iterasi jika tidak diatur ke nol.

      - `outputs = model(inputs)`: Mendapatkan prediksi dari model untuk batch saat ini.

      - `loss = criterion(outputs, labels)`: Menghitung loss atau kesalahan antara prediksi model dan label yang sebenarnya.

      - `loss.backward()`: Melakukan backpropagation untuk menghitung gradien loss function terhadap parameter-parameter model.

      - `optimizer.step()`: Melakukan langkah optimisasi, yaitu memperbarui parameter-parameter model berdasarkan gradien yang dihitung sebelumnya.

      - `total_loss += loss.item()`: Menambahkan loss dari batch saat ini ke total_loss untuk menghitung rata-rata loss per epoch.

   d. `print(f"Epoch {epoch + 1}/{num_epochs}, Loss: {total_loss / len(train_loader)}")`: Menampilkan rata-rata loss untuk setiap epoch. Loss ini adalah total_loss dibagi dengan jumlah batch dalam `train_loader`.

Proses ini adalah inti dari pelatihan model, di mana model secara bertahap memperbarui parameter-parameter internalnya untuk meningkatkan akurasi prediksi terhadap dataset pelatihan. Setelah semua epoch selesai dilatih, model dapat dievaluasi terhadap dataset pengujian (test set) untuk melihat kinerjanya pada data yang belum pernah dilihat sebelumnya.

In [6]:
# Initialize model, loss function, and optimizer
model = LeNet5().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# Training
num_epochs = 5

for epoch in range(num_epochs):
    model.train()
    total_loss = 0.0
    for inputs, labels in train_loader:
        inputs, labels = inputs.to(device), labels.to(device)

        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        total_loss += loss.item()

    print(f"Epoch {epoch + 1}/{num_epochs}, Loss: {total_loss / len(train_loader)}")

Epoch 1/5, Loss: 0.3132841411823117
Epoch 2/5, Loss: 0.08717844293548116
Epoch 3/5, Loss: 0.06198321758279962
Epoch 4/5, Loss: 0.048499483921712064
Epoch 5/5, Loss: 0.04143670365462072


Kode yang Anda tunjukkan adalah proses evaluasi model yang telah dilatih sebelumnya menggunakan dataset pengujian (test set) untuk menghitung akurasi prediksi model pada data yang belum pernah dilihat sebelumnya.

Mari kita jelaskan baris per baris:

1. `model.eval()`: Menempatkan model ke dalam mode evaluasi. Saat model berada dalam mode evaluasi, lapisan-lapisan yang berperilaku berbeda antara mode pelatihan dan evaluasi (seperti dropout atau batch normalization) akan beroperasi dengan cara yang berbeda.

2. `total_correct = 0` dan `total_samples = 0`: Variabel ini digunakan untuk menghitung jumlah prediksi yang benar dan jumlah total sampel yang dievaluasi.

3. `with torch.no_grad():`: Ini adalah blok kode yang menunjukkan bahwa dalam evaluasi ini, tidak perlu melacak gradien. Hal ini dilakukan untuk menghemat memori dan waktu komputasi karena gradien tidak diperlukan saat melakukan evaluasi.

4. Loop `for inputs, labels in test_loader:`: Ini adalah loop yang mengiterasi melalui setiap batch dalam `test_loader`.

   a. `inputs, labels = inputs.to(device), labels.to(device)`: Memindahkan data masukan (inputs) dan label ke perangkat yang telah ditentukan sebelumnya (GPU atau CPU).

   b. `outputs = model(inputs)`: Mendapatkan prediksi dari model untuk batch saat ini.

   c. `_, predictions = torch.max(outputs, 1)`: Menggunakan `torch.max()` untuk mendapatkan indeks kelas yang memiliki probabilitas tertinggi. Dalam kasus ini, yang diambil adalah indeks dari kelas dengan nilai probabilitas terbesar.

   d. `(predictions == labels).sum().item()`: Menghitung jumlah prediksi yang benar dengan membandingkan prediksi model dengan label yang sebenarnya, kemudian menjumlahkannya. `.sum()` digunakan untuk menghitung jumlah elemen True (prediksi yang benar), dan `.item()` mengambil nilai hasilnya.

   e. `total_correct += (predictions == labels).sum().item()`: Menambahkan jumlah prediksi yang benar dari batch saat ini ke total_correct.

   f. `total_samples += labels.size(0)`: Menambahkan jumlah sampel dalam batch saat ini ke total_samples.

5. `accuracy = total_correct / total_samples`: Menghitung akurasi model dengan membagi jumlah prediksi yang benar dengan jumlah total sampel yang dievaluasi.

6. `print(f"Test Accuracy: {accuracy}")`: Mencetak akurasi model pada dataset pengujian.

Proses ini adalah tahap evaluasi yang penting setelah pelatihan model. Melalui proses ini, Anda dapat mengukur seberapa baik model Anda dapat melakukan prediksi pada data yang belum pernah dilihat sebelumnya (data pengujian), memberikan gambaran tentang kinerja model secara keseluruhan. Dengan mendapatkan nilai akurasi, Anda dapat mengevaluasi sejauh mana model dapat menggeneralisasi pada data baru yang tidak pernah dilihat selama pelatihan.

In [7]:
# Testing
model.eval()
total_correct = 0
total_samples = 0

with torch.no_grad():
    for inputs, labels in test_loader:
        inputs, labels = inputs.to(device), labels.to(device)

        outputs = model(inputs)
        _, predictions = torch.max(outputs, 1)

        total_correct += (predictions == labels).sum().item()
        total_samples += labels.size(0)

accuracy = total_correct / total_samples
print(f"Test Accuracy: {accuracy}")

Test Accuracy: 0.9837
